# Artikel Terkait Tolok ukur

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Tolok ukur", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Peringatan Anthropic tentang AI Rekursif, Perusahaan Baru Tian Yuandong Baru Saja Melangkahkan 'Langkah Pertama'

Beberapa hari lalu, Anthropic merilis artikel "When AI Builds Itself" yang memicu diskusi luas. Artikel tersebut mengungkap data internal yang mengejutkan: hingga Mei 2026, lebih dari 80% kode di basis kode Anthropic ditulis oleh Claude, dan jumlah kode yang digabungkan oleh insinyur setiap hari adalah 8 kali lipat dari tahun 2024. Anthropic mengarahkan lintasan ini menuju tujuan yang lebih dalam: **perbaikan diri rekursif** — sistem AI secara mandiri merancang, membangun, dan melatih versi penerusnya sendiri, tanpa manusia mengendalikan setiap langkah. Mereka juga menyerukan koordinasi industri untuk memiliki opsi menunda atau menghentikan sementara pengembangan AI terkini ketika momen perbaikan diri rekursif tiba. Kini, Recursive Superintelligence, perusahaan baru yang didirikan bersama oleh Tian Yuan Dong, baru saja **mengambil langkah pertama menuju penelitian AI otomatis**. Mereka merilis sistem penemuan pengetahuan otomatis terbuka pertama mereka dan mencapai hasil SOTA pada tiga pengujian patokan. Intinya, mereka berhasil membuat AI menjalankan eksperimen untuk Anda. Sistem ini bekerja secara otomatis untuk mengusulkan ide eksperimen, menerapkan kode, menjalankan verifikasi, belajar dari hasilnya, dan memutuskan langkah pencarian berikutnya, membentuk loop penelitian otomatis. Sistem ini diuji pada tiga skenario berbeda: 1. **Pelatihan model kecil dengan anggaran komputasi tetap (NanoChat Autoresearch):** Meningkatkan validasi BPB dari 0.9372 menjadi 0.9109. 2. **Balapan kecepatan pelatihan ekstrem (NanoGPT Speedrun):** Memangkas waktu pelatihan dari 79,7 detik menjadi 77,5 detik. 3. **Optimasi inti GPU (SOL-ExecBench):** Meningkatkan skor SOL dari 0,699 menjadi 0,754 pada 235 tugas penulisan inti. Recursive Superintelligence, didirikan akhir 2025/awal 2026, baru keluar dari mode siluman bulan lalu dan telah mengumpulkan pendanaan $6,5 miliar. Tim pendirinya termasuk para ahli ternama seperti Richard Socher, Alexey Dosovitskiy, dan Peter Norvig. Misi inti perusahaan adalah membangun sistem AI yang secara rekursif meningkatkan kemampuan penelitiannya sendiri. Pencapaian Recursive ini mewakili fajar paradigma penelitian AI baru: **sistem AI mengambil peran utama dalam penelitian**. Logika intinya adalah AI meningkatkan kemampuan penelitian AI, dan AI yang ditingkatkan kemudian dapat meningkatkan dirinya sendiri lebih efektif, menciptakan siklus yang berulang. Ini berpotensi mengubah kecepatan dan kurva biaya kemajuan AI. Langkah ini terjadi bersamaan dengan peringatan dari Anthropic tentang perlunya kesiapan menghadapi perbaikan diri rekursif. Sementara Recursive mengakui ini baru **"langkah pertama"** dan tantangan seperti pencegahan kecurangan dalam sistem hadir, sebuah loop tertutup telah mulai berputar. Pertanyaan selanjutnya adalah seberapa cepat ia akan berputar.

marsbit7j yang lalu

Peringatan Anthropic tentang AI Rekursif, Perusahaan Baru Tian Yuandong Baru Saja Melangkahkan 'Langkah Pertama'

marsbit7j yang lalu

"Saya Tidak Perlu Model yang Lebih Baik Lagi": Wajah Beragam AI di Bawah Postingan Reddit yang Viral

"Klausa Fabel 5 dari Anthropic, model 'Mythos' publik pertamanya, mencetak skor 80.3% dalam benchmark teknik perangkat lunak SWE-Bench Pro, jauh melampaui model sebelumnya dan GPT-5.5. Namun, tanggapan pengguna di Reddit bercampur. Banyak pengguna, terutama di utasan populer r/artificial, menyuarakan 'kelelahan model'. Mereka merasa model sebelumnya seperti Opus 4.8 sudah 'cukup' untuk kebutuhan sehari-hari, dan peningkatan ke Fable 5 yang lebih mahal tidak memberikan nilai tambah yang sepadan untuk alur kerja mereka. Beberapa menggambarkannya seperti memiliki iPhone 14 dan melihat iPhone 17 dirilis — lebih baik, tetapi tidak perlu. Keluhan utama lainnya adalah 'pagar pengaman' (safety classifier) Fable 5 yang dinilai terlalu ketat. Pengguna melaporkan permintaan yang berkaitan dengan keamanan siber sering ditolak dan dialihkan ke Opus, dengan beberapa memperkirakan 90% penggunaan mereka terhalang. Pengguna berbayar merasa kecewa karena membayar lebih tetapi mendapatkan layanan yang terdegradasi. Di sisi lain, pengguna dengan tugas yang sangat kompleks dan berat memuji kemampuan Fable 5. Mereka yang menangani simulasi fisika energi tinggi atau kodebase sangat besar merasakan peningkatan 'seperti malam dan siang', dengan model mampu menangkap kesalahan dan memahami detail yang sebelumnya terlewat. Perdebatan ini menyoroti kesenjangan antara skor benchmark dan persepsi pengguna sehari-hari. Bagi kebanyakan orang, kemampuan model saat ini mungkin telah mencapai 'langit-langit' yang memadai. Diskusi juga menyentuh kemungkinan 'pembekuan AI publik', di mana model terkuat (seperti Mythos 5) hanya tersedia untuk lembaga tertentu, sementara model publik perkembangannya melambat. Masa depan Fable 5 akan bergantung pada penyesuaian pagar pengaman oleh Anthropic dan seberapa banyak pengguna berat yang bersedia membayar."

marsbit8j yang lalu

"Saya Tidak Perlu Model yang Lebih Baik Lagi": Wajah Beragam AI di Bawah Postingan Reddit yang Viral

marsbit8j yang lalu

Baru saja, Claude Mythos 5 Rilis, 50 Juta Baris Kode Selesai dalam 1 Hari

Anthropic secara resmi meluncurkan model AI terkuat mereka, Claude Mythos 5, bersama versi aman bernama Claude Fable 5. Fable 5 tersedia untuk umum namun dilengkapi sistem keamanan yang secara otomatis menurunkan ke model Opus 4.8 jika mendeteksi permintaan berisiko tinggi seperti pembuatan malware atau riset biologi/kimia tertentu. Sementara itu, Mythos 5 yang "versi lengkap" hanya tersedia bagi pengguna terpercaya dengan kemampuan tak terbatas di bidang seperti keamanan siber dan penelitian ilmiah. Secara teknis, Fable 5 menunjukkan kemampuan luar biasa. Dalam pengujian SWE-bench Pro, ia mencetak 80.3%, mengungguli kompetitor. Kasus nyata dari Stripe menunjukkan Fable 5 dapat bermigrasi seluruh basis kode Ruby sebesar 50 juta baris hanya dalam 1 hari, pekerjaan yang biasanya membutuhkan tim engineering dua bulan. Model ini juga unggul dalam pemahaman visual, mampu menyelesaikan permainan Pokemon tanpa alat bantu, dan dalam tugas analisis finansial serta hukum. Di bidang penelitian, Mythos 5 menunjukkan lompatan besar. Model ini dapat menjalankan seluruh alur kerja ahli biologi secara mandiri, merancang senyawa protein, dengan 9 dari 14 desainnya sudah masuk pipeline pengembangan obat nyata. Dalam satu kasus, model kecil yang dilatih mandiri oleh Mythos 5 bahkan mengungguli penelitian terbaru yang diterbitkan di jurnal *Science*. Anthropic juga memperkenalkan perubahan paradigma keamanan, di mana kemampuan dan keamanan dipisahkan melalui sistem "klasifikasi dan penurunan model". Harga API untuk kedua model ini ditetapkan $10 per juta token input dan $50 per juta token output. Pengalaman pengguna awal, seperti dari profesor Ethan Mollick, mengindikasikan pergeseran pola kolaborasi manusia-AI. Pengguna merasa lebih seperti "klien" atau "pemberi kerja" yang memberikan tugas kompleks, sementara AI beroperasi secara mandiri seperti "studio" kecil yang menangani perencanaan dan eksekusi detail, menghasilkan produk akhir yang siap pakai.

marsbit2 hari yang lalu 00:28

Baru saja, Claude Mythos 5 Rilis, 50 Juta Baris Kode Selesai dalam 1 Hari

marsbit2 hari yang lalu 00:28

Dari Hunyuan ke AI WeChat, Irama Lambat Tencent Hingga Titik Penyerahan

Pada 8 Juni 2026, platform pengembang WeChat mengumumkan uji coba internal WeChat AI, asisten AI terintegrasi dalam ekosistem WeChat yang memungkinkan pengguna mengakses dan mengoperasikan mini-program melalui dialog bahasa alami. Dua mode akses ditawarkan: Mode Otomatis memungkinkan platform membaca kode sumber mini-program tanpa pengembangan tambahan, sedangkan Mode Pengembang memungkinkan pembuat konten membangun keterampilan khusus. Hal ini menandakan langkah terbaru Tencent dalam menghadirkan AI ke aplikasi super. WeChat AI membuka lapisan dialog untuk ekosistem mini-programnya, yang memiliki lebih dari 400.000 pengembang, 80%-nya tim kecil. Mode Otomatis menawarkan akses mudah bagi sebagian besar pengembang, namun menimbulkan kekhawatiran tentang keamanan kode sumber, logika iklan, dan tanggung jawab atas kesalahan operasi AI. Kemampuan WeChat AI didukung oleh model dasar Tencent, Hunyuan, yang menduduki peringkat kedua di Tiongkok dalam kemampuan dasar dan peringkat pertama dalam kemampuan aplikasi menurut laporan SuperCLUE 2025. Hunyuan fokus pada stabilitas dan latensi rendah yang dibutuhkan untuk tugas-tugas Agen, dengan iterasi kuartalan yang lebih lambat dibandingkan kompetitor. Sebelum WeChat AI, aplikasi mandiri Tencent, Yuanbao, berperan dalam validasi pengguna. Yuanbao mencapai puncak DAU 50 juta selama Tahun Baru Imlek 2026, tetapi DAU rutin turun menjadi sekitar 9 juta setelahnya, menyoroti tantangan retensi pengguna. Integrasi asli dalam WeChat bertujuan untuk meningkatkan retensi dengan mengikat AI ke skenario penggunaan spesifik. Pimpinan Tencent, Pony Ma, membayangkan setiap mini-program menjadi "lobster" cerdas (AI Agent yang dapat menjalankan tugas). Namun, ada ketegangan antara penjadwalan terpusat yang efisien oleh AI dan kedaulatan lalu lintas terdesentralisasi penyedia layanan. Ma menekankan perlunya keseimbangan, meski mekanisme spesifiknya belum terungkap. Dengan Hunyuan sebagai fondasi teknis, Yuanbao sebagai validator pengguna, dan WeChat AI sebagai kendaraan pengiriman akhir, jalan bertahap Tencent tampak koheren. Namun, persepsi pengguna akhir belum sepenuhnya berubah. Keberhasilan WeChat AI bergantung pada penyelesaian masalah kepercayaan pengembang, keseimbangan kepentingan ekosistem, dan keandalan operasi AI bagi pengguna. Seperti yang dikatakan Ma, AI adalah maraton, dan uji coba internal ini hanyalah sebuah tanda perjalanan.

marsbit06/08 10:27

Dari Hunyuan ke AI WeChat, Irama Lambat Tencent Hingga Titik Penyerahan

marsbit06/08 10:27

Valuasi Tembus 200 Miliar, Kimi Dikabarkan Kumpulkan Dana 13,6 Miliar Lagi, IPO di Hong Kong Dipercepat

Menurut laporan, perusahaan unicorn model AI besar asal Tiongkok, Moonshot AI (Kimi), sedang merundingkan pendanaan baru senilai hingga **$20 miliar (sekitar RMB 136 miliar)**, dengan valuasi target mencapai **$300 miliar (sekitar RMB 2035 miliar)**. Jika pendanaan ini berhasil, valuasi perusahaan akan meningkat sekitar 6 kali lipat dibandingkan Desember lalu. Ini akan menjadi putaran pendanaan ketiga Kimi dalam 6 bulan terakhir. Pada Mei lalu, perusahaan baru saja menyelesaikan pendanaan sekitar $20 miliar, mendorong valuasi pasca-pendanaan melampaui $200 miliar. Total pendanaan yang telah dikumpulkan Kimi dilaporkan melebihi RMB 376 miliar, menjadikannya perusahaan rintisan model besar dengan total pendanaan tertinggi di Tiongkok. Produk inti Kimi adalah Asisten Cerdas Kimi. Pada April, perusahaan merilis dan membuka sumber model andalannya, **Kimi K2.6**, yang diklaim memiliki kinerja setara atau bahkan lebih baik dari model berpemilik terkemuka seperti GPT-5.4 dalam beberapa pengujian benchmark. Baru-baru ini, Kimi juga memulai pengujian beta internal **Kimi Work**, sebuah agen universal lokal yang ditargetkan untuk pekerja pengetahuan. Di sisi komersialisasi, pendapatan tahunan berulang (ARR) Kimi dilaporkan melebihi $2 miliar per April. Perusahaan juga disebut sedang mempersiapkan **IPO di Hong Kong**, meski prosesnya masih dalam tahap awal dan belum pasti. Secara keseluruhan, proses kapitalisasi perusahaan model besar Tiongkok terkemuka semakin cepat pada tahun 2026, dengan pendanaan besar dan persiapan IPO yang berlangsung intensif. Tren ini terjadi di tengah persiapan IPO dan rekor pendanaan yang juga dicatat oleh perusahaan AI global seperti OpenAI dan Anthropic.

marsbit06/08 07:46

Valuasi Tembus 200 Miliar, Kimi Dikabarkan Kumpulkan Dana 13,6 Miliar Lagi, IPO di Hong Kong Dipercepat

marsbit06/08 07:46

Baru Saja, AI China Mencapai Peringkat Dua Global dalam Pemrograman, Hanya Tinggal Claude di Depannya

Baru-baru ini, peringkat Code Arena terbaru dirilis, dengan Qwen3.7-Max dari Alibaba meraih 1541 poin dan memasuki posisi empat besar global, melampaui model-model top seperti GPT-5.5 dan Gemini 3.5 Flash. Saat ini, hanya Claude Opus 4.7 dan Opus 4.6 yang berada di depannya. Ini menjadikan Alibaba sebagai satu-satunya perusahaan China yang berada di papan atas, menempati posisi kedua setelah Anthropic. Qwen3.7-Max juga menunjukkan performa luar biasa dalam berbagai uji coba praktis. Dalam tugas membuat AI Tetris yang dapat melatih dirinya sendiri, model ini berhasil mengungguli Opus 4.7 dan GPT-5.5 dengan biaya token yang lebih rendah serta peningkatan performa 56%. Pengembang lain memujinya dalam pembuatan model 3D alam semesta dan mencatat bahwa model ini, ketika digabungkan dengan Hermes Agent dan OpenCode, berpotensi menggantikan GPT-5.5 dan Opus 4.7. Pada uji coba pembuatan game balap 3D, Qwen3.7-Max menghasilkan file HTML yang dapat langsung dimainkan hanya dengan sedikit penyesuaian bug kecil. Game ini menampilkan antarmuka start khusus dan efek suara, yang merupakan detail yang tidak dipenuhi oleh model pesaing lainnya seperti Gemini 3.5 Flash, Claude Opus 4.6, dan GPT-5.5. Kekuatan Qwen3.7-Max berasal dari posisinya sebagai model dasar (base model) yang dirancang khusus untuk Agent, mampu menjalankan tugas otonom dalam waktu lama. Data uji internal menunjukkan model ini dapat berjalan terus-menerus selama 35 jam, melakukan 1.158 panggilan alat, dan menghasilkan kode dengan percepatan rata-rata 10 kali lipat dibandingkan implementasi referensi. Kemampuannya dalam penalaran jangka panjang dan eksekusi stabil didukung oleh metode pelatihan canggih seperti pelatihan lingkungan yang diperluas dan kerangka "dynamic cumulative survival games". Prestasi Qwen3.7-Max di Code Arena membuktikan bahwa model AI China tidak hanya menjadi pengejar, tetapi juga dapat menjadi penentu dalam kompetisi pemrograman global, mengakhiri dominasi semata-mata oleh model-model Silicon Valley.

marsbit05/27 00:20

Baru Saja, AI China Mencapai Peringkat Dua Global dalam Pemrograman, Hanya Tinggal Claude di Depannya

marsbit05/27 00:20

Paradoks Otomatisasi: Semakin Kuat AI, Semakin Sibuk Manusia

Inti dari artikel ini adalah paradoks otomatisasi: semakin canggih AI, semakin banyak pekerjaan yang perlu dilakukan manusia. Penulis dari Every, yang telah mengintegrasikan berbagai AI Agent ke dalam alur kerja (seperti coding, penulisan, dan dukungan pelanggan), mengamati bahwa alih-alih digantikan, peran manusia justru berubah. AI membuat kemampuan masa lalu (seperti menulis kode atau konten dasar) menjadi murah dan tersedia luas, yang menyebabkan banjir output yang seragam dan generik. Akibatnya, keahlian manusia justru menjadi lebih kritis. Peran beralih dari pelaksana menjadi perancang kerangka kerja, pengawas kualitas, penentu arah strategis, dan pembuat keputusan yang memahami konteks spesifik. Contohnya, ketika semua orang bisa membuat kode, insinyur justru lebih banyak mereview, merancang sistem, dan memutuskan kode mana yang layak digabungkan. Tes benchmark yang menunjukkan peningkatan kemampuan AI sebenarnya mengukur kinerja dalam "kerangka" yang ditetapkan manusia. Begitu AI menguasai satu kerangka, manusia akan bergerak ke kerangka masalah yang lebih kompleks, sehingga tetap selangkah di depan. Artikel ini menyimpulkan bahwa meskipun AI semakin kuat, ia tetap alat yang menjalankan tujuan manusia. Nilai kerja manusia tidak hilang, tetapi bergeser ke area yang lebih bernuansa: menentukan apa yang layak dikerjakan, mengapa, dan seberapa baik hasilnya. Masa depan kerja pengetahuan adalah manusia sebagai perancang kerangka, pemelihara sistem, penilai kualitas, dan pemberi makna.

marsbit05/24 07:24

Paradoks Otomatisasi: Semakin Kuat AI, Semakin Sibuk Manusia

marsbit05/24 07:24

活动图片