Betul, AI masih terus berlari kencang.
Tahun 2016, deep learning meledak hanya setahun, lalu hampir berhenti. Tahun 2026, model besar yang telah meledak selama 4 tahun masih belum menyentuh batas atasnya.
Di lokasi acara BAAI Conference 2026, Guangzhui Intelligence melihat, dari model, perangkat lunak & keras hingga produk, semuanya berusaha keras agar AI dapat 'berlari' dari dunia digital masuk ke dunia fisik.
Di satu sisi, Scaling Law terus bekerja stabil, mendorong model bahasa besar dan model multimodal masih berkembang, industri AI telah memasuki tahap mengejar model dunia. Hanya saja saat ini, masalah rute teknologi, data, dll masih menggantung dan belum terselesaikan, masih memerlukan setidaknya mungkin 3-5 tahun lagi untuk dieksplorasi.
Di sisi lain, terobosan yang dicapai oleh Agent mempercepat implementasi AI dalam skenario dunia nyata. Seiring Agent mencapai tahap dapat digunakan, industri sedang mendorong penerapannya dalam skenario seperti kesehatan, rapat, dll. Agar Agent dapat bergerak dari 'dapat digunakan' menjadi 'mudah digunakan', kolaborasi perangkat lunak dan keras juga menjadi kunci. Di stand pameran BAAI Conference, vendor chip menduduki 'separuh panggung'. Hampir semua chip AI domestik terkemuka hadir semua.
"Kita sedang berdiri di titik kritis sejarah yang baru. Kecerdasan buatan tidak lagi hanya menjadi alat untuk memodifikasi suatu industri, melainkan sedang menjadi kekuatan dasar yang merekonstruksi dunia. AI Coding, agen otonom, evolusi mandiri model, sedang membuka kemungkinan menciptakan AI. Model dunia, kecerdasan embodied, dan robotika, memungkinkan kecerdasan merentang dari dunia digital ke dunia fisik," kata Wang Zhongyuan, Presiden Institut BAAI.
Dalam gelombang 'rekonstruksi kekuatan dasar' ini, sebenarnya apa yang sedang terjadi?
Hari pertama BAAI Conference, para tamu yang hadir memberikan jawaban ini: AI sedang bergerak dari "bisa mengobrol" menuju "bisa bekerja". Scaling Law masih berlanjut, model dunia yang arah teknologinya belum konvergen menjadi fokus tahap berikutnya, sementara agen cerdas sudah mulai bergerak dari dapat digunakan menuju mudah digunakan, meski masih banyak masalah yang menunggu untuk dioptimalkan.
AI Tidak Hanya Teknologi Belum Sampai Plafon
Tapi Juga Sudah Belajar Berevolusi Sendiri
Setahun terakhir, seiring data teks internet berkualitas tinggi habis terkonsumsi, industri diliputi suasana pesimis "Scaling Law (hukum penskalaan) akan segera mencapai puncaknya".
Dalam beberapa forum di BAAI Conference, "apakah keuntungan Scaling Law menyusut" sering disebutkan, beberapa tamu menyangkal pernyataan ini.
"Saya masih cukup yakin Scaling masih jauh dari akhir," kata Wang He, Pendiri & CTO Galaxy General. "Hari ini melihat ke belakang, Scaling Law tidak gagal, hanya saja menjadi lebih beragam."
Pada serangkaian model bahasa besar yang baru dirilis, Scaling masih terus berperan. Menganalisis Fable 5 yang baru dirilis Anthropic, Luo Fuli dari Xiaomi mengatakan, model ini sendiri adalah produk dari kemajuan ilmiah Scaling. Ini adalah hasil penskalaan yang diperoleh dari kombinasi tiga dimensi: skala parameter model besar, data sintetis, dan pembelajaran penguatan.
"Kami menduga, skala parameter Fable 5 sendiri seharusnya beberapa kali lipat dari model sumber terbuka terbesar (skala) saat ini, selain itu juga menginvestasikan daya komputasi kuat dalam Test-Time Scanning (penskalaan waktu inferensi) atau pembelajaran penguatan. Selain itu, data sintetis yang dihasilkan oleh manusia dan Agent membuat skala data mencapai tingkat baru," kata Luo Fuli.
Di bidang multimodal, peningkatan kinerja model yang dibawa oleh Scaling juga signifikan. Zhu Jun, Pendiri & Kepala Ilmuwan Shengshu Technology, mengatakan bahwa kualitas data, ukuran model, dan pelatihan skala besar, semuanya akan meningkatkan model. Berdasarkan peningkatan kemampuan model dasar, pemahaman model terhadap hukum fisika dan pemahaman adegan 3D juga akan lebih efisien.
Sementara Scaling terus berlaku, seiring AI Coding semakin matang dan Agent mempercepat implementasi, tren evolusi mandiri AI menjadi jelas, berkembang dari menulis kode menjadi menyelesaikan sendiri pembaruan iterasi produk.
"Dasar dunia digital manusia sebagian besar dibentuk melalui kode, kemajuan substansial dan menjadi arus utama AI Coding berarti semua hal di dunia digital, AI secara bertahap berpotensi mengambil alih," kata Wang Zhongyuan.
Di dalam dan luar negeri, menggunakan AI untuk menyelesaikan pembaruan produk sudah menjadi hal biasa.
"Jika model menentukan kemampuan agen cerdas, maka Harness menentukan batas atas kemampuan agen cerdas," kata Li Jingqiu. "Kesulitannya terletak pada kebutuhan untuk lebih lanjut memperjelas, memverifikasi, dan memberikan umpan balik masalah berdasarkan model."
Misalnya, jika hanya mengandalkan model untuk memahami masalah, pasti ada keterbatasan. Yang perlu dilakukan Harness adalah menyempurnakan dan memperkaya instruksi sederhana pengguna, agar model dapat lebih memahami kebutuhan, di sini Harness perlu memainkan kemampuan pemahaman maksud, dan setelah mendapatkan tugas, merancang alur tugas berikutnya, lalu menjadwalkan model untuk mengeksekusi. Proses ini mungkin perlu menggabungkan intervensi dan koreksi manual, lalu memeriksa sebelum tugas selesai.
Model Dunia
Medan Pertempuran Kunci Berikutnya dari Model Besar
Menerobos ke luar sepanjang batas dunia digital, model dunia menjadi medan pertempuran kunci berikutnya dari model besar.
"Saat ini belum ada model dunia mana pun yang benar-benar bisa membuat orang merasa sangat menakjubkan, menyelesaikan berbagai masalah dunia fisik yang nyata," kata Wang Zhongyuan.
Bagi model dunia yang masih dalam tahap awal perkembangan, untuk teknologi model dunia, industri saat ini belum sepenuhnya mencapai konsensus. Dan dalam situasi rute teknologi belum konvergen, masih ada serangkaian masalah mendesak yang harus diselesaikan. Mengambil contoh data, Wang Zhongyuan memberi contoh, apakah perlu data video, data simulasi, atau data dunia fisik nyata, semua orang belum menemukan metode jalannya.
Mengambil contoh Galaxy General, Wang He di tempat memperkenalkan penerapan data sintetis mereka.
"Sebelum paradigma WAM (World Action Model, yaitu model aksi dunia) muncul, kami dalam paradigma VLA, pertama-tama menggunakan data sintetis, melakukan banyak percobaan untuk hal menggenggam ini," kata Wang He. "Kami menggunakan 1 miliar frame data simulasi untuk membuktikan: selama Anda menskalakan data hingga tingkat ini, Anda dapat sepenuhnya mencapai zero-shot (pembelajaran nol-sampel), di dunia nyata berikan saya sesuatu secara acak, dapat menyelesaikan penggenggaman."
Menanggapi perkembangan model dunia, Institut BAAI memperkirakan "setidaknya masih memerlukan beberapa tahun lagi", tiga hingga lima tahun ke depan akan menjadi tahap evolusi dan iterasi berkelanjutan model dunia.
Dalam beberapa tahun, industri telah muncul berbagai model dunia dengan rute teknologi berbeda, dan perkembangannya masing-masing memiliki keunggulannya sendiri.
Mengambil contoh model dunia multimodal, Zhu Jun mengatakan, model video dan model dunia memiliki hubungan erat, karena model dunia perlu memiliki tiga kemampuan: melihat dan memahami keadaan, memprediksi, dan bertindak. Dan dalam data pelatihan yang dapat diakses saat ini, yang paling terkait dengan model dunia adalah data video.
Dalam situasi berbagai rute teknologi berbeda dan industri belum membentuk konsensus, Institut BAAI membagi model dunia menjadi empat kategori:
Kategori pertama adalah model dunia yang berpusat pada bahasa, memetakan modalitas lain, kemampuan lain ke ruang bahasa, termasuk model bahasa besar, VLM, VLA, dll;
Kategori kedua adalah model dunia yang berpusat pada piksel, generasi video pada dasarnya memprediksi frame gambar berikutnya, tetapi model generasi video tidak sama dengan model dunia, terkait dengan model dunia, World Action Model (WAM) yang mungkin sangat populer tahun ini semuanya berevolusi dengan berpusat pada piksel;
Kategori ketiga adalah model dunia yang berpusat pada struktur tiga dimensi, termasuk rekonstruksi 3D yang murni dunia tiga dimensi;
Kategori keempat adalah model dunia yang berporos pada representasi visual.
Saat ini, Institut BAAI sedang mengeksplorasi jalur "kategori kelima" – integrasi yang berpusat pada bahasa dan yang berpusat pada representasi visual, yaitu representasi ruang laten, setara dengan mengompresi serangkaian informasi seperti teks, gambar, dll ke dalam ruang vektor, untuk merepresentasikan berbagai keadaan dunia fisik nyata.
"Pemodelan ruang laten terpadu di masa depan tidak hanya ruang visual, tetapi ruang laten multimodal penuh, kemungkinan besar adalah jalur berikutnya yang sebenarnya dari model dunia," kata Wang Zhongyuan.
Institut BAAI di konferensi memperkenalkan model dunia yang sedang dikembangkan – Wu Jie · Physis-v0.1, yang berpusat pada pemodelan ruang fisik, mencapai prediksi keadaan fisik berikutnya. Posisinya adalah model dasar dunia umum pertama di dunia, menekankan empat kemampuan kunci: "benar secara fisik, jejak sebab-akibat tindakan dapat dilacak, konsistensi jangka panjang, generalisasi umum".
Saat ini, model tersebut masih dalam tahap pelatihan, paruh kedua tahun ini BAAI akan terus berbagi kemajuan, setelah pelatihan selesai akan membuka sumber model.
Dari "Dapat Digunakan" Menuju "Mudah Digunakan"
Agen Cerdas Masih Banyak Rintangan untuk Dilewati
Di sisi model, kemajuan model dunia mendorong realisasi AI fisik; di sisi produk, Agent (agen cerdas) menjadi produk implementasi kunci AI memasuki kehidupan publik.
Sejak tahun 2025 yang disebut "tahun pertama agen cerdas", Agent telah muncul sebagian produk yang mengesankan, muncul tanda-tanda ledakan, tetapi popularitas besar "lobster" tahun ini masih di luar dugaan.
Dibandingkan tahun lalu agen cerdas masih dalam keadaan eksekusi, tahun ini agen cerdas jelas menjadi lebih proaktif, lebih bisa mengurus urusan, dapat membantu pengguna secara proaktif mengeksekusi tugas yang lebih kompleks.
Di BAAI Conference tahun ini, Institut BAAI juga merilis empat agen cerdas yang cenderung vertikal: BAAI Cardiac Agent, agen diagnosis bantu MRI jantung pertama di dunia, dengan menggabungkan kemampuan multimodal dan pengetahuan profesional dokter, membantu dokter menyelesaikan keputusan; Agen Penelitian Otonom AREX diterapkan di bidang penelitian ilmiah; Agen cerdas SoulAgent yang membantu pengguna mendengarkan rapat secara real-time, menangkap poin-poin penting; serta agen penemuan risiko yang berorientasi pada perolehan protein berbahaya.
Di antaranya, mengambil contoh agen pendengar rapat, Guangzhui Intelligence menguji kemampuannya merangkum konten rapat yang berbeda. SoulAgent memang membuat ringkasan sederhana terhadap konten rapat. Meski tidak selengkap notulen, tetapi poin intinya tidak salah. Cocok untuk situasi seperti waktu sub-forum yang tumpang tindih.
Namun, saat ini agen cerdas masih memiliki banyak masalah dalam hal teknologi yang perlu dioptimalkan lebih lanjut. An Yang, Profesor Presiden Universitas Teknologi Nanyang, menyebutkan, untuk mempertahankan peningkatan kemampuan agen cerdas, yang terpenting saat ini masih bagian yang terkait dengan rekayasa konteks, seperti Memori, orkestrasi, dll.
Di tempat sub-forum agen cerdas, Harness (diterjemahkan langsung sebagai kekang kuda, mengacu pada seluruh rangkaian kerangka kerja atau lingkungan rekayasa yang dibangun di sekitar agen cerdas) yang jarang diperhatikan tahun lalu dan cukup populer tahun ini menjadi kata kunci frekuensi tinggi yang disebutkan di tempat.
"Jika model menentukan kemampuan agen cerdas, maka Harness menentukan batas atas kemampuan agen cerdas," kata Li Jingqiu. "Kesulitannya terletak pada kebutuhan untuk lebih lanjut memperjelas, memverifikasi, dan memberikan umpan balik masalah berdasarkan model."
Misalnya, jika hanya mengandalkan model untuk memahami masalah, pasti ada keterbatasan. Yang perlu dilakukan Harness adalah menyempurnakan dan memperkaya instruksi sederhana pengguna, agar model dapat lebih memahami kebutuhan, di sini Harness perlu memainkan kemampuan pemahaman maksud, dan setelah mendapatkan tugas, merancang alur tugas berikutnya, lalu menjadwalkan model untuk mengeksekusi. Proses ini mungkin perlu menggabungkan intervensi dan koreksi manual, lalu memeriksa sebelum tugas selesai.
Singkatnya, seperti asisten sungguhan, setiap detail langkah di dalamnya perlu dihaluskan produk untuk Harness, agar lebih meningkatkan efek eksekusi Agent.
Saat ini, Agent masih berada dalam tahap perkembangan awal, dapat diprediksi bahwa ruang kemajuan industri ini sangat besar, baik peningkatan kemampuan model, maupun penguatan detail rekayasa, semuanya akan lebih lanjut menambah kemampuan kerja Agent.
Artikel ini berasal dari akun WeChat resmi: Guangzhui Intelligence , penulis: Tim yang fokus pada teknologi frontier










