Perang Tanpa Nama Seragam: Peta Dunia Model dari Para Raksasa Domestik

marsbitDipublikasikan tanggal 2026-06-25Terakhir diperbarui pada 2026-06-25

Abstrak

"Dunia Model" belum memiliki nama yang seragam di industri. Beberapa menyebutnya Dunia Model, Dunia Model Dasar, AI Fisik, atau menyembunyikannya dalam arsitektur seperti model mobil otonom, VLA, atau sistem kecerdasan embodied. Di balik kebingungan penamaan, intinya sama: membuat mesin membangun lingkungan dinamis internal yang dapat disimulasikan dan dianalisis ulang, mengurangi ketergantungan pada data nyata, dan memampatkan dunia nyata menjadi mesin data yang dapat menghasilkan, mencoba, dan mengulang tanpa batas. Raksasa internet seperti Alibaba, Tencent, ByteDance, Huawei, dan Baidu memiliki pendekatan berbeda. Alibaba meluncurkan tiga model untuk dunia bahasa, virtual, dan fisik. Tencent fokus pada dunia 3D yang dapat diedit untuk game dan sosial. ByteDance memanfaatkan data video, sementara Huawei dan Baidu mengintegrasikan kemampuan ini ke dalam sistem mobil dan AI yang lebih besar tanpa menyebutnya secara terpisah. Produsen mobil seperti NIO, Li Auto, XPeng, Geely, BYD, dan Great Wall menggunakan Dunia Model sebagai "sekolah menyetir dan ujian" untuk pelatihan dan simulasi sistem mengemudi otonom. Mereka menggunakannya untuk menghasilkan skenario kompleks, meningkatkan keamanan, dan mempercepat pengembangan. Penyedia teknologi seperti Momenta, Horizon Robotics, Haomo.AI, dan DeepRoute bertindak sebagai "mesin dunia tersembunyi" di balik layar. Mereka menyediakan model dan platform simulasi yang membantu pabrikan menguji dan menyempurnakan sistem L3/L4. Perusahaa...

Nama "model dunia" hingga saat ini belum memiliki kartu nama yang seragam di kalangan industri. Ada yang menyebutnya model dunia, ada yang model dasar dunia, ada pula yang menyebutnya AI fisik, sementara yang lain menyembunyikannya dalam arsitektur model besar otonom, VLA, atau sistem kecerdasan berwujud tanpa memberi nama khusus.

Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld milik Alibaba masing-masing mengarah ke dunia bahasa, dunia virtual, dan dunia fisik; HY-World milik Tencent lebih condong ke dunia 3D yang dapat diedit; produsen mobil lebih suka menyebut model dunia mengemudi atau model perilaku dunia; Huawei dan Baidu bahkan tidak secara terpisah meneriakkan empat kata "model dunia".

Di balik kekacauan penamaan, semua orang sebenarnya melakukan hal yang sama:

Membuat mesin membangun lingkungan dinamis yang dapat disimulasikan dan dievaluasi di dalam dirinya sebelum benar-benar bertindak, mengurangi ketergantungan tak terbatas pada data nyata, dan mengompres dunia nyata menjadi mesin data yang dapat menghasilkan, membuat kesalahan, dan mengulang tanpa batas.

Sementara perusahaan rintisan masih pusing dengan hak pengumpulan data dan anggaran daya komputasi, Alibaba, Tencent, Huawei, NIO, Xpeng, dan Li Auto telah diam-diam menjadikan model dunia sebagai jalur perlombaan baru.

Model dunia adalah sebuah ambisi: membuat AI melampaui pengenalan dunia, dan terlebih dahulu membayangkannya di dalam pikiran.

Produsen mobil otonom ingin menggunakannya untuk menghasilkan "soal ujian" tentang hujan, salju, dan hambatan bentuk aneh; tim kecerdasan berwujud ingin menggunakannya untuk membuat robot jatuh cukup 100.000 kali dalam simulasi sebelum keluar; perusahaan game dan sosial ingin menggunakannya untuk menciptakan alam semesta paralel yang dapat membuat manusia tenggelam di dalamnya.

Cara raksasa teknologi masuk ke arena ini memiliki penekanan berbeda, tetapi tujuan intinya sama: mengompres dunia nyata menjadi mesin data yang dapat disimulasikan dan dievaluasi tanpa batas.

I. Raksasa Internet:

Dari Dunia Digital ke Dunia Fisik

Tata letak model dunia Alibaba paling mirip "menyusun barang-barang di rak satu per satu".

Pada Juni 2026, dalam beberapa minggu berturut-turut ia mengeluarkan tiga kartu:

Seri Qwen-Robot pada 16 Juni, HappyOyster 1.0 pada 17 Juni, dan Qwen-AgentWorld pada 24 Juni.

Qwen-AgentWorld adalah model dunia bahasa asli, ia tidak menghasilkan gambar, tetapi menghasilkan lingkungan — dalam tujuh lingkungan MCP, pencarian, terminal, rekayasa kode, Web, sistem operasi, dan Android, model dapat mensimulasikan interaksi nyata, belajar mandiri, dan mengasah diri dengan pembelajaran penguatan. Ia menawarkan dua skala: arsitektur MoE dengan total parameter 35B dan 397B, dengan parameter aktif masing-masing 3B dan 17B; data pelatihan berasal dari lebih dari 10 juta lintasan interaksi lingkungan nyata; model dan tolok ukur evaluasi AgentWorldBench telah bersumber terbuka. Ini sama saja dengan menjadikan model dunia sebagai "tempat pelatihan" agen, bukan sekadar "hiasan".

HappyOyster 1.0 menunjukkan wajah yang berbeda, ia lebih mirip "set film yang dapat dimainkan": pengguna memberikan satu kalimat atau gambar, ia menghasilkan dunia terbuka, dan dalam dua mode "eksplorasi dunia" dan "sutradara real-time" memungkinkan pengguna ikut campur sesuka hati. Mode eksplorasi mendukung perpindahan dan kontrol kamera kontinu real-time hingga 1 menit, mode sutradara dapat menghasilkan gambar real-time 480p/720p selama lebih dari 3 menit. Alibaba memposisikannya sebagai pintu masuk industri untuk game interaktif, pendampingan virtual, drama pendek interaktif, dan pengalaman wisata budaya.

Qwen-RobotWorld bergerak ke arah lain, ia adalah "otak pemikir" dalam paket tiga kecerdasan berwujud Alibaba, berkolaborasi dengan model operasi VLA Qwen-RobotManip dan model navigasi VLN Qwen-RobotNav, dengan tujuan memberikan robot dunia batin yang dapat dipratinjau.

Ketiga hal ini digabungkan, Alibaba secara bersamaan memperebutkan hak definisi dunia bahasa, dunia virtual, dan dunia fisik.

Hunyuan Tencent mengambil jalur lain, seri HY-World-nya lebih seperti "membangun pabrik otomatis game 3D".

Pada Juli 2025, Tencent merilis dan membuka sumber model dunia 3D Hunyuan 1.0 di WAIC; pada Desember ditingkatkan ke versi 1.5; pada April 2026 merilis dan membuka sumber HY-World 2.0. Input dapat berupa teks, gambar tunggal, banyak gambar, video, bahkan model polos, output dapat berupa 3DGS, Mesh, point cloud.

Versi 2.0 memperkenalkan modul HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, yang menghubungkan generasi dunia, rekonstruksi dunia, gambar panorama, dan generasi dunia real-time menjadi satu lingkaran tertutup.

Kelebihan Tencent terletak pada skenario game dan sosial, pengguna sebenarnya HY-World bukan melatih mobil otonom, tetapi membuat level game, pembuatan film virtual, dan digital twin.

Proyek model dunia ByteDance lebih seperti "perjalanan rahasia" dengan gen data video pendek.

Pada Agustus 2025, The Information mengungkap tim Seed ByteDance sedang mengembangkan model dunia, dipimpin oleh Zhou Chang, mantan anggota inti Tongyi Qianwen. Kartu truf terbesar proyek ini adalah aliran video harian lebih dari 1 miliar kali dari Douyin dan TikTok, serta kerangka EX-4D — yang dapat mengubah video monokular menjadi adegan 4D multi-perspektif. Sasaran utamanya adalah Genie 3 Google dan V-JEPA 2 Meta, tujuannya bukan membuat generator video yang cantik, tetapi membangun "digital twin" yang dapat mensimulasikan hukum fisika.

Dalam konferensi FORCE Momentum Asli Volcano Engine pada 23 Juni 2026, ByteDance tidak secara langsung merilis model dunia ini, tetapi menunjukkan seri Doubao Seed 2.1, model generasi video Seedance 2.5, model generasi gambar Seedream 5.0 Pro, dan model generasi audio baru.

Sementara laporan eksklusif 36Kr merangkum strategi AI ByteDance tahun 2026 menjadi empat proposisi: model dunia mencapai SOTA global pada akhir tahun, Seedance mengeksplorasi generasi dinamis, Coding mengokohkan dasar, Doubao mempercepat komersialisasi.

Ini berarti, model dunia adalah proposisi pertama di dalam ByteDance, hanya saja ia memilih untuk menempatkan Seedance dan Doubao di depan, sambil terus mempersiapkan jurus andalannya.

data-check-id="575028">Model dunia Pangu Huawei memiliki aura "rendah hati tetapi mematikan".

Pada konferensi pengembang Juni 2025, Huawei merilis model besar Pangu, berbasis model multimodal besar Pangu, kemampuan intinya adalah menghasilkan ruang digital fisik berpresisi tinggi dari satu gambar. Ia dapat memprediksi tabrakan, melatih lengan robot untuk mengambil, juga menghasilkan video mengemudi dan point cloud LiDAR, membantu model end-to-end ADS Huawei mencapai "satu versi setiap dua hari".

Huawei tidak meneriakkan slogan "model dunia", melainkan menjadikannya sebagai "dasar pelatihan" untuk mobil pintar dan kecerdasan berwujud. Kolaborasi dengan GAC adalah contoh tipikal: video 2D dan point cloud 3D berkorespondensi tingkat piksel, memulihkan kasus sudut kompleks dalam hitungan menit.

Pada HDC 2026 bulan Juni 2026, Huawei meningkatkan model besar Pangu ke versi 7.0, dan merilis Ascend 910C, dengan Yu Chengdong kembali memimpin Pangu, tetapi tidak ada berita versi baru terpisah untuk model dunia itu sendiri.

Pemikiran "model dunia tidak berdiri sendiri, melainkan melayani siklus industri tertutup" ini adalah gaya konsisten Huawei.

Baidu masuk lebih awal di bidang mobil otonom, Apollo ADFM yang dirilis Mei 2024 diposisikan sebagai "model besar mobil otonom pertama di dunia yang mendukung L4".

Meskipun Baidu tidak menamainya model dunia, pada dasarnya ia memiliki fungsi model dunia: memahami dunia fisik, memprediksi perilaku partisipan lalu lintas melalui jaringan saraf end-to-end. Pada November 2025, model besar Wenxin 5.0 muncul dalam bentuk multimodal asli penuh, dengan skala parameter mencapai 2,4 triliun; versi resmi diluncurkan Januari 2026.

Kemampuan model dunia Baidu telah tersembunyi dalam strategi yang lebih besar. Strategi Baidu adalah: tidak membicarakan model dunia secara terpisah, tetapi membiarkan Apollo dan Wenxin saling melengkapi.

Xiaomi dan SenseTime mewakili dua jenis "aliran teknis".

Xiaomi OneVL yang dibuka sumber oleh Xiaomi pada 13 Mei 2026, menyatukan VLA, model dunia, dan penalaran ruang laten ke dalam satu kerangka, menekankan keterjelasan proses penalaran visual, menciptakan komponen dasar yang dapat digunakan baik untuk mobil otonom maupun kecerdasan berwujud.

"Kaiwu" dari SenseTime's Jueying lebih seperti "sopir berpengalaman" yang sudah bekerja, dalam laporan Frost & Sullivan September 2025, ia didefinisikan sebagai model dunia pertama di industri yang telah diproduksi massal dan dapat berinteraksi, mampu menghasilkan video mengemudi 150 detik, 1080P, 11 perspektif, dan mengendapkan kumpulan data mengemudi generatif skala terbesar di industri WorldSim-Drive dan perpustakaan skenario generatif jutaan.

Pada Juni 2026, Daxiao Robotics yang didirikan oleh pendiri bersama SenseTime Wang Xiaogang mengumumkan telah menyelesaikan pendanaan ratusan juta dolar AS, model dunia Kairos 3.0-nya menduduki peringkat pertama dalam empat daftar utama generasi-prediksi pada dimensi generasi video berwujud dan pengejaran instruksi tugas.

Model dunia dari keluarga SenseTime, sedang menyebar dari mobil pintar ke robot.

II. Produsen Mobil:

Menjadikan Model Dunia sebagai Sekolah Mengemudi dan Tempat Ujian

Jika model dunia raksasa internet adalah "membangun dunia", maka model dunia produsen mobil adalah "menggunakan dunia".

NIO adalah produsen mobil China yang pertama kali mengibarkan bendera model dunia.

Pada NIO IN Juli 2024, Ren Shaoqing meluncurkan NWM (NIO World Model), diposisikan sebagai model dunia mobil otonom pertama di China.

Ia menggunakan arsitektur generatif autoregresif majemuk, melakukan dua hal: "rekonstruksi imajinasi" spasial dan "simulasi imajinasi" temporal.

Diberikan satu skenario nyata, ia dapat merekonstruksi dunia 3D; diberikan petunjuk tiga detik, ia dapat menghasilkan video masa depan lebih dari dua menit. Setiap 0,1 detik, ia mensimulasikan 216 lintasan, memilih solusi terbaik.

Logika NIO jelas: model end-to-end tidak cukup, sistem mengemudi cerdas yang benar-benar pintar perlu seperti manusia yang "dapat membayangkan kondisi jalan meski mata tertutup". Pada 18 Juni 2026, NIO secara resmi meluncurkan versi baru NWM 2.0, mencakup lebih dari 700.000 pengguna semua seri, bahkan pemilik lama yang membeli mobil empat tahun lalu dapat meningkatkan gratis, dengan empat sistem kendaraan Banyan, Cedar, Coconut+ dirilis bersamaan. Versi baru ini pertama kali di China mencapai model mengemudi cerdas langsung mengeluarkan sinyal operasi mentah setir, pedal akselerasi dan rem, dan meningkatkan sistem pelatihan dari "model dunia + pembelajaran penguatan tertutup" menjadi tiga lapisan "model dunia + fine-tuning terawasi + pembelajaran penguatan tertutup". Cakupan skenario AEB adalah 6,7 kali AEB standar, kemungkinan pengereman salah turun menjadi satu kali per 100.000 km.

Chip Shenji NX9031 bahkan digambarkan sebagai "dirancang secara alami untuk model dunia".

Li Auto mengusulkan pemikiran model dunia "rekonstruksi + generasi" pada paruh kedua 2024, dan mempublikasikan DrivingSphere di CVPR 2025.

Ia terdiri dari model difusi OccDreamer dan VideoDreamer ST-DiT, membangun lingkungan simulasi tertutup 4D dengan ketelitian tinggi.

Simulasi terbuka tradisional hanya dapat mengevaluasi model "apa yang dilihat", sementara simulasi tertutup dapat mengevaluasi model "apa yang dilakukan". Model dunia Li Auto seperti tempat ujian yang dapat menghasilkan soal salah tanpa batas, membuat sistem mengemudi cerdas menjalankan skenario sulit terlebih dahulu di dalam chip.

Sampai Livis Day Juni 2026, Li Auto meningkatkan kemampuan ini lebih lanjut menjadi "Mahe VLA", arsitektur MoE multimodal asli, persepsi, prediksi, perencanaan terpadu, daya komputasi chip ganda M100 di kendaraan 2560TOPS, waktu reaksi 0,28 detik.

Menurut peta jalan yang dirilis Li Auto, kuartal ketiga akan meluncurkan Mahe VLA baru ke pengguna AD Max, kuartal keempat bertujuan menyamai Tesla FSD V14. Li Auto tidak lagi hanya perusahaan mobil, ia sedang membentuk dirinya sebagai penyedia sistem kecerdasan berwujud Livis.

Jalur Xpeng Motors menunjukkan lapisan "lakukan yang besar terlebih dahulu, lalu sempurnakan".

Pada April 2025, Xpeng dalam pertemuan berbagi teknologi AI di Hong Kong pertama kali mengungkap sedang mengembangkan "model dasar dunia" mobil otonom skala sangat besar dengan 72 miliar parameter.

Setahun kemudian, pada 1 April 2026, Xpeng secara resmi merilis laporan teknologi model dunia X-World.

Ia berbasis teknologi generasi difusi video, dimodifikasi dari paradigma generasi video ruang laten WAN 2.2, menggunakan VAE kausal 3D dan DiT perhatian-diri perspektif-waktu, mendukung 7 kamera surround menghasilkan secara konsisten lintas perspektif.

X-World bukan alat generasi video, melainkan "simulator dunia nyata" untuk VLA generasi kedua Xpeng: skenario simulasi meningkat dari 30.000 setahun lalu menjadi lebih dari 500.000, pengujian simulasi harian setara dengan 30 juta km pengujian kendaraan nyata, dan mendukung pembelajaran penguatan online dan generasi data luar negeri.

Pada CVPR Juni 2026, Xpeng pertama kali menunjukkan peta teknologi model dunia yang lengkap. Ambisi Xpeng tertulis dalam cakupan aplikasinya: mobil AI, robot AI, mobil terbang. Target skala data pelatihannya adalah 200 juta klip, kluster sepuluh ribu kartu menyediakan daya komputasi 10 EFLOPS, beriterasi setiap 5 hari.

Geely Auto menunjukkan WAM (World Action Model) di CES 2026, dan memasukkannya ke dalam sistem AI menyeluruh 2.0.

Arsitektur berlapis WAM menarik: lapisan atas adalah model besar multimodal MLLM yang bertanggung jawab memahami, lapisan bawah adalah Action Expert yang bertanggung jawab atas tindakan, di tengah adalah model dunia yang bertanggung jawab atas simulasi.

Tujuan Geely bukan membuat model mengemudi cerdas lebih baik, tetapi membuat kendaraan menjadi "satu otak" — mengemudi cerdas, kabin, sasis, daya dikendalikan secara terpadu. Pada April 2026, Zeekr 8X diluncurkan dan langsung dikirim, menjadi super-agen cerdas fusi kabin-mengemudi pertama yang diproduksi massal di China, G-ASD 4.0-nya berbasis WAM. Target 2026 adalah L3 jalan tol dan L4 kecepatan rendah.

Model dunia BYD masih dalam penelitian awal, informasi yang diungkap Januari 2025 menunjukkan, internalnya merujuk jalur Tesla, membentuk tim kecil untuk uji coba cepat, fokus menyelesaikan generasi data kasus sudut untuk mengemudi cerdas end-to-end.

Great Wall juga mengusulkan arah mengemudi cerdas generasi berikutnya VLA + model dunia, dan beralih dari "strategi" ke "produksi massal": pada Juni 2026, Great Wall dalam konferensi mengemudi cerdas dan globalisasi berbagi praktik VLA, pusat superkomputer Jiuzhou di Baoding mencapai daya komputasi 5 EFLOPS, GPU lebih dari sepuluh ribu, Tank 700 akan menjadi model pertama dengan sistem VLA Coffee Pilot 4.0, diproduksi massal dan dipasang di mobil pada tahun 2026. Armada lebih dari 2 juta kendaraan menghasilkan data dalam jumlah besar setiap hari, ini adalah aset paling solid Great Wall dibandingkan pembuat mobil baru.

III. Penyedia Solusi Mengemudi Cerdas:

Mesin Dunia yang Tersembunyi di Bawah Mobil

Di luar pabrikan mobil, ada sejumlah penyedia yang menjadikan model dunia sebagai "mesin tak terlihat".

Momenta secara resmi merilis model dunia pembelajaran penguatan R7 pada pameran mobil Beijing April 2026, dan mencapai produksi massal pertama.

Ia adalah arsitektur tiga lapisan: pra-pelatihan model dunia, simulasi model dunia, pembelajaran penguatan. R7 berbasis lebih dari 12 miliar km jarak tempuh kendaraan nyata dari bisnis produksi massal Momenta, mengekstrak lebih dari 100 juta klip "data emas" untuk pra-pelatihan, kemudian membiarkan model mengalami sejumlah besar skenario ekor panjang dalam simulasi, dan akhirnya mengasah dengan pembelajaran penguatan.

Momenta langsung memasukkannya ke dalam model dasar end-to-end, bertujuan mencapai standar L4. Data komersial juga berkembang pesat: kendaraan produksi massal yang dilengkapi sistem Momenta telah melebihi 900.000 unit, berhasil mengirim lebih dari 100 model produksi massal, menetapkan lebih dari 210 model, skema diimplementasikan di lebih dari 10 negara dan wilayah termasuk Inggris, Norwegia, Singapura, Australia, dan Selandia Baru.

Pada Juni 2026, Momenta melalui persidangan Bursa Efek Hong Kong, dengan "saham AI fisik pertama" dan pangsa pasar NOA kota pihak ketiga 65% mengejar IPO. Cukup menunjukkan taruhannya pada model dunia.

Horizon Robotics merilis HorizonDrive pada Mei 2026, sebuah model dunia autoregresif, kemampuan intinya adalah generasi video mengemudi jangka panjang tingkat menit.

Ia menggunakan video-VAE bekerja di ruang laten, memasukkan peta definisi tinggi, kotak batas 3D, dan tindakan kendaraan sendiri, kemudian mengeluarkan skenario masa depan berkelanjutan.

Sorotan HorizonDrive adalah pelatihan "koreksi diri": melalui teknologi SRR dan TRD, membuat model memperbaiki diri saat membuat kesalahan. Pada nuScenes, FID-nya turun 52%, FVD turun 37%, akurasi lintasan meningkat 21%; satu RTX 5090 dapat menghasilkan video 256×512, kecepatan 5,6 FPS, atau video 384×768 1,7 FPS. Posisinya adalah simulasi mobil otonom tertutup, membantu produsen mobil memverifikasi sistem L3+ tanpa mengemudi di jalan.

DriveGPT dari Haomo.ai adalah salah satu proyek yang pertama kali meneriakkan slogan "model dunia" di dalam negeri.

"Xuehu · Hairuo" yang dirilis April 2023 adalah model besar mobil otonom generatif, membangun ruang representasi 4D dengan cara prediksi frame berikutnya. Di belakangnya adalah 10 miliar frame gambar internet, 4,8 juta klip 4D, dan 87 juta km jarak mengemudi bantuan.

Jalan yang ditempuh Haomo mirip dengan Tesla World Model, Wayve GAIA-1: membuat model besar mobil otonom berevolusi dari "melihat gambar" ke "melihat video", lalu ke "memprediksi video". Ia menyediakan kemampuan untuk skenario seperti Great Wall Wey, robot pengiriman otonom Xiaomotuo, dll.

DeepRoute merilis platform DeepRoute IO 2.0 pada 26 Agustus 2025, dilengkapi model VLA buatan sendiri.

Pada pameran mobil Beijing April 2026, DeepRoute lebih lanjut merilis teknologi model dasar dan strategi AI fisik, dan menunjukkan data komersial: kendaraan produksi massal dengan skema NOA kotanya melebihi 300.000 unit, dalam setahun terakhir kendaraan dengan sistem keselamatan aktif DeepRoute telah menempuh lebih dari 1,3 miliar km jalan nyata, total waktu menemani pengguna mengemudi mencapai 44,8 juta jam.

DeepRoute tidak memberi nama terpisah untuk model dunia, tetapi dalam sistem simulasi dan pelatihan DeepRoute IO 2.0, model dunia adalah inti yang tersirat.

IV. Perusahaan Rintisan dan Raksasa:

Dua Peta, Kota yang Sama

Dan tabel tata letak raksasa ini, adalah peta lain.

Dua peta menuju ke kota yang sama: siapa yang dapat membuat AI benar-benar memahami dunia fisik, dialah yang memiliki pintu masuk era berikutnya.

Kelebihan perusahaan rintisan adalah fokus dan kecepatan.

Mereka dapat bertaruh pada satu jalur yang agresif, seperti model dunia asli, generasi ruang 3D, mesin fisika VLA, tidak terikat oleh bisnis yang ada. Tetapi mereka kekurangan data, daya komputasi, saluran produksi massal, dan yang lebih penting, sebuah siklus tertutup skenario nyata yang dapat terus memberi makan model dunia.

Kelemahan raksasa adalah inersia organisasi dan kekacauan penamaan akibat banyak departemen berjalan paralel — tiga proyek model dunia Alibaba bahkan membuat orang luar bingung apakah itu hal yang sama. Tetapi raksasa memiliki data, daya komputasi, pengguna, kendaraan, dan sistem rekayasa untuk menjalankan model. Perusahaan rintisan membangun "model", raksasa membangun "sistem".

Momen paling berbahaya, adalah ketika raksasa mengubah model dunia dari "proyek penelitian" menjadi "dasar bisnis". Model besar Pangu Huawei melayani ADS dan robot, HY-World Tencent melayani game dan industri, DrivingSphere Li Auto melayani iterasi mengemudi cerdas, Kaiwu SenseTime sudah diproduksi massal dan dipasang di mobil, Momenta R7 sudah berjalan di lebih dari 900.000 kendaraan —

Ini bukan PPT di konferensi pers, melainkan "kemampuan" yang sedang masuk ke jalur produksi produk. Bagi perusahaan rintisan, jendela kesempatan model dunia sedang menyempit, persaingan di masa depan akan dengan cepat berubah dari "siapa yang dapat membuat model dunia" menjadi "model dunia siapa yang dapat digunakan dan digunakan dengan baik oleh raksasa".

V. Model Dunia Bukan Tren,

Melainkan Eskalasi Perang Lama

Model dunia bukan cerita baru.

Ia adalah produk alami dari pertemuan model besar bahasa, model generasi video, model mobil otonom end-to-end, dan model VLA robot di dunia fisik.

Raksasa berbondong-bondong masuk, menunjukkan hal ini telah berubah dari "mainan teknisi geek" menjadi "infrastruktur industri".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime membangun jembatan antara dunia digital dan dunia fisik; NIO, Li Auto, Xpeng, Geely, BYD, Great Wall membangun "jembatan" ke mobil; Momenta, Horizon Robotics, Haomo.ai, DeepRoute memasang rel di bawah jembatan.

Perusahaan rintisan berdiri di ujung jembatan, memegang cetak biru yang lebih canggih, tetapi harus menghadapi kenyataan bahwa raksasa sedang mengerahkan tim rekayasa.

Tahun depan, masalah inti di jalur model dunia bukan akan "siapa yang membuat", melainkan "model dunia siapa yang benar-benar memahami dunia menggantikan manusia".

Artikel ini dari akun WeChat: IT桔子 , penulis: Judy

Kripto yang Sedang Tren

Pertanyaan Terkait

QApa itu 'World Model' atau 'Model Dunia' dalam konteks AI, dan mengapa namanya tidak seragam di antara perusahaan teknologi besar Tiongkok?

AModel Dunia (World Model) dalam AI adalah sistem yang memungkinkan mesin membangun dan menjalankan simulasi lingkungan dinamis internal sebelum bertindak di dunia nyata, untuk memprediksi, merencanakan, dan belajar dari kesalahan tanpa bergantung sepenuhnya pada data fisik. Namanya tidak seragam di kalangan perusahaan Tiongkok karena pendekatan dan fokus aplikasinya berbeda-beda. Ada yang menyebutnya Model Dunia, Model Fondasi Dunia, AI Fisik, atau menyembunyikannya dalam arsitektur seperti model mobil otonom, VLA (Vision-Language-Action), atau sistem kecerdasan terwujud tanpa penamaan khusus. Misalnya, Alibaba memiliki Qwen-AgentWorld, HappyOyster, dan Qwen-RobotWorld. Tencent menyebutnya HY-World, sementara Huawei dan Baidu tidak secara eksplisit menggunakan istilah 'Model Dunia'.

QBagaimana Alibaba, Tencent, dan ByteDance masing-masing mengembangkan dan menerapkan Model Dunia mereka?

A1. **Alibaba**: Mengembangkan tiga model terpisah untuk domain berbeda: **Qwen-AgentWorld** (dunia bahasa untuk pelatihan agen AI), **HappyOyster 1.0** (dunia virtual interaktif untuk game dan konten), dan **Qwen-RobotWorld** (dunia fisik untuk simulasi robot dan kecerdasan terwujud). Mereka mengejar kendali definisi di ketiga ranah tersebut. 2. **Tencent**: Fokus pada **HY-World** untuk menghasilkan dan mengedit konten 3D, terutama dalam aplikasi game, media sosial, dan digital twin. Model ini mendukung input teks/gambar/video dan output berbagai format 3D. 3. **ByteDance**: Mengembangkan Model Dunia secara internal melalui tim 'Seed', memanfaatkan data video masif dari TikTok/Douyin. Mereka belum merilisnya secara terbuka, tetapi mengintegrasikan kemampuannya ke dalam model generatif video (Seedance) dan AI asisten (Doubao), dengan tujuan mencapai kinerja terdepan (SOTA).

QApa peran Model Dunia dalam pengembangan mobil otonom (autonomous driving) menurut artikel, dan bagaimana perusahaan mobil seperti NIO, Li Auto, dan XPeng menggunakannya?

AModel Dunia berperan sebagai 'sekolah mengemudi dan tempat ujian' virtual untuk sistem mobil otonom. Fungsinya menghasilkan dan mensimulasikan berbagai skenario mengemudi (termasuk kondisi cuaca ekstrem dan kasus langka/Corner Case) secara tak terbatas, sehingga sistem AI dapat berlatih dan diuji tanpa perlu data jalanan yang mahal dan berisiko. - **NIO**: NWM (NIO World Model) melakukan rekonstruksi 3D dan prediksi video jangka panjang untuk merencanakan rute terbaik. Versi 2.0-nya sudah diterapkan ke lebih dari 700,000 kendaraan. - **Li Auto**: DrivingSphere menciptakan lingkungan simulasi 4D berkualitas tinggi untuk pelatihan dan evaluasi sistem dalam loop tertutup, menguji bukan hanya 'apa yang dilihat' tapi juga 'apa yang dilakukan' oleh model. - **XPeng**: X-World berfungsi sebagai 'simulator dunia nyata' untuk VLA generasi kedua mereka, menghasilkan jutaan kilometer uji simulasi setiap hari dan mendukung pembelajaran penguatan (reinforcement learning) online.

QSiapa saja pemain di bidang pemasok sistem otonom (autonomous driving suppliers) yang disebutkan dalam artikel, dan bagaimana kontribusi mereka dalam pengembangan Model Dunia?

APemasok sistem otonom yang aktif mengembangkan Model Dunia sebagai 'mesin tak terlihat' di balik teknologi mobil otonom meliputi: 1. **Momenta**: Meluncurkan **R7 Reinforcement Learning World Model** yang sudah diproduksi massal. Model ini dilatih dengan 'data emas' dari miliaran kilometer perjalanan nyata dan digunakan untuk pelatihan penguatan dalam simulasi, menargetkan standar L4. 2. **Horizon Robotics**: Merilis **HorizonDrive**, model dunia autoregresif untuk menghasilkan video mengemudi jangka panjang (hingga hitungan menit) yang digunakan untuk simulasi dan validasi sistem L3+. 3. **Haomo.ai**: DriveGPT ('Snow Lake·Hairuo') adalah model generatif awal yang memprediksi frame berikutnya untuk membangun ruang representasi 4D, mirip dengan pendekatan Tesla. 4. **DeepRoute.ai**: Meski tidak menamai model dunianya secara terpisah, platform DeepRoute IO 2.0 mereka mengandalkan Model Dunia sebagai inti dari sistem simulasi dan pelatihannya.

QMenurut artikel, apa tantangan utama yang dihadapi perusahaan rintisan (startup) di bidang Model Dunia dibandingkan dengan raksasa teknologi (big tech)?

APerusahaan rintisan menghadapi beberapa tantangan besar dibandingkan raksasa teknologi: 1. **Kekurangan Data & Komputasi**: Startup kekurangan data skala besar dan anggaran komputasi (seperti cluster ribuan GPU) yang dimiliki big tech untuk melatih model dunia yang kompleks. 2. **Tidak Ada Lingkaran Tertutup (Closed-loop) Produk**: Big tech memiliki produk nyata (mobil, robot, platform game/media) yang menyediakan aliran data terus-menerus dan skenario penerapan untuk menyempurnakan model mereka. Startup sulit mendapatkan akses serupa. 3. **Inersia Organisasi vs. Fokus**: Meski big tech mungkin bergerak lebih lambat karena birokrasi, mereka memiliki keunggulan rekayasa (engineering) dan kemampuan untuk mengintegrasikan Model Dunia ke dalam 'sistem' atau alur produk yang sudah ada. Startup mungkin lebih gesit dan fokus pada teknologi inti, tetapi harus bersaing untuk diadopsi oleh big tech sebelum jendela peluang menyempit, karena persaingan akan bergeser dari 'siapa yang bisa membuat model' menjadi 'model siapa yang paling berguna dan terjangkau' untuk digunakan dalam industri.

Bacaan Terkait

Insinyur Mantan SpaceX Merekonstruksi Sistem Eksekusi Keuangan dengan Prinsip Pertama

Proyek infrastruktur keuangan Plan Execution Lab telah menyelesaikan putaran pendanaan angel yang dipimpin oleh keluarga ternama Singapura, dengan valuasi pasca-investasi mencapai $50 juta. Pendanaan ini akan digunakan untuk mengakselerasi pengembangan protokol eksekusi keuangan PlanX dan runtime keuangan otonom Xgent. Didirikan oleh mantan insinyur SpaceX Lex Li, pendekatan tim berakar pada pemikiran prinsip pertama. Mereka mempertanyakan premis dasar pasar keuangan: bahwa fungsi intinya bukan perdagangan, melainkan alokasi modal, dengan eksekusi sebagai kunci. Sementara aset, likuiditas, dan penyelesaian telah bermigrasi ke blockchain, lapisan eksekusi tetap bergantung pada alur kerja manusia yang terfragmentasi. Dengan berkembangnya AI Agent, kecepatan peluruhan strategi meningkat. Tantangan masa depan beralih dari memperoleh informasi menjadi eksekusi yang berkelanjutan dan efisien. Tim berpendapat bahwa strategi bukanlah unit terkecil; ia terdiri dari kemampuan eksekusi modular (seperti manajemen risiko, alokasi modal) yang membentuk grafik eksekusi. Kompetisi di masa depan akan terjadi pada level jaringan eksekusi. PlanX adalah protokol eksekusi keuangan yang bertujuan menjadi infrastruktur untuk migrasi volume perdagangan dari pertukaran terpusat (CEX) ke pasar on-chain, menyediakan kemampuan eksekusi, akses likuiditas, dan manajemen risiko. Xgent adalah runtime keuangan otonom yang dibangun di atas PlanX, mengotomatisasi proses dari niat pengguna hingga eksekusi otonom melalui grafik eksekusi. Visi jangka panjangnya adalah menciptakan "lingkungan operasi" untuk era keuangan otonom, analog dengan Bloomberg Terminal untuk keuangan manusia. Infrastruktur ini dirancang untuk dibangun bersama oleh berbagai peserta seperti node eksekusi, penyedia likuiditas, dan agen keuangan otonom. Inti kompetisi keuangan generasi berikutnya bukanlah strategi tunggal terbaik, melainkan jaringan eksekusi terkuat.

链捕手10m yang lalu

Insinyur Mantan SpaceX Merekonstruksi Sistem Eksekusi Keuangan dengan Prinsip Pertama

链捕手10m yang lalu

Mantan Insinyur SpaceX Merekonstruksi Sistem Eksekusi Keuangan dengan Prinsip Pertama

Proyek infrastruktur keuangan Plan Execution Lab baru-baru ini mengumumkan penyelesaian pendanaan angel yang dipimpin oleh kantor keluarga terkenal di Singapura, dengan valuasi pasca-investasi mencapai $50 juta. Pendanaan ini akan digunakan terutama untuk mempercepat pengembangan dan pembangunan ekosistem Protokol Eksekusi Keuangan PlanX dan Runtime Keuangan Otonom Xgent. Didirikan oleh Lex Li, mantan insinyur SpaceX, perusahaan ini menerapkan metode berpikir Prinsip Pertama dari SpaceX ke dalam keuangan. Perspektif intinya adalah bahwa fungsi pasar keuangan bukanlah sekadar perdagangan, tetapi alokasi modal, di mana eksekusi adalah proses kritis untuk mengubah keputusan menjadi tindakan. Meskipun aset, likuiditas, dan penyelesaian telah bermigrasi ke on-chain dalam dekade terakhir, lapisan eksekusi tetap sangat bergantung pada alur kerja manusia yang terfragmentasi. Dengan berkembangnya model AI dan agen otonom, kecepatan peluruhan strategi semakin meningkat, membuat eksekusi yang berkelanjutan dan efisien menjadi tantangan utama di masa depan. Plan Execution Lab berpendapat bahwa unit fundamental bukanlah strategi tunggal, tetapi terdiri dari kemampuan eksekusi modular (seperti manajemen risiko, alokasi dana, akuisisi likuiditas). Kemampuan-kemampuan ini membentuk "Grafik Eksekusi", dan sistem keuangan di masa depan akan bersaing di tingkat "Jaringan Eksekusi". PlanX diposisikan sebagai Protokol Eksekusi Keuangan, menargetkan migrasi besar volume perdagangan dari pertukaran terpusat (CEX) ke pasar on-chain dengan menyediakan infrastruktur eksekusi seperti kemampuan eksekusi on-chain, akses likuiditas, dan manajemen risiko. Xgent adalah Runtime Keuangan Otonom yang dibangun di atas PlanX. Pengguna hanya perlu mendefinisikan tujuan, toleransi risiko, dan aturan alokasi modal. Xgent kemudian secara otomatis membangun logika eksekusi, memverifikasi risiko, mengoordinasi likuiditas, dan mengeksekusi serta mengoptimalkan strategi secara mandiri. Visi jangka panjangnya adalah menciptakan "Bloomberg Terminal untuk era keuangan otonom" – sistem operasi yang melayani agen, bukan manusia. Infrastruktur ini akan dibangun bersama oleh berbagai peserta seperti node eksekusi, penyedia likuiditas, kontributor strategi, dan agen keuangan otonom. Inti kompetisi keuangan di masa depan bukan lagi strategi perdagangan terbaik, tetapi jaringan eksekusi terkuat. PlanX dan Xgent bercita-cita menjadi infrastruktur dasar untuk transformasi ini, menuju masa depan di mana jaringan eksekusi otonom akan mendominasi.

marsbit10m yang lalu

Mantan Insinyur SpaceX Merekonstruksi Sistem Eksekusi Keuangan dengan Prinsip Pertama

marsbit10m yang lalu

Dataset Pelatihan Doc2Repo Jarak Jauh Pertama, Agen Kode Tak Hanya Perbaiki Bug, Mulai Bangun Repository

Dengan kemampuan LLM Code Agent yang terus meningkat, peneliti kini beralih ke tugas jangka panjang yang lebih mendekati kebutuhan dunia nyata. Dalam konteks ini, tim dari Renmin University of China merilis dataset DeNovoSWE, yang berfokus pada tugas rekayasa perangkat lunak jangka panjang, khususnya pembuatan kode tingkat repositori dari nol. Dataset ini dibangun menggunakan mekanisme **Divide & Conquer** dan **Critic & Repair**, menghasilkan 4.818 instance data berkualitas tinggi. DeNovoSWE mengatasi tantangan generasi repositori utuh dari dokumen, yang membutuhkan perencanaan arsitektur, pembuatan file, desain API, dan integrasi modul. Eksperimen menunjukkan peningkatan signifikan pada model yang dilatih dengan DeNovoSWE. Misalnya, Qwen3-30B-A3B-Instruct meningkat dari 5.8% menjadi 47.2% pada benchmark BeyondSWE-Doc2Repo, dan dari 4.3% menjadi 23.0% pada NL2RepoBench. Peningkatan ini membuktikan bahwa data tugas jangka panjang khusus lebih efektif untuk melatih kemampuan rekayasa perangkat lunak tingkat repositori, melampaui data konvensional yang hanya berfokus pada perbaikan bug. Kesimpulannya, DeNovoSWE menyediakan landasan data yang terstruktur, dapat diverifikasi, dan anti-kebocoran untuk melatih agen kode dalam memahami dokumen, merencanakan arsitektur, dan menghasilkan repositori perangkat lunak yang lengkap dan dapat dijalankan, menandai langkah maju menuju kemampuan rekayasa perangkat lunak jangka panjang yang sebenarnya.

marsbit29m yang lalu

Dataset Pelatihan Doc2Repo Jarak Jauh Pertama, Agen Kode Tak Hanya Perbaiki Bug, Mulai Bangun Repository

marsbit29m yang lalu

Pertarungan Sulit Mempertahankan Nilai Nominal: STRC Semakin Jauh dari Angka $100

STRC, saham dividen dari perusahaan cadangan Bitcoin Strategy pimpinan Michael Saylor, tengah berjuang mempertahankan nilai nominalnya di angka $100. Harga terakhirnya jatuh ke $80.84, diskon hampir 20%. Dengan snapshot dividen mendekat, Saylor ingin mengembalikan harga ke $100. Krisis memburuk karena Volume Weighted Average Price (VWAP) Juni turun di bawah $95, memicu aturan internal yang mengharuskan peningkatan dividen berikutnya minimal dua kali lipat dari kenaikan standar 0.25%. Ini bisa mendorong dividen tahunan menjadi 12%. Namun, dividen tinggi itu tidak dijamin. Dewan direksi dapat mengubah atau menghentikan kebijakan dividen kapan saja, dan investasi di STRC bergantung pada ekspektasi pasar tanpa jaminan laba. Strategy memiliki beberapa opsi lain untuk mendukung harga: membeli kembali saham, menghentikan penerbitan baru di atas $100, menjual saham biasa (MSTR) untuk mengumpulkan uang tunai, atau menawarkan kejutan bagi pemegang saham. Namun, sebagian besar tindakan ini kecil kemungkinannya atau berdampak terbatas, karena Strategy dirancang untuk menerbitkan saham dan mengakumulasi Bitcoin, bukan mendukung harga. Secara historis, STRC pernah kembali ke $100 pada Oktober lalu berkat kombinasi pemenuhan dividen, peningkatan suku bunga, dan penghentian penjualan saham. Pertanyaannya sekarang adalah seberapa besar upaya yang rela dilakukan Strategy untuk menarik pembeli dan mengulangi kesuksesan itu.

Foresight News1j yang lalu

Pertarungan Sulit Mempertahankan Nilai Nominal: STRC Semakin Jauh dari Angka $100

Foresight News1j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli WAR

Selamat datang di HTX.com! Kami telah membuat pembelian WAR (WAR) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli WAR (WAR) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan WAR (WAR) AndaSetelah melakukan pembelian, simpan WAR (WAR) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading WAR (WAR)Lakukan trading WAR (WAR) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

301 Total TayanganDipublikasikan pada 2024.12.11Diperbarui pada 2026.06.02

Cara Membeli WAR

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga WAR (WAR) disajikan di bawah ini.

活动图片