Artikel Terbaru Li Fei-Fei: Saat Video Generation, Robot, dan NVIDIA Semua Menyebut Dirinya Model Dunia, Kita Membutuhkan Klasifikasi

链捕手Dipublikasikan tanggal 2026-07-05Terakhir diperbarui pada 2026-07-05

Abstrak

Dalam artikel terbarunya, Fei-Fei Li mengklarifikasi konsep "model dunia" yang saat ini banyak digunakan namun seringkali ambigu dalam bidang AI. Beliau mengusulkan klasifikasi fungsional menjadi tiga kategori berdasarkan kerangka POMDP (Partial Observable Markov Decision Process): **Renderer** (output: observasi/pixel visual, contoh: model video seperti Sora), **Simulator** (output: status geometris dan fisik yang akurat, contoh: engine fisika untuk pelatihan robot), dan **Perencana (Planner)** (output: tindakan, contoh: model yang memandu robot). Di antara ketiganya, simulator dinilai sebagai penghubung kunci yang kurang mendapat perhatian, karena bekerja pada level struktur dunia yang sebenarnya dan dapat mendukung baik renderer maupun perencana. Artikel ini juga menyoroti tren konvergensi ketiga kategori menuju **model dunia terpadu**, yang mampu beralih antar fungsi sesuai kebutuhan, sebagai langkah penting menuju kecerdasan spasial. Li menekankan bahwa model dunia adalah jalur bagi mesin untuk tidak hanya membicarakan, tetapi juga memahami, membayangkan, dan berinteraksi dengan dunia fisik.

Penulis: Li Fei-Fei

Diterjemahkan oleh: Jiayang

“Model dunia” mungkin adalah konsep yang paling panas dan paling kacau di bidang AI sejak tahun 2025. Ketika Sora diluncurkan, OpenAI menyebutnya simulator dunia; Genie yang memungkinkan Anda berjalan-jalan di dalam gambar yang dihasilkan, juga disebut model dunia; perusahaan robotik mengatakan mereka sedang membangun model dunia, NVIDIA mengatakan Omniverse adalah infrastruktur untuk model dunia, bahkan game engine pun ditarik ke dalam narasi ini. Semua orang menggunakan istilah yang sama, tetapi masing-masing merujuk pada hal yang berbeda.

Hari ini, Li Fei-Fei menerbitkan artikel baru di Substack pribadinya, yang mengklarifikasi konsep ini. Dia pertama-tama kembali ke diagram klasik dalam buku teks reinforcement learning (POMDP closed-loop: agent→action→state→observation→agent), lalu menunjukkan bahwa hal-hal yang saat ini disebut "model dunia" sebenarnya adalah tiga proyeksi berbeda dari loop tertutup ini. Yang mengeluarkan piksel (observasi) adalah renderer, yang mengeluarkan keadaan adalah simulator, dan yang mengeluarkan tindakan adalah planner. Kriteria klasifikasinya sangat sederhana: berdasarkan bagian mana dari loop tertutup yang dikeluarkan.

(Sumber: MIT Technology Review)

Dia menilai, di antara ketiganya, renderer adalah yang paling matang secara komersial tetapi memiliki batas atas (bagus secara visual belum tentu benar secara fisik), planner paling menarik tetapi paling jauh dari penerapan nyata (kesenjangan antara demonstrasi lab dan kegunaan praktis masih sangat besar), sedangkan simulator adalah hub kunci yang sangat diremehkan. Karena simulator bekerja pada tingkat geometri, fisika, dan dinamika, ia dapat memproyeksikan ke atas menjadi piksel untuk dikonsumsi manusia, dan juga dapat menyimpulkan konsekuensi tindakan untuk digunakan robot. Menguasai simulasi berarti sekaligus memiliki dasar untuk rendering dan perencanaan; sebaliknya tidak.

Artikel ini tentu juga merupakan pernyataan produk dari World Labs. Marble mereka sudah dapat mengeluarkan Gaussian splat dan collision mesh secara bersamaan, mencoba menyatukan renderer dan simulator ke dalam satu model. Akhir artikel menggambarkan sebuah final di mana ada model dasar dunia yang terpadu, yang dapat beralih bebas antara rendering, simulasi, dan perencanaan sesuai kebutuhan hilir. Apakah visi ini akan terwujud adalah cerita lain, tetapi sebagai kerangka analisis, pembagian tiga bagian renderer/simulator/planner mungkin memang dapat membantu menembus sebagian kebisingan konsep "model dunia" saat ini.

Terjemahan lengkapnya adalah sebagai berikut.

"Dunia adalah jumlah dari semua yang terjadi." — Wittgenstein, Tractatus Logico-Philosophicus, 1921

Dunia tidak terbuat dari kata-kata.

Dalam artikel sebelumnya, kami mengusulkan bahwa kecerdasan spasial adalah frontier AI berikutnya, dan model dunia adalah jalur menujunya. Di sini, tim World Labs dan saya ingin menggali lebih dalam: di antara banyak hal yang sekarang diberi label "model dunia", modul fungsi mana yang benar-benar membangun kemampuan ini? Untuk apa masing-masing digunakan?

Model bahasa memberikan mesin kendali yang kuat atas konsep, kosakata, dan penalaran, tetapi dunia fisik, baik virtual maupun nyata, beroperasi pada dasar yang sama sekali berbeda. Model bahasa mempelajari struktur statistik teks, model dunia mempelajari struktur statistik ruang dan waktu: bagaimana cahaya jatuh pada suatu permukaan, bagaimana tampilan taman dari sudut yang belum pernah diambil kamera, bagaimana objek merespons gaya dan mengikuti hukum fisika.

Ini menjadikan "model dunia" sebagai salah satu istilah terpenting dan sekaligus paling disalahgunakan di bidang AI saat ini. Computer vision, robotika, reinforcement learning, dan AI generatif semuanya mengklaim membangun model dunia, tetapi masing-masing merujuk pada hal yang sangat berbeda. Model video yang dapat menghasilkan api yang indah tetapi secara fisik tidak mungkin, model bahasa yang secara spontan menghasilkan game yang dapat dimainkan, mesin fisika yang secara akurat mensimulasikan proses pembakaran, semuanya disebut dengan nama yang sama.

Orang Yunani kuno tidak pernah bisa menyepakati apa yang membentuk dunia, apakah itu api, air, atau atom yang tidak terbagi, karena "dunia" tidak pernah menjadi satu hal. Itu selalu adalah kata pengganti yang digunakan seorang pemikir untuk bernalar tentang suatu totalitas. AI mewarisi masalah yang sama, dan itu terjadi tepat pada saat bidang ini paling membutuhkan ketepatan.

Loop Tertutup di Balik Taksonomi

Untuk mengklarifikasi kekacauan ini, kita bisa mulai dari diagram yang lebih tua dari semua teknologi di atas. Semua buku teks reinforcement learning, termasuk klasik Sutton dan Barto, selama beberapa dekade telah menggunakan varian dari diagram yang sama untuk menggambarkan bagaimana agen berinteraksi dengan dunia. Nama resminya adalah Partially Observable Markov Decision Process (POMDP), dan definisi awal istilah "model dunia" milik tradisi ini.

Sebuah agen (bisa manusia, robot, atau sistem perangkat lunak) melakukan tindakan. Tindakan ini mengubah keadaan dunia. Tetapi agen tidak pernah bisa melihat keadaan itu sendiri secara langsung, yang diterimanya adalah observasi: foton yang jatuh di retina, pembacaan sensor, piksel dalam bingkai video. Observasi baru memandu tindakan baru, dan seterusnya.

Kata "state" perlu dilihat lebih dekat, karena maknanya bergeser di berbagai bidang. Ini bukan keadaan ahli kimia, bukan perbedaan padat, cair, dan gas. Ini adalah keadaan fisikawan dan ahli robotika: deskripsi lengkap tentang segala sesuatu yang terjadi di dunia pada suatu saat, termasuk setiap objek, setiap posisi, setiap kecepatan, setiap atribut. Keadaan adalah realitas dasar dunia, secara prinsip lengkap, tetapi tidak dapat diamati secara langsung oleh agen mana pun yang berada di dalamnya. Observasi adalah perspektif lokal agen terhadap realitas ini. Tindakan adalah respons agen berdasarkan itu.

Loop tertutup ini (agen→action→state→observation→agent) adalah struktur yang memberikan makna teknis pada istilah "model dunia". Frasa ini sendiri lebih tua, dapat ditelusuri kembali ke usulan Kenneth Craik pada tahun 1943 bahwa pikiran bernalar dengan menjalankan "model skala kecil" realitas, dan pada akhir 1980-an dan awal 1990-an, konsep ini diperkenalkan ke bidang jaringan saraf. Loop tertutup ini juga menjelaskan apa yang dimaksud orang saat mereka menggunakan istilah ini hari ini. Hal-hal yang sekarang disebut model dunia sebenarnya adalah proyeksi berbeda dari loop tertutup yang sama, masing-masing mengeluarkan bagian yang berbeda dari loop.

Tiga Fungsi Model Dunia

Model dunia pertama adalah renderer. Renderer mengeluarkan observasi, khususnya piksel untuk mata manusia, dan metrik kualitas terpenting adalah kesetiaan visual. Model video yang mengubah teks prompt menjadi rekaman aerial tingkat film adalah renderer; sistem interaktif seperti Genie 3 dari Google atau RTFM World Labs sendiri juga renderer, yang menghasilkan gambar secara real-time berdasarkan input pengguna. Model semacam ini tidak memiliki pemahaman eksplisit tentang struktur 3D. Ia menghasilkan apa yang akan dilihat pengamat, bukan seperti apa sesuatu itu sebenarnya. Gedung dalam rekaman aerial mungkin tampak sempurna dari udara, tetapi coba berjalan di kota di bawahnya, mereka akan runtuh.

Yang kedua adalah simulator. Simulator mengeluarkan state: representasi dunia yang setia secara geometri, fisika, atau dinamika, di mana manusia dan program komputer dapat berhitung dan berinteraksi. Kontrak renderer murni visual, sedangkan kontrak simulator struktural, membutuhkan geometri yang dapat diuji, fisika yang mengikuti hukum Newton, perilaku dinamika yang sesuai dengan ekspektasi hukum fisika. Simulator melayani dua jenis pengguna sekaligus. Profesional seperti arsitek, desainer, pembuat film, pengembang game membutuhkan akurasi yang melampaui kredibilitas visual. Program komputer seperti agen reinforcement learning, pengendali robot, kendaraan otonom menggunakan simulator sebagai tempat latihan, berinteraksi dengan dunia secara besar-besaran, menguji skenario yang berbahaya, mahal, atau tidak mungkin dilakukan di dunia nyata.

Yang ketiga adalah planner. Planner mengeluarkan tindakan. Diberikan observasi dan tujuan, planner menjawab pertanyaan: apa yang harus dilakukan agen selanjutnya. Dalam banyak hal, planner adalah proses kebalikan dari renderer. Renderer mengambil tindakan sebagai input, menghasilkan observasi; planner mengambil observasi sebagai input, menghasilkan tindakan, sehingga menutup loop persepsi-aksi. Model Visi-Bahasa-Tindakan (VLA), sistem berbasis model, dan gelombang baru World Action Models, semuanya adalah upaya berbeda untuk planner: membuat sistem dapat memutuskan apa yang harus dilakukan robot di dunia yang tidak terstruktur.

Ketiga kategori di atas mencakup sebagian besar pekerjaan yang saat ini sedang diimplementasikan, dan perbedaannya berguna dalam praktik. Namun ketiga kategori ini tidak terpisah secara fundamental. Mereka berbagi pengetahuan dasar yang sama tentang bagaimana dunia bekerja: geometri, fisika, dinamika. Model yang dapat merender cangkir dari sudut mana pun, pada prinsipnya juga harus dapat mensimulasikan apa yang terjadi jika cangkir didorong, dan merencanakan tangan untuk mengambilnya. Semakin banyak penelitian yang paling menarik dengan sengaja mengaburkan batas antara ketiganya.

Gambar丨Tiga Jenis Model Dunia (Sumber: Substack)

Mengapa Simulasi Adalah Hub Kunci

Dari tiga kategori, simulator menerima perhatian publik paling sedikit, tetapi adalah yang paling penting di antara ketiganya. Artikel ini ingin memperbaiki asimetri ini.

Renderer saat ini adalah yang paling matang secara komersial. Banyak produk pembuat gambar atau teks-ke-video berkembang pesat di pasar konsumen dan perusahaan. Model Nano Banana Google membawa kemampuan pembuatan gambar tingkat renderer ke tangan mungkin ratusan juta pengguna. Teknologinya nyata, pasarnya juga nyata. Namun, tujuan pengoptimalan renderer adalah kredibilitas visual, bukan akurasi fisik, batas atas ini penting. Output mereka indah, tetapi Anda tidak dapat menggunakannya untuk mendesain bangunan atau melatih robot.

Planner adalah yang paling menarik dan paling belum matang, terkait erat dengan bidang pembelajaran robotika yang berkembang cepat. Dua tahun terakhir, bidang ini menghasilkan banyak demonstrasi robot yang terlihat mengesankan di video, tetapi kita perlu jujur tentang apa yang ditunjukkan demonstrasi ini. Hampir semua demonstrasi terbatas pada lingkungan lab yang sangat terbatas, dengan jenis objek terbatas dan durasi tugas singkat. Tidak ada yang telah diuji dengan kompleksitas, keragaman, dan durasi terus-menerus yang dibutuhkan oleh penerapan dunia nyata. Kesenjangan antara video demo yang menarik dan robot yang dapat bekerja andal di dapur, gudang, atau ruang operasi masih sangat besar.

Meski begitu, taruhan komersialnya tetap besar. Gelombang pendatang baru yang didanai dengan baik sedang berlomba-lomba meluncurkan sistem perencanaan umum, sementara pemain infrastruktur besar sedang membangun kemampuan perencanaan di atas tumpukan simulasi yang lebih luas.

Simulasi adalah jembatan yang menghubungkan keduanya. Jika bahasa adalah abstraksi dunia, piksel adalah proyeksi dunia, maka geometri, fisika, dan dinamika adalah dunia itu sendiri. Simulator harus bekerja pada tingkat ini: itu adalah kerangka struktural, di mana representasi visual (untuk digunakan renderer) dan konsekuensi tindakan (untuk digunakan planner) dapat disimpulkan.

Model yang menguasai simulasi dapat memproyeksikan pemahamannya menjadi piksel untuk dikonsumsi manusia, dan juga menjadi prediksi tindakan untuk digunakan agen berwujud. Model yang hanya menguasai rendering atau hanya menguasai perencanaan tidak dapat melakukan keduanya. Ruang komersial di sini sangat luas. Hanya Omniverse NVIDIA saja, pasar sasarannya diperkirakan perusahaan tersebut melebihi triliunan dolar, mencakup pabrik, gudang, rantai pasokan, dan kembaran digital. Pelatihan robot, pengujian kendaraan otonom, visualisasi arsitektur, desain teknik, penemuan obat, semuanya bergantung pada beberapa bentuk simulasi.

Pertanyaan terbuka yang paling sulit di bidang ini juga terkonsentrasi di sini. Data 3D dengan geometri eksplisit, atribut material, dan anotasi fisik beberapa kali lebih langka daripada video internet yang digunakan untuk pelatihan renderer. Kesenjangan sim-to-real (perbedaan perilaku objek dalam simulasi dengan perilaku di dunia nyata) masih ada. Simulator generatif juga memperkenalkan risiko baru: geometri yang dihasilkan AI mungkin terlihat benar, tetapi sebenarnya mengandung masalah seperti perpotongan sendiri atau proporsi yang salah, menyebabkan simulasi fisik menghasilkan hasil yang tidak masuk akal. Biaya komputasi untuk simulasi multi-fisika skala besar (benda tegar, benda dapat berubah bentuk, fluida, kain semua berinteraksi bersamaan) masih beberapa kali lipat lebih tinggi daripada simulasi domain tunggal.

Di World Labs, Marble adalah langkah pertama kami ke arah ini. Ia menerima input multimodal (teks, gambar, video, atau sketsa spasial), menghasilkan lingkungan 3D yang dapat dieksplorasi, sekaligus mengeluarkan Gaussian splats untuk eksplorasi visual dan collision mesh untuk dioperasikan oleh mesin fisika. Tetapi Marble hanyalah bab pertama dari garis panjang. Saat batas antara rendering, simulasi, dan perencanaan mulai memudar, seluruh bidang sedang menulis cerita ini.

Batas Mulai Memudar, dan Apa yang Akan Terjadi Selanjutnya

Tren terpenting saat ini di bidang ini adalah ketiga kategori mulai menyatu. Konsensus yang mendasarinya adalah: pengetahuan yang dibutuhkan untuk merender dunia, mensimulasikannya, dan bertindak di dalamnya sebagian besar sama. Mengikuti contoh sebelumnya, model yang benar-benar memahami bagaimana cangkir diletakkan di atas meja (bentuk geometrinya, sifat materialnya, responsnya terhadap gaya, dll.) seharusnya dapat merender cangkir itu dari sudut mana pun, mensimulasikan apa yang terjadi jika cangkir didorong, dan merencanakan tangan untuk mengambilnya. Ketiga kategori adalah tiga proyeksi dari pemahaman dasar yang sama.

Misalnya, baru-baru ini ada sedikit tetapi pekerjaan yang berkembang dari berbagai lab robotika, menunjukkan kemungkinan yang setidaknya secara konseptual layak: renderer video yang telah dilatih sebelumnya dapat berfungsi sebagai backbone network untuk prediksi dunia dan prediksi tindakan bersama, memungkinkan model tunggal sekaligus membayangkan "apa yang akan terjadi" dan "apa yang harus dilakukan", sehingga menjembatani renderer dan planner. Marble dari World Labs sudah dapat mengeluarkan Gaussian splats dan collision mesh dari model tunggal, menghilangkan batas antara renderer dan simulator. Setiap lapisan beralih dari output pasif ke sistem interaktif: renderer menjadi responsif terhadap kondisi tindakan, dunia yang dihasilkan simulator menjadi lebih terkendali dan dapat diedit, planner mulai melakukan penalaran yang hati-hati, bukan hanya bereaksi.

Tujuan logisnya adalah model dunia yang terpadu: model dasar yang dapat merender tampilan yang fotorealistis, menghasilkan struktur yang akurat secara fisik, merencanakan urutan tindakan, dan beralih di antara modalitas output yang berbeda sesuai kebutuhan pengguna hilir. Kita masih akan menghadapi serangkaian tantangan berat. Lanskap data sangat tidak seimbang, renderer memiliki banyak video internet, sementara simulator dan planner menghadapi kelangkaan data aset 3D dan demonstrasi robotik yang parah. Pengoptimalan untuk estetika visual dapat mengorbankan presisi yang dibutuhkan oleh robotika atau simulasi high-fidelity. Merekonsiliasi ketegangan ini dalam satu arsitektur adalah masalah terbuka inti dari penelitian model dunia saat ini, dan juga yang World Labs berusaha selesaikan saat Marble terus berkembang.

(Sumber: Substack)

Tetapi arah besarnya sudah jelas. Dari akhir 1980-an hingga sekarang, bidang ini selalu bertaruh pada hal yang sama: selama model dunia cukup kaya, semua yang dibutuhkan agen untuk melihat dunia, membangun dunia, dan bertindak di dalamnya ada di dalamnya. Taruhan ini sekarang mendorong penelitian satu generasi. Dan yang benar-benar memberikan bobotnya adalah fusi yang sudah terjadi: rendering, simulasi, perencanaan, tiga garis, masing-masing sudah mendukung industri bernilai miliaran dolar, mereka awalnya adalah arah penelitian independen, sekarang mulai menyatu. Ketika batas hilang, penyatuan ketiganya akan mendefinisikan ulang hal yang lebih besar: hubungan antara kecerdasan mesin dan dunia fisik yang dihuninya, yaitu arah jangka panjang kecerdasan spasial.

Bahasa memberi mesin cara untuk membicarakan dunia ini. Model dunia, adalah cara mesin akhirnya memahami, membayangkan, bernalar, dan berinteraksi dengannya.

Referensi:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Kripto yang Sedang Tren

Pertanyaan Terkait

QBerdasarkan artikel, apa saja tiga fungsi utama model dunia yang dijelaskan oleh Li Fei-Fei?

ATiga fungsi utama model dunia adalah: 1) Renderer (Penyaji), yang menghasilkan pengamatan (piksel visual); 2) Simulator, yang menghasilkan keadaan (representasi geometri, fisika, dan dinamika yang akurat); 3) Planner (Perencana), yang menghasilkan tindakan untuk agen cerdas.

QMengapa menurut artikel, simulator dianggap sebagai penghubung kunci dalam ekosistem model dunia?

ASimulator dianggap sebagai penghubung kunci karena bekerja pada tingkat yang paling mendasar (geometri, fisika, dan dinamika), yang merupakan representasi struktural dari dunia. Dari pemahaman ini, pengetahuan dapat diproyeksikan ke atas menjadi piksel untuk rendering dan ke bawah menjadi prediksi konsekuensi tindakan untuk perencanaan. Sebaliknya, model yang hanya bisa rendering atau planning tidak dapat melakukan keduanya.

QApa yang dimaksud dengan istilah 'POMDP closed loop' yang menjadi dasar klasifikasi model dunia?

A'POMDP closed loop' (lingkaran tertutup POMDP - Partially Observable Markov Decision Process) adalah kerangka kerja klasik dalam pembelajaran penguatan. Lingkaran ini menggambarkan interaksi agen dengan dunia: Agen → Tindakan → Keadaan Dunia → Pengamatan → Agen. Lingkaran inilah yang memberikan makna teknis pada istilah 'model dunia', dan klasifikasi tiga fungsi (renderer, simulator, planner) didasarkan pada bagian mana dari lingkaran ini yang menjadi output model tersebut.

QMenurut artikel, apa saja tantangan utama dalam pengembangan simulator yang disebutkan?

ATantangan utama dalam pengembangan simulator mencakup: 1) Kelangkaan data 3D dengan anotasi geometri, atribut material, dan fisika yang eksplisit; 2) Kesenjangan 'sim-to-real' (perilaku objek dalam simulasi vs. dunia nyata); 3) Risiko geometri yang dihasilkan AI terlihat benar tetapi mengandung kesalahan (seperti perpotongan diri) yang menyebabkan simulasi fisika tidak akurat; 4) Biaya komputasi tinggi untuk simulasi multi-fisika skala besar.

QApa visi akhir atau 'logical end point' untuk pengembangan model dunia seperti yang diuraikan dalam artikel?

AVisi akhirnya adalah sebuah model dunia terpadu (unified world model) atau model dasar yang mampu merender tampilan realistik fotografi, menghasilkan struktur yang akurat secara fisika, dan merencanakan urutan tindakan. Model ini dapat beralih di antara modalitas output ini sesuai kebutuhan pengguna hilir, dengan memanfaatkan pemahaman dasar yang sama tentang dunia. Tiga kategori yang awalnya terpisah (rendering, simulasi, perencanaan) akan menyatu untuk mendefinisikan kembali hubungan antara kecerdasan mesin dan dunia fisik.

Bacaan Terkait

Artikel Terbaru Li Feifei: Saat Video Generation, Robot, dan NVIDIA Mengaku Sebagai Model Dunia, Kita Membutuhkan Taksonomi

Artikel ini membahas konsep "world model" (model dunia) dalam kecerdasan buatan (AI) yang saat ini banyak digunakan dengan makna berbeda-beda. Fei-Fei Li mengusulkan taksonomi fungsional untuk mengklarifikasi kekacauan ini. Berdasarkan siklus interaksi agen-dunia dalam POMDP (Partially Observable Markov Decision Process), ia mengategorikan model dunia menjadi tiga jenis berdasarkan outputnya: 1. **Renderer (Perender):** Menghasilkan **observasi**, khususnya piksel yang ditujukan untuk mata manusia. Contohnya adalah model video seperti Sora atau sistem interaktif seperti Genie yang menghasilkan gambar berdasarkan input. Fokus utamanya adalah kesetiaan visual, bukan akurasi fisik. 2. **Simulator (Simulator):** Menghasilkan **state (keadaan)**, yaitu representasi dunia yang akurat secara geometri, fisika, dan dinamika. Simulator berfungsi sebagai landasan struktural untuk perhitungan, digunakan oleh profesional (arsitek, desainer) dan program komputer (robot, kendaraan otonom) untuk pelatihan dan pengujian. Contohnya adalah platform seperti NVIDIA Omniverse. 3. **Planner (Perencana):** Menghasilkan **tindakan**. Model ini menentukan langkah selanjutnya yang harus diambil sebuah agen berdasarkan observasi dan tujuan. Ini menutup lingkaran persepsi-aksi. Contohnya adalah model visi-bahasa-aksi (VLA) dan model aksi dunia (World Action Models). Artikel menyoroti bahwa **simulator adalah kunci penghubung** yang paling penting namun kurang mendapat perhatian publik. Simulator bekerja pada tingkat geometri dan fisika yang mendasarinya, sehingga pemahamannya dapat diproyeksikan ke dalam piksel (untuk renderer) atau prediksi konsekuensi tindakan (untuk planner). Tren terpenting saat ini adalah peleburan batas antara ketiga kategori ini, didorong oleh kesadaran bahwa pengetahuan dasar tentang dunia yang dibutuhkan adalah sama. Tujuan akhirnya adalah model dunia terpadu yang dapat beralih di antara rendering, simulasi, dan perencanaan sesuai kebutuhan. Perkembangan ini mendorong kemajuan menuju kecerdasan spasial, di mana mesin tidak hanya memahami bahasa tentang dunia, tetapi juga dapat memahami, membayangkan, bernalar, dan berinteraksi dengan dunia fisik itu sendiri.

marsbit2j yang lalu

Artikel Terbaru Li Feifei: Saat Video Generation, Robot, dan NVIDIA Mengaku Sebagai Model Dunia, Kita Membutuhkan Taksonomi

marsbit2j yang lalu

Esai Khusus Forbes: Pembayaran Lintas Batas dengan Stablecoin Lebih Cepat, Tapi Belum Lebih Murah

Pembayaran lintas batas menggunakan stablecoin berkembang pesat, dengan teknologi yang matang, lingkungan regulasi yang membaik, dan volume transaksi yang meningkat. Meskipun lebih cepat, dapat diakses, dan andal, janji untuk biaya yang lebih murah belum sepenuhnya terwujud. Saat ini, pedagang valas sering mengenakan biaya 60-70 basis poin untuk pembayaran pemasok lintas batas, sementara stablecoin berpotensi menurunkannya menjadi 2-5 basis poin. Namun, kolam likuiditas yang dalam untuk mewujudkan penghematan ini belum terbangun secara masif. Menurut Imran Ahmad dari Bitso Business, keunggulan biaya masih teoritis hingga likuiditas institusional besar-besaran mengalir ke saluran ini. Hambatan adopsi utama adalah kepercayaan. Banyak bisnis memiliki hubungan lama dan tepercaya dengan pedagang valas tradisional, yang dianggap lebih dapat diandalkan meski lebih mahal. Peralihan akan terjadi secara bertahap seiring perbedaan harga yang semakin jelas dan generasi baru yang lebih terbuka. Perusahaan sukses seperti Caliza tidak berusaha menggantikan infrastruktur lama seperti SWIFT, melainkan melengkapinya. Mereka menggunakan stablecoin untuk kecepatan, tetapi tetap memanfaatkan sistem tradisional untuk memastikan keakuratan detail pembayaran yang kritis. Pertumbuhan Caliza yang konsisten (lebih dari 40% bulan-ke-bulan) menunjukkan kekuatan pendekatan hybrid ini. Masa depan industri ini akan ditentukan oleh tiga faktor kunci: lisensi, akses on/off-ramp mata uang fiat, dan likuiditas. Konsolidasi diperkirakan akan terjadi, di mana hanya perusahaan dengan fondasi kuat di ketiga area ini yang akan bertahan sebagai bisnis yang berkelanjutan, bukan sekadar perantara.

链捕手2j yang lalu

Esai Khusus Forbes: Pembayaran Lintas Batas dengan Stablecoin Lebih Cepat, Tapi Belum Lebih Murah

链捕手2j yang lalu

Trading

Spot

Artikel Populer

Apa Itu $S$

Memahami SPERO: Tinjauan Komprehensif Pengenalan SPERO Seiring dengan perkembangan lanskap inovasi, munculnya teknologi web3 dan proyek cryptocurrency memainkan peran penting dalam membentuk masa depan digital. Salah satu proyek yang telah menarik perhatian di bidang dinamis ini adalah SPERO, yang dilambangkan sebagai SPERO,$$s$. Artikel ini bertujuan untuk mengumpulkan dan menyajikan informasi terperinci tentang SPERO, untuk membantu para penggemar dan investor memahami dasar-dasar, tujuan, dan inovasi dalam domain web3 dan crypto. Apa itu SPERO,$$s$? SPERO,$$s$ adalah proyek unik dalam ruang crypto yang berusaha memanfaatkan prinsip desentralisasi dan teknologi blockchain untuk menciptakan ekosistem yang mendorong keterlibatan, utilitas, dan inklusi finansial. Proyek ini dirancang untuk memfasilitasi interaksi peer-to-peer dengan cara baru, memberikan pengguna solusi dan layanan keuangan yang inovatif. Pada intinya, SPERO,$$s$ bertujuan untuk memberdayakan individu dengan menyediakan alat dan platform yang meningkatkan pengalaman pengguna dalam ruang cryptocurrency. Ini termasuk memungkinkan metode transaksi yang lebih fleksibel, mendorong inisiatif yang dipimpin komunitas, dan menciptakan jalur untuk peluang finansial melalui aplikasi terdesentralisasi (dApps). Visi mendasar dari SPERO,$$s$ berputar di sekitar inklusivitas, bertujuan untuk menjembatani kesenjangan dalam keuangan tradisional sambil memanfaatkan manfaat teknologi blockchain. Siapa Pencipta SPERO,$$s$? Identitas pencipta SPERO,$$s$ tetap agak samar, karena ada sumber daya publik yang terbatas yang memberikan informasi latar belakang terperinci tentang pendiriannya. Kurangnya transparansi ini dapat berasal dari komitmen proyek terhadap desentralisasi—sebuah etos yang banyak proyek web3 bagi, memprioritaskan kontribusi kolektif di atas pengakuan individu. Dengan memusatkan diskusi di sekitar komunitas dan tujuan kolektifnya, SPERO,$$s$ mewujudkan esensi pemberdayaan tanpa menonjolkan individu tertentu. Dengan demikian, memahami etos dan misi SPERO tetap lebih penting daripada mengidentifikasi pencipta tunggal. Siapa Investor SPERO,$$s$? SPERO,$$s$ didukung oleh beragam investor mulai dari modal ventura hingga investor malaikat yang berdedikasi untuk mendorong inovasi di sektor crypto. Fokus investor ini umumnya sejalan dengan misi SPERO—memprioritaskan proyek yang menjanjikan kemajuan teknologi sosial, inklusivitas finansial, dan tata kelola terdesentralisasi. Fondasi investor ini biasanya tertarik pada proyek yang tidak hanya menawarkan produk inovatif tetapi juga memberikan kontribusi positif kepada komunitas blockchain dan ekosistemnya. Dukungan dari investor ini memperkuat SPERO,$$s$ sebagai pesaing yang patut diperhitungkan di domain proyek crypto yang berkembang pesat. Bagaimana SPERO,$$s$ Bekerja? SPERO,$$s$ menerapkan kerangka kerja multi-faceted yang membedakannya dari proyek cryptocurrency konvensional. Berikut adalah beberapa fitur kunci yang menekankan keunikan dan inovasinya: Tata Kelola Terdesentralisasi: SPERO,$$s$ mengintegrasikan model tata kelola terdesentralisasi, memberdayakan pengguna untuk berpartisipasi aktif dalam proses pengambilan keputusan mengenai masa depan proyek. Pendekatan ini mendorong rasa kepemilikan dan akuntabilitas di antara anggota komunitas. Utilitas Token: SPERO,$$s$ memanfaatkan token cryptocurrency-nya sendiri, yang dirancang untuk melayani berbagai fungsi dalam ekosistem. Token ini memungkinkan transaksi, hadiah, dan fasilitasi layanan yang ditawarkan di platform, meningkatkan keterlibatan dan utilitas secara keseluruhan. Arsitektur Berlapis: Arsitektur teknis SPERO,$$s$ mendukung modularitas dan skalabilitas, memungkinkan integrasi fitur dan aplikasi tambahan secara mulus seiring dengan perkembangan proyek. Kemampuan beradaptasi ini sangat penting untuk mempertahankan relevansi di lanskap crypto yang selalu berubah. Keterlibatan Komunitas: Proyek ini menekankan inisiatif yang dipimpin komunitas, menggunakan mekanisme yang memberikan insentif untuk kolaborasi dan umpan balik. Dengan memelihara komunitas yang kuat, SPERO,$$s$ dapat lebih baik memenuhi kebutuhan pengguna dan beradaptasi dengan tren pasar. Fokus pada Inklusi: Dengan menawarkan biaya transaksi yang rendah dan antarmuka yang ramah pengguna, SPERO,$$s$ bertujuan untuk menarik basis pengguna yang beragam, termasuk individu yang mungkin sebelumnya tidak terlibat dalam ruang crypto. Komitmen ini terhadap inklusi sejalan dengan misi utamanya untuk memberdayakan melalui aksesibilitas. Garis Waktu SPERO,$$s$ Memahami sejarah proyek memberikan wawasan penting tentang trajektori dan tonggak perkembangannya. Berikut adalah garis waktu yang disarankan yang memetakan peristiwa signifikan dalam evolusi SPERO,$$s$: Fase Konseptualisasi dan Ideasi: Ide awal yang membentuk dasar SPERO,$$s$ dikembangkan, sangat selaras dengan prinsip desentralisasi dan fokus komunitas dalam industri blockchain. Peluncuran Whitepaper Proyek: Setelah fase konseptual, whitepaper komprehensif yang merinci visi, tujuan, dan infrastruktur teknologi SPERO,$$s$ dirilis untuk menarik minat dan umpan balik komunitas. Pembangunan Komunitas dan Keterlibatan Awal: Upaya jangkauan aktif dilakukan untuk membangun komunitas pengguna awal dan investor potensial, memfasilitasi diskusi seputar tujuan proyek dan mendapatkan dukungan. Acara Generasi Token: SPERO,$$s$ melakukan acara generasi token (TGE) untuk mendistribusikan token asli kepada pendukung awal dan membangun likuiditas awal dalam ekosistem. Peluncuran dApp Awal: Aplikasi terdesentralisasi (dApp) pertama yang terkait dengan SPERO,$$s$ diluncurkan, memungkinkan pengguna untuk terlibat dengan fungsionalitas inti platform. Pengembangan Berkelanjutan dan Kemitraan: Pembaruan dan peningkatan berkelanjutan terhadap penawaran proyek, termasuk kemitraan strategis dengan pemain lain di ruang blockchain, telah membentuk SPERO,$$s$ menjadi pemain yang kompetitif dan berkembang di pasar crypto. Kesimpulan SPERO,$$s$ berdiri sebagai bukti potensi web3 dan cryptocurrency untuk merevolusi sistem keuangan dan memberdayakan individu. Dengan komitmen terhadap tata kelola terdesentralisasi, keterlibatan komunitas, dan fungsionalitas yang dirancang secara inovatif, ia membuka jalan menuju lanskap keuangan yang lebih inklusif. Seperti halnya investasi di ruang crypto yang berkembang pesat, calon investor dan pengguna dianjurkan untuk melakukan riset secara menyeluruh dan terlibat dengan perkembangan yang sedang berlangsung dalam SPERO,$$s$. Proyek ini menunjukkan semangat inovatif industri crypto, mengundang eksplorasi lebih lanjut ke dalam berbagai kemungkinan yang ada. Meskipun perjalanan SPERO,$$s$ masih berlangsung, prinsip-prinsip dasarnya mungkin benar-benar mempengaruhi masa depan cara kita berinteraksi dengan teknologi, keuangan, dan satu sama lain dalam ekosistem digital yang saling terhubung.

106 Total TayanganDipublikasikan pada 2024.12.17Diperbarui pada 2024.12.17

Apa Itu $S$

Apa Itu AGENT S

Agent S: Masa Depan Interaksi Otonom di Web3 Pendahuluan Dalam lanskap Web3 dan cryptocurrency yang terus berkembang, inovasi secara konstan mendefinisikan ulang cara individu berinteraksi dengan platform digital. Salah satu proyek perintis, Agent S, menjanjikan untuk merevolusi interaksi manusia-komputer melalui kerangka agen terbuka. Dengan membuka jalan untuk interaksi otonom, Agent S bertujuan untuk menyederhanakan tugas-tugas kompleks, menawarkan aplikasi transformasional dalam kecerdasan buatan (AI). Eksplorasi mendetail ini akan menyelami seluk-beluk proyek, fitur uniknya, dan implikasinya untuk domain cryptocurrency. Apa itu Agent S? Agent S berdiri sebagai kerangka agen terbuka yang inovatif, dirancang khusus untuk mengatasi tiga tantangan mendasar dalam otomatisasi tugas komputer: Memperoleh Pengetahuan Spesifik Domain: Kerangka ini secara cerdas belajar dari berbagai sumber pengetahuan eksternal dan pengalaman internal. Pendekatan ganda ini memberdayakannya untuk membangun repositori pengetahuan spesifik domain yang kaya, meningkatkan kinerjanya dalam pelaksanaan tugas. Perencanaan Selama Rentang Tugas yang Panjang: Agent S menggunakan perencanaan hierarkis yang ditingkatkan pengalaman, pendekatan strategis yang memfasilitasi pemecahan dan pelaksanaan tugas-tugas rumit dengan efisien. Fitur ini secara signifikan meningkatkan kemampuannya untuk mengelola beberapa subtugas dengan efisien dan efektif. Menangani Antarmuka Dinamis dan Tidak Seragam: Proyek ini memperkenalkan Antarmuka Agen-Komputer (ACI), solusi inovatif yang meningkatkan interaksi antara agen dan pengguna. Dengan memanfaatkan Model Bahasa Besar Multimodal (MLLM), Agent S dapat menavigasi dan memanipulasi berbagai antarmuka pengguna grafis dengan mulus. Melalui fitur-fitur perintis ini, Agent S menyediakan kerangka kerja yang kuat yang mengatasi kompleksitas yang terlibat dalam mengotomatisasi interaksi manusia dengan mesin, membuka jalan untuk berbagai aplikasi dalam AI dan seterusnya. Siapa Pencipta Agent S? Meskipun konsep Agent S secara fundamental inovatif, informasi spesifik tentang penciptanya tetap samar. Pencipta saat ini tidak diketahui, yang menyoroti baik tahap awal proyek atau pilihan strategis untuk menjaga anggota pendiri tetap tersembunyi. Terlepas dari anonimitas, fokus tetap pada kemampuan dan potensi kerangka kerja. Siapa Investor Agent S? Karena Agent S relatif baru dalam ekosistem kriptografi, informasi terperinci mengenai investor dan pendukung keuangannya tidak secara eksplisit didokumentasikan. Kurangnya wawasan yang tersedia untuk umum mengenai fondasi investasi atau organisasi yang mendukung proyek ini menimbulkan pertanyaan tentang struktur pendanaannya dan peta jalan pengembangannya. Memahami dukungan sangat penting untuk mengukur keberlanjutan proyek dan potensi dampak pasar. Bagaimana Cara Kerja Agent S? Di inti Agent S terletak teknologi mutakhir yang memungkinkannya berfungsi secara efektif dalam berbagai pengaturan. Model operasionalnya dibangun di sekitar beberapa fitur kunci: Interaksi Komputer yang Mirip Manusia: Kerangka ini menawarkan perencanaan AI yang canggih, berusaha untuk membuat interaksi dengan komputer lebih intuitif. Dengan meniru perilaku manusia dalam pelaksanaan tugas, ia menjanjikan untuk meningkatkan pengalaman pengguna. Memori Naratif: Digunakan untuk memanfaatkan pengalaman tingkat tinggi, Agent S memanfaatkan memori naratif untuk melacak sejarah tugas, sehingga meningkatkan proses pengambilan keputusannya. Memori Episodik: Fitur ini memberikan panduan langkah demi langkah kepada pengguna, memungkinkan kerangka untuk menawarkan dukungan kontekstual saat tugas berlangsung. Dukungan untuk OpenACI: Dengan kemampuan untuk berjalan secara lokal, Agent S memungkinkan pengguna untuk mempertahankan kontrol atas interaksi dan alur kerja mereka, sejalan dengan etos terdesentralisasi Web3. Integrasi Mudah dengan API Eksternal: Versatilitas dan kompatibilitasnya dengan berbagai platform AI memastikan bahwa Agent S dapat dengan mulus masuk ke dalam ekosistem teknologi yang ada, menjadikannya pilihan menarik bagi pengembang dan organisasi. Fungsionalitas ini secara kolektif berkontribusi pada posisi unik Agent S dalam ruang kripto, saat ia mengotomatisasi tugas-tugas kompleks yang melibatkan banyak langkah dengan intervensi manusia yang minimal. Seiring proyek ini berkembang, aplikasi potensialnya di Web3 dapat mendefinisikan ulang bagaimana interaksi digital berlangsung. Garis Waktu Agent S Pengembangan dan tonggak Agent S dapat dirangkum dalam garis waktu yang menyoroti peristiwa pentingnya: 27 September 2024: Konsep Agent S diluncurkan dalam sebuah makalah penelitian komprehensif berjudul “Sebuah Kerangka Agen Terbuka yang Menggunakan Komputer Seperti Manusia,” yang menunjukkan dasar untuk proyek ini. 10 Oktober 2024: Makalah penelitian tersebut dipublikasikan secara terbuka di arXiv, menawarkan eksplorasi mendalam tentang kerangka kerja dan evaluasi kinerjanya berdasarkan tolok ukur OSWorld. 12 Oktober 2024: Sebuah presentasi video dirilis, memberikan wawasan visual tentang kemampuan dan fitur Agent S, lebih lanjut melibatkan pengguna dan investor potensial. Tanda-tanda dalam garis waktu ini tidak hanya menggambarkan kemajuan Agent S tetapi juga menunjukkan komitmennya terhadap transparansi dan keterlibatan komunitas. Poin Kunci Tentang Agent S Seiring kerangka Agent S terus berkembang, beberapa atribut kunci menonjol, menekankan sifat inovatif dan potensinya: Kerangka Inovatif: Dirancang untuk memberikan penggunaan komputer yang intuitif seperti interaksi manusia, Agent S membawa pendekatan baru untuk otomatisasi tugas. Interaksi Otonom: Kemampuan untuk berinteraksi secara otonom dengan komputer melalui GUI menandakan lompatan menuju solusi komputasi yang lebih cerdas dan efisien. Otomatisasi Tugas Kompleks: Dengan metodologinya yang kuat, ia dapat mengotomatisasi tugas-tugas kompleks yang melibatkan banyak langkah, membuat proses lebih cepat dan kurang rentan terhadap kesalahan. Perbaikan Berkelanjutan: Mekanisme pembelajaran memungkinkan Agent S untuk belajar dari pengalaman masa lalu, terus meningkatkan kinerja dan efektivitasnya. Versatilitas: Adaptabilitasnya di berbagai lingkungan operasi seperti OSWorld dan WindowsAgentArena memastikan bahwa ia dapat melayani berbagai aplikasi. Saat Agent S memposisikan dirinya di lanskap Web3 dan kripto, potensinya untuk meningkatkan kemampuan interaksi dan mengotomatisasi proses menandakan kemajuan signifikan dalam teknologi AI. Melalui kerangka inovatifnya, Agent S mencerminkan masa depan interaksi digital, menjanjikan pengalaman yang lebih mulus dan efisien bagi pengguna di berbagai industri. Kesimpulan Agent S mewakili lompatan berani ke depan dalam pernikahan AI dan Web3, dengan kapasitas untuk mendefinisikan ulang cara kita berinteraksi dengan teknologi. Meskipun masih dalam tahap awal, kemungkinan aplikasinya sangat luas dan menarik. Melalui kerangka komprehensifnya yang mengatasi tantangan kritis, Agent S bertujuan untuk membawa interaksi otonom ke garis depan pengalaman digital. Saat kita melangkah lebih dalam ke dalam ranah cryptocurrency dan desentralisasi, proyek-proyek seperti Agent S pasti akan memainkan peran penting dalam membentuk masa depan teknologi dan kolaborasi manusia-komputer.

954 Total TayanganDipublikasikan pada 2025.01.14Diperbarui pada 2025.01.14

Apa Itu AGENT S

Cara Membeli S

Selamat datang di HTX.com! Kami telah membuat pembelian Sonic (S) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Sonic (S) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Sonic (S) AndaSetelah melakukan pembelian, simpan Sonic (S) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Sonic (S)Lakukan trading Sonic (S) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

1.5k Total TayanganDipublikasikan pada 2025.01.15Diperbarui pada 2026.06.02

Cara Membeli S

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga S (S) disajikan di bawah ini.

活动图片