Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

marsbitDipublikasikan tanggal 2026-05-11Terakhir diperbarui pada 2026-05-11

Abstrak

Dalam eksperimen terbarunya, insinyur OpenAI, Weng Jiayi, mengusulkan paradigma baru untuk AI agentik yang disebut "Heuristic Learning" (HL). Berbeda dengan pendekatan tradisional yang mengandalkan pelatihan model neural berskala besar, HL memungkinkan AI (dalam hal ini Codex) untuk secara mandiri menulis, menjalankan, menguji, dan merevisi kode program strategi berdasarkan tujuan, lingkungan yang dapat dijalankan, dan umpan balik tertutup. Dalam eksperimen utama di lingkungan Atari Breakout, agen Codex berhasil mengembangkan strategi kode Python murni yang mencapai skor sempurna 864. Prosesnya melibatkan siklus iteratif: menulis kode, menjalankan simulasi, menganalisis log dan rekaman video, mengidentifikasi kegagalan, lalu memodifikasi kode. Pengalaman "dipelajari" tidak disimpan dalam bobot neural network, tetapi dalam sistem perangkat lunak yang dapat dibaca, diubah, dan diaudit. Eksperimen lebih lanjut di 57 game Atari menunjukkan bahwa pendekatan HL memiliki efisiensi sampel yang mengesankan di awal, mencapai kinerja sebanding dengan algoritma Reinforcement Learning (RL) seperti PPO dalam jutaan langkah. Namun, HL memiliki batasan dalam tugas yang memerlukan perencanaan jangka panjang dan urutan aksi kompleks, seperti yang terlihat dalam game Montezuma's Revenge. Paradigma HL ini berpotensi memiliki implikasi signifikan di industri, terutama dalam: 1) Kontrol robotik untuk skenario terstruktur, mengurangi ketergantungan pada inferensi neural network berat di setiap l...

Sepuluh tahun terakhir, AI menjadi lebih kuat terutama melalui satu jalur: menuangkan lebih banyak data dan daya komputasi ke dalam model yang lebih besar, membiarkan pengalaman mengendap di dalam parameter jaringan saraf. Jalur ini menciptakan lompatan besar dalam model besar setelah ChatGPT, tetapi juga meninggalkan sebuah teka-teki: model semakin kuat, namun mengapa ia berhasil atau gagal seringkali masih sulit dijelaskan dan diperbaiki.

Eksperimen terbaru oleh insinyur OpenAI, Weng Jiayi, mengusulkan kemungkinan lain: dalam tujuan yang jelas, lingkungan yang dapat dijalankan, dan lingkaran umpan balik yang tertutup, AI tidak hanya bisa menjadi lebih kuat dengan melatih model, tetapi juga bisa menjadi lebih kuat dengan "mengubah kodenya secara mandiri".

Pada 8 Mei 2026, Weng Jiayi secara sistematis menuliskan rangkaian eksperimen ini di blog pribadinya, "Learning Beyond Gradients", dan secara bersamaan membuka repositori kode, log eksperimen CSV, serta rekaman video. Dia telah lama berfokus pada infrastruktur pembelajaran penguatan (reinforcement learning) dan pasca-pelatihan, terlibat dalam peluncuran awal ChatGPT, serta berkontribusi dalam proyek-proyek seperti GPT-4, GPT-4 Turbo, GPT-4o, o-series, dan GPT-5; sebelum bergabung dengan OpenAI, dia lulus S1 dari Departemen Ilmu Komputer Universitas Tsinghua, mengambil S2 di Carnegie Mellon University, dan juga merupakan penulis utama dari pustaka pembelajaran penguatan open-source Tianshou dan mesin lingkungan paralel berkinerja tinggi EnvPool.

Gambar dibuat oleh AI

Dia membuat Codex berulang kali menulis kode strategi, menjalankan lingkungan, membaca log, melihat rekaman, mengidentifikasi kegagalan, lalu mengubah kode, menambahkan pengujian, dan melanjutkan evaluasi. Setelah beberapa iterasi, Codex "mengembangkan" serangkaian strategi prosedural murni dalam Python: mencapai skor sempurna teoretis 864 di Atari Breakout, dan di lingkungan simulasi kontrol robot seperti MuJoCo Ant dan HalfCheetah, juga mencapai performa mendekati algoritma pembelajaran penguatan mendalam (deep reinforcement learning) yang umum.

Bagian yang benar-benar penting dari rangkaian eksperimen ini adalah sebuah pertanyaan inti: Ketika agen pengodean (coding agent) cukup kuat, apakah pembelajaran harus selalu terjadi di dalam bobot jaringan saraf?

Dalam rangkaian eksperimen ini, pengalaman ditulis ke dalam kode, pengujian, log, dan rekaman, menjadi sistem perangkat lunak yang dapat dibaca, diubah, ditinjau, dan diaudit. Jika arah ini terus terbukti, langkah berikutnya untuk Agentic AI mungkin tidak hanya melatih model yang lebih besar, tetapi juga melibatkan model dalam memelihara sistem rekayasa yang terus berevolusi.

01 Siklus Rekayasa dari 387 Poin ke Skor Sempurna

Dalam blognya, Weng Jiayi menulis, titik awal eksperimen ini sebenarnya adalah kebutuhan rekayasa. Dalam waktu luangnya, dia memelihara EnvPool dan membutuhkan cara yang lebih murah daripada "menjalankan jaringan saraf setiap kali" untuk menguji apakah lingkungan permainan berjalan normal, karena memasukkan jaringan saraf ke dalam CI (Continuous Integration) terlalu mahal. Masalah awalnya adalah: Bisakah menulis aturan heuristik yang murah, dapat direproduksi, dan secara jelas lebih kuat daripada strategi acak, untuk menggerakkan lingkungan ke keadaan yang kaya informasi?

Dia mencoba menggunakan Codex (model dasar gpt-5.4) untuk menulis versi yang sepenuhnya berbasis aturan. Prompt awal sangat langsung: "Tulis strategi yang bisa menyelesaikan Breakout." Hasilnya tidak ideal. Skor rendah itu sendiri tidak memberikan informasi apa pun, seperti mungkin semantik aksi salah, deteksi status salah, alur evaluasi salah, atau struktur strategi itu sendiri terlalu lemah.

Kemudian Weng Jiayi mengubah bentuk tugas. Dia tidak lagi meminta Codex langsung menyerahkan policy.py, tetapi memintanya memelihara seluruh siklus: mendeteksi aksi dan observasi, menulis detektor status, menulis strategi, menjalankan episode lengkap, mencatat trials.jsonl dan summary.csv, menghasilkan video atau kurva, memeriksa pola kegagalan, mengubah strategi, menyederhanakan kode, menjalankan regresi.

Catatan eksperimen Breakout merekam proses ini dengan sangat jelas. Putaran pertama, Codex terlebih dahulu mengonfirmasi ruang aksi dan bentuk observasi, mengidentifikasi warna bola, pemukul, dan bata dari frame RGB, lalu menggunakan tag gambar untuk memindai RAM Atari 128 byte. Baseline awal hanya mendapat 99 poin. Setelah menambahkan logika offset terowongan, skor naik ke 387 poin.

387 poin adalah skor lokal tinggi yang mudah menyesatkan. Strategi sudah bisa stabil menangkap bola, tetapi lintasan bola terjebak dalam siklus periodik: tidak kehilangan nyawa, tetapi juga tidak bisa memukul bata baru lagi, skor terjebak. Jika manusia yang menulis kode, mungkin akan terus menyesuaikan "akurasi menangkap bola". Codex melihat video dan lintasan beberapa puluh langkah terakhir, mengidentifikasi masalah pada kurangnya gangguan pada lintasan bola.

Gambar: Tampilan permainan Atari Breakout. Pemain mengontrol pemukul di bagian bawah untuk memantulkan bola kecil, memecahkan dinding bata berwarna di atasnya lapis demi lapis. Codex mencapai skor sempurna teoretis 864 dalam game ini.

Kemudian Codex menambahkan mekanisme "memecah siklus": jika dalam waktu lama tidak ada reward, secara periodik menambahkan offset pada prediksi titik jatuh bola, untuk mengeluarkan bola dari siklus lokal. Skor meloncat dari 387 ke 507. Saat iterasi berlanjut, muncul masalah baru: untuk bola rendah yang cepat, intersepsi biasa akan membuat pemukul "terlalu memimpin" dan hanyut. Codex menambahkan parameter fast_low_ball_lead_steps=3, skor meloncat dari 507 ke 839. Peningkatan terakhir dari 839 ke 864 lebih seperti memelihara sistem yang sudah menjadi kompleks: mencoba deadband, offset servis, offset terjebak, bias keseimbangan bata, langkah antisipasi; banyak arah tidak efektif, perubahan yang berguna akhirnya adalah kondisi tahap akhir, "Setelah dinding bata pertama hancur, aktifkan offset terjebak hanya ketika bola jauh dari pemukul, dan lepaskan secara bertahap saat bola mendekat."

Konfigurasi default RAM akhir menghasilkan output stabil 864 / 864 / 864 poin dalam tiga episode, mencapai batas teoretis Breakout. Codex kemudian memigrasikan kontroler geometri yang sama ke versi input gambar murni — tidak membaca RAM, hanya mengandalkan segmentasi RGB untuk mengidentifikasi pemukul, bola, dan keseimbangan bata. Versi gambar pertama kali mencetak 310 poin, kemudian 428 poin, dan mencapai 864 poin setelah episode lokal ketujuh, sesuai dengan 14.504 langkah lingkungan strategi lokal.

Gambar: Kurva efisiensi sampel Codex di Breakout. Garis biru adalah versi yang membaca memori game (RAM) secara langsung, garis merah adalah versi yang hanya melihat layar (Vision). Versi RAM mengalami beberapa lompatan 99 → 387 → 507 → 839 → 864, akhirnya mencapai skor sempurna untuk pertama kalinya pada episode ke-81, dengan total 1,5 juta langkah lingkungan; Versi Vision, karena struktur matang yang dimigrasikan dari versi RAM, hanya membutuhkan 7 episode, sekitar 14.500 langkah lingkungan, untuk mencapai 864 poin.

Weng Jiayi khusus menekankan, ini tidak boleh dipahami sebagai "input gambar mulai dari nol hanya dengan 14,5K langkah mencapai skor sempurna". Alur sebenarnya adalah Codex pertama-tama menemukan kontroler geometri, pemecah siklus, dan pelepasan offset tahap akhir pada versi RAM, struktur stabil baru kemudian lapisan pembacaan status dialihkan dari RAM ke RGB. 14,5K adalah anggaran migrasi untuk versi gambar.

02 Definisi Pembelajaran Heuristik (Heuristic Learning)

Mencari nama untuk "strategi perangkat lunak" yang terus berevolusi ini lebih sulit daripada menulis versi strategi pertama. Weng Jiayi akhirnya menamai proses ini sebagai Heuristic Learning (HL, Pembelajaran Heuristik), dan objek yang dipeliharanya sebagai Heuristic System (HS, Sistem Heuristik).

Menurut definisinya dalam blog, HL terdiri dari kode program, dan seperti pembelajaran penguatan mendalam (deep RL) yang umum saat ini, ia memiliki siklus status, aksi, umpan balik, dan pembaruan. Perbedaannya, objek yang diperbarui adalah struktur perangkat lunak, bukan parameter jaringan saraf; umpan baliknya dicerna oleh agen pengodean (coding agent), bisa berasal dari reward lingkungan, kasus pengujian, log, video, rekaman, atau umpan balik manusia; pembaruannya tidak menggunakan propagasi balik (backpropagation), melainkan agen pengodean langsung mengedit strategi, detektor status, pengujian, konfigurasi, atau memori.

Perlu ditambahkan, konsep "menggunakan program daripada jaringan saraf sebagai strategi" bukanlah konsep yang pertama kali diusulkan oleh Weng Jiayi. Dunia akademis telah membahas tentang Pembelajaran Penguatan Programatik (Programmatic RL) selama bertahun-tahun: kerangka PROPEL yang diusulkan oleh Rice University dan Caltech pada 2019 mempelajari metode pembelajaran penguatan yang merepresentasikan strategi sebagai program pendek dalam bahasa simbolik; pekerjaan LEAPS pada 2021 lebih lanjut mempelajari ruang embedding program, menggabungkan strategi program yang dapat didiferensiasi dengan pelatihan RL; HPRL di ICML 2023 mengusulkan Hierarchical Programmatic Reinforcement Learning, membuat meta-policy menggabungkan beberapa program; kerangka LLM-GS dari NTU dan Microsoft pada 2024 menggunakan kemampuan pemrograman dan penalaran pengetahuan umum LLM untuk memandu pencarian strategi RL programatik.

Konsensus dari penelitian-penelitian ini adalah: dibandingkan dengan strategi saraf, strategi programatik memiliki kejelasan yang lebih baik, kemampuan verifikasi formal yang lebih baik, dan kemampuan generalisasi untuk skenario yang belum terlihat.

Kontribusi substantif Weng Jiayi kali ini, terletak pada memandang coding agent sebagai saluran rekayasa untuk memelihara sistem heuristik. Di masa lalu, melakukan programmatic RL, baik bergantung pada bahasa domain khusus yang dirancang manual, atau pada algoritma pencarian dalam ruang program yang terbatas; Weng Jiayi, dengan bantuan Codex, memasukkan kode, log, pengujian, rekaman video, penyesuaian parameter ke dalam alur kerja agent yang sama, sehingga biaya iterasi strategi program ditekan sekaligus. Dengan kata lain, dia sedang membuktikan sebuah jalur rekayasa baru: ketika coding agent cukup kuat, strategi heuristik yang dulu dianggap "terlalu mahal untuk dipelihara" mungkin menjadi layak lagi.

Weng Jiayi memberikan tabel perbandingan dalam blognya, dengan jelas menjelaskan perbedaan HL dan Deep RL: dalam bentuk strategi, yang pertama adalah kode yang terdiri dari aturan, mesin keadaan, kontroler, model predictive control (MPC), makro aksi; yang kedua adalah parameter jaringan saraf. Dalam bentuk status, yang pertama adalah variabel eksplisit, detektor, dan cache; yang kedua adalah vektor observasi yang dapat dibaca jaringan. Dalam bentuk umpan balik, yang pertama memperlakukan pengujian, log, rekaman sebagai sinyal efektif; yang kedua terutama bergantung pada fungsi reward tetap. Dalam bentuk memori, yang pertama dapat secara eksplisit menyimpan percobaan, ringkasan, penyebab kegagalan, dan diff versi; yang kedua dalam algoritma on-policy pada dasarnya tidak ada, dalam algoritma off-policy bergantung pada replay buffer.

Perbandingan ini membuktikan bahwa HL memiliki beberapa atribut dalam arti rekayasa: strategi dapat dijelaskan, dapat diterjemahkan ke dalam bahasa alami; efisiensi sampel diukur dalam satuan "satu perubahan kode yang efektif", bukan pembaruan gradien yang lambat; kemampuan lama dapat menjadi pengujian regresi, rekaman seed tetap, atau kasus emas (golden case); overfitting terhadap seed pelatihan atau celah pengujian dapat dibatasi melalui penyederhanaan, pemeriksaan regresi, dan evaluasi multi-seed; kemampuan lama tidak harus hanya ada dalam bobot, tetapi juga dapat ada dalam kumpulan aturan dan pengujian, yang sebagian merespons masalah pelupaan katastropik (catastrophic forgetting) yang belum terselesaikan dengan baik oleh jaringan saraf dalam jangka panjang.

03 Validasi Batch Atari57: Batas dan Kekurangan

Jika hanya melihat Breakout, cerita mudah disederhanakan menjadi "AI menulis strategi sempurna". Tetapi Weng Jiayi tidak berhenti di Breakout, dia juga memperluas alur kerja Codex ini secara batch ke Atari57, menjalankan 57 game, dua mode observasi, tiga kali pengulangan, total 342 jejak pencarian "tanpa pengawasan".

Desain eksperimen cukup ketat. Setiap game diuji dengan dua cara input: satu membaca memori game secara langsung, satu hanya melihat layar (tampilan), setiap cara diulang secara independen tiga kali. Dengan demikian total menghasilkan 342 jejak eksperimen "tanpa pengawasan": setiap agen Codex menerima template prompt yang sama, menjelajahi aksi sendiri, menulis kode sendiri, menjalankan eksperimen sendiri, mencatat hasil sendiri, tidak ada orang di sampingnya memberikan petunjuk. Kondisi batasan ditulis sangat ketat, tidak diperbolehkan melatih jaringan saraf, tidak diperbolehkan membaca kode sumber game, tidak diperbolehkan menggunakan informasi tersembunyi apa pun, semua langkah yang digunakan untuk debugging dan trial-and-error harus diperhitungkan dalam total biaya. Ini untuk menghindari Codex menggunakan cara apa pun yang "mengintip jawaban" untuk curang.

Dalam mengukur hasil, biasanya digunakan metrik yang disebut HNS (Human-Normalized Score, Skor Ternormalisasi Manusia) — sederhananya, menstandarisasi skor setiap game dengan "rata-rata tingkat pemain manusia = 1", untuk memudahkan perbandingan horizontal antar game yang berbeda.

Gambar: Perbandingan efisiensi sampel di seluruh set Atari57. Sumbu horizontal adalah langkah lingkungan (skala logaritmik), sumbu vertikal adalah HNS (Skor Ternormalisasi Manusia, 1.0 menunjukkan mencapai tingkat rata-rata pemain manusia). Versi input gambar Codex (garis merah) secara signifikan memimpin baseline PPO (garis putus-putus biru/abu-abu) pada efisiensi awal, mencapai 0,81 pada 9,7 juta langkah, mendekati tingkat PPO di sekitar 10 juta langkah; Versi input memori Codex (garis ungu) konvergen pada 0,59.

Diukur dengan standar ini, Codex tampak cukup cemerlang dalam efisiensi awal. Pada konsumsi hanya 1 juta langkah lingkungan, HNS median Codex dengan input gambar sudah mencapai 0,32, dengan input memori mencapai 0,26, secara signifikan lebih tinggi daripada tingkat algoritma pembelajaran penguatan klasik seperti PPO pada periode yang sama. Pada 9,7 juta langkah, versi gambar Codex mencapai 0,81, sudah mendekati tingkat PPO pada sekitar 10 juta langkah yaitu sekitar 0,88 hingga 0,92. Jika diperbolehkan untuk setiap game memilih cara input yang lebih baik dari performa Codex untuk dikumpulkan, HNS median Codex adalah 0,83, OpenAI Baselines PPO2 adalah 0,80, CleanRL EnvPool PPO adalah 0,98 — pada dasarnya seri.

Namun Weng Jiayi sendiri sangat tenang menarik batas: ini hanya perbandingan efisiensi interaksi lingkungan, belum memperhitungkan biaya Codex membaca log, menulis kode, menonton video. "Berjalan cepat" tidak sama dengan "total biaya rendah", yang terakhir saat ini masih merupakan kotak hitam.

Yang lebih perlu diperhatikan adalah, performa Codex pada 57 game tidak merata. Di game dengan struktur geometri jelas seperti Breakout, Boxing, Krull, strategi heuristik dan pembelajaran penguatan mendalam keduanya dapat secara jelas melampaui tingkat manusia; di game dengan aturan jelas seperti Asterix, Jamesbond, Tennis, strategi heuristik bahkan lebih kuat; tetapi di game dengan ritme cepat dan pola kompleks seperti Atlantis, VideoPinball, RoadRunner, StarGunner, PPO masih mendominasi.

Contra-kasus yang paling bermakna peringatan adalah Montezuma’s Revenge. Ini adalah "tulang keras" terkenal di bidang pembelajaran penguatan, protagonis perlu mencari kunci, menghindari musuh, membuka pintu di labirin bawah tanah yang rumit, sinyal reward sangat jarang, merupakan masalah klasik "perencanaan jangka panjang + pemulihan kegagalan". Codex memang mendapatkan 400 poin di game ini, tetapi membuka file strategi yang dihasilkannya akan ditemukan, itu bukan "strategi" yang sebenarnya, melainkan urutan 86 aksi yang dikodekan keras, sesuai dengan 1.769 langkah lingkungan: lebih seperti menghafal satu rute tetap, daripada belajar berjalan di labirin. Weng Jiayi secara khusus menyebutkan: "Ini adalah kasus batas, tidak boleh dipahami sebagai strategi Montezuma yang umum."

Montezuma mengungkapkan batas ekspresif dari Heuristic Learning. Strategi program biasa pada dasarnya adalah logika reaktif "melakukan aksi apa saat melihat status apa", sulit menangani tugas yang memerlukan urutan aksi yang ketat, perlu melanjutkan rencana dari status tengah, perlu perencanaan pandangan panjang. Tugas semacam ini membutuhkan bukan hanya lebih banyak if-else, tetapi struktur program yang lebih mendekati "kombinasi makro aksi + status pencarian yang dapat dipulihkan + memori jangka panjang". Ini memberitahu kita satu hal: sekalipun coding agent lebih kuat, beberapa masalah bukanlah kode biasa yang dapat menampungnya.

04 Jika Paradigma Ini Terbukti, Di Mana Signifikansi Industri?

Mengembalikan perspektif ke industri. Jika jalur Heuristic Learning ini benar-benar terbukti, "yaitu coding agent mampu secara stabil memelihara strategi programatik yang melebihi aturan manual, mendekati baseline RL", di mana makna praktisnya?

Titik penerapan pertama adalah kontrol robot, terutama skenario dengan struktur relatif stabil. Gagasan yang diberikan Weng Jiayi dalam blognya adalah pembagian kerja hierarkis HL tingkat sendi, HL tingkat anggota badan, HL keseimbangan seluruh tubuh, HL tingkat tugas. Lapisan rendah menangani keamanan dan kontrol latensi rendah, lapisan menengah menangani gaya berjalan dan kontak, lapisan tinggi menangani tugas dan memori jangka panjang; coding agent tidak perlu "memahami berjalan", dia lebih seperti saluran pembaruan yang disisipkan ke dalam sistem, mengembalikan video kegagalan, aliran sensor, hasil simulasi ke sistem, lalu menulis ulang umpan balik menjadi kode, parameter, aturan perlindungan, dan memori.

Skenario seperti AGV pergudangan, robot patroli, lengan robot pabrik, pemilahan terstandarisasi, struktur lingkungan relatif tetap, batas keamanan jelas — jika strategi kontrol inti dapat dikonsolidasi menjadi kode ringan, setiap langkah aksi robot tidak perlu menjalankan jaringan strategi besar-besaran, ketergantungan sisi penerapan pada kartu inferensi GPU berdaya tinggi akan turun, lebih banyak beban diberikan ke kontroler tradisional dan logika program lokal.

Ini tidak berarti robot tidak memerlukan GPU, persepsi, lokalisasi, pemetaan, pemahaman semantik masih bergantung pada jaringan saraf; yang berubah adalah peran GPU, dari "membakar daya komputasi setiap detik untuk keputusan aksi end-to-end" menjadi "berperan secara periodik dalam persepsi, simulasi offline, generasi strategi, analisis anomali".

Titik penerapan kedua adalah kemampuan diaudit untuk skenario kritis keamanan. Masalah rekayasa paling sulit dari strategi saraf adalah tidak dapat dilacak saat terjadi masalah. Sebuah lengan robot tiba-tiba gagal di sudut tertentu, sebuah mobil salah menilai di skenario tepi tertentu, robot medis melakukan aksi abnormal pada postur langka tertentu, insinyur tidak dapat menjawab "bobot mana yang menyebabkan kesalahan ini", akhirnya hanya dapat menambah data, melatih ulang, pengujian regresi, dan berharap model baru tidak memperkenalkan masalah baru.

Jika strategi ada dalam bentuk kode, variabel status, cabang kondisi, log kegagalan, dan pengujian regresi terlihat; aksi berbahaya tertentu dapat dilarang dengan kode keras, kasus sudut tertentu dapat ditulis sebagai pengujian, transisi status kesalahan tertentu dapat diperbaiki secara terpisah. Ini tidak membuat sistem secara alami lebih aman, tetapi membuat masalah keamanan untuk pertama kalinya dapat masuk ke dalam alur kerja rekayasa perangkat lunak normal — dapat ditinjau kodenya, dapat dicegat oleh CI, dapat ditanggapi oleh SRE yang bertugas. Di bidang yang memerlukan pengawasan dan pembagian tanggung jawab seperti kendaraan otonom, lengan robot industri, robot medis, kemampuan diaudit ini sendiri merupakan nilai komersial.

Titik penerapan ketiga adalah rekayasa pembelajaran berkelanjutan (continual learning) dan pembelajaran online. Weng Jiayi dalam blognya menjadikan ini sebagai garis argumen utama artikel. Pelupaan katastropik jaringan saraf adalah masalah struktural: mempelajari hal baru, kemampuan lama akan terkikis. HL juga dapat melupakan, tetapi bentuknya lebih rekayasa: aturan baru memperbaiki satu mode kegagalan tetapi merusak skenario lama; memori baru berulang kali mengarahkan agent ke arah yang salah; cakupan pengujian terlalu sempit, strategi belajar memanfaatkannya; satu tambalan mengubah antarmuka bersama, jalur panggilan lama diam-diam gagal.

Masalah-masalah ini tidak hilang secara otomatis, tetapi semuanya adalah masalah yang telah ditangani oleh rekayasa perangkat lunak selama beberapa dekade, memiliki rantai alat yang sudah ada — pengujian regresi, diff versi, rekaman seed tetap, jejak emas (golden trace), arah kegagalan yang dicatat secara eksplisit.

HS yang sehat harus memiliki dua operasi sekaligus: menyerap umpan balik baru, mengompresi tambalan sejarah; HS yang hanya bertambah tidak berkurang pada akhirnya akan menjadi "gumpalan kode" yang tidak ada yang berani sentuh. Dengan kata lain, HL mengubah masalah matematika "bagaimana memperbarui parameter" menjadi masalah rekayasa "bagaimana memelihara sistem perangkat lunak yang terus menyerap umpan balik".

Yang terakhir belum tentu lebih mudah, tetapi lebih mendekati batas kemampuan manusia yang sudah ada.

Titik penerapan keempat adalah pengendapan kemampuan produk Agent. Apa yang paling kurang dalam produk Agent saat ini adalah pemanggilan alat yang stabil, rantai eksekusi yang andal, pengalaman kegagalan yang dapat digunakan kembali, dan catatan tugas yang dapat diaudit. Jika logika HL terbukti, memori Agent selama proses eksekusi akan mengendap menjadi aset kode yang dapat digunakan kembali lintas sesi, lintas pengguna, lintas tugas. Ini dapat terhubung langsung ke alur kerja DevOps yang sudah ada, juga berarti Agent dari perusahaan, tim yang berbeda dapat berbagi heuristic, tetapi tidak perlu berbagi model, hal yang tidak dapat dilakukan oleh skema jaringan saraf.

Namun, perlu ditekankan: Keempat titik penerapan di atas bergantung pada jalur HL ini diverifikasi lebih lanjut pada tugas yang lebih kompleks. Breakout dan Ant adalah lingkungan yang relatif bersih, robot nyata menghadapi perubahan gesekan tanah, perubahan pencahayaan, penundaan aktuator, kebisingan sensor, semua ini belum dinilai secara sistematis dalam materi publik. Contra-kasus Montezuma telah menunjukkan, tugas pandangan panjang memerlukan bentuk program yang melampaui if-else biasa. Seberapa jauh gagasan ini dapat berjalan, masih harus dilihat pada eksperimen tahap berikutnya.

05 Utang Rekayasa (Engineering Debt) Berpindah dari Bobot ke Kode

Penilaian yang diberikan Weng Jiayi dalam blognya sangat terkendali. Dia menulis, HL tidak dapat menyelesaikan semua hal yang dapat dilakukan jaringan saraf, ia dibatasi oleh konten yang dapat diekspresikan kode, terutama dalam persepsi kompleks dan generalisasi pandangan panjang. Dengan pengetahuan hari ini, dia tidak dapat membayangkan sebuah agent menggunakan kode Python murni, tanpa bantuan jaringan saraf apa pun untuk menyelesaikan ImageNet. Masalah yang benar-benar layak didiskusikan adalah bagaimana menggabungkan jaringan saraf dan HL untuk bersama-sama menangani Pembelajaran Online dan Pembelajaran Berkelanjutan.

Pembagian kerja yang diberikannya meminjam bahasa Sistem 1 / Sistem 2: jaringan saraf dangkal khusus menanggung bagian dari Sistem 1, bertanggung jawab atas persepsi cepat, klasifikasi, dan estimasi status objek; HL juga menanggung bagian dari Sistem 1, bertanggung jawab atas pemrosesan data segar, aturan, pengujian, rekaman, memori, batas keamanan, dan pemulihan lokal; agent LLM bertindak sebagai Sistem 2, memberikan umpan balik ke HL, memperbaiki data, dan secara periodik mengekstrak informasi dari data yang dihasilkan HL untuk memperbarui dirinya sendiri.

Jika pembelajaran mendalam (deep learning) sepuluh tahun terakhir membuktikan "pengalaman dapat dikompresi ke dalam bobot", maka asumsi yang diajukan Weng Jiayi kali ini adalah proposisi lain: di era coding agent, pengalaman mungkin dapat kembali menjadi perangkat lunak yang dapat dibaca, diubah, dan diuji.

Artikel ini berasal dari akun resmi WeChat "Tencent Technology", penulis: Xiao Jing, editor: Xu Qingyang

Pertanyaan Terkait

QApa eksperimen utama yang dilakukan oleh engineer OpenAI, Weng Jiayi, seperti yang dibahas dalam artikel ini?

AEksperimen utama yang dilakukan Weng Jiayi adalah meminta model Codex untuk berulang kali menulis, menjalankan, dan merevisi kode strategi murni dalam Python untuk menyelesaikan tugas-tugas seperti game Atari Breakout dan lingkungan simulasi robotik MuJoCo. Kode ini dikembangkan melalui siklus tertutup: menulis strategi, menjalankannya di lingkungan, membaca log dan rekaman video, menganalisis kegagalan, kemudian memodifikasi kode. Hasilnya, strategi berbasis kode ini mencapai skor sempurna 864 di Breakout dan kinerja yang sebanding dengan algoritma deep reinforcement learning di lingkungan lainnya.

QApa yang dimaksud dengan 'Heuristic Learning (HL)' menurut artikel, dan bagaimana perbedaannya dengan Deep Reinforcement Learning (Deep RL)?

A'Heuristic Learning (HL)' adalah paradigma di mana agen AI (seperti Codex) mempelajari dan meningkatkan kinerja dengan memelihara dan merevisi sistem perangkat lunak (kode, aturan, pengujian), bukan dengan memperbarui parameter jaringan saraf melalui backpropagation seperti pada Deep RL. Perbedaan utamanya: HL menghasilkan strategi dalam bentuk kode yang dapat dibaca dan diaudit, menggunakan umpan balik dari log, video, dan pengujian, serta menyimpan memori dalam bentuk kode dan catatan eksplisit. Sementara Deep RL menghasilkan strategi sebagai parameter jaringan saraf yang tidak dapat diinterpretasi, terutama menggunakan fungsi reward, dan menyimpan pengalaman dalam buffer replay.

QApa temuan kunci dari eksperimen Atari57 yang dilakukan untuk menguji batasan Heuristic Learning?

AEksperimen Atari57 menunjukkan bahwa Heuristic Learning dengan Codex memiliki efisiensi sampel yang sangat baik di awal (mencapai kinerja setara manusia lebih cepat daripada PPO), dan dapat mencapai kinerja yang sebanding dengan baseline Deep RL di banyak game. Namun, kinerjanya tidak merata. Ia unggul di game dengan struktur geometris atau aturan jelas (seperti Breakout, Boxing) tetapi tertinggal jauh di game yang kompleks dan cepat (seperti RoadRunner, StarGunner). Contoh penting adalah kegagalan di Montezuma's Revenge, di mana Codex hanya menghafal urutan aksi tetap alih-alih mempelajari strategi umum yang dapat beradaptasi, mengungkap batasan ekspresif dari logika kode reaktif untuk tugas perencanaan jangka panjang.

QMenurut artikel, apa saja potensi penerapan atau dampak industri dari paradigma Heuristic Learning jika berhasil?

AArtikel mengidentifikasi empat potensi dampak industri: 1) **Kontrol Robotik**: Mengurangi ketergantungan pada inferensi GPU berat waktu nyata dengan mengkodekan logika kontrol inti, cocok untuk lingkungan terstruktur seperti gudang atau pabrik. 2) **Keamanan dan Kemampuan Diaudit**: Strategi berbasis kode memungkinkan tinjauan kode, pengujian regresi, dan penelusuran kesalahan, yang sangat berharga untuk aplikasi kritis seperti kendaraan otonom dan robot medis. 3) **Pembelajaran Berkelanjutan yang Terrekayasa**: Mengatasi masalah seperti 'lupa katastrofik' dengan alat rekayasa perangkat lunak tradisional (tes, versi, log). 4) **Preservasi Kemampuan Agen**: Pengalaman dan memori agen dapat dikemas sebagai aset kode yang dapat digunakan kembali dan dibagikan antar tim tanpa harus berbagi model neural.

QBagaimana Weng Jiayi membayangkan kolaborasi masa depan antara sistem neural (seperti LLM) dan Heuristic Learning (HL)?

AWeng Jiayi membayangkan kolaborasi yang mengadopsi kerangka 'Sistem 1 / Sistem 2'. Jaringan saraf khusus (seperti untuk persepsi) dan sistem Heuristic Learning (HL) akan bersama-sama membentuk 'Sistem 1' yang menangani pemrosesan cepat, aturan, dan reaksi lokal. Sementara itu, agen LLM yang lebih kuat akan bertindak sebagai 'Sistem 2', memberikan umpan balik tingkat tinggi, saran perbaikan, dan secara periodik mengekstrak wawasan dari data yang dihasilkan HL untuk memperbarui dirinya sendiri. Dengan cara ini, pengalaman tidak hanya terkapsulasi dalam parameter model, tetapi juga dalam sistem perangkat lunak yang dapat dibaca dan dipelihara.

Bacaan Terkait

Berita Pagi | Trump Media Group Rilis Laporan Keuangan Q1; Tiga Aplikasi DeFi Mengembalikan Hampir $100 Juta Pendapatan kepada Pemegang Token dalam 30 Hari; Michael Saylor Kembali Posting Informasi Bitcoin Tracker

**Berita Utama:** * **Grup Media Trump** melaporkan kerugian belum terealisasi sekitar $400 juta dari investasi aset kripto seperti Bitcoin dalam laporan keuangan Q1-nya. * Tiga aplikasi DeFi utama (**Hyperliquid, Pump.fun, EdgeX**) mengembalikan hampir $100 juta pendapatan kepada pemegang token dalam 30 hari terakhir, menandakan pergeseran fokus ke ekonomi riil di sektor ini. * **Michael Saylor** dari MicroStrategy kembali memposting informasi "Bitcoin Tracker", mengisyaratkan kemungkinan pengungkapan pembelian Bitcoin lebih lanjut oleh perusahaan minggu depan. **Perkembangan Kebijakan & Regulasi:** * **Bank of England** memperingatkan bahwa regulasi stablecoin AS berpotensi memicu persaingan dengan regulator internasional. * **Layanan Pajak Korea Selatan** untuk pertama kalinya menguji pilot penyerahan aset virtual yang disita kepada penyedia penitipan pihak ketiga. **Analisis Pasar & Lainnya:** * **Goldman Sachs** menunda prediksi pemotongan suku bunga Fed hingga Desember 2026, menyoroti tekanan inflasi yang berkelanjutan. Hal ini dapat mengurangi likuiditas yang mengalir ke aset berisiko seperti kripto. * **Polymarket**, platform prediksi, mengumumkan pembaruan untuk mengatasi masalah teknis dan telah menutup beberapa kluster akun yang terlibat dalam aktivitas perdagangan "ghost-fill". * Tren meme coin tetap aktif, dengan daftar teratas yang didominasi oleh token seperti **HEX, SHIB, PEPE (di ETH), FWOG, TROLL (di Solana), dan SKITTEN, PEPE (di Base)**.

链捕手19m yang lalu

Berita Pagi | Trump Media Group Rilis Laporan Keuangan Q1; Tiga Aplikasi DeFi Mengembalikan Hampir $100 Juta Pendapatan kepada Pemegang Token dalam 30 Hari; Michael Saylor Kembali Posting Informasi Bitcoin Tracker

链捕手19m yang lalu

Telegram Secara Langsung Mengambil Alih TON, Aliran Sosial Mengubah Narasi Rantai Publik

TON, yang sebelumnya digerakkan oleh TON Foundation, kini akan diambil alih oleh Telegram secara langsung. Founder Telegram, Pavel Durov, mengumumkan bahwa Telegram akan menjadi penggerak inti dan validator terbesar di jaringan TON, disertai penurunan biaya gas hingga mendekati nol dan peningkatan kecepatan transaksi. Perubahan ini menandai pergeseran dari sekadar memanfaatkan aliran pengguna Telegram, menjadi upaya untuk mengintegrasikan TON secara lebih dalam ke dalam ekosistem aplikasi sehari-hari di Telegram. Fokusnya adalah mengubah akses menjadi penggunaan berkelanjutan dengan mendukung transaksi mikro yang sering, seperti hadiah, pembayaran kecil, dan bagi hasil untuk kreator di dalam Mini Apps, saluran, dan bot. Dengan Telegram sebagai validator utama, efisiensi pengembangan diharapkan meningkat, meski menimbulkan pertanyaan tentang desentralisasi. TON juga menawarkan imbalan staking tinggi (18.8%) untuk mempertahankan likuiditas. Tantangan utamanya kini adalah menjadi infrastruktur yang mulus di balik pengalaman pengguna Telegram, bukan sekadar blockchain yang terikat pada platform sosial.

marsbit21m yang lalu

Telegram Secara Langsung Mengambil Alih TON, Aliran Sosial Mengubah Narasi Rantai Publik

marsbit21m yang lalu

Telegram Secara Langsung Mengambil Kendali TON, Alur Cerita Blockchain Publik Ditulis Ulang oleh Arus Sosial

Pada 4 Mei, pendiri Telegram Pavel Durov mengumumkan bahwa biaya transaksi di jaringan TON telah turun drastis, mendekati nol. Lebih penting lagi, Telegram kini akan mengambil alih peran utama dari TON Foundation, menjadi penggerak inti dan validator terbesar di jaringan TON. Fokus ke depan adalah peningkatan teknis seperti alat baru untuk pengembang dan peningkatan kinerja dalam 2-3 minggu mendatang. Perubahan ini menandai pergeseran signifikan. Sebelumnya, Telegram lebih berperan sebagai pintu masuk, sementara komunitas mengembangkan ekosistem. Kini, Telegram terlibat langsung di lapisan infrastruktur. Tantangan utama TON bukan lagi sekadar mengakses pengguna Telegram yang banyak, tetapi mengubah akses tersebut menjadi skenario penggunaan berkelanjutan di dalam aplikasi, seperti pembayaran kecil, hadiah, dan monetisasi kreator. Penurunan biaya dan percepatan konfirmasi transaksi (menjadi 0,6 detik) sangat penting untuk mendukung transaksi kecil dan frekuensi tinggi yang khas di Telegram. Tujuannya adalah membuat interaksi blockchain menjadi hampir tak terasa oleh pengguna. Durov juga menyoroti imbalan staking TON yang tinggi (18.8% per tahun), tertinggi di antara 50 kripto teratas, yang bertujuan mempertahankan likuiditas dalam ekosistem. Namun, langkah Telegram menjadi validator terbesar juga memunculkan pertanyaan tentang sentralisasi, yang menurut Durov justru akan menarik lebih banyak validator besar dan meningkatkan desentralisasi. Kesimpulannya, TON kini memasuki fase yang lebih menantang: tidak hanya memanfaatkan aliran pengguna Telegram, tetapi menjadi infrastruktur yang mulus tertanam dalam pengalaman penggunaan sehari-hari di Telegram. Kesuksesannya akan diukur oleh kemampuannya mengubah potensi aliran sosial menjadi aktivitas on-chain yang berkelanjutan, di mana blockchain beroperasi di balik layar tanpa disadari pengguna.

Odaily星球日报30m yang lalu

Telegram Secara Langsung Mengambil Kendali TON, Alur Cerita Blockchain Publik Ditulis Ulang oleh Arus Sosial

Odaily星球日报30m yang lalu

Claude-mu Akan Bermalam Ini, Jangan Ganggu Ia

Anthropic memperkenalkan fitur "Dreaming" (Bermimpi) pada platform Managed Agents, yang memungkinkan AI Agent secara otomatis menganalisis dan mengoptimalkan log dari sesi tugas sebelumnya saat tidak aktif. Proses ini mirip dengan konsolidasi memori dalam tidur manusia, di mana AI menyaring informasi penting dari riwayat operasinya (seperti pola keberhasilan atau kegagalan) untuk meningkatkan kinerja di masa depan. Fitur serupa juga dikembangkan oleh Hermes Agent dan OpenClaw, yang menggunakan mekanisme "mimpi" untuk menyempurnakan keterampilan dan memori jangka panjang AI. Artikel ini mengeksplorasi bagaimana istilah-istilah manusia seperti "berpikir", "ingatan", dan kini "bermimpi" semakin banyak diterapkan pada teknologi AI. Penggunaan bahasa ini tidak hanya bersifat metaforis tetapi juga membentuk persepsi pengguna tentang AI sebagai entitas yang lebih hidup dan mandiri. Namun, secara teknis, "Dreaming" pada AI adalah proses pengolahan data offline yang bertujuan untuk efisiensi dan pembelajaran mandiri, berbeda dengan mimpi manusia yang melibatkan kesadaran. Tantangan kontekstual dalam AI, seperti batasan memori (KV Cache) dan kebutuhan akan jendela konteks yang lebih besar (seperti model SubQ yang mengklaim 12 juta token), mendorong pengembangan fitur seperti "Dreaming" untuk membantu AI mengelola informasi dengan lebih cerdas. Artikel ini mengajak pembaca untuk mempertanyakan bagaimana bahasa membentuk hubungan kita dengan teknologi dan menggeser tanggung jawab dari pengembang ke AI itu sendiri.

marsbit1j yang lalu

Claude-mu Akan Bermalam Ini, Jangan Ganggu Ia

marsbit1j yang lalu

CoreWeave yang Diborong Duan Yongping, Kini Berubah Jadi Medan Perang Sengit antara Bull dan Bear

Penulis: Deep潮 TechFlow Pada 8 Mei, penyedia daya komputasi awan AI CoreWeave (CRWV) anjlok 11,4% dalam sehari. Kejatuhan ini terjadi bersamaan dengan fakta bahwa investor terkenal Tiongkok, Duan Yongping (段永平), yang sering disebut sebagai "murid Warren Buffett," baru saja membuka posisi pertamanya di CoreWeave pada kuartal IV 2025 dengan nilai sekitar $20 juta, tepat di dekat kisaran terendah saham tahun 2025. Laporan keuangan Q1 CoreWeave mempertajam perdebatan sengit antara pihak bullish (optimis) dan bearish (pesimis). Pendapatan melonjak 112% menjadi $2,08 miliar, namun kerugian bersih melebar menjadi $740 juta. Panduan pendapatan untuk Q2 juga berada di bawah ekspektasi pasar. Inti narasi bullish terletak pada cadangan pesanan yang belum dipenuhi (RPO) sebesar $99,4 miliar, daftar klien yang berkembang (termasuk Anthropic, Meta, Jane Street), dan hubungan yang sangat erat dengan NVIDIA sebagai investor, pemasok, dan pelanggan. Pihak bearish berfokus pada melemahnya profitabilitas: margin laba operasional (setelah disesuaikan) hanya 1%, meskipun margin EBITDA tinggi (56%), karena biaya infrastruktur melonjak. Mereka juga mengkhawatirkan pengeluaran modal yang sangat agresif ($6,8 miliar di Q1) dan utang yang membengkak ($25 miliar). Pola penjualan saham oleh internal perusahaan (insider selling) juga menambah tekanan. Duan Yongping, dengan posisi CoreWeave yang hanya 0,12% dari total portofolionya, tampaknya menganggap investasi ini sebagai taruhan kecil dan eksplorasi di hilir rantai pasokan daya komputasi AI, dengan taruhan utamanya tetap pada NVIDIA. CEO CoreWeave Michael Intrator berargumen bahwa pasar terlalu fokus pada harga saham (pohon) dan kehilangan pandangan atas prospek jangka panjang perusahaan (hutan), menjanjikan pemulihan margin di kuartak mendatang. Intinya, CoreWeave menjadi medan pertempuran antara narasi pertumbuhan masa depan yang kuat dan realitas keuangan saat ini yang menantang. Laporan keuangan Q2 nanti akan menjadi ujian penting untuk melihat apakah janji pemulihan margin dapat terwujud.

marsbit1j yang lalu

CoreWeave yang Diborong Duan Yongping, Kini Berubah Jadi Medan Perang Sengit antara Bull dan Bear

marsbit1j yang lalu

Trading

Spot

Futures

Artikel Populer

Apa Itu GROK AI

Grok AI: Merevolusi Teknologi Percakapan di Era Web3 Pendahuluan Dalam lanskap kecerdasan buatan yang terus berkembang dengan cepat, Grok AI menonjol sebagai proyek yang patut diperhatikan yang menjembatani domain teknologi canggih dan interaksi pengguna. Dikembangkan oleh xAI, sebuah perusahaan yang dipimpin oleh pengusaha terkenal Elon Musk, Grok AI berupaya untuk mendefinisikan ulang cara kita berinteraksi dengan kecerdasan buatan. Seiring dengan berkembangnya gerakan Web3, Grok AI bertujuan untuk memanfaatkan kekuatan AI percakapan untuk menjawab pertanyaan kompleks, memberikan pengguna pengalaman yang tidak hanya informatif tetapi juga menghibur. Apa itu Grok AI? Grok AI adalah chatbot AI percakapan yang canggih yang dirancang untuk berinteraksi dengan pengguna secara dinamis. Berbeda dengan banyak sistem AI tradisional, Grok AI menerima berbagai pertanyaan yang lebih luas, termasuk yang biasanya dianggap tidak pantas atau di luar respons standar. Tujuan inti proyek ini meliputi: Penalaran yang Andal: Grok AI menekankan penalaran akal sehat untuk memberikan jawaban logis berdasarkan pemahaman kontekstual. Pengawasan yang Dapat Diskalakan: Integrasi bantuan alat memastikan bahwa interaksi pengguna dipantau dan dioptimalkan untuk kualitas. Verifikasi Formal: Keamanan adalah hal yang utama; Grok AI menggabungkan metode verifikasi formal untuk meningkatkan keandalan output-nya. Pemahaman Konteks Panjang: Model AI unggul dalam mempertahankan dan mengingat riwayat percakapan yang luas, memfasilitasi diskusi yang bermakna dan sadar konteks. Ketahanan Adversarial: Dengan fokus pada peningkatan pertahanannya terhadap input yang dimanipulasi atau berbahaya, Grok AI bertujuan untuk mempertahankan integritas interaksi pengguna. Intinya, Grok AI bukan hanya perangkat pengambilan informasi; ini adalah mitra percakapan yang imersif yang mendorong dialog yang dinamis. Pencipta Grok AI Otak di balik Grok AI tidak lain adalah Elon Musk, seorang individu yang identik dengan inovasi di berbagai bidang, termasuk otomotif, perjalanan luar angkasa, dan teknologi. Di bawah naungan xAI, sebuah perusahaan yang fokus pada kemajuan teknologi AI dengan cara yang bermanfaat, visi Musk bertujuan untuk membentuk kembali pemahaman tentang interaksi AI. Kepemimpinan dan etos dasar sangat dipengaruhi oleh komitmen Musk untuk mendorong batasan teknologi. Investor Grok AI Meskipun rincian spesifik mengenai investor yang mendukung Grok AI masih terbatas, secara publik diakui bahwa xAI, inkubator proyek ini, didirikan dan didukung terutama oleh Elon Musk sendiri. Usaha dan kepemilikan Musk sebelumnya memberikan dukungan yang kuat, lebih lanjut memperkuat kredibilitas dan potensi pertumbuhan Grok AI. Namun, hingga saat ini, informasi mengenai yayasan investasi tambahan atau organisasi yang mendukung Grok AI tidak tersedia secara mudah, menandai area untuk eksplorasi potensial di masa depan. Bagaimana Grok AI Bekerja? Mekanisme operasional Grok AI sama inovatifnya dengan kerangka konseptualnya. Proyek ini mengintegrasikan beberapa teknologi mutakhir yang memfasilitasi fungsionalitas uniknya: Infrastruktur yang Kuat: Grok AI dibangun menggunakan Kubernetes untuk orkestrasi kontainer, Rust untuk kinerja dan keamanan, dan JAX untuk komputasi numerik berkinerja tinggi. Ketiga elemen ini memastikan bahwa chatbot beroperasi secara efisien, dapat diskalakan dengan efektif, dan melayani pengguna dengan cepat. Akses Pengetahuan Real-Time: Salah satu fitur pembeda Grok AI adalah kemampuannya untuk mengakses data real-time melalui platform X—sebelumnya dikenal sebagai Twitter. Kemampuan ini memberikan AI akses ke informasi terbaru, memungkinkannya untuk memberikan jawaban dan rekomendasi yang tepat waktu yang mungkin terlewat oleh model AI lainnya. Dua Mode Interaksi: Grok AI menawarkan pengguna pilihan antara “Mode Menyenangkan” dan “Mode Reguler.” Mode Menyenangkan memungkinkan gaya interaksi yang lebih bermain dan humoris, sementara Mode Reguler fokus pada memberikan respons yang tepat dan akurat. Fleksibilitas ini memastikan pengalaman yang disesuaikan yang memenuhi berbagai preferensi pengguna. Intinya, Grok AI menggabungkan kinerja dengan keterlibatan, menciptakan pengalaman yang kaya dan menghibur. Garis Waktu Grok AI Perjalanan Grok AI ditandai oleh tonggak penting yang mencerminkan tahap pengembangan dan penerapannya: Pengembangan Awal: Fase dasar Grok AI berlangsung selama sekitar dua bulan, di mana pelatihan awal dan penyempurnaan model dilakukan. Rilis Beta Grok-2: Dalam kemajuan signifikan, beta Grok-2 diumumkan. Rilis ini memperkenalkan dua versi chatbot—Grok-2 dan Grok-2 mini—masing-masing dilengkapi dengan kemampuan untuk chatting, coding, dan penalaran. Akses Publik: Setelah pengembangan beta, Grok AI menjadi tersedia untuk pengguna platform X. Mereka yang memiliki akun yang diverifikasi dengan nomor telepon dan aktif selama setidaknya tujuh hari dapat mengakses versi terbatas, membuat teknologi ini tersedia untuk audiens yang lebih luas. Garis waktu ini mencakup pertumbuhan sistematis Grok AI dari awal hingga keterlibatan publik, menekankan komitmennya untuk perbaikan berkelanjutan dan interaksi pengguna. Fitur Utama Grok AI Grok AI mencakup beberapa fitur kunci yang berkontribusi pada identitas inovatifnya: Integrasi Pengetahuan Real-Time: Akses ke informasi terkini dan relevan membedakan Grok AI dari banyak model statis, memungkinkan pengalaman pengguna yang menarik dan akurat. Gaya Interaksi yang Beragam: Dengan menawarkan mode interaksi yang berbeda, Grok AI memenuhi berbagai preferensi pengguna, mengundang kreativitas dan personalisasi dalam berkomunikasi dengan AI. Dasar Teknologi yang Canggih: Pemanfaatan Kubernetes, Rust, dan JAX memberikan proyek ini kerangka kerja yang solid untuk memastikan keandalan dan kinerja optimal. Pertimbangan Diskursus Etis: Penyertaan fungsi penghasil gambar menunjukkan semangat inovatif proyek ini. Namun, hal ini juga menimbulkan pertimbangan etis seputar hak cipta dan penggambaran yang menghormati tokoh-tokoh yang dikenali—diskusi yang sedang berlangsung dalam komunitas AI. Kesimpulan Sebagai entitas perintis di bidang AI percakapan, Grok AI mencakup potensi untuk pengalaman pengguna yang transformatif di era digital. Dikembangkan oleh xAI dan didorong oleh pendekatan visioner Elon Musk, Grok AI mengintegrasikan pengetahuan real-time dengan kemampuan interaksi yang canggih. Ini berupaya untuk mendorong batasan apa yang dapat dicapai oleh kecerdasan buatan sambil tetap fokus pada pertimbangan etis dan keselamatan pengguna. Grok AI tidak hanya mewujudkan kemajuan teknologi tetapi juga mewakili paradigma percakapan baru di lanskap Web3, menjanjikan untuk melibatkan pengguna dengan pengetahuan yang mahir dan interaksi yang menyenangkan. Seiring proyek ini terus berkembang, ia berdiri sebagai bukti apa yang dapat dicapai di persimpangan teknologi, kreativitas, dan interaksi yang mirip manusia.

506 Total TayanganDipublikasikan pada 2024.12.26Diperbarui pada 2024.12.26

Apa Itu ERC AI

Euruka Tech: Gambaran Umum tentang $erc ai dan Ambisinya di Web3 Pendahuluan Dalam lanskap teknologi blockchain dan aplikasi terdesentralisasi yang berkembang pesat, proyek-proyek baru muncul dengan frekuensi tinggi, masing-masing dengan tujuan dan metodologi yang unik. Salah satu proyek tersebut adalah Euruka Tech, yang beroperasi di domain cryptocurrency dan Web3 yang luas. Fokus utama Euruka Tech, khususnya tokennya $erc ai, adalah untuk menghadirkan solusi inovatif yang dirancang untuk memanfaatkan kemampuan teknologi terdesentralisasi yang terus berkembang. Artikel ini bertujuan untuk memberikan gambaran komprehensif tentang Euruka Tech, eksplorasi tujuannya, fungsionalitas, identitas penciptanya, calon investor, dan signifikansinya dalam konteks yang lebih luas dari Web3. Apa itu Euruka Tech, $erc ai? Euruka Tech dicirikan sebagai proyek yang memanfaatkan alat dan fungsionalitas yang ditawarkan oleh lingkungan Web3, dengan fokus pada integrasi kecerdasan buatan dalam operasinya. Meskipun rincian spesifik tentang kerangka proyek ini agak samar, proyek ini dirancang untuk meningkatkan keterlibatan pengguna dan mengotomatiskan proses di ruang crypto. Proyek ini bertujuan untuk menciptakan ekosistem terdesentralisasi yang tidak hanya memfasilitasi transaksi tetapi juga menggabungkan fungsionalitas prediktif melalui kecerdasan buatan, sehingga penamaan tokennya, $erc ai. Tujuannya adalah untuk menyediakan platform intuitif yang memfasilitasi interaksi yang lebih cerdas dan pemrosesan transaksi yang efisien dalam lingkup Web3 yang terus berkembang. Siapa Pencipta Euruka Tech, $erc ai? Saat ini, informasi mengenai pencipta atau tim pendiri di balik Euruka Tech masih tidak ditentukan dan agak tidak jelas. Ketidakhadiran data ini menimbulkan kekhawatiran, karena pengetahuan tentang latar belakang tim sering kali penting untuk membangun kredibilitas dalam sektor blockchain. Oleh karena itu, kami telah mengkategorikan informasi ini sebagai tidak diketahui sampai rincian konkret tersedia di domain publik. Siapa Investor Euruka Tech, $erc ai? Demikian pula, identifikasi investor atau organisasi pendukung untuk proyek Euruka Tech tidak disediakan dengan mudah melalui penelitian yang tersedia. Aspek yang sangat penting bagi pemangku kepentingan atau pengguna potensial yang mempertimbangkan keterlibatan dengan Euruka Tech adalah jaminan yang datang dari kemitraan keuangan yang mapan atau dukungan dari perusahaan investasi yang terkemuka. Tanpa pengungkapan tentang afiliasi investasi, sulit untuk menarik kesimpulan komprehensif tentang keamanan finansial atau keberlangsungan proyek. Sesuai dengan informasi yang ditemukan, bagian ini juga berada pada status tidak diketahui. Bagaimana Euruka Tech, $erc ai Bekerja? Meskipun kurangnya spesifikasi teknis yang mendetail untuk Euruka Tech, penting untuk mempertimbangkan ambisi inovatifnya. Proyek ini berusaha memanfaatkan kemampuan komputasi kecerdasan buatan untuk mengotomatiskan dan meningkatkan pengalaman pengguna dalam lingkungan cryptocurrency. Dengan mengintegrasikan AI dengan teknologi blockchain, Euruka Tech bertujuan untuk menyediakan fitur seperti perdagangan otomatis, penilaian risiko, dan antarmuka pengguna yang dipersonalisasi. Esensi inovatif dari Euruka Tech terletak pada tujuannya untuk menciptakan koneksi yang mulus antara pengguna dan kemungkinan luas yang ditawarkan oleh jaringan terdesentralisasi. Melalui pemanfaatan algoritma pembelajaran mesin dan AI, proyek ini bertujuan untuk meminimalkan tantangan bagi pengguna baru dan menyederhanakan pengalaman transaksional dalam kerangka Web3. Simbiosis antara AI dan blockchain ini menggarisbawahi signifikansi token $erc ai, yang berdiri sebagai jembatan antara antarmuka pengguna tradisional dan kemampuan canggih dari teknologi terdesentralisasi. Garis Waktu Euruka Tech, $erc ai Sayangnya, sebagai akibat dari informasi yang terbatas mengenai Euruka Tech, kami tidak dapat menyajikan garis waktu yang mendetail tentang perkembangan utama atau tonggak dalam perjalanan proyek ini. Garis waktu ini, yang biasanya sangat berharga dalam memetakan evolusi suatu proyek dan memahami trajektori pertumbuhannya, saat ini tidak tersedia. Ketika informasi tentang peristiwa penting, kemitraan, atau penambahan fungsional menjadi jelas, pembaruan pasti akan meningkatkan visibilitas Euruka Tech di dunia crypto. Klarifikasi tentang Proyek “Eureka” Lainnya Penting untuk dicatat bahwa banyak proyek dan perusahaan berbagi nomenklatur serupa dengan “Eureka.” Penelitian telah mengidentifikasi inisiatif seperti agen AI dari NVIDIA Research, yang fokus pada pengajaran robot tugas kompleks menggunakan metode generatif, serta Eureka Labs dan Eureka AI, yang meningkatkan pengalaman pengguna dalam analitik pendidikan dan layanan pelanggan, masing-masing. Namun, proyek-proyek ini berbeda dari Euruka Tech dan tidak boleh disamakan dengan tujuan atau fungsionalitasnya. Kesimpulan Euruka Tech, bersama dengan token $erc ai-nya, mewakili pemain yang menjanjikan namun saat ini masih samar dalam lanskap Web3. Meskipun rincian tentang pencipta dan investor masih belum diungkapkan, ambisi inti untuk menggabungkan kecerdasan buatan dengan teknologi blockchain tetap menjadi titik fokus yang menarik. Pendekatan unik proyek ini dalam mendorong keterlibatan pengguna melalui otomatisasi canggih dapat membedakannya seiring dengan kemajuan ekosistem Web3. Seiring dengan terus berkembangnya pasar crypto, pemangku kepentingan harus memperhatikan kemajuan seputar Euruka Tech, karena pengembangan inovasi yang terdokumentasi, kemitraan, atau peta jalan yang terdefinisi dapat menghadirkan peluang signifikan di masa depan. Saat ini, kami menunggu wawasan yang lebih substansial yang dapat mengungkap potensi Euruka Tech dan posisinya dalam lanskap crypto yang kompetitif.

462 Total TayanganDipublikasikan pada 2025.01.02Diperbarui pada 2025.01.02

Apa Itu DUOLINGO AI

DUOLINGO AI: Mengintegrasikan Pembelajaran Bahasa dengan Inovasi Web3 dan AI Dalam era di mana teknologi membentuk kembali pendidikan, integrasi kecerdasan buatan (AI) dan jaringan blockchain menandai batasan baru untuk pembelajaran bahasa. Masuklah DUOLINGO AI dan cryptocurrency terkaitnya, $DUOLINGO AI. Proyek ini bercita-cita untuk menggabungkan kekuatan pendidikan dari platform pembelajaran bahasa terkemuka dengan manfaat teknologi Web3 yang terdesentralisasi. Artikel ini menggali aspek-aspek kunci dari DUOLINGO AI, menjelajahi tujuannya, kerangka teknologi, perkembangan sejarah, dan potensi masa depan sambil mempertahankan kejelasan antara sumber daya pendidikan asli dan inisiatif cryptocurrency independen ini. Gambaran Umum DUOLINGO AI Pada intinya, DUOLINGO AI berusaha untuk membangun lingkungan terdesentralisasi di mana pelajar dapat memperoleh imbalan kriptografi untuk mencapai tonggak pendidikan dalam kemahiran bahasa. Dengan menerapkan kontrak pintar, proyek ini bertujuan untuk mengotomatiskan proses verifikasi keterampilan dan alokasi token, sesuai dengan prinsip Web3 yang menekankan transparansi dan kepemilikan pengguna. Model ini menyimpang dari pendekatan tradisional dalam akuisisi bahasa dengan sangat bergantung pada struktur tata kelola yang dipimpin oleh komunitas, memungkinkan pemegang token untuk menyarankan perbaikan pada konten kursus dan distribusi imbalan. Beberapa tujuan notable dari DUOLINGO AI meliputi: Pembelajaran Gamified: Proyek ini mengintegrasikan pencapaian blockchain dan token non-fungible (NFT) untuk mewakili tingkat kemahiran bahasa, mendorong motivasi melalui imbalan digital yang menarik. Penciptaan Konten Terdesentralisasi: Ini membuka jalan bagi pendidik dan penggemar bahasa untuk berkontribusi pada kursus mereka, memfasilitasi model pembagian pendapatan yang menguntungkan semua kontributor. Personalisasi Berbasis AI: Dengan menggunakan model pembelajaran mesin yang canggih, DUOLINGO AI mempersonalisasi pelajaran untuk beradaptasi dengan kemajuan belajar individu, mirip dengan fitur adaptif yang ditemukan di platform yang sudah mapan. Pencipta Proyek dan Tata Kelola Hingga April 2025, tim di balik $DUOLINGO AI tetap anonim, praktik yang umum dalam lanskap cryptocurrency terdesentralisasi. Anonimitas ini dimaksudkan untuk mempromosikan pertumbuhan kolektif dan keterlibatan pemangku kepentingan daripada fokus pada pengembang individu. Kontrak pintar yang diterapkan di blockchain Solana mencatat alamat dompet pengembang, yang menandakan komitmen terhadap transparansi terkait transaksi meskipun identitas penciptanya tidak diketahui. Menurut peta jalannya, DUOLINGO AI bertujuan untuk berkembang menjadi Organisasi Otonom Terdesentralisasi (DAO). Struktur tata kelola ini memungkinkan pemegang token untuk memberikan suara pada isu-isu penting seperti implementasi fitur dan alokasi kas. Model ini sejalan dengan etos pemberdayaan komunitas yang ditemukan dalam berbagai aplikasi terdesentralisasi, menekankan pentingnya pengambilan keputusan kolektif. Investor dan Kemitraan Strategis Saat ini, tidak ada investor institusi atau modal ventura yang dapat diidentifikasi secara publik yang terkait dengan $DUOLINGO AI. Sebaliknya, likuiditas proyek ini terutama berasal dari bursa terdesentralisasi (DEX), menandai kontras yang tajam dengan strategi pendanaan perusahaan teknologi pendidikan tradisional. Model akar rumput ini menunjukkan pendekatan yang dipimpin oleh komunitas, mencerminkan komitmen proyek terhadap desentralisasi. Dalam whitepapernya, DUOLINGO AI menyebutkan pembentukan kolaborasi dengan “platform pendidikan blockchain” yang tidak ditentukan yang bertujuan untuk memperkaya penawaran kursusnya. Meskipun kemitraan spesifik belum diungkapkan, upaya kolaboratif ini menunjukkan strategi untuk menggabungkan inovasi blockchain dengan inisiatif pendidikan, memperluas akses dan keterlibatan pengguna di berbagai jalur pembelajaran. Arsitektur Teknologi Integrasi AI DUOLINGO AI menggabungkan dua komponen utama yang didorong oleh AI untuk meningkatkan penawaran pendidikannya: Mesin Pembelajaran Adaptif: Mesin canggih ini belajar dari interaksi pengguna, mirip dengan model kepemilikan dari platform pendidikan besar. Ia secara dinamis menyesuaikan kesulitan pelajaran untuk mengatasi tantangan spesifik pelajar, memperkuat area yang lemah melalui latihan yang ditargetkan. Agen Percakapan: Dengan menggunakan chatbot bertenaga GPT-4, DUOLINGO AI menyediakan platform bagi pengguna untuk terlibat dalam percakapan yang disimulasikan, mendorong pengalaman pembelajaran bahasa yang lebih interaktif dan praktis. Infrastruktur Blockchain Dibangun di atas blockchain Solana, $DUOLINGO AI memanfaatkan kerangka teknologi yang komprehensif yang mencakup: Kontrak Pintar Verifikasi Keterampilan: Fitur ini secara otomatis memberikan token kepada pengguna yang berhasil melewati tes kemahiran, memperkuat struktur insentif untuk hasil pembelajaran yang nyata. Lencana NFT: Token digital ini menandakan berbagai tonggak yang dicapai pelajar, seperti menyelesaikan bagian dari kursus mereka atau menguasai keterampilan tertentu, memungkinkan mereka untuk memperdagangkan atau memamerkan pencapaian mereka secara digital. Tata Kelola DAO: Anggota komunitas yang memiliki token dapat terlibat dalam tata kelola dengan memberikan suara pada proposal kunci, memfasilitasi budaya partisipatif yang mendorong inovasi dalam penawaran kursus dan fitur platform. Garis Waktu Sejarah 2022–2023: Konseptualisasi Landasan untuk DUOLINGO AI dimulai dengan pembuatan whitepaper, menyoroti sinergi antara kemajuan AI dalam pembelajaran bahasa dan potensi terdesentralisasi dari teknologi blockchain. 2024: Peluncuran Beta Peluncuran beta terbatas memperkenalkan penawaran dalam bahasa-bahasa populer, memberikan imbalan kepada pengguna awal dengan insentif token sebagai bagian dari strategi keterlibatan komunitas proyek. 2025: Transisi DAO Pada bulan April, peluncuran mainnet penuh terjadi dengan peredaran token, mendorong diskusi komunitas mengenai kemungkinan ekspansi ke bahasa Asia dan pengembangan kursus lainnya. Tantangan dan Arah Masa Depan Hambatan Teknis Meskipun memiliki tujuan ambisius, DUOLINGO AI menghadapi tantangan signifikan. Skalabilitas tetap menjadi perhatian yang berkelanjutan, terutama dalam menyeimbangkan biaya yang terkait dengan pemrosesan AI dan mempertahankan jaringan terdesentralisasi yang responsif. Selain itu, memastikan penciptaan konten berkualitas dan moderasi di tengah penawaran terdesentralisasi menimbulkan kompleksitas dalam mempertahankan standar pendidikan. Peluang Strategis Melihat ke depan, DUOLINGO AI memiliki potensi untuk memanfaatkan kemitraan mikro-credentialing dengan institusi akademis, menyediakan validasi keterampilan bahasa yang diverifikasi oleh blockchain. Selain itu, ekspansi lintas rantai dapat memungkinkan proyek ini untuk menjangkau basis pengguna yang lebih luas dan ekosistem blockchain tambahan, meningkatkan interoperabilitas dan jangkauannya. Kesimpulan DUOLINGO AI mewakili perpaduan inovatif antara kecerdasan buatan dan teknologi blockchain, menghadirkan alternatif yang berfokus pada komunitas untuk sistem pembelajaran bahasa tradisional. Meskipun pengembangannya yang anonim dan model ekonomi yang muncul membawa risiko tertentu, komitmen proyek terhadap pembelajaran gamified, pendidikan yang dipersonalisasi, dan tata kelola terdesentralisasi menerangi jalan ke depan untuk teknologi pendidikan di ranah Web3. Seiring kemajuan AI dan evolusi ekosistem blockchain, inisiatif seperti DUOLINGO AI dapat mendefinisikan ulang bagaimana pengguna terlibat dengan pendidikan bahasa, memberdayakan komunitas dan memberikan imbalan atas keterlibatan melalui mekanisme pembelajaran yang inovatif.

523 Total TayanganDipublikasikan pada 2025.04.11Diperbarui pada 2025.04.11

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga AI (AI) disajikan di bawah ini.

Setelah Pelatihan, Insinyur OpenAI Weng Jiayi Mengajukan Asumsi Paradigma Baru untuk Agentic AI

Abstrak

01

Siklus Rekayasa dari 387 Poin ke Skor Sempurna

02

Definisi Pembelajaran Heuristik (Heuristic Learning)

03

Validasi Batch Atari57: Batas dan Kekurangan

04

Jika Paradigma Ini Terbukti, Di Mana Signifikansi Industri?

05

Utang Rekayasa (Engineering Debt) Berpindah dari Bobot ke Kode

Pertanyaan Terkait

Bacaan Terkait

Berita Pagi | Trump Media Group Rilis Laporan Keuangan Q1; Tiga Aplikasi DeFi Mengembalikan Hampir $100 Juta Pendapatan kepada Pemegang Token dalam 30 Hari; Michael Saylor Kembali Posting Informasi Bitcoin Tracker

Telegram Secara Langsung Mengambil Alih TON, Aliran Sosial Mengubah Narasi Rantai Publik

Telegram Secara Langsung Mengambil Kendali TON, Alur Cerita Blockchain Publik Ditulis Ulang oleh Arus Sosial

Claude-mu Akan Bermalam Ini, Jangan Ganggu Ia

CoreWeave yang Diborong Duan Yongping, Kini Berubah Jadi Medan Perang Sengit antara Bull dan Bear

Trading

Artikel Populer

Apa Itu GROK AI

Apa Itu ERC AI

Apa Itu DUOLINGO AI

Diskusi

Kategori Populer

Tag Populer