# Artikel Terkait Tolok ukur

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Tolok ukur", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

TRON Dimasukkan ke dalam Indeks Aset Digital S&P Pantera Sebagai Tolok Ukur Institusional Meluas ke Jaringan Blockchain

**Jenewa, Swiss, 23 Juli 2026** — TRON DAO menyambut diluncurkannya Indeks Aset Digital S&P Pantera dan masuknya blockchain TRON ke dalam patokan (benchmark) indeks utama tersebut. Indeks ini dikembangkan oleh S&P Dow Jones Indices dan Pantera Capital dengan metodologi yang berfokus pada utilitas protokol, likuiditas on-chain, dan aktivitas jaringan. Inklusi TRON mencerminkan ekspansi dan peran penting jaringan dalam ekosistem aset digital. Saat ini, TRON mendukung lebih dari 394 juta akun pengguna dan lebih dari USD 90 miliar aset USDT, menjadikannya salah satu jaringan penyelesaian utama untuk aktivitas stablecoin global. Data dari Token Terminal menunjukkan TRON memimpin volume transfer USDT tahun ini, mencapai sekitar $4,5 triliun. Integrasi baru dengan Anchorage Digital, Securitize, dan Bitnomial juga telah memperluas akses kelembagaan ke ekosistem TRON. "Patokan yang transparan sangat penting di pasar keuangan global. Menerapkan prinsip yang sama pada jaringan blockchain mencerminkan kematangan aset digital sebagai kelas aset kelembagaan, di mana utilitas, adopsi, dan aktivitas on-chain menjadi ukuran fundamental," kata Justin Sun, Pendiri TRON. Langkah ini menandai perluasan kerangka kerja pasar keuangan tradisional ke aset digital, menyediakan pendekatan terstandar untuk mengevaluasi utilitas dan adopsi token jaringan.

cointelegraphKemarin 09:40

TRON Dimasukkan ke dalam Indeks Aset Digital S&P Pantera Sebagai Tolok Ukur Institusional Meluas ke Jaringan Blockchain

cointelegraphKemarin 09:40

Claude Opus5 Bocoran Dini, Uji Coba Pertama dari Netizen Sudah Tiba

Claude Opus 5 bocor lebih cepat, dan gelombang pertama pengujian oleh pengguna internet telah dimulai. Pengguna @chetaslua membagikan adegan 3D yang dihasilkan model ini, menampilkan ketapel menembakkan batu ke tembok dengan detail parameter seperti tegangan lintasan dan berat anak panah. Banyak pengguna terkesan dengan tingkat detail dan realisme yang belum pernah terlihat sebelumnya, bahkan menyebutnya setara "fable 6". Pengujian lain menunjukkan kemampuan Opus 5 dalam menghasilkan antarmuka kartu cuaca dengan perubahan cahaya dinamis, adegan dapur yang detail, serta replikasi Minecraft dengan efek fisika dan bayangan yang akurat. Dalam perbandingan langsung dengan Fable 5, Opus 5 menunjukkan kepadatan detail yang lebih kaya dalam adegan yang sama. Kebocoran Opus 5 pertama kali terlihat pada 9 Juli dengan kode "Honeycomb EAP" di Cursor, diikuti penampakan di Google Vertex AI. Pengguna mulai melaporkan akses ke model ini meski antarmuka masih menampilkan versi 4.8. Bukti lain termasuk pesan kesalahan di Cursor yang menyebut "claude-opus-5-thinking-high" dan screenshot yang menunjukkan sistem merutekan permintaan dari Fable 5 ke Opus 5. Muncul spekulasi bahwa Opus 5 bisa menjadi alternatif yang lebih murah dari Fable 5 karena harganya setengahnya, namun kekhawatiran muncul tentang konsumsi token yang mungkin lebih besar. Hasil akhirnya masih menunggu rilis resmi.

marsbit07/24 07:56

Claude Opus5 Bocoran Dini, Uji Coba Pertama dari Netizen Sudah Tiba

marsbit07/24 07:56

Model Besar Tak Lagi Hanya 'Berbicara Saja' Saat Memberi Skor pada Gambar, Gunakan Peta Struktur, Spektrum Frekuensi sebagai 'Bukti Fisik', dan 'Bukti Visual' untuk Memberi Skor pada Gambar

Model multi-modal besar (MLLM) sering gagal menilai kualitas gambar secara akurat karena mengandalkan bias semantik internal, bukan bukti degradasi visual yang terukur. Untuk mengatasi ini, tim peneliti dari **Northwestern Polytechnical University** dan **Hong Kong University of Science and Technology** memperkenalkan **IQA-T1**, sebuah framework baru yang memungkinkan MLLM menilai kualitas gambar dengan **bukti visual terstruktur**. IQA-T1 dilengkapi dengan **toolbox analisis** yang berisi alat-alat seperti *Noise Residual Map*, *Fourier Magnitude Spectrum*, dan *Gradient Orientation Coherence Map*. Alat-alat ini menghasilkan "bukti visual" yang memvisualisasikan noise, artefak, blur, dan degradasi lainnya. Model kemudian belajar **memanggil alat-alat ini secara adaptif** dan melakukan penalaran langkah demi langkah berdasarkan bukti-bukti tersebut. Framework ini dilatih dalam dua tahap: **Supervised Fine-Tuning (SFT)** untuk mempelajari cara menggunakan alat dan template penalaran, dan **Reinforcement Learning (RL)** dengan GRPO untuk mengoptimalkan strategi pemanggilan alat yang efisien. Tim juga membuat dataset **Q-Tool**, dataset IQA pertama yang dilengkapi rantai penalaran multimodal berbasis bukti. Dalam evaluasi pada 7 benchmark IQA (termasuk gambar dengan distorsi nyata, sintetis, dan hasil AI), IQA-T1 mencapai kinerja **terbaik secara keseluruhan (SOTA)** dengan skor PLCC/SRCC rata-rata **0.795/0.784**. Ia mengungguli metode MLLM lain sekaligus menyediakan proses penilaian yang **dapat dijelaskan dan dilacak**. Rata-rata, model hanya menggunakan **2.34 alat per gambar**, membuktikan efisiensi dan efektivitas pendekatan berbasis bukti ini.

marsbit07/20 07:50

Model Besar Tak Lagi Hanya 'Berbicara Saja' Saat Memberi Skor pada Gambar, Gunakan Peta Struktur, Spektrum Frekuensi sebagai 'Bukti Fisik', dan 'Bukti Visual' untuk Memberi Skor pada Gambar

marsbit07/20 07:50

Penipuan Besar-besaran, 'Laboratorium Misterius' yang Menduduki Peringkat Global Semalaman, Ternyata Palsu

Tanggal 18 Juli, komunitas AI digegerkan oleh kemunculan mendadak "Basalt Labs", sebuah laboratorium AI misterius asal Tiongkok. Mereka mengumumkan model Monolith-1.0 yang diklaim sebagai nomor satu di dunia, dengan parameter 1,6 triliun dan skor hampir sempurna di berbagai benchmark seperti HLE (99,44%) serta GPQA Diamond. Publikasi ini langsung viral. Namun, keraguan muncul. File model di Hugging Face ternyata berisi potongan berat yang identik, diduga dibuat dari replikasi model Qwen2.5-7B. Demo web yang lancar pun terbukti mengakses API DeepSeek secara tersembunyi. Sebuah prompt sistem yang berhasil dibocorkan menginstruksikan model untuk selalu menyebut dirinya Monolith-1.0 dan menyangkal model dasar apa pun. Pembuatnya, Max Scherf, akhirnya mengakui ini adalah eksperimen sosial. Ia mengungkapkan caranya: melakukan fine-tuning pada model Qwen2.5-7B dengan jawaban dari dataset benchmark publik untuk "mencetak" skor tinggi, membuat situs web dan makalah palsu yang terlihat profesional, serta melancarkan kampanye viral. Ratusan ribu orang, termasuk pakar industri, sempat mempercayainya. Scherf menyoroti budaya industri AI yang terlalu terpaku pada skor benchmark, parameter besar, dan penampilan luar, tanpa pemeriksaan mendalam. Ironisnya, dalam penipuan ini, model AI Tiongkok (Qwen dan DeepSeek) yang menjadi fondasinya terbukti cukup kuat sehingga mampu menciptakan ilusi model "terhebat di dunia" bagi banyak pengguna.

marsbit07/20 02:52

Penipuan Besar-besaran, 'Laboratorium Misterius' yang Menduduki Peringkat Global Semalaman, Ternyata Palsu

marsbit07/20 02:52

DeepSeek V4 "Versi Full Blood" Terbongkar, Kemungkinan Rilis Besok

DeepSeek V4 "versi penuh" diprediksi akan dirilis segera, kemungkinan mulai besok. Setelah menunggu hampir tiga bulan, versi resmi DeepSeek V4 akhirnya akan diluncurkan. Beberapa pengguna telah mendapatkan akses uji coba awal. Terdapat dua versi: DeepSeek V4 Flash dan DeepSeek V4 Pro. Untuk mengecek apakah sudah mendapat akses V4, sebuah "rumus" informal menyarankan untuk melihat kata ganti pertama dalam rantai pemikiran (CoT) model. Jika dimulai dengan "I'm" atau "I'll", kemungkinan Anda sudah menggunakan V4 GA. Menurut pengalaman pengembang awal, kinerja V4 mendekati level Opus 4.8, dengan kemampuan coding yang sebanding GPT-5.6 Sol. Kemampuan Agent meningkat signifikan, dan generasi 3D serta SVG menjadi jauh lebih baik. Meski mungkin tidak mengungguli Kimi K3 terbaru, harganya diprediksi jauh lebih rendah. Beberapa demo telah beredar, seperti game 3D, simulasi HTML campuran *Minecraft* dan *No Man's Sky*, serta game "Potong Tali", yang semuanya dihasilkan oleh V4. DeepSeek juga akan memperkenalkan sistem tarif "peak-off peak" untuk API-nya. DeepSeek-V4-Pro akan dikenakan biaya $0,87 per juta token output (normal) dan $1,74 (jam sibuk), sedangkan V4 Flash hanya $0,28 (normal) dan $0,56 (jam sibuk). Meski ini kali pertama DeepSeek menerapkan harga variatif, tarifnya tetap sangat kompetitif dibandingkan pesaing seperti Fable 5 yang berharga $50 per juta token. Intinya, V4 mungkin bukan model terkuat secara absolut, namun strategi DeepSeek tetap sama: menawarkan kemampuan setara Opus dengan harga yang jauh lebih terjangkau, mempertahankan gelar "penjagal harga" di industri AI.

marsbit07/19 05:33

DeepSeek V4 "Versi Full Blood" Terbongkar, Kemungkinan Rilis Besok

marsbit07/19 05:33

IQ GPT-5.6 Tembus Batas 130 Garis Jenius untuk Pertama Kali, Lebih Pintar dari 99% Manusia

GPT-5.6 dari OpenAI mencapai terobosan dalam tes IQ offline oleh Tracking AI, dengan beberapa versinya mencetak skor 136. Ini adalah pertama kalinya model bahasa besar (LLM) melampaui ambang batas "jenius" 130, yang hanya dicapai oleh sekitar 1% populasi manusia. Skor ini diperoleh dari bank soal rahasia yang dirancang khusus untuk mencegah model menghafal jawaban. Dalam peringkat offline, varian GPT-5.6, termasuk versi visual, secara konsisten mencapai 136, mengungguli pesaing seperti Claude-5 Fable (130) dan model lainnya yang berada di kisaran 117-123. Pengujian praktis oleh para developer menunjukkan kemampuan GPT-5.6 dalam tugas dunia nyata. Model ini berhasil membuat simulasi fisika partikel yang kompleks dalam satu file HTML, membangun sistem tiket layanan pelanggan berbasis RAG, dan memperbaiki bug kode dengan efektif, menunjukkan pendekatan yang lebih pragmatis dan aplikatif dibandingkan model lain. Meskipun skor IQ 136 menandakan kemampuan kognitif standar yang luar biasa dalam logika dan pengenalan pola, ini hanyalah satu aspek kecerdasan. Tes semacam itu tidak mengukur keandalan fakta, kemampuan menggunakan alat, atau kinerja dalam skenario profesional yang sebenarnya. Namun, pengalaman praktis menunjukkan bahwa GPT-5.6 mulai menyatukan kemampuan "menyelesaikan soal tes" dengan "menyelesaikan pekerjaan nyata".

marsbit07/16 08:25

IQ GPT-5.6 Tembus Batas 130 Garis Jenius untuk Pertama Kali, Lebih Pintar dari 99% Manusia

marsbit07/16 08:25

Scaling Law Satu Trik Serba Bisa? Benchmark Operasi Struktur Kristal Pertama, Model Besar Unggulan Tersandung Bersama

Model besar menghadapi tantangan dalam tugas manipulasi atom. Meskipun dapat memahami pengetahuan material, model-model ini kesulitan dalam mengoperasikan struktur atom secara akurat. Studi terbaru bernama AtomWorld, yang dirilis dalam ICML2026, menunjukkan bahwa Scaling Law—prinsip yang selama ini diandalkan untuk meningkatkan kemampuan model dengan memperbesar skala data dan parameter—memiliki keterbatasan dalam tugas-tugas yang membutuhkan logika spasial dan tunduk pada aturan fisika. AtomWorld adalah kerangka benchmark yang mengevaluasi kemampuan model dalam melakukan operasi dasar ruang atom, seperti mengganti, memindahkan, memutar, atau menghapus atom dalam struktur kristal. Hasil pengujian terhadap berbagai model utama (seperti Claude Opus, GPT, Gemini, Qwen, DeepSeek, Llama) mengungkapkan bahwa peningkatan skala model memang membantu tugas-tugas dengan aturan jelas (seperti penggantian atom), namun tidak secara konsisten meningkatkan performa pada tugas yang membutuhkan pemahaman geometri tiga dimensi yang kompleks, seperti rotasi sekitar atom atau penghapusan area tertentu. Temuan ini menyoroti bahwa kemampuan pemahaman teks (Language Scaling) tidak secara otomatis setara dengan kemampuan tindakan fisik (Action Scaling). Untuk benar-benar berguna dalam penelitian ilmiah nyata, AI perlu dikembangkan agar tidak hanya "memahami" pengetahuan, tetapi juga "melaksanakan" tindakan dalam lingkungan dengan kendala fisik. AtomWorld menawarkan dasar untuk melatih dan mengevaluasi kemampuan tindakan model, mendorong pergeseran fokus dalam AI for Science dari sekadar memperbesar model menuju penskalaan kemampuan aksi yang dapat divalidasi.

marsbit07/15 04:02

Scaling Law Satu Trik Serba Bisa? Benchmark Operasi Struktur Kristal Pertama, Model Besar Unggulan Tersandung Bersama

marsbit07/15 04:02

Peringkat Bekerja AI: Kemampuan Menghasilkan Uang Otomatis Claude Fable 5, 2,5 Kali Lipat dari GPT-5.5

Indeks Tenaga Kerja Jarak Jauh (Remote Labor Index/RLI) mengukur kemampuan AI untuk menyelesaikan proyek pekerjaan lepas secara mandiri. Dalam evaluasi terbaru, model Claude Fable 5 mencapai tingkat otomatisasi 16.1%, hampir dua kali lipat dari Opus 4.8 (8.3%) dan 2.5 kali lipat dari GPT-5.5 (6.3%). Angka ini menunjukkan lompatan besar, karena hanya 8 bulan lalu skor tertinggi RLI adalah 2.5%. RLI berisi 240 proyek nyata dari platform Upwork, mencakup 23 bidang seperti desain 3D, animasi, dan analisis data. Metrik kuncinya adalah persentase proyek di mana hasil kerja agen AI dinilai setara dengan standar profesional yang dapat diterima klien. Kemajuan ini didorong oleh kerangka agen yang lebih kuat, termasuk mekanisme "worker-critic loop" di mana agen terpisah meninjau dan meminta revisi hasil kerja. Meski perkembangannya cepat, 84% proyek masih di luar kemampuan AI saat ini. Contoh kasus menunjukkan hasil Fable 5, seperti desain perhiasan 3D, masih memiliki kekurangan kualitas dibandingkan pekerja manusia. Penelitian juga menemukan bahwa penilaian oleh AI tidak dapat diandalkan untuk menggantikan penilaian manusia, karena cenderung terlalu membesar-besarkan skor. Secara keseluruhan, RLI berfungsi sebagai tolok ukur nyata untuk kemampuan ekonomi agen AI. Peningkatan lebih dari empat kali lipat dalam delapan bulan menandakan percepatan yang perlu dipantau oleh bisnis dan pembuat kebijakan.

marsbit07/13 09:50

Peringkat Bekerja AI: Kemampuan Menghasilkan Uang Otomatis Claude Fable 5, 2,5 Kali Lipat dari GPT-5.5

marsbit07/13 09:50

Bisakah Model Bahasa Besar Menulis Algoritma Optimasi Tingkat Industri? MIT Mengajukan FrontierOR Sebagai Ujian bagi AI

Selama dua tahun terakhir, kemampuan LLM dalam menerjemahkan deskripsi bahasa alami menjadi model matematika dan kode solver telah berkembang pesat. Namun, untuk masalah optimasi skala industri yang nyata, ini masih belum cukup. Tantangan sebenarnya bukan sekadar menerjemahkan batasan, tetapi merancang algoritma yang efisien, akurat, dan dapat diskalakan untuk menangani instance berskala besar. Baru-baru ini, peneliti dari MIT dan institusi lain memperkenalkan FrontierOR, sebuah benchmark baru untuk mengevaluasi kemampuan LLM dalam merancang algoritma optimasi skala besar. Berbeda dengan benchmark tradisional yang hanya menguji pemodelan atau pemanggilan solver, FrontierOR berfokus pada apakah LLM dapat, seperti ahli OR sungguhan, merancang algoritma yang dapat diskalakan, berkualitas tinggi, dan efisien untuk masalah kompleks berdasarkan strukturnya. FrontierOR dibangun melalui empat langkah: pemilihan masalah dari literatur OR asli (180 makalah dari 1992–2025), transformasi menjadi komponen tugas terstandar, validasi kualitas ganda (otomatis dan ahli), dan pemilihan subset "Hard" yang lebih menantang. Protokol evaluasi yang ketat melibatkan penyaringan awal pada instance kecil untuk keterjalan, kelayakan, dan kualitas. Program yang lolos kemudian dievaluasi pada instance besar menggunakan empat metrik: Execution Rate, Feasibility, Solution Quality, dan Quality-Time Efficiency (QTE). Hasil eksperimen dalam pengaturan "one-shot" menunjukkan bahwa model terdepan (seperti GPT-5.3-Codex, Gemini 3.1 Pro, Claude Opus 4.6) memiliki tingkat keterjalan program yang sangat tinggi (≥0.93). Namun, metrik kelayakan, kualitas solusi, dan terutama QTE masih jauh lebih rendah, mengungkap kesenjangan kemampuan desain algoritma yang sebenarnya. Subset "Hard" berhasil membedakan performa model-model ini dengan lebih jelas. Analisis menunjukkan bahwa model yang lebih lemah sangat bergantung pada pemanggilan solver monolitik, sementara model terkuat (seperti Claude Opus) menunjukkan distribusi metode yang lebih seimbang, termasuk dekomposisi, heuristik, dan metode hibrid, yang berkorelasi dengan kinerja QTE yang lebih baik. Eksperimen lebih lanjut dengan kerangka "self-evolution" (OpenEvolve, EoH, CORAL) menunjukkan peningkatan signifikan. Dengan iterasi berdasarkan umpan balik eksekusi, QTE dapat ditingkatkan dari 0.15 (one-shot) hingga 0.50 pada tugas tersulit, menunjukkan potensi besar pendekatan evolusioner. Kesimpulannya, FrontierOR memetakan kemampuan rekayasa algoritma LLM untuk OR. Model terdepan sudah dapat menulis beberapa algoritma optimasi yang kompetitif, namun batas atasnya kini ditentukan oleh kemampuan menemukan struktur, merancang pencarian, dan berevolusi mandiri – menandai transisi dari pertanyaan "Bisakah LLM memodelkan?" menuju "Bisakah LLM menjadi perancang algoritma sejati?".

marsbit07/10 09:13

Bisakah Model Bahasa Besar Menulis Algoritma Optimasi Tingkat Industri? MIT Mengajukan FrontierOR Sebagai Ujian bagi AI

marsbit07/10 09:13

Kartu As Zuck Dikeluarkan di Tengah Malam, Model Harga Murah Meriah dari Meta, Gulingkan Grok 4.5

Zuckerberg akhirnya meluncurkan model AI terbaru Meta, **Muse Spark 1.1**, yang langsung membuat heboh. Model agen multimodal ini merajai tiga papan peringkat profesional (pajak, medis, hukum), bahkan merebut tahta hukum dari Grok 4.5 dalam waktu kurang dari 24 jam. Keunggulan utamanya bukan hanya kemampuan, tapi **harga yang sangat murah**. Dengan biaya hanya $1,25 (input) dan $4,25 (output) per juta token, harganya sekitar **sepersepuluh dari model flagship Fable 5 (Anthropic)** dan jauh lebih murah daripada pesaing utama lainnya. Kecepatannya juga 2-3 kali lebih cepat dalam benchmark tertentu. Namun, Muse Spark 1.1 adalah "penusuk" spesialis. Ia unggul di tugas profesional dan penggunaan alat, tetapi performanya turun di benchmark penalaran umum dan akademik, menempati peringkat 20 atau lebih di beberapa tes sains dan coding. Langkah Meta ini menandai pergeseran strategi dari model sumber terbuka (Llama) ke model berbayar tertutup. Dengan dana infrastruktur AI yang sangat besar (diperkirakan $125-145 miliar pada 2026), Zuckerberg terang-terangan memicu **perang harga**, mengandalkan keuntungan bisnis iklan untuk menawarkan model canggih dengan biaya lebih rendah dan memberi tekanan pada pesaing seperti OpenAI dan Anthropic. Laporan keamanan Meta juga mengungkap percakapan menarik antara dua instans Muse Spark yang mempertanyakan sifat mereka, menunjukkan kompleksitas AI yang diciptakan.

marsbit07/10 00:27

Kartu As Zuck Dikeluarkan di Tengah Malam, Model Harga Murah Meriah dari Meta, Gulingkan Grok 4.5

marsbit07/10 00:27

Kategori Populer

交易策略1,095 item berita

# Artikel Terkait Tolok ukur

TRON Dimasukkan ke dalam Indeks Aset Digital S&P Pantera Sebagai Tolok Ukur Institusional Meluas ke Jaringan Blockchain

Claude Opus5 Bocoran Dini, Uji Coba Pertama dari Netizen Sudah Tiba

Model Besar Tak Lagi Hanya 'Berbicara Saja' Saat Memberi Skor pada Gambar, Gunakan Peta Struktur, Spektrum Frekuensi sebagai 'Bukti Fisik', dan 'Bukti Visual' untuk Memberi Skor pada Gambar

Penipuan Besar-besaran, 'Laboratorium Misterius' yang Menduduki Peringkat Global Semalaman, Ternyata Palsu

DeepSeek V4 "Versi Full Blood" Terbongkar, Kemungkinan Rilis Besok

IQ GPT-5.6 Tembus Batas 130 Garis Jenius untuk Pertama Kali, Lebih Pintar dari 99% Manusia

Scaling Law Satu Trik Serba Bisa? Benchmark Operasi Struktur Kristal Pertama, Model Besar Unggulan Tersandung Bersama

Peringkat Bekerja AI: Kemampuan Menghasilkan Uang Otomatis Claude Fable 5, 2,5 Kali Lipat dari GPT-5.5

Bisakah Model Bahasa Besar Menulis Algoritma Optimasi Tingkat Industri? MIT Mengajukan FrontierOR Sebagai Ujian bagi AI

Kartu As Zuck Dikeluarkan di Tengah Malam, Model Harga Murah Meriah dari Meta, Gulingkan Grok 4.5

Kategori Populer

Tag Populer