Melampaui 'Tembok Memori', Revolusi Tingkat Wafer dan Rute Kekuatan Komputasi di Era Inferensi AI

marsbitXuất bản vào 2026-06-05Cập nhật gần nhất vào 2026-06-05

Tóm tắt

Pada tahun 2026, titik balik global AI muncul: belanja modal *inference* penyedia awan melebihi *training*, menandai pergeseran dari "membuat" ke "menggunakan" model besar. Hambatan utama bergeser dari daya komputasi ke "dinding memori"—bottleneck dalam memindahkan data (seperti berat model dan KV Cache) antara DRAM dan GPU, yang menyebabkan konsumsi energi tinggi dan penundaan. Arsitektur alternatif seperti Cerebras menawarkan solusi radikal melalui Wafer-Scale Engine (WSE). Daripada memotong wafer, Cerebras menggunakannya utuh sebagai satu chip raksasa (WSE-3), menampung 44GB SRAM *on-chip* dengan bandwidth 21 PB/detik—ribuan kali lebih cepat dari HBM tradisional. Ini memungkinkan aliran berat model dari memori eksternal (MemoryX) ke chip dengan latency sangat rendah, meningkatkan kecepatan *token* inferensi hingga 1,5–5x dibandingkan GPU seperti NVIDIA B200. Selain itu, daya interkoneksinya jauh lebih efisien (0,15 pJ/bit vs 10 pJ/bit GPU). Namun, pendekatan ini menghadapi tantangan: skala SRAM terhambat batas fisik, memerlukan sistem pendingin khusus, bandwidth I/O eksternal terbatas, dan ekosistem perangkat lunaknya yang kurang umum. Sementara itu, raksasa teknologi merespons dengan tiga jalur: chip ASIC khusus inferensi (seperti Microsoft Maia), kemasan *wafer-scale* yang semakin umum (misal, TSMC SoW), serta eksplorasi interkoneksi optik. Tekanan komersial juga besar bagi Cerebras, yang kini harus membangun pusat data skala besar untuk memenuhi pesanan. Intinya, tid...

Tahun 2026, perkembangan AI global mencapai titik balik bersejarah—pengeluaran modal inferensi oleh vendor awan berskala ultra-besar, untuk pertama kalinya dalam sejarah, melampaui pengeluaran modal pelatihan. Titik fokus industri bergeser dari "membangun model besar" ke "menggunakan model besar", struktur permintaan daya komputasi mengalami perubahan fundamental.

Di era pelatihan, kontradiksi inti daya komputasi adalah "presisi ganda floating point dan skala klaster"; sementara memasuki era inferensi, kontradiksi inti berubah menjadi "bandwidth memori dan latensi komunikasi".

Hambatan inferensi model besar tidak lagi hanya komputasi, melainkan perpindahan data—bobot model, nilai aktivasi perantara, dan KV Cache perlu sering berinteraksi antara DRAM di luar chip (seperti HBM) dan GPU. Semakin besar modelnya, konsumsi energi dan penundaan akibat pemindahan data semakin tinggi, akhirnya jauh melampaui konsumsi energi komputasi itu sendiri, sehingga membentuk "tembok memori".

GPU NVIDIA membangun benteng kokoh dengan CUDA dan NVLink, tetapi tetap tidak dapat menghindari idle GPU akibat hambatan bandwidth.

Perusahaan model besar domestik, Zhipu AI, melakukan eksperimen sederhana: dalam klaster inferensi 512 kartu, GPU, model, dan kode tetap sama, hanya mengganti bandwidth jaringan maksimum dari 200GB/S menjadi 400GB/S, throughput inferensi langsung naik 10%, latensi keluaran token pertama turun 19%—alasannya sederhana, hanya dengan memperlebar jalan, mobil bisa berjalan lebih cepat.

Namun, arsitektur non-GPU seperti yang diwakili Cerebras, tampaknya sedang merobek celah di tembok memori.

Perbandingan Ukuran Chip Cerebras WSE-3 dan GPU NVIDIA B200

Esensi Cerebras: Mesin Komputasi Near-Memory Berbasis SRAM

Cerebras Systems didirikan oleh Andrew Feldman dan lainnya di Silicon Valley, tim pendiri awalnya berasal dari sebuah server mikro hemat daya bernama SeaMicro. Perusahaan ini kemudian diakuisisi oleh AMD, dan setelah itu:

2015, tim pendiri menetapkan jalur "komputasi tingkat wafer";

2016, menyelesaikan pendaftaran dan pendanaan Seri A, memasuki fase pengembangan tersembunyi;

2019, merilis produk pertama, chip WSE-1 dan sistem CS-1, berbasis proses TSMC 16nm;

2021, merilis produk generasi kedua, berbasis proses TSMC 7nm;

2024, merilis produk generasi ketiga (WSE-3 / CS-3), berbasis proses TSMC 5nm, chip dan sistem diproduksi di AS, merupakan sistem chip murni buatan AS.

Konfigurasi Sistem CS-3, berisi 1 chip WSE-3

Filosofi arsitektur Wafer-Scale Engine (WSE) Cerebras sederhana, kasar, tetapi langsung mengenai titik permasalahan: Memanfaatkan pembesaran ekstrem ruang fisik untuk mendapatkan kompresi ekstrem terhadap latensi pemindahan data.

Chip biasa memotong satu wafer menjadi banyak chip kecil, misalnya GPU NVIDIA mengikuti pendekatan ini. Cerebras sebaliknya: tidak dipotong, wafer utuh secara langsung dijadikan satu chip super besar, disebut Wafer-Scale Engine, WSE.

Chip tradisional memotong wafer berdiameter 300mm menjadi ratusan chip kecil; sedangkan Cerebras memilih mempertahankan seluruh wafer sebagai satu chip utuh. WSE-3 terbaru memiliki 4 triliun transistor, 900 ribu inti AI, setiap inti dilengkapi dengan SRAM lokal 48KB, sehingga total SRAM dalam chip mencapai 44GB, menyediakan bandwidth memori dalam chip (on‐chip memory bandwidth) 21PB/detik dan bandwidth jaringan (fabric bandwidth) 214Pb/detik, ini adalah ribuan kali lipat bandwidth HBM tradisional.

Bandwidth memori Cerebras WSE adalah 2625 kali chip kemasan NVIDIA B200, menghancurkan hambatan bandwidth memori dalam skenario inferensi model besar.

Dalam arsitektur Cerebras, bobot model tidak pernah disimpan di SRAM, melainkan di penyimpanan luar chip MemoryX, dan ditransfer lapis demi lapis ke chip besar. Cara implementasinya adalah memisahkan penyimpanan bobot model jaringan saraf dengan unit komputasi.

Semua bobot model disimpan secara eksternal di modul ekspansi memori MemoryX, bobot yang diperlukan untuk setiap lapisan komputasi jaringan akan ditransfer lapis demi lapis sesuai kebutuhan ke sistem CS-3. Bobot disimpan di DRAM dan flash memori MEMORY X, dan ditransmisikan ke sistem CS-3 dengan kecepatan bandwidth penuh. Bobot-bobot ini tidak disimpan di sistem CS-3, bahkan tidak disimpan dalam cache sementara, CS-3 mengandalkan mekanisme aliran data inti untuk menyelesaikan komputasi.

Cerebras, dengan arsitektur tingkat wafer, menunjukkan keunggulan luar biasa dalam inferensi LLM yang dibatasi oleh bandwidth memori. Saat menghasilkan token per token, bobot ditransmisikan lapis demi lapis dari luar chip MemoryX ke CS-3 secara streaming, saat menjalankan model yang berbeda, kecepatan token adalah 1,5 - 5 kali NVIDIA B200.

GPU NVIDIA DGX B200 versus chip Cerebras CS-3, perbandingan kecepatan token saat menjalankan model besar yang berbeda

Keunggulan intinya terletak pada: SRAM dalam chip CS-3 sebesar 44GB menyediakan bandwidth super tinggi 21 PB/detik (2625 kali B200) dan interkoneksi 214 Pb/detik, membuat transmisi aliran bobot terbebas dari batasan antarmuka HBM. Oleh karena itu, performanya sangat menonjol pada TTFT (Time To First Token, waktu dari permintaan dikirim hingga model mengembalikan token pertama), konteks panjang, dan beban kerja agen.

Meskipun bobot ditempatkan di luar MemoryX dan dimuat lapis demi lapis sesuai kebutuhan dan tidak di-cache di dalam chip, CS-3 mengandalkan mekanisme aliran data inti untuk menyelesaikan komputasi presisi penuh FP16 tanpa kehilangan di SRAM; dengan penskalaan performa linier, juga melepaskan total throughput yang luar biasa di bawah inferensi konkurensi multi-pengguna.

Selain bandwidth, ada juga keunggulan konsumsi daya. Baru-baru ini, dalam pidato Chairman Zhongji Xu Chuang, Liu Sheng juga menyebutkan, persyaratan pelanggan untuk modul optik adalah 1 pJ/bit, sedangkan saat ini adalah 10 pJ/bit. Dalam chip Cerebras, konsumsi daya interkoneksi hanya 0,15 pJ/bit, sedangkan konsumsi daya interkoneksi GPU saat ini adalah 10 pJ/bit.

Perbandingan bandwidth dan konsumsi daya arsitektur interkoneksi Cerebras dan GPU

Dapat dilihat, jika arsitektur chip besar tingkat wafer Cerebras menjadi arus utama inferensi atau bahkan pelatihan AI, mungkin akan menghambat dan mengubah secara signifikan volume pengiriman modul optik tradisional dan CPO (Co-Packaged Optics). Logika intinya adalah: permintaan tinggi untuk modul optik dan CPO pada dasarnya adalah untuk mengatasi hambatan bandwidth "interkoneksi antar chip" dan "interkoneksi antar node" dalam klaster GPU; sedangkan arsitektur Cerebras justru menyelesaikan masalah dengan "menghilangkan interkoneksi terdistribusi".

Intuisi Terbalik: "Kecacatan" Sejati dan Palsu pada Chip Besar Tingkat Wafer

Inti dari chip selalu terletak pada Trade Off (seni pertukaran). Cerebras, demi bandwidth ekstrem SRAM dalam chip, juga membawa beberapa masalah.

Hasil produksi rendah?

Justru sebaliknya, ukuran inti AI tunggal dikurangi menjadi 0,05 milimeter persegi (1% dari ukuran inti komputasi tunggal H100), sehingga hasil produksi justru lebih tinggi. Melalui routing di dalam chip, inti yang cacat dapat dimatikan dan dilewati, sehingga toleransi cacat meningkat 100 kali lipat dibandingkan dengan prosesor multi-inti tradisional. Sebenarnya seluruh chip memiliki 1 juta inti AI, tetapi dengan mempertimbangkan hasil produksi, diumumkan ke publik adalah 900 ribu inti AI.

Hanya ahli dalam inferensi, tidak ahli dalam pelatihan?

Dalam beberapa tahun sejak Cerebras didirikan, pelatihan adalah topik utama, sehingga perusahaan selalu melakukan banyak pekerjaan seputar pelatihan, hanya saja setelah permintaan inferensi meledak, orang-orang menemukan keunggulannya dalam inferensi lebih jelas.

Faktanya, komputasi terdistribusi yang disederhanakan juga membawa serangkaian keunggulan seperti penurunan kompleksitas kode dan penurunan overhead komunikasi.

Melatih model dengan parameter 175 miliar pada 4000 GPU biasanya membutuhkan sekitar 20.000 baris kode pelatihan terdistribusi.

Cerebras mencapai pelatihan setara dengan 565 baris kode—seluruh model dapat dipasang di wafer, dan tidak perlu menangani kompleksitas paralelisme data.

Penskalaan SRAM sudah mati, keunggulan inti menghadapi batas fisik.

Produk generasi ketiga berbasis proses TSMC 5nm, kapasitas SRAM-nya hanya meningkat 10% dibandingkan produk generasi kedua berbasis proses TSMC 7nm, setelah proses 5nm, luas sel SRAM hampir tidak lagi menyusut seiring kemajuan proses.

Ini berarti Cerebras tidak dapat lagi meningkatkan keunggulan intinya (kapasitas SRAM) secara signifikan dengan meng-upgrade proses TSMC (seperti dari 5nm ke 3nm) seperti dulu.

Dibatasi oleh ukuran wafer, kemampuan pendinginan, dan biaya produksi, sumber daya penyimpanan seperti SRAM dalam chip sulit diperluas secara linier bersamaan dengan inti komputasi, rasio sumber daya menghadapi hambatan. Ini hampir memblokir jalan evolusinya.

Spesifikasi teknis tiga generasi produk Cerebras

Tiga penderitaan: pendinginan, proses, dan ekosistem.

Seluruh wafer memusatkan panas, kerapatan aliran panas tinggi, harus mengandalkan ruang server kustom dan sistem pendingin cair khusus. Selain itu, keumuman ekosistem berarti pelanggan harus beradaptasi dengan software stack kustomnya, kompatibilitasnya lemah dengan kerangka kerja pemrograman umum seperti CUDA, biaya porting dan adaptasi perangkat lunak tinggi.

Bandwidth luar chip rendah, menjadi "pulau terisolasi" dalam ekspansi.

Karena keterbatasan desain fisik tingkat wafer, jumlah pin I/O yang dapat dikeluarkan di tepi WSE sangat terbatas, mengakibatkan bandwidth I/O-nya hanya 150GB/s. Dibandingkan dengan bandwidth dua arah NVLink NVIDIA yang mencapai 1,8TB/s, ini seperti siput. Ini berarti WSE sangat sulit untuk diperluas ke luar dengan kecepatan tinggi. Meskipun interkoneksi SwarmX Cerebras cukup baik dalam kombinasi multi-sistem, di hadapan model super besar yang membutuhkan interkoneksi kecepatan tinggi multi-chip, bandwidth luar chip yang sangat rendah menjadi belenggu fisik struktural.

Persaingan Jalur: Pengembangan Mandiri Perusahaan Besar, Berapa Lama Lagi Masa Jendela Cerebras?

Cara perusahaan besar menyelesaikan "inferensi membutuhkan bandwidth lebih tinggi + latensi lebih rendah" tidak hanya satu jalan wafer-scale, mereka sedang melalui tiga jalur paralel untuk mengepung keuntungan teknologi perusahaan rintisan.

1. Chip ASIC Pengembangan Mandiri

Google TPU v8 telah terpecah menjadi versi training-specific dan inference-specific; AWS Trainium 4 sedang dalam perjalanan; Microsoft Maia telah digunakan di dalam Azure, dibangun berdasarkan proses TSMC 3nm, inti tensor FP8/FP4 asli, sistem memori yang didesain ulang, dilengkapi HBM3e 216GB, SRAM dalam chip 272MB; bahkan Anthropic mulai mengevaluasi chip inferensi pengembangan mandiri.

Probabilitas jalur ini sangat tinggi, ini akan langsung menyebabkan TAM (Total Addressable Market) "pembelian inferensi pihak ketiga" pada tahun 2028, terkompresi 10% hingga 25%.

2. Generalisasi Proses pada Jalur Packaging Standar

Ini adalah serangan dimensi langsung terhadap Cerebras.

SoW (System-on-Wafer) TSMC telah dibuka luas ke pelanggan, interposer CoWoS 9.5x juga akan diluncurkan pada tahun 2027.

Apa yang dilakukan kedua produk ini—menyatukan beberapa die pada tingkat wafer—pada dasarnya adalah membuat proses fisik Cerebras menjadi umum dan terjangkau.

NVIDIA Vera Rubin akan memasuki ekosistem ini pada paruh kedua tahun 2026.

Cross-reticle stitching yang dilakukan sendiri oleh Cerebras meskipun eksklusif, tetapi masa jendela eksklusifnya paling lama hanya 2 hingga 3 tahun, setelah tahun 2027 - 2028, hambatan prosesnya akan diencerkan oleh kemasan canggih TSMC.

3. Terobosan Interkoneksi Optik/Komputasi Optik

Interkoneksi dan tembok memori chip elektronik telah mencapai batas, bandwidth tinggi, latensi rendah, dan zero crosstalk foton adalah solusi akhir.

Jalur optik yang diwakili oleh Lumentum sedang bangkit. Keunggulan terbesar wafer-scale adalah komputasi dalam chip, tetapi model pasti akan semakin besar, interkoneksi kecepatan tinggi di atas wafer scale adalah kebutuhan mutlak.

Dengan matangnya CPO (Co-Packaged Optics) dan Optical Interconnects, sangat mungkin di masa depan kita melihat I/O optik langsung dimasukkan ke wafer WSE, memecahkan belenggu interkoneksi listrik; dan NVIDIA juga mungkin mengakuisisi perusahaan dengan keunggulan arsitektur tertentu seperti LPU (contohnya Groq), menggabungkan interkoneksi optik, mengembangkan sistem tingkat wafer yang kompatibel dengan perangkat lunak super-node NV yang ada.

Berlari di Tepi Jurang: Bisnis dan Pengiriman Cerebras

Saat ini Cerebras sedang menghadapi perlombaan di tepi jurang yang dipaksa oleh pesanan besar-besaran.

Transaksi dengan pelanggan besar seperti OpenAI memaksa Cerebras bertransformasi dari perusahaan chip menjadi penyedia layanan cloud baru. Ia tidak lagi hanya menjual perangkat keras, tetapi perlu mengunci dan membangun fasilitas dan daya pusat data dalam jumlah besar dalam waktu singkat.

Berdasarkan persyaratan kontrak, Cerebras perlu mengirimkan kapasitas pusat data 250MW setiap tahun pada periode 2026 - 2028. Namun, sistem tingkat wafer memiliki persyaratan ruang server yang sangat tinggi, tidak dapat langsung dimasukkan ke IDC berpendingin udara tradisional. Saat ini, persiapan kapasitas pusat data Cerebras sudah jelas tertinggal dari persyaratan kontrak.

Dari fabrikasi wafer hingga pembangunan pabrik, dari persetujuan daya hingga penerapan sistem pendingin, ini adalah lumpur aset berat dan siklus panjang.

Penutup: Ke Kiri atau Ke Kanan?

Kembali ke proposisi awal, ketika titik balik daya komputasi inferensi telah tiba, inti arsitektur daya komputasi selalu terletak pada pertukaran.

Tidak ada yang mutlak benar atau salah, hanya solusi relatif optimal di bawah beban kerja terpenting. Beban kerja sebenarnya sudah berubah.

Cerebras ke kiri, memilih optimasi fisik ekstrem, menggunakan seluruh wafer dan SRAM dalam jumlah besar untuk mendapatkan latensi sangat rendah pada tugas tunggal, ini tak tertandingi untuk skenario yang sangat sensitif terhadap latensi token pertama.

NVIDIA ke kanan, memilih mempertahankan keumuman, menggunakan HBM + NVLink + throughput klaster super besar, menghadapi ribuan perubahan beban kerja, tidak berubah menghadapi perubahan.

Angin bertiup kencang, awan bergulung, jalan di depan belum jelas. Justru ketidakpastian ganda teknologi dan bisnis inilah yang mengandung kemungkinan disruptif. Dalam arus deras daya komputasi menuju AGI, sekarang masih terlalu dini untuk menarik kesimpulan—karena tidak pasti, ada peluang.

Artikel ini berasal dari akun WeChat publik "Garlic Kernel Machinery Research Institute", penulis: Pili Youxia

Câu hỏi Liên quan

QApa yang dimaksud dengan 'dinding memori' (memory wall) dalam konteks komputasi AI, dan mengapa hal ini menjadi masalah kritis di era inferensi?

A'Dinding memori' (memory wall) mengacu pada hambatan kinerja dalam komputasi AI di mana energi dan latensi yang diperlukan untuk memindahkan data (seperti bobot model, nilai aktivasi, dan KV Cache) antara DRAM eksternal (misalnya, HBM) dan GPU jauh melebihi energi yang digunakan untuk komputasi itu sendiri. Ini menjadi masalah kritis di era inferensi karena beban kerja inferensi model besar sangat bergantung pada bandwidth memori dan latensi komunikasi, bukan hanya daya komputasi. Semboyan (idle) GPU sering terjadi karena keterbatasan bandwidth ini.

QBagaimana arsitektur Wafer-Scale Engine (WSE) dari Cerebras mengatasi masalah 'dinding memori' dalam inferensi AI?

AArsitektur Wafer-Scale Engine (WSE) Cerebras mengatasi 'dinding memori' dengan menggunakan hampir seluruh wafer silikon sebagai satu chip raksasa (WSE). Chip ini memiliki SRAM on-chip yang sangat besar (44GB pada WSE-3) yang menyediakan bandwidth memori on-chip yang sangat tinggi (21 PB/s), ribuan kali lebih cepat dari HBM tradisional. Dengan pendekatan ini, kebutuhan untuk sering memindahkan data ke dan dari memori eksternal berkurang drastis, sehingga mengurangi latensi dan konsumsi energi terkait perpindahan data.

QApa saja keunggulan utama chip Cerebras CS-3 (berbasis WSE-3) dibandingkan dengan GPU tradisional seperti NVIDIA B200 dalam beban kerja inferensi model besar?

AKeunggulan utama Cerebras CS-3 dibandingkan GPU seperti NVIDIA B200 meliputi: 1) Bandwidth memori on-chip yang jauh lebih tinggi (21 PB/s vs ~8 TB/s pada B200), 2) Latensi interkoneksi on-chip yang sangat rendah dengan konsumsi daya hanya 0.15 pJ/bit (vs ~10 pJ/bit pada GPU), 3) Kinerja token yang lebih cepat untuk inferensi, berkisar 1.5 hingga 5 kali lebih cepat tergantung model, 4) Kode pelatihan yang jauh lebih sederhana karena tidak memerlukan paralelisme data yang kompleks seperti pada kluster GPU.

QApa tantangan dan keterbatasan utama yang dihadapi oleh pendekatan chip skala wafer (wafer-scale) seperti yang digunakan Cerebras?

ATantangan dan keterbatasan utama pendekatan wafer-scale meliputi: 1) Skalabilitas SRAM yang terbatas karena kepadatan SRAM hampir tidak menyusut lagi di node proses di bawah 5nm, 2) Masalah dissipasi panas yang tinggi pada wafer utuh, memerlukan sistem pendingin cair khusus dan fasilitas data center yang dirancang khusus, 3) Bandwidth I/O eksternal yang relatif rendah (~150 GB/s) membatasi ekspansi multi-sistem, 4) Ekosistem perangkat lunak yang kurang umum (non-CUDA) meningkatkan biaya adaptasi, dan 5) Ancaman dari proses packaging canggih (seperti SoW dari TSMC) yang dapat mendemokratisasi teknologi serupa.

QStrategi apa yang ditempuh perusahaan teknologi besar (seperti Google, AWS, Microsoft) untuk mengatasi kebutuhan inferensi AI, dan bagaimana hal ini memengaruhi lanskap persaingan?

APerusahaan teknologi besar mengejar tiga jalur strategis utama: 1) Mengembangkan ASIC khusus inferensi (seperti Google TPU v8 Inference, Microsoft Maia, AWS Trainium/Inferentia) untuk efisiensi dan kontrol yang lebih besar, 2) Memanfaatkan kemajuan dalam teknologi packaging canggih (seperti TSMC's System-on-Wafer) untuk membuat sistem yang mirip wafer-scale dengan lebih mudah, 3) Mengeksplorasi interkoneksi dan komputasi fotonik (optical) untuk mengatasi batasan interkoneksi listrik. Strategi-strategi ini berpotensi mengurangi ketergantungan pada vendor pihak ketiga seperti Cerebras dan mempersempit jendela peluang kompetitifnya.

Nội dung Liên quan

Kalshi, MTS và tham vọng của a16z

Trí tuệ thị trường dự đoán và tham vọng "Truyền thông Mới" của a16z Bài viết phân tích sự trỗi dậy của thị trường dự đoán (prediction markets), đặc biệt là công ty Kalshi được định giá 220 tỷ USD, dưới góc nhìn chiến lược đầu tư và truyền thông của quỹ mạo hiểm a16z. Tác giả điểm lại lịch sử tư tưởng của thị trường dự đoán, từ học thuyết của Hayek về việc thị trường tổng hợp tri thức phân tán, đến cơ chế khuyến khích của Robin Hanson (LMSR) và ý tưởng chính phủ dựa trên dự đoán (Futarchy). Trọng tâm bài viết nằm ở việc a16z, sau khi đầu tư vào Kalshi, đã định vị lại giá trị cốt lõi của thị trường dự đoán không chỉ là sòng bạc hay sàn giao dịch, mà là một phương tiện truyền thông mới mang lại "cảm giác hiện diện" (presence). Trong một thế giới ngày càng bị che khuất và bất lực, việc dùng tiền thật để đặt cược vào các sự kiện toàn cầu giúp cá nhân tái khẳng định vai trò "người quan sát tối thượng", can thiệp và diễn giải thực tại. Kalshi, theo logic này, sẽ trở thành nơi định đoạt tính xác thực và tầm quan trọng của sự kiện. Bài viết liên kết điều này với tầm nhìn "Truyền thông Mới" của a16z – một hệ thống truyền thông toàn diện từ định hình luận điệu, tài trợ, phát hành sản phẩm đến thu hút khách hàng với tốc độ và cường độ chưa từng có, nhằm "tiếp quản dòng thời gian". Ví dụ điển hình là MTS (Monitoring The Situation), một hãng truyền thông chuyên phát sóng tin tức 24/7 trên Twitter. Kết luận cho rằng sức hút thực sự của Kalshi và lý do định giá khổng lồ của nó nằm ở "trường lực bẻ cong hiện thực" – khả năng tạo ra một thực tại thay thế có sức thuyết phục cao nhờ vào khối lượng giao dịch bằng tiền thật, từ đó trở thành một mảnh ghép quyền lực trong đế chế truyền thông mới của a16z.

marsbit51 phút trước

marsbit51 phút trước

Bất Ngờ: Cựu Nhân Sự Trụ Cột Trong Dự Án Chip Của OpenAI Gia Nhập Anthropic

Chuyên gia chip "nhân viên số 002" của OpenAI, Clive Chan, vừa thông báo rời OpenAI để gia nhập Anthropic. Anh là một trong những thành viên sớm nhất của đội ngũ phát triển chip tự thiết kế của OpenAI, tham gia từ giai đoạn hình thành đến nay. Dù đánh giá cao đội ngũ chip tại OpenAI, Clive Chan chia sẻ anh luôn có mong muốn "chinh phục một ngọn núi mới từ chân núi", đó là lý do anh chuyển sang Anthropic. Tại Anthropic, anh ấn tượng với năng lực, giá trị cốt lõi và tham vọng của đội ngũ, đồng thời trải nghiệm cường độ làm việc rất cao. Khi được hỏi về tiến độ dự án chip của OpenAI, Clive Chan đề cập đến thông tin hợp tác công khai giữa OpenAI và Broadcom, với kế hoạch triển khai bắt đầu từ nửa cuối năm 2026. Clive Chan có kinh nghiệm làm việc tại nhiều công ty công nghệ hàng đầu như Tesla, Google, SpaceX trước khi gia nhập OpenAI vào đầu năm 2024. Việc chuyển đổi của anh là một ví dụ nữa cho thấy dòng chảy nhân tài đáng chú ý giữa OpenAI và Anthropic, sau sự kiện nhà nghiên cứu nổi tiếng Andrej Karpathy chuyển sang Anthropic hồi tháng 5. Động thái này càng thu hút sự chú ý khi Anthropic vừa hoàn thành vòng gọi vốn với định giá gần 1.000 tỷ USD.

marsbit53 phút trước

Bất Ngờ: Cựu Nhân Sự Trụ Cột Trong Dự Án Chip Của OpenAI Gia Nhập Anthropic

marsbit53 phút trước

a16z chuyển hướng toàn cầu hóa: VC đang trở thành "động lực thúc đẩy" của liên minh công nghệ Mỹ

Biên tập: Thông báo của Ben Horowitz cho thấy một bước chuyển quan trọng trong chiến lược toàn cầu hóa của a16z: họ không chỉ tìm kiếm dự án ở nước ngoài hay mở rộng đầu tư quốc tế, mà còn đặt mình vào khuôn khổ cạnh tranh công nghệ và hợp tác đồng minh rộng lớn hơn. Trong bối cảnh AI, robot, công nghệ quốc phòng, an ninh mạng và tái cấu trúc chuỗi cung ứng trở thành trọng tâm cạnh tranh quốc gia, con đường quốc tế hóa của startup trở nên phức tạp hơn. A16z đang phản ứng với sự thay đổi này thông qua việc thành lập văn phòng Tokyo, bổ nhiệm Anne Neuberger phụ trách các vấn đề toàn cầu, và nâng cấp nhóm quan hệ nhà đầu tư thành nhóm đối tác toàn cầu. Tín hiệu quan trọng nhất là a16z gắn kết mạng lưới toàn cầu của mình với năng lực lãnh đạo công nghệ của "Mỹ và các đồng minh". Đối với a16z, mạng lưới đầu tư mạo hiểm trong tương lai không chỉ giúp nhà sáng lập gọi vốn, tuyển dụng, bán hàng mà còn hỗ trợ họ tiếp cận thị trường trọng điểm, kết nối với chính phủ và các tổ chức chiến lược, cũng như hiểu rõ môi trường chính sách và quy định của các quốc gia khác nhau. Điều này có nghĩa vai trò của các tổ chức đầu tư mạo hiểm hàng đầu đang được định nghĩa lại. Họ không còn chỉ là trung gian vốn, mà là người tổ chức kết nối công ty khởi nghiệp, năng lực quốc gia, nguồn lực ngành, hệ thống đồng minh và vốn toàn cầu. Chiến lược toàn cầu hóa lần này của a16z có thể được xem như một sự chủ động định vị của vốn Silicon Valley trong cuộc cạnh tranh công nghệ toàn cầu mới.

marsbit1 giờ trước

a16z chuyển hướng toàn cầu hóa: VC đang trở thành "động lực thúc đẩy" của liên minh công nghệ Mỹ

marsbit1 giờ trước

Kalshi, MTS và Tham vọng của a16z

Bài viết phân tích tầm quan trọng của thị trường dự đoán (prediction markets), tập trung vào Kalshi, và tầm nhìn của quỹ đầu tư mạo hiểm a16z trong việc xây dựng một đế chế truyền thông mới. Tác giả điểm qua lịch sử tư tưởng đằng sau thị trường dự đoán, từ lý thuyết của Hayek về việc thị trường tổng hợp tri thức phân tán, đến cơ chế khuyến khích của Robin Hanson (LMSR) và ý tưởng "Futarchy". Trọng tâm bài viết là việc a16z đầu tư mạnh vào Kalshi (định giá 220 tỷ USD) và cách họ diễn giải giá trị cốt lõi của nó: mang lại "cảm giác hiện diện" (presence). Trong một thế giới mà con người ngày càng thụ động và xa cách với thực tại, thị trường dự đoán cho phép họ tham gia tích cực bằng cách dùng tiền thật để đặt cược vào các sự kiện, từ đó cảm thấy mình là người quan sát và dự báo lịch sử. a16z coi đây là mảnh ghép quan trọng cho tham vọng "truyền thông mới" của họ - một hệ thống toàn diện từ định hình narrative, tài trợ sản phẩm, đến tiếp cận khách hàng với tốc độ cực cao, nhằm "tiếp quản dòng thời gian". Công ty truyền thông MTS (Monitoring The Situation) là một ví dụ điển hình cho triết lý này. Bài viết kết luận rằng sức mạnh thực sự của Kalshi và thị trường dự đoán nằm ở "trường lực bẻ cong hiện thực" - khả năng định nghĩa tính xác thực và tầm quan trọng của sự kiện thông qua khối lượng giao dịch bằng tiền thật, từ đó giành được quyền giải thích tối cao về tương lai, một thứ quyền lực hiếm khi nằm trong tay một công ty tư nhân.

链捕手1 giờ trước

Giải mã sự thật về thương mại, thanh toán và cơ sở hạ tầng cho Agent

Tác giả, có kinh nghiệm xây dựng cơ sở hạ tầng cho nền kinh tế Agent trong một năm, chia sẻ những hiểu biết thực tế về thương mại, thanh toán và cơ sở hạ tầng Agent. **Thực trạng nhu cầu:** Nhu cầu thực sự từ người dùng cuối hiện còn rất hạn chế. Các số liệu từ Stripe, Visa, Coinbase cho thấy khối lượng giao dịch thực tế qua Agent còn rất nhỏ, chủ yếu là giao dịch thử nghiệm. Các doanh nghiệp tham gia chủ yếu vì lo ngại bị bỏ lại phía sau (tối ưu hóa cho Agent - AEO), chứ không phải do nhu cầu cấp thiết hiện tại. **Phân tích bốn lĩnh vực:** 1. **Agent với Người mua (B2C):** Trải nghiệm mua sắm qua chat kém hơn giao diện thị giác truyền thống cho hầu hết mặt hàng. Cơ hội tồn tại trong các giao dịch tần suất cao, ít cần quyết định (như đặt đồ ăn) hoặc ở những website có UI phức tạp, nhưng bị cản trở bởi chi phí, thiếu API mở và thách thức trong phân phối đến người dùng phổ thông. 2. **Agent với API (Thanh toán vi mô):** Nhu cầu thanh toán tức thời cho API là có thật, nhưng thị trường chủ yếu là dài hạn và các nhà cung cấp SaaS lớn thích mô hình hợp đồng doanh nghiệp. Các giải pháp tiền mã hóa phù hợp với thị trường ngách này, nhưng quy mô nhỏ và đối tượng nhà phát triển thường ít sẵn sàng chi trả. 3. **Agent với Agent (M2M):** Đây là tầm nhìn dài hạn hứa hẹn khối lượng giao dịch khổng lồ với tốc độ cao, nhưng hiện chưa có khối lượng thực tế đáng kể. Đây là một cuộc đặt cược dài hạn về cơ sở hạ tầng thanh toán chuyên dụng. 4. **Agent với Tài chính:** Đây là lĩnh vực có nhu cầu thực sự và sẵn sàng chi trả ngay hiện tại, từ quản lý quỹ đến DeFi. Tuy nhiên, thách thức nằm ở môi trường cạnh tranh khốc liệt với các định chế tài chính lớn đã có sẵn quan hệ khách hàng và nền tảng tuân thủ. **Điểm mấu chốt thực sự:** Vấn đề cốt lõi không chỉ là thanh toán. Thanh toán chỉ là một phần của quá trình "thanh toán bù trừ", bản thân nó lại chỉ là một phần của bài toán lớn hơn: **sự phối hợp** giữa Agent và con người, xác minh công việc và tính toán kết quả. Các công ty giải quyết được vấn đề phối hợp quy mô lớn sẽ chiếm lĩnh thị trường, chứ không phải ngược lại. Các công ty khởi nghiệp cần tìm thị trường thực sự hiện tại, thay vì chờ đợi tương lai.

marsbit1 giờ trước

Giải mã sự thật về thương mại, thanh toán và cơ sở hạ tầng cho Agent

marsbit1 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua ERA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Caldera (ERA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Caldera (ERA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Caldera (ERA) của BạnSau khi mua Caldera (ERA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Caldera (ERA)Giao dịch Caldera (ERA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 523Xuất bản vào 2025.07.17Cập nhật vào 2026.06.02

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của ERA (ERA) được trình bày dưới đây.

Melampaui 'Tembok Memori', Revolusi Tingkat Wafer dan Rute Kekuatan Komputasi di Era Inferensi AI

Tóm tắt

Esensi Cerebras: Mesin Komputasi Near-Memory Berbasis SRAM

Intuisi Terbalik: "Kecacatan" Sejati dan Palsu pada Chip Besar Tingkat Wafer

Persaingan Jalur: Pengembangan Mandiri Perusahaan Besar, Berapa Lama Lagi Masa Jendela Cerebras?

Berlari di Tepi Jurang: Bisnis dan Pengiriman Cerebras

Penutup: Ke Kiri atau Ke Kanan?

Câu hỏi Liên quan

Nội dung Liên quan

Kalshi, MTS và tham vọng của a16z

Bất Ngờ: Cựu Nhân Sự Trụ Cột Trong Dự Án Chip Của OpenAI Gia Nhập Anthropic

a16z chuyển hướng toàn cầu hóa: VC đang trở thành "động lực thúc đẩy" của liên minh công nghệ Mỹ

Kalshi, MTS và Tham vọng của a16z

Giải mã sự thật về thương mại, thanh toán và cơ sở hạ tầng cho Agent

Giao dịch

Bài viết Nổi bật

Làm thế nào để Mua ERA

Thảo luận

Danh mục Phổ biến

Thẻ Nổi bật