Teknologi Baru DeepSeek Diterapkan ke Chip Apple, Model Besar Lokal Mac Dipercepat 60%

marsbitDipublikasikan tanggal 2026-07-03Terakhir diperbarui pada 2026-07-03

Abstrak

Teknologi DeepSeek 'DSpark' yang baru dibuka sumbernya kini telah diadaptasi untuk chip Apple, mempercepat model bahasa besar di Mac hingga 60%. Versi adaptasi bernama 'mlx-dspark' ini menjalankan model Gemma-4 12B dan Qwen3-4B, meningkatkan kecepatan generasi masing-masing 1,6 kali dan 1,4 kali lipat pada Mac M4 Pro. Keunggulan utama adaptasi ini adalah kemampuannya menghasilkan keluaran yang identik persis byte demi byte dengan model asli, tanpa mengorbankan kualitas. Insinyur Abdur Rahim yang mengerjakan proyek ini juga menerapkan metode sampling suhu dari makalah DSpark, memastikan distribusi keluaran yang akurat, bukan hanya versi perkiraan. Dalam pengujian, DSpark unggul dalam tugas percakapan terbuka. Sementara itu, teknologi spekulatif decoding lain, 'DFlash' dari z-lab, yang diintegrasikan kemudian, menunjukkan kecepatan lebih tinggi (hingga 2,1x) untuk tugas terkode dan matematika dengan mendekode blok token secara paralel. Rahim menggabungkan kedua pendekatan dalam mlx-dspark v0.0.3, memungkinkan pengguna menyesuaikan panjang blok DFlash untuk tugas yang berbeda dalam satu paket. Adaptasi ini membuka potensi percepatan serupa untuk model yang lebih besar seperti Qwen3-8B dan 14B di perangkat Mac.

Oleh Kresi dari Aofeisi
QbitAI | Akun Resmi Publik QbitAI

Baru seminggu dibuka sumbernya, DSpark langsung dipindahkan ke komputer Apple.

Versi transplantasi ini disebut mlx-dspark, menjalankan dua model: Gemma-4 12B dan Qwen3-4B.

Setelah dipasang, kecepatan generasi kedua model ini di Mac meningkat masing-masing 1,6 kali dan 1,4 kali lipat.

Yang lebih sulit lagi, ia berhasil melakukan sesuatu yang kebanyakan versi transplantasi tidak mampu lakukan — outputnya sama persis byte demi byte dengan model aslinya, tidak ada satu kata pun yang berbeda.

Artinya, kecepatan bertambah, kualitas sama sekali tidak berkurang.

Orang yang mengerjakannya adalah Abdur Rahim, seorang insinyur yang mengutak-atik proyek sumber terbuka di waktu luangnya. Versi native Mac pertama sejak DSpark dibuka sumber, semuanya dia kerjakan sendiri.

Menjalankan Model Besar di Komputer Apple, Kecepatan Naik 60%

Untuk DSpark yang dibuka sumber oleh DeepSeek pada 27 Juni, angka yang diberikan resmi adalah peningkatan kecepatan 60% hingga 85% dalam skenario sisi server.

Namun, teknologi ini pada awalnya hanya memiliki implementasi untuk GPU di pusat data, tidak ada versi yang diadaptasi untuk chip Apple.

mlx-dspark adalah versi native chip Apple pertama untuk teknologi ini.

Ide DSpark adalah memasangkan model yang lebih kecil untuk membantu model target. Model kecil ini melontarkan beberapa kandidat kata sekaligus, lalu model target memeriksanya secara batch, menerima yang benar, dan menolak yang salah untuk ditebak ulang.

Biaya langkah ini berbeda antara pusat data dan komputer Apple.

Di GPU pusat data, memeriksa sekumpulan kandidat kata lebih seperti menyewa mobil sewaan, berapa pun penumpangnya tarifnya tetap. Dekoding memang menjadi hambatan memori, memeriksa beberapa kata tambahan hampir tidak menambah waktu.

Chip Apple lebih seperti taksi dengan argometer, semakin banyak kandidat kata yang diperiksa, semakin banyak angka yang meloncat.

Rahim sendiri menguji, untuk Gemma-4 12B, setiap tambahan pemeriksaan satu token membutuhkan waktu sekitar 14 milidetik lebih lama. Dia menghitung perhitungan ini menjadi sebuah model biaya, dan menyimpulkan bahwa batas kecepatan di chip Apple adalah sekitar 2,2 kali lipat.

Singkatnya, Rahim memindahkan model kecil pembantu ini dari checkpoint HuggingFace, lalu memasangkannya untuk digunakan oleh dua model target: Gemma-4 12B dan Qwen3-4B.

Dia juga membangun ulang alur verifikasi di dalam kerangka kerja MLX, dan mengkuantisasi bobot model menjadi 4-bit.

Hasilnya, di M4 Pro, dibandingkan dengan alat resmi MLX dari Apple, kecepatan generasi Gemma-4 12B naik dari 18,4 tok/s menjadi sekitar 30 tok/s, sekitar 1,6 kali lipat dari sebelumnya; Qwen3-4B naik dari 52,9 tok/s menjadi sekitar 73 tok/s, sekitar 1,4 kali lipat.

Selain itu, di dalam mlx-dspark, Rahim juga melakukan sesuatu yang kebanyakan pekerjaan transplantasi tidak lakukan.

Versi Transplantasi Juga Bisa Mengembalikan dengan Presisi Tinggi

Kebanyakan versi yang memindahkan model besar ke lokal hanya mendukung decoding serakah (greedy decoding), yaitu memilih kata dengan probabilitas tertinggi di setiap langkah.

Rahim di mlx-dspark, juga mengimplementasikan metode sampling suhu yang dijelaskan di makalah DSpark asli. Model draf memberikan kandidat kata, probabilitas penerimaannya adalah min(1, p/q), bagian yang tidak lolos disampling ulang dari residu.

Dia sendiri memverifikasi, output yang dihasilkan dari alur ini, secara ketat sama dengan distribusi persis yang akan diberikan oleh model target pada suhu yang sama, bukan versi perkiraan yang dikurangi.

Kebanyakan decoding spekulatif hanya membuat versi serakah, karena memverifikasi kebenaran mode serakah itu sederhana, cukup bandingkan kata demi kata.

Langkah ekstra yang dilakukan Rahim adalah dengan memverifikasi sendiri distribusi output yang dihasilkan dalam mode sampling, memastikan tidak ada penyimpangan.

Presisi apa yang harus digunakan untuk model target yang bertanggung jawab memverifikasi, adalah salah satu kendala yang dia coba sendiri.

Jika model kecil dipasangkan dengan model target versi dasar yang belum mengalami fine-tuning instruksi, kandidat kata yang dilontarkan hanya 47% yang lolos verifikasi; jika diganti dengan versi fine-tuning instruksi yang sesuai, proporsi ini naik menjadi 82%.

Dia juga menguji mengganti model target ke presisi bf16, biaya verifikasi naik lebih banyak daripada kenaikan tingkat penerimaan, justru lebih lambat, jadi model target defaultnya paling efisien tetap di 8-bit.

Model kecil yang bertanggung jawab melontarkan kandidat kata pendahuluan, menggunakan presisi yang berbeda.

Model draf itu sendiri dikompresi olehnya, setelah dikuantisasi 4-bit hanya berukuran 1,8GB, dapat dimasukkan ke memori tanpa masalah, dan tetap berjalan tanpa kehilangan kualitas (lossless).

Hasilnya, DSpark tidak hanya mencapai percepatan, tetapi juga benar-benar mereproduksi peningkatan tingkat penerimaan 16% hingga 18% yang disebutkan di makalah, di perangkat ujung.

DFlash Juga Dihubungkan, Tugas Kode Lebih Cepat

Setelah tweet dikirim, di bagian komentar ada yang bertanya, Jian Chen, salah satu penulis makalah DFlash, bertanya apakah bisa mencoba model dari tim mereka.

DFlash adalah skema decoding spekulatif lain yang diusulkan di makalah yang dirilis lab z pada bulan Mei, pemimpin tim penulis adalah Zhijian Liu, asisten profesor UCSD, sekaligus ilmuwan peneliti di NVIDIA.

Ide DFlash sedikit berbeda dengan DSpark, ia menggunakan "difusi blok" paralel satu kali untuk mendekode seluruh blok 16 token sekaligus, bukan seperti DSpark yang menebak langkah demi langkah dengan ketergantungan.

Rahim segera bertindak.

Dia menggunakan skrip transplantasi yang ditulis Jian sendiri, menghubungkan gemma4-12B-it-DFlash yang dirilis lab z ke model target Gemma-4 dari mlx-vlm, dan di Mac yang sama, menjalankan perbandingan head-to-head lagi dengan DSpark yang baru saja dia uji.

Pada tugas kode dan matematika, panjang penerimaan (acceptance length) decoding blok penuh DFlash bisa mencapai 5,95 hingga 6,20, kecepatan sekitar 36 tok/s, mencapai sekitar 2,1 kali lipat, mengalahkan DSpark.

Namun, DFlash perlu melontarkan seluruh blok 16 token sekaligus, tetapi model target belum tentu menerima semuanya, yang sebenarnya lolos verifikasi hanyalah sebagian darinya. Dalam industri, ini disebut "panjang penerimaan", tidak selalu bisa mengisi penuh 16 token setiap kali.

Jadi dalam skenario obrolan terbuka di mana konten sulit diprediksi, panjang penerimaan tidak bisa tinggi, blok tidak terisi penuh, keunggulan DFlash tidak bisa dimanfaatkan.

Markov head DSpark justru ada untuk mengatasi masalah yang sama ini, melontarkan sekumpulan kata secara paralel, semakin ke posisi belakang dihitung secara independen, mudah menjadi tidak selaras. Markov head menambahkan lapisan ketergantungan antara posisi-posisi ini, khusus untuk mengoreksi masalah ini.

Hasilnya, dalam skenario obrolan, DSpark justru lebih cepat daripada DFlash.

Dan kemudian, mlx-dspark v0.0.3 yang diperbarui, secara resmi menghubungkan DFlash versi asli lab z ke dalam paket, dan menambahkan sebuah parameter, yang dapat secara manual menyesuaikan panjang blok efektif DFlash menjadi lebih pendek. Skenario obrolan menggunakan blok pendek, skenario kode dan matematika tetap menggunakan blok penuh 16.

Setelah ini, Mac yang sama, paket yang sama, dapat menyelesaikan tugas obrolan dan tugas kode serta matematika secara bersamaan, tidak perlu lagi berpindah-pindah antara proyek DSpark dan DFlash.

Rahim mengatakan di tweet-nya, metode yang sama seharusnya juga bisa berjalan pada model draf Qwen3-8B dan 14B yang lebih besar.

Tautan Referensi:
[1]https://x.com/_ARahim_/status/2072021710602432577
[2]https://github.com/ARahim3/mlx-dspark

Artikel ini berasal dari akun resmi publik "QbitAI", penulis: Perhatian Teknologi Terdepan

Kripto yang Sedang Tren

Pertanyaan Terkait

QSiapa yang mengembangkan versi adaptasi DSpark pertama untuk chip Apple (mlx-dspark)?

AVersi pertama DSpark yang diadaptasi untuk chip Apple (mlx-dspark) dikembangkan oleh seorang insinyur bernama Abdur Rahim dalam waktu luangnya.

QBerapa peningkatan kecepatan yang dicapai oleh mlx-dspark pada model Gemma-4 12B di Mac dengan chip M4 Pro?

APada Mac dengan chip M4 Pro, mlx-dspark meningkatkan kecepatan generasi model Gemma-4 12B dari 18.4 tok/s menjadi sekitar 30 tok/s, yaitu sekitar 1.6 kali lipat lebih cepat.

QApa perbedaan utama antara pendekatan DSpark dan DFlash dalam spekulatif decoding?

APerbedaan utamanya adalah DSpark menggunakan model kecil untuk menghasilkan beberapa token kandidat secara bertahap dan bergantungan, lalu memverifikasinya sekaligus. Sedangkan DFlash menggunakan "block diffusion" untuk mendekode seluruh blok 16 token secara paralel dalam satu kali proses.

QDalam skenario apa DFlash menunjukkan kinerja yang lebih unggul dibandingkan DSpark menurut artikel?

ADFlash menunjukkan kinerja yang lebih unggul dibandingkan DSpark dalam tugas-tugas terkait kode pemrograman dan matematika, dengan panjang penerimaan mencapai 5.95-6.20 dan kecepatan sekitar 36 tok/s (sekitar 2.1x lebih cepat).

QApa keunggulan khusus yang dicapai oleh mlx-dspark dibandingkan sebagian besar versi adaptasi lainnya menurut artikel?

AKeunggulan khusus mlx-dspark adalah mampu menghasilkan output yang identik secara byte-per-byte (sama persis) dengan model aslinya, tanpa mengorbankan kualitas, sekaligus meningkatkan kecepatan. Ia juga mengimplementasikan metode temperature sampling dari paper DSpark, bukan hanya decoding greedy.

Bacaan Terkait

Awan Bearish Berkumpul saat Opsi Bitcoin dan Ethereum Senilai $2,13 Miliar Berakhir

Pasar kripto memasuki sesi kritis pada 3 Juli dengan kontrak opsi Bitcoin dan Ethereum senilai total $2,13 miliar mencapai masa kadaluarsa. Data ini memberikan gambaran posisi investor di tengah sentimen pasar yang berhati-hati. Sekitar 31.000 opsi Bitcoin (nilai $1,9 miliar) dengan rasio put-call 0,70 dan titik maximum pain $61.000 telah kadaluarsa. Sementara itu, 135.000 opsi Ethereum (nilai $230 juta) kadaluarsa dengan rasio put-call 1,29 dan titik maximum pain $1.650. Rasio put-call Ethereum di atas 1 menunjukkan jumlah opsi jual (put) lebih banyak daripada opsi beli (call), mengindikasikan banyak trader melakukan lindung nilai atau bersikap defensif terhadap potensi penurunan harga lebih lanjut. Aktivitas kadaluarsa terkonsentrasi di sekitar level eksposur gamma kunci, yaitu $60.000 untuk Bitcoin dan $1.700 untuk Ethereum. Meskipun Bitcoin berhasil merebut kembali level psikologis $60.000, sentimen pasar tetap terbagi. Pemulihan belum tentu menandai awal rebound berkelanjutan. Secara keseluruhan, data menunjukkan trader tetap waspada memasuki kuartal ketiga. Posisi defensif Ethereum dan konsentrasi aktivitas lindung nilai mengisyaratkan banyak peserta pasar masih bersiap untuk volatilitas tinggi, alih-alih mengantisipasi kenaikan harga yang pasti. Perhatian investor juga mulai bergeser ke pasar keuangan tradisional dan aset seperti saham ter-tokenisasi.

TheNewsCrypto42m yang lalu

Awan Bearish Berkumpul saat Opsi Bitcoin dan Ethereum Senilai $2,13 Miliar Berakhir

TheNewsCrypto42m yang lalu

Ulasan Pedas|Mengapa 'Tech Lead' Terkenal Melikuidasi Bitcoinnya? Si 'Jagoan Investasi' Datang!

**Ringkasan dalam Bahasa Indonesia:** Artikel ini membahas tiga peristiwa terkini di dunia kripto yang disajikan dalam format komentar tajam. 1. **Kekalahan Tech Lead oleh Leverage:** Patrick Shyu, mantan Tech Lead Google dan Meta, mengungkapkan dalam video viral bahwa ia mengalami kerugian besar dan terpaksa menjual seluruh Bitcoin miliknya setelah harga turun dari $120.000 menjadi $60.000. Penyebab utamanya adalah penggunaan leverage yang terlalu tinggi. Ia mengkritik bahwa pasar diperdagangkan berdasarkan perhatian (bukan fundamental), Bitcoin kehilangan sorotan karena demam AI, dan terdapat risiko struktural seperti kendali kode inti oleh sedikit orang serta ancaman komputasi kuantum. Namun, ia tetap optimis jangka panjang untuk Bitcoin. 2. **"Investment Genius" Michael Saylor:** Sebuah meme di Reddit menggambarkan Michael Saylor (CEO MicroStrategy) sebagai "investment genius" yang dengan percaya diri terus mengakumulasi Bitcoin, sambil membandingkannya dengan investor biasa. Postingan ini menyoroti perbedaan strategi dan keyakinan yang ekstrem di pasar. 3. **Trump dan "Trump Coin":** Laporan keuangan dari Gedung Putih mengungkap bahwa Donald Trump menghasilkan setidaknya $1.4 miliar dari kripto pada tahun pertamanya kembali menjabat. Namun, di sisi lain, "Trump Coin" (mata uang kripto yang terkait dengannya) anjlok 97%, menyebabkan kerugian besar bagi banyak investor. Insiden ini menimbulkan kritik bahwa Trump memanfaatkan pengaruhnya untuk keuntungan pribadi, sementara pendukungnya dirugikan. Artikel ini menyimpulkan bahwa minggu ini diwarnai oleh refleksi, candaan di internet, dan realita perbedaan keuntungan yang tajam di pasar kripto yang bergejolak.

Foresight News1j yang lalu

Ulasan Pedas|Mengapa 'Tech Lead' Terkenal Melikuidasi Bitcoinnya? Si 'Jagoan Investasi' Datang!

Foresight News1j yang lalu

Dari SpaceX hingga faktur perdagangan: Begini cara tokenisasi mengubah cara dunia memindahkan uang

Bayangkan jika pesan WhatsApp tiba dua hari terlambat karena harus melalui verifikasi dan prosedur berlapis. Kita mengharapkan komunikasi real-time, lalu mengapa tidak dengan pasar keuangan? Saat ini, bertukar saham masih berarti menjual, menunggu penyelesaian, lalu membeli kembali. Namun, saham ter-tokenisasi dapat mengubah hal itu. Tokenisasi saham memasuki arus utama setelah IPO SpaceX senilai $75 miliar. Platform berbasis blockchain mulai menawarkan eksposur tokenisasi ke SpaceX dan perusahaan besar lainnya, sementara NASDAQ juga mengajukan persetujuan regulasi untuk memperdagangkan sekuritas ter-tokenisasi. Saham ter-tokenisasi adalah saham yang hidup di blockchain—nilai dan haknya sama, tetapi dapat diperdagangkan kapan saja, diselesaikan dalam hitungan detik, dipecah menjadi unit kecil, dan ditransfer lintas batas dengan lebih efisien. Tren ini meluas ke kelas aset lain. Menurut RWA.xyz, kredit privat di blockchain telah melampaui $10 miliar, dengan real estat, komoditas, dan utang terstruktur juga mulai beralih ke on-chain. Aset-aset ini mewakili ratusan triliun dolar nilai global. Namun, tidak semua blockchain cocok untuk penyelesaian institusional. Tokenisasi yang diatur memerlukan biaya yang dapat diprediksi, penyelesaian yang pasti, dan infrastruktur setara perbankan. XDC Network telah fokus pada infrastruktur ini, memproses lebih dari $1,1 miliar dalam piutang, kredit privat, dan komoditas ter-tokenisasi. Di Brasil, operasi kredit ter-tokenisasi telah mencapai miliaran real. Menurut Atul Khekade, Pendiri XDC Network, tantangan sebenarnya adalah memtokenisasi aset yang sebelumnya tidak dapat diakses, yang nilainya jauh lebih besar. BCG dan Ripple memproyeksikan pasar aset ter-tokenisasi mencapai $18,9 triliun pada 2033, sementara Standard Chartered memperkirakan $30 triliun pada 2034. Jarak antara angka-angka ini dan kondisi saat ini terutama adalah soal infrastruktur. Lingkungan regulasi juga mulai mendukung. Brasil, Singapura, Inggris, dan UE telah membentuk kerangka hukum untuk instrumen keuangan ter-tokenisasi, sementara AS mengesahkan GENIUS Act pada 2025. Fokusnya kini bukan pada apakah tokenisasi diizinkan, tetapi pada seberapa cepat ia dapat diadopsi secara luas. IPO SpaceX memberikan momen penting bagi tokenisasi, tetapi infrastruktur pendukungnya dibangun bertahun-tahun di balik layar, di bagian pasar yang tidak pernah menjadi berita. Inilah fondasi untuk dekade keuangan berikutnya.

ambcrypto1j yang lalu

Dari SpaceX hingga faktur perdagangan: Begini cara tokenisasi mengubah cara dunia memindahkan uang

ambcrypto1j yang lalu

Trading

Spot

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

567 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2026.06.02

Cara Membeli ONE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.

活动图片