Mengubah Bentuk Transformer, LLM Bisa Jadi Lebih Pintar

marsbitDipublikasikan tanggal 2026-06-29Terakhir diperbarui pada 2026-06-29

Abstrak

Penelitian terbaru dari Mila, Universitas Cornell, dan Universitas Montreal mengajukan pertanyaan mendasar: "Bagaimana jika, tanpa menambahkan satu parameter pun, kita hanya menggeser posisi parameter yang sudah ada dalam model?" Ini menyoroti asumsi implisit pada hampir semua model bahasa berbasis Transformer sejak 2017: semua lapisan mendapatkan alokasi parameter yang sama rata. Eksperimen dengan model 440M parameter membuktikan bahwa mengalokasikan lebih banyak kapasitas (lebar jaringan feed-forward) ke lapisan awal dan mengurangi di lapisan akhir—tanpa mengubah total parameter atau FLOPs—secara signifikan meningkatkan kinerja. Pendekatan ini, yang disebut **Tapered Language Models (TLMs)**, mengubah distribusi parameter dari persegi panjang menjadi berbentuk baji dengan pola menurun. Dari tiga pola penurunan yang diuji (linier, cosinus, sigmoid), pola **penurunan cosinus** terbukti paling optimal. Pada model 440M parameter, metode ini menurunkan nilai perplexity dari 16.28 menjadi 14.44—peningkatan 1.84 poin yang "gratis". Keunggulan ini konsisten diuji pada empat arsitektur model berbeda (termasuk yang menggunakan mekanisme gating dan memori) pada skala 760M dan 1.3B parameter. Analisis mendalam menunjukkan alasan di balik efektivitasnya: lapisan awal lebih banyak melakukan pemrosesan dan penciptaan informasi baru, sementara lapisan dalam cenderung hanya mengulang atau memperkuat sinyal yang sudah ada. Dengan demikian, menggeser kapasitas ke depan adalah alokasi sumbe...

Juni 2026, industri model besar sedang mengalami "tsunami open source" yang belum pernah terjadi sebelumnya: NVIDIA merilis model arsitektur hibrida dengan 550B parameter, Google memberikan versi baru Gemma multimodal, dan Zhipu AI merilis model unggulan mereka dengan lisensi yang paling longgar.

Hampir semua vendor menceritakan kisah yang sama: menggunakan struktur Mixture of Experts (MoE) untuk menampung lebih banyak parameter, menggunakan metode aktivasi yang lebih hemat untuk menekan biaya, dan menggunakan lebar jaringan yang fleksibel untuk mencocokkan berbagai skenario penerapan.

Dengan kata lain, seluruh industri sedang berusaha keras meneliti "bagaimana cara memasukkan lebih banyak parameter ke dalam anggaran komputasi yang sama".

Tapi sebuah makalah baru dari peneliti Mila, Universitas Cornell, dan Universitas Montreal mengajukan pertanyaan yang hampir berlawanan arah: Jika tidak ada penambahan parameter sama sekali, hanya memindahkan parameter yang sudah ada dalam model "ke tempat lain", apa yang akan terjadi?

Judul Makalah: Tapered Language Models Alamat Makalah: https://arxiv.org/abs/2606.23670

Latar Belakang: "Kesetaraan" yang Diabaikan

Sejak makalah perintis Transformer tahun 2017 "Attention Is All You Need", hampir semua model bahasa berbagi kerangka kerja yang sama, baik Transformer klasik, maupun mekanisme perhatian dengan gating, jaringan memori berulang, bahkan arsitektur baru dengan kemampuan "memori saat pengujian". Yaitu: menumpuk beberapa "layer" dengan struktur yang identik, di mana setiap lapisan mendapat alokasi parameter yang persis sama.

Ini seperti sebuah rantai restoran, terletak di pusat kota atau pinggiran, semuanya dilengkapi dengan jumlah koki dan peralatan dapur yang persis sama, tanpa mempertimbangkan perbedaan jumlah pengunjung. Alokasi "kesetaraan" seperti ini hemat pikiran, mudah dirawat, tetapi belum tentu solusi terbaik.

Dalam beberapa tahun terakhir, semakin banyak penelitian dari sudut pandang berbeda yang menunjukkan: lapisan-lapisan model tidak sama pentingnya.

Eksperimen "early exit" menunjukkan, sering kali jawaban model sudah terbentuk sebelum mencapai lapisan terakhir;

Penelitian "layer pruning" menemukan, memotong beberapa lapisan belakang hampir tidak mempengaruhi kinerja model;

Penelitian interpretabilitas menemukan bahwa jaringan dangkal menangkap informasi "dasar" seperti tata bahasa, sedangkan jaringan dalam menangani informasi "tingkat lanjut" seperti semantik.

Dengan kata lain, antar lapisan sangat berbeda, tetapi alokasi parameter tetap seragam.

Inilah pertanyaan inti yang diajukan makalah ini: Jika pentingnya lapisan sudah terbukti tidak merata, mengapa "kapasitas berpikir" lapisan masih dialokasikan secara merata?

Memindahkan "Kapasitas Berpikir" ke Depan

Tim peneliti pertama kali melakukan eksperimen verifikasi yang sederhana dan kasar: membagi lapisan model Transformer 440M parameter menjadi tiga kelompok: awal, tengah, dan akhir. Dengan menjaga total parameter tetap, mereka membuat "Feed-Forward Network" (FFN, komponen inti model yang menyimpan dan memproses informasi, dapat dianggap sebagai "kapasitas memori kerja" setiap lapisan) dari satu kelompok menjadi lebih lebar, dan dua kelompok lainnya menjadi lebih sempit.

Hasilnya sangat jelas: Alokasi "berat di depan" (head-heavy) yang memusatkan kapasitas di bagian depan, menurunkan perplexity (ukuran akurasi prediksi model bahasa, nilai lebih rendah berarti prediksi lebih akurat) model pada set validasi dari 16.28 menjadi 15.96; Sebaliknya, memusatkan kapasitas di bagian belakang justru melonjakkan perplexity menjadi 17.29.

Jumlah parameter total yang sama, hanya karena posisi penempatannya berbeda, menghasilkan perbedaan lebih dari satu poin, yang merupakan kesenjangan yang cukup besar dalam sistem evaluasi model bahasa.

Temuan ini mengarahkan masalah ke arah yang lebih detail: Daripada menggunakan pengelompokan tiga segmen yang "sama rata", bisakah digunakan kurva yang lebih halus, di mana kapasitas menurun secara bertahap dari depan ke belakang?

Para peneliti menamakan pendekatan ini "Model Bahasa Tirus" (Tapered Language Models, TLMs): Memilih salah satu dimensi dalam model yang menentukan jumlah parameter (misalnya lebar FFN), dan membuatnya menurun secara monoton sepanjang arah kedalaman, sambil memastikan lebar rata-rata semua lapisan masih sama dengan nilai tetap semula.

Dengan demikian, total parameter dan biaya komputasi tetap sama persis, hanya distribusi bentuknya yang berubah dari "persegi panjang" menjadi "baji".

Tim mencoba tiga kurva penurunan: penurunan linear, penurunan kosinus, dan penurunan berbentuk S (Sigmoid).

Perbedaan ketiga kurva ini mirip dengan tiga cara "menutup kios" yang berbeda:

Penurunan linear seperti menutup toko dengan kecepatan konstan, menutup jumlah kios yang hampir sama setiap periode waktu;

Penurunan berbentuk S seperti tiba-tiba mengumumkan penutupan toko secara massal, sebagian besar kios tetap seperti semula, hanya bagian tengah yang menyusut dengan cepat;

Penurunan kosinus berada di antara keduanya, transisi halus di kedua ujung, bagian tengah berangsur mengencang, tidak kehilangan fleksibilitas di kedua ujung secara "sama rata", juga tidak menggunakan tenaga merata sehingga melewatkan tempat yang seharusnya dikontraksi.

Hasil Eksperimen: 1,84 Poin Gratis

Setelah melakukan pemindaian kombinasi lima rasio lebar dan tiga kurva pada Transformer 440M parameter, penurunan kosinus menang dengan keunggulan menyeluruh: Pada konfigurasi optimal (lebar depan 1,5 kali baseline, lebar belakang 0,5 kali baseline), perplexity turun dari baseline distribusi seragam 16,28 menjadi 14,44, meningkat 1,84 poin, dan sepanjang proses tidak ada penambahan satu parameter pun atau operasi floating point tambahan.

Yang lebih krusial, kesimpulan ini bukanlah keberuntungan satu arsitektur tertentu.

Tim peneliti menerapkan konfigurasi yang sama (penurunan kosinus, rasio lebar depan/belakang 1,5/0,5) ke tiga arsitektur lain yang strukturnya sangat berbeda: model perhatian dengan mekanisme gating, Hope-attention yang memiliki kemampuan "memori modifikasi diri", dan arsitektur Titans yang memiliki modul memori jangka panjang neural, dan memvalidasi ulang pada dua skala yang lebih besar: 760M dan 1,3B parameter.

Hasilnya: Empat arsitektur, dua skala, dalam semua delapan kelompok perbandingan, model yang dimodifikasi "tapering" mengalami peningkatan rata-rata akurasi pada benchmark penalaran common sense, dan perbaikan perplexity pada tugas prediksi bahasa LAMBADA.

Para peneliti juga melakukan pengujian tambahan untuk pengambilan teks panjang (Needle-in-a-Haystack), mengonfirmasi bahwa realokasi ini tidak mengorbankan kemampuan model dalam menangani konteks panjang.

Untuk menjelaskan alasan di balik fenomena ini, tim juga mengukur tingkat kemiripan antara output "Feed-Forward Network" setiap lapisan dalam seri model GPT-2 dengan aliran informasi yang sudah ada, dan menemukan pola yang jelas: Semakin dalam ke dalam model, konten baru yang ditulis setiap lapisan semakin mirip dengan informasi yang sudah ada. Dengan kata lain, lapisan belakang lebih banyak "mengulangi dan menekankan" penilaian yang sudah ada, daripada "menciptakan" pemahaman baru.

Ini justru membenarkan mengapa memindahkan kapasitas dari belakang ke depan adalah masuk akal: Lapisan depan benar-benar dapat memanfaatkan "kapasitas berpikir" tambahan ini, lapisan belakang tidak.

Kesimpulan

Penelitian ini pada dasarnya mengajukan proposisi sederhana namun lama diabaikan: Kapasitas model seharusnya bukan sumber daya yang disebarkan secara merata, tetapi harus mengalir ke tempat yang benar-benar membutuhkannya.

Di tahun 2026 ketika seluruh industri sedang berlomba "siapa yang parameternya lebih banyak" dan "siapa yang arsitekturnya lebih hemat", makalah ini menyediakan solusi alternatif yang hampir tanpa biaya: Tidak perlu mengganti arsitektur, tidak perlu menambah parameter, hanya perlu mengganti "bentuk" alokasi.

Para peneliti juga mengakui, konfigurasi optimal saat ini diatur pada model 440M parameter, apakah ada "resep khusus" yang lebih cocok untuk skala dan arsitektur berbeda, masih merupakan pertanyaan terbuka.

Tetapi yang lebih layak diperhatikan adalah, makalah menunjukkan bahwa pendekatan ini tidak terbatas pada model bahasa – Transformer visual, model difusi, model multimodal, hampir semuanya mewarisi pengaturan default yang sama "lapisan dibagi rata". Jika bentuk alokasi kapasitas itu sendiri adalah dimensi desain yang lama diabaikan, maka "tuas gratis yang tersembunyi di tempat terbuka" ini mungkin baru saja mulai diperhatikan.

Profil Tim

Makalah diselesaikan bersama oleh Reza Bayat dari Mila (Institut Algoritma Pembelajaran Montreal), Ali Behrouz dari Universitas Cornell, serta pendiri bersama Mila dan profesor di Universitas Montreal, Aaron Courville.

Ali Behrouz saat ini adalah peneliti di Google Research dan kandidat doktor di Universitas Cornell. Dalam dua tahun terakhir, ia terlibat dalam desain beberapa arsitektur baru yang menarik perhatian luas, termasuk arsitektur Titans yang mampu "belajar mengingat selama fase pengujian", serta Atlas berikutnya dan kerangka "Pembelajaran Bersarang" (Nested Learning). Ia lama berfokus pada bagaimana membuat model memanfaatkan dan menyimpan informasi konteks jangka panjang dengan lebih efisien.

Aaron Courville adalah ilmuwan senior di bidang deep learning, CIFAR AI Chair, yang lama bekerja sama dengan Yoshua Bengio mempromosikan penelitian dasar deep learning, dengan akumulasi mendalam dalam pembelajaran representasi dan model generatif. Ia juga merupakan salah satu penulis Generative Adversarial Networks (GAN), dan bersama Ian Goodfellow dan Bengio menulis buku klasik "Deep Learning".

Artikel ini berasal dari akun WeChat resmi "机器之心" (ID: almosthuman2014), penulis: 关注AI的

Pertanyaan Terkait

QApa gagasan utama dari penelitian tentang 'Tapered Language Models'?

AGagasan utamanya adalah bahwa alokasi kapasitas (parameter) pada model bahasa tidak harus seragam di setiap lapisan. Dengan menata ulang parameter yang sudah ada (tanpa menambah jumlah total) dari lapisan belakang ke lapisan depan dalam bentuk 'kerucut' (tapered), kinerja model dapat meningkat secara signifikan tanpa biaya komputasi tambahan.

QMengapa pendistribusian kapasitas model secara merata dianggap kurang optimal?

AKarena penelitian seperti 'early exit', 'layer pruning', dan interpretabilitas menunjukkan bahwa lapisan-lapisan model memiliki tingkat kepentingan yang berbeda. Lapisan awal lebih banyak menangani informasi dasar seperti tata bahasa, sementara lapisan belakang cenderung mengulang atau menegaskan informasi yang sudah ada, bukan menciptakan pemahaman baru. Oleh karena itu, memberi kapasitas lebih pada lapisan awal yang lebih kritis adalah langkah yang lebih efisien.

QBentuk kurva penurunan mana yang terbukti paling efektif dalam eksperimen penelitian ini?

AKurva penurunan cosinus (cosine decay) terbukti paling efektif. Pada model Transformer 440M parameter, konfigurasi terbaik dengan lebar depan 1.5x dan lebar belakang 0.5x dari baseline berhasil menurunkan perplexity dari 16.28 menjadi 14.44, sebuah peningkatan sebesar 1.84 poin.

QApakah manfaat dari pendekatan Tapered Language Models (TLMs) ini terbatas hanya pada satu arsitektur model?

ATidak. Penelitian menguji pendekatan ini pada empat arsitektur berbeda (Transformer klasik, model perhatian dengan gating, Hope-attention, dan arsitektur Titans) dalam dua skala parameter (760M dan 1.3B). Hasilnya konsisten: semua model yang dimodifikasi dengan TLM menunjukkan peningkatan akurasi pada tes penalaran dan penurunan perplexity pada tugas prediksi bahasa.

QSiapa saja peneliti utama di balik studi tentang Tapered Language Models ini?

AStudi ini merupakan karya Reza Bayat dari Mila, Ali Behrouz dari Cornell University (dan Google Research), serta Aaron Courville, profesor di Université de Montréal dan co-founder Mila. Aaron Courville juga dikenal sebagai salah satu penulis buku 'Deep Learning' dan kontributor dalam pengembangan Generative Adversarial Networks (GAN).

Bacaan Terkait

Sambaran Petir Lima Serangan! Rencana Penyelamatan Strategy Resmi Dirilis

"Strategy", yang sedang menghadapi krisis pelepasan STRC, telah merilis rencana penyelamatan diri baru yang disebut "Kerangka Modal Kredit Digital". Rencana ini terdiri dari lima poin utama: 1. **Cadangan Kas:** Perusahaan mengalokasikan sekitar $2.55 miliar sebagai cadangan dolar yang dikhususkan untuk pembayaran dividen dan bunga utang, cukup untuk sekitar 17.4 bulan. Ditambah dengan kuota pencairan BTC, likuiditas total mencapai $3.8 miliar (sekitar 25.9 bulan). 2. **Kebijakan Dividen STRC:** Mulai 1 Juli, dividen tahunan STRC dinaikkan menjadi 12%. Dividen akan ditinjau bulanan, tetapi Strategi menegaskan bahwa penurunan harga di bawah $100 tidak serta-merta berarti kenaikan dividen. 3. **Program Pembelian Kembali Saham Preferen:** Disetujui program pembelian kembali hingga $1 miliar untuk sekuritas kredit digital (termasuk STRC), dengan STRC menjadi prioritas. Hal ini bertujuan menstabilkan harga dan mengurangi beban dividen. 4. **Program Pembelian Kembali Saham Biasa:** Disetujui pula program pembelian kembali hingga $1 miliar untuk saham biasa (MSTR) saat dinilai undervalued, untuk menciptakan nilai bagi pemegang saham. 5. **Program Pencairan BTC:** Rencana untuk menjual sebagian BTC (dengan otorisasi hingga $1.25 miliar) sebagai alat manajemen likuiditas, guna mendukung cadangan kas, pembayaran dividen/bunga, atau pembelian kembali saham. Ini menandai pergeseran kebijakan dari "tidak pernah menjual". Pasar bereaksi positif, dengan harga MSTR dan STRC naik signifikan dalam perdagangan pra-pasar. Rencana ini bertujuan memulihkan kepercayaan, mengatasi keluhan STRC, dan membuka kembali siklus pendanaan Strategi.

Odaily星球日报41m yang lalu

Sambaran Petir Lima Serangan! Rencana Penyelamatan Strategy Resmi Dirilis

Odaily星球日报41m yang lalu

Pedang Terhunus di Atas Pasar Bull AI: Tak Hanya Korea, Leverage Saham AS Juga Mencemaskan

Penulis asli: Zhang Yaqi Sumber asli: Wall Street News Pasar saham global terus mencetak rekor tertinggi didorong oleh gelombang AI, tetapi bahan bakar yang mendukung kenaikan ini semakin berbahaya—dari AS hingga Korea Selatan, saldo pembiayaan dan skala ETF berleveraj telah mencapai batas sejarah. Sifat pro-siklus dari leveraj itu sendiri memperbesar risiko ekor volatilitas pasar secara berlipat ganda. Saldo utang margin di AS melonjak 54% pada Mei, menyentuh puncak sejarah $1,4 triliun. Sementara itu, total aset ETF berleveraj hampir menggandakan dalam kurang dari 70 hari, mencapai lebih dari $220 miliar pada awal Juni. Risiko dari kegilaan penambahan leveraj ini pertama kali terlihat di pasar Korea: Indeks KOSPI anjlok 10% pekan lalu, memicu circuit breaker, kemudian rebound dengan cepat, dan kembali terhenti, menyebabkan volatilitas yang parah dan melemahkan saham terkait AI di AS. Barclays memperingatkan bahwa dana berleveraj telah membeli sekitar $300 miliar dalam produk turunan terkait saham dan indeks sejak akhir Maret. Jika perlu ditutup secara terpusat dalam waktu singkat, dampaknya akan "mengerikan". Morgan Stanley juga mengingatkan bahwa ketergantungan pembeli marginal pada pembiayaan leveraj belum pernah terjadi sebelumnya, dan pembiayaan ini menjadi lebih mahal dan langka. Charles Schwab telah memperketat persyaratan margin. Leveraj ETF tidak hanya memperbesar keuntungan dan kerugian, tetapi juga dapat mendistorsi harga saham yang dilacaknya—efek "ekor yang mengibaskan anjing". Peningkatan dana memaksa pembelian derivatif, yang di-lindung nilai dengan membeli saham fisik, mendorong kenaikan harga lebih lanjut. Mekanisme ini juga bekerja secara terbalik saat tren berbalik, menciptakan spiral negatif yang memperkuat diri sendiri. Pasar Korea berfungsi sebagai contoh peringatan: KOSPI naik 87% tahun ini, didorong oleh raksasa chip memori seperti Samsung dan SK Hynix. Namun, konsentrasi kepemilikan yang tinggi ditambah dengan leveraj ekstrem meningkatkan kerapuhan pasar. Leveraj di pasar Korea diperkirakan antara 2x hingga 5x, dengan penurunan 16-36% berpotensi memicu margin call. Otoritas Korea menyatakan penyesalan karena tidak menghentikan penerbitan dana saham berleveraj tunggal yang berisiko tinggi, yang 92% dipegang oleh investor ritel. Biaya pembiayaan saham juga meroket. Spread antara tingkat pembiayaan tersirat untuk berjangka S&P 500 dan suku bunga acuan SOFR (diukur oleh kontrak AXW) mencapai level tertinggi sejak Desember 2020, menunjukkan tekanan. Sementara itu, eksposur aset ekuitas yang dipegang oleh dealer utama AS melalui pembiayaan sekuritas mencapai rekor $223 miliar. Kenaikan pasar sangat terkonsentrasi di sektor teknologi informasi, yang berarti kenaikan didukung oleh dana berleveraj di segelintir saham. Morgan Stanley memperingatkan tentang risiko non-linier: biaya pembiayaan yang tinggi menghentikan pembeli berleveraj, menghilangkan pembeli marginal dan momentum naik. Koreksi harga kemudian memicu deleveraj, yang memperbesar tekanan jual. Indeks kondisi keuangan telah mengencar, tetapi kenaikan pasar saham menutupi tekanan ini. Jika deleveraj memicu penurunan pasar, investor harus menilai ulang kondisi keuangan dan jalur kebijakan Fed. Kekuatan teknis yang sebelumnya memperbesar momentum naik melalui ekspansi leveraj mungkin mulai memotong ke arah sebaliknya.

marsbit51m yang lalu

Pedang Terhunus di Atas Pasar Bull AI: Tak Hanya Korea, Leverage Saham AS Juga Mencemaskan

marsbit51m yang lalu

Vitalik Buterin Klaim Obscurasi Bisa Tingkatkan Privasi Blockchain

Vitalik Buterin, salah satu pendiri Ethereum, menerbitkan artikel tentang peran obfuscation (pengaburan kode) dalam meningkatkan privasi dan keamanan blockchain. Obfuscation melindungi logika program itu sendiri dengan mengubah kode menjadi bentuk terenkripsi, namun tetap menghasilkan keluaran yang sama. Hal ini memungkinkan pengembangan aplikasi yang aman tanpa membocorkan kode atau logika bisnis proprieternya, sehingga dapat menjaga privasi pengguna dan mengurangi ketergantungan pada otoritas pusat. Namun, obfuscation saja tidak cukup untuk menangani aset digital seperti cryptocurrency, karena saldo dan kepemilikan tidak dapat dikelola hanya dengan pengaburan kode. Di sinilah blockchain berperan. Teknologi ledger terdistribusinya dapat mencatat kepemilikan dan transaksi, yang jika dikombinasikan dengan obfuscation, dapat menciptakan aplikasi yang membuktikan kepemilikan sembari menyembunyikan logika program. Kombinasi ini berpotensi untuk sistem pembayaran yang aman, aplikasi keuangan, dan operasi bisnis rahasia. Buterin mengakui masih ada tantangan teknis besar. Meski riset pada *indistinguishability obfuscation* telah membuktikan kemungkinannya, implementasi saat ini sangat tidak efisien dan membutuhkan sumber daya yang sangat besar, bahkan ada yang memerlukan waktu lebih lama dari usia alam semesta untuk dijalankan. Para peneliti terus berupaya meningkatkan efisiensi melalui optimasi metode kriptografi dan alat matematika. Buterin menyimpulkan bahwa meski obfuscation praktis masih membutuhkan waktu lama untuk terwujud, perkembangannya di masa depan dapat membuka jalan bagi produk berbasis blockchain yang sangat aman tanpa memerlukan pihak ketiga tepercaya.

TheNewsCrypto1j yang lalu

Vitalik Buterin Klaim Obscurasi Bisa Tingkatkan Privasi Blockchain

TheNewsCrypto1j yang lalu

Trading

Spot
活动图片