# Artikel Terkait Model Tirus

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Model Tirus", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Mengubah Bentuk Transformer, LLM Bisa Jadi Lebih Pintar

Penelitian terbaru dari Mila, Universitas Cornell, dan Universitas Montreal mengajukan pertanyaan mendasar: "Bagaimana jika, tanpa menambahkan satu parameter pun, kita hanya menggeser posisi parameter yang sudah ada dalam model?" Ini menyoroti asumsi implisit pada hampir semua model bahasa berbasis Transformer sejak 2017: semua lapisan mendapatkan alokasi parameter yang sama rata. Eksperimen dengan model 440M parameter membuktikan bahwa mengalokasikan lebih banyak kapasitas (lebar jaringan feed-forward) ke lapisan awal dan mengurangi di lapisan akhir—tanpa mengubah total parameter atau FLOPs—secara signifikan meningkatkan kinerja. Pendekatan ini, yang disebut **Tapered Language Models (TLMs)**, mengubah distribusi parameter dari persegi panjang menjadi berbentuk baji dengan pola menurun. Dari tiga pola penurunan yang diuji (linier, cosinus, sigmoid), pola **penurunan cosinus** terbukti paling optimal. Pada model 440M parameter, metode ini menurunkan nilai perplexity dari 16.28 menjadi 14.44—peningkatan 1.84 poin yang "gratis". Keunggulan ini konsisten diuji pada empat arsitektur model berbeda (termasuk yang menggunakan mekanisme gating dan memori) pada skala 760M dan 1.3B parameter. Analisis mendalam menunjukkan alasan di balik efektivitasnya: lapisan awal lebih banyak melakukan pemrosesan dan penciptaan informasi baru, sementara lapisan dalam cenderung hanya mengulang atau memperkuat sinyal yang sudah ada. Dengan demikian, menggeser kapasitas ke depan adalah alokasi sumber daya yang lebih cerdas. Implikasi penelitian ini luas dan efisien. Daripada hanya bersaing menambah parameter atau membuat arsitektur lebih jarang, industri AI memiliki "tuas gratis" tersembunyi dengan hanya mengoptimalkan **bentuk** distribusi parameter internal model, tanpa biaya komputasi tambahan. Konsep ini berpotensi diterapkan tidak hanya pada LLM, tetapi juga pada model vision Transformer, difusi, dan multimodal.

marsbit8j yang lalu

Mengubah Bentuk Transformer, LLM Bisa Jadi Lebih Pintar

marsbit8j yang lalu

活动图片