Tin tức Liên quan Mô hình Hình Nón - Cập nhật Mới nhất Mô hình Hình Nón HTX

Biến đổi Cấu trúc Transformer, LLM Trở Nên Thông Minh Hơn

Năm 2026, khi ngành công nghiệp mô hình lớn tập trung vào việc nhồi nhét nhiều tham số hơn, một nghiên cứu mới từ Mila, Đại học Cornell và Đại học Montréal đặt ra câu hỏi ngược lại: Điều gì xảy ra nếu chỉ di chuyển các tham số hiện có mà không thêm bất kỳ tham số nào? Bài báo có tên "Tapered Language Models" (TLM) chỉ ra rằng các lớp trong kiến trúc Transformer truyền thống không quan trọng như nhau. Các nghiên cứu về thoát sớm, cắt tỉa lớp và khả năng giải thích đã cho thấy các lớp đầu nắm bắt thông tin cơ bản (như ngữ pháp), trong khi các lớp sau xử lý thông tin cấp cao hơn (như ngữ nghĩa) và thường chỉ "nhấn mạnh lại" các phán đoán hiện có. Thay vì phân bổ tham số đồng đều cho tất cả các lớp, nhóm nghiên cứu đề xuất một thiết kế "hình nón": giảm dần đều chiều rộng của mạng chuyển tiếp (FFN) - thành phần lưu trữ và xử lý thông tin chính của mỗi lớp - từ đầu đến cuối mô hình, trong khi vẫn giữ nguyên tổng số tham số và lượng tính toán. Thử nghiệm trên mô hình Transformer 440M tham số cho thấy, với đường cong giảm dần dạng cosine (chiều rộng đầu gấp 1.5 lần cơ sở, chiều rộng cuối là 0.5 lần), điểm perplexity cải thiện tới 1.84 điểm so với mô hình cơ sở phân bổ đồng đều. Kết quả tích cực này được khẳng định lại trên ba kiến trúc khác (mô hình chú ý có cổng, Hope-attention, Titans) ở quy mô 760M và 1.3B tham số, trên nhiều nhiệm vụ đánh giá như suy luận thường thức và dự đoán ngôn ngữ, mà không làm giảm khả năng xử lý ngữ cảnh dài. Nghiên cứu chứng minh việc phân bổ dung lượng "não bộ" của mô hình một cách có chủ đích - tập trung nhiều hơn vào các lớp đầu nơi xử lý thông tin đa dạng - là một đòn bẩy hiệu quả gần như miễn phí. Phương pháp này mở ra hướng đi mới không chỉ cho mô hình ngôn ngữ mà còn cho các mô hình Thị giác Transformer, khuếch tán và đa phương thức vốn kế thừa thiết kế phân bổ đồng đều truyền thống.

marsbit9 giờ trước

Biến đổi Cấu trúc Transformer, LLM Trở Nên Thông Minh Hơn

marsbit9 giờ trước

# Bài viết Liên quan Mô hình Hình Nón

Biến đổi Cấu trúc Transformer, LLM Trở Nên Thông Minh Hơn

Danh mục Phổ biến

Thẻ Nổi bật