iPhone chạy Gemma 4 cục bộ gây bão, Kỷ nguyên 0 token còn bao xa?
Mô hình Gemma 4 mới của Google đã gây bão khi có thể chạy cục bộ trên điện thoại iPhone và Samsung với tốc độ ấn tượng lên đến 40 token/giây, nhờ tối ưu hóa trên chip Apple và framework MLX. Với hai phiên bản nhỏ gọn (2.3B và 4.5B tham số), hỗ trợ đa phương tiện và cửa sổ ngữ cảnh lên đến 128K, Gemma 4 được xem như một giải pháp thay thế Gemini thu nhỏ, tiện lợi cho thiết bị di động.
Người dùng có thể dễ dàng trải nghiệm thông qua ứng dụng chính thức Google AI Edge Gallery. Tuy nhiên, ở phiên bản lớn hơn (26B), mô hình gặp hạn chế trong các tác vụ phức tạp như agent coding hay gọi công cụ, so với các đối thủ như Qwen3-Coder.
Dù còn một số điểm yếu về trí tuệ và khả năng xử lý tác vụ phức tạp, Gemma 4 vẫn mở ra xu hướng chạy AI cục bộ trên thiết bị cá nhân, giảm phụ thuộc vào token và API đám mây. Điều này có thể thúc đẩy các nhà cung cấp dịch vụ AI tập trung vào những bài toán khó hơn như agent mạnh, ngữ cảnh dài và dữ liệu chuyên sâu. Tương lai của AI có thể chứng kiến sự dịch chuyển mạnh mẽ khi mô hình cục bộ ngày càng mạnh mẽ và phổ biến.
marsbit14 giờ trước