iPhone chạy Gemma 4 cục bộ gây bão, Kỷ nguyên 0 token còn bao xa?

marsbitXuất bản vào 2026-04-06Cập nhật gần nhất vào 2026-04-06

Tóm tắt

Mô hình Gemma 4 mới của Google đã gây bão khi có thể chạy cục bộ trên điện thoại iPhone và Samsung với tốc độ ấn tượng lên đến 40 token/giây, nhờ tối ưu hóa trên chip Apple và framework MLX. Với hai phiên bản nhỏ gọn (2.3B và 4.5B tham số), hỗ trợ đa phương tiện và cửa sổ ngữ cảnh lên đến 128K, Gemma 4 được xem như một giải pháp thay thế Gemini thu nhỏ, tiện lợi cho thiết bị di động. Người dùng có thể dễ dàng trải nghiệm thông qua ứng dụng chính thức Google AI Edge Gallery. Tuy nhiên, ở phiên bản lớn hơn (26B), mô hình gặp hạn chế trong các tác vụ phức tạp như agent coding hay gọi công cụ, so với các đối thủ như Qwen3-Coder. Dù còn một số điểm yếu về trí tuệ và khả năng xử lý tác vụ phức tạp, Gemma 4 vẫn mở ra xu hướng chạy AI cục bộ trên thiết bị cá nhân, giảm phụ thuộc vào token và API đám mây. Điều này có thể thúc đẩy các nhà cung cấp dịch vụ AI tập trung vào những bài toán khó hơn như agent mạnh, ngữ cảnh dài và dữ liệu chuyên sâu. Tương lai của AI có thể chứng kiến sự dịch chuyển mạnh mẽ khi mô hình cục bộ ngày càng mạnh mẽ và phổ biến.

Biên tập viên Machine Heart

Mô hình mới Gemma 4 mà Google mới mã nguồn mở vài ngày trước đã mang đến một bất ngờ lớn cho ngành.

Nó sử dụng kiến trúc công nghệ cùng nguồn gốc với Gemini 3, hỗ trợ đa phương thức (multimodal) gốc, đứng thứ ba toàn cầu trên bảng xếp hạng Arena AI, và có nhiều model để lựa chọn. Một vài model nhỏ hơn — E2B (2.3B tham số hiệu dụng) và E4B (4.5B tham số hiệu dụng) — có thể triển khai trực tiếp để chạy cục bộ trên thiết bị di động, với cửa sổ ngữ cảnh (context window) lên đến 128K, có thể coi là "Gemini thay thế bỏ túi được".

Không ngoài dự đoán, mô hình nhanh chóng trở thành món đồ chơi mới của người dùng điện thoại.

Một bài đăng từ người dùng X đã thu hút hàng trăm nghìn lượt xem. Trong bài đăng có một video kể về việc họ chạy Gemma 4 cục bộ trên iPhone như thế nào, bao gồm xử lý hình ảnh, âm thanh, điều khiển bật tắt đèn pin. Họ cho biết, Gemma 4 nhanh một cách đáng kinh ngạc, cảm giác như phép thuật.

Ai đó đã định lượng tốc độ này trên iPhone 17 Pro, chỉ ra rằng nếu điện thoại sử dụng chip Apple, thì với sự trợ giúp của MLX (framework học máy của Apple) được tối ưu hóa cho bộ chip này, tốc độ suy luận (inference) của mô hình có thể vượt quá 40 token / giây.

Cũng có người chạy được tốc độ tương tự trên Samsung Galaxy, và thậm chí là trong khi bật chế độ suy nghĩ (thinking mode). Điều này khiến người ta phải thốt lên "nhanh đến mức không tưởng".

Tốc độ như vậy khiến việc chạy mô hình AI trên thiết bị di động trở thành một lựa chọn có thể chấp nhận được trong tương lai, và rất hữu ích trong các kịch bản nhạy cảm như chăm sóc sức khỏe.

Cửa sổ ngữ cảnh 128k cũng khiến những mô hình nhỏ này trở nên hấp dẫn hơn.

Vậy cụ thể chạy như thế nào? Thực ra rất đơn giản, không phải dành riêng cho dân geek, vì Google đã phát hành ứng dụng chính thức — Google AI Edge Gallery. Người muốn trải nghiệm trên điện thoại có thể trực tiếp tải ứng dụng này, sau đó tải phiên bản mô hình muốn chạy, mở lên là có thể dùng được.

Hơn nữa, vì là do Google chính thức phát hành, vấn đề an toàn đương nhiên cũng không cần quá lo lắng.

Ngoài những mô hình nhỏ chạy trên thiết bị di động này, còn có người thử nghiệm các phiên bản Gemma 4 lớn hơn trên phần cứng mạnh hơn, ví dụ như chạy Gemma 4 Mixture-of-Experts 26B trên MacBook Pro phiên bản M5 Pro.

Nếu chỉ đối thoại trực tiếp, tốc độ của model này vẫn rất nhanh, tạo văn bản, giải thích mã đều trơn tru.

Nhưng khi họ thực sự dùng Gemma 4 như một coding agent (tác nhân lập trình) thì vấn đề nảy sinh. Bởi vì chạy agent cần ngữ cảnh lớn (Gemma 4 26B có cửa sổ ngữ cảnh 256k), prompt phức tạp và gọi công cụ (tool calling) ổn định, Gemma 4 ở những điểm này tỏ ra không chịu nổi, thường xuyên bị đơ, báo lỗi, hoặc đầu ra có cấu trúc không đúng.

Bước ngoặt xảy ra khi họ chuyển sang dùng model qwen3-coder, trong cùng môi trường đó, tạo file, thực thi lệnh, tác vụ nhiều bước đều chạy bình thường. Họ cho rằng, vấn đề không nằm ở framework agent, mà ở bản thân model có được tối ưu hóa cho "tool calling + structured output" (gọi công cụ + đầu ra có cấu trúc) hay không. Về mặt này, Gemma 4 có lẽ làm chưa đủ, cũng có thể nhà phát triển này chưa tìm đúng cách dùng.

Ngoài ra, còn có người nói, trí tuệ của Gemma 4 vẫn còn hơi "dở dang".

Dù vậy, sự xuất hiện của Gemma 4 - thứ "viên đạn nhỏ hiệu năng cao" này - vẫn không thể xem thường. Nếu sau này phần lớn các tác vụ tra cứu hàng ngày, trò chuyện, suy luận đơn giản, tạo mã, hiểu hình ảnh đều có thể chạy cục bộ, không cần mua token nữa, thì những hãng bán token chẳng phải sẽ rất lúng túng sao?

Tất nhiên, tình hình hiện tại chưa bi quan đến vậy, xét cho cùng vẫn còn khoảng cách giữa các model mã nguồn mở hiện nay và các model độc quyền tiên phong ở front-line, và hầu hết các model mã nguồn mở mạnh vẫn bị giới hạn bởi khả năng phần cứng, tạm thời chưa thể đạt đến mức độ khả dụng trên thiết bị đầu cuối (edge side).

Nhưng xu hướng tương lai là rõ ràng. Trong ngắn hạn, các model độc quyền trên đám mây vẫn dẫn đầu trong lĩnh vực suy luận phức tạp nhất và sự hợp tác đa tác nhân quy mô siêu lớn; nhưng về lâu dài, khi phần cứng tiếp tục tiến bộ, công nghệ lượng tử hóa (quantization) tiếp tục được tối ưu hóa, các model trên thiết bị đầu cuối sẽ dần chiếm lĩnh các tác vụ đơn giản tần suất cao của đám mây.

Những hãng chỉ dựa vào bán token, bán đăng ký API, sẽ buộc phải cạnh tranh khốc liệt hơn ở phần "thực sự khó nhằn" — Agent siêu mạnh, ngữ cảnh dài đáng tin cậy, và các khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Gemma 4 chỉ là khởi đầu. Bất ngờ tiếp theo, rất có thể là một model trên thiết bị đầu cuối nào đó trong quá trình sử dụng hàng ngày khiến người dùng hoàn toàn không cảm nhận được sự khác biệt giữa "cục bộ" và "đám mây". Khi ngày đó đến, toàn bộ mô hình kinh doanh của ngành công nghiệp AI, sẽ đón một cuộc đại tái cấu trúc thực sự.

Bài viết từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014), tác giả: Machine Heart

Câu hỏi Liên quan

QMô hình Gemma 4 của Google có những đặc điểm nổi bật nào?

AGemma 4 sử dụng kiến trúc công nghệ đồng nguồn với Gemini 3, hỗ trợ đa phương tiện gốc, đứng thứ 3 trên bảng xếp hạng Arena AI. Các phiên bản nhỏ như E2B (2.3B tham số) và E4B (4.5B tham số) có thể chạy cục bộ trên điện thoại với cửa sổ ngữ cảnh lên đến 128K.

QTốc độ xử lý của Gemma 4 trên thiết bị di động là bao nhiêu?

ATrên iPhone 17 Pro với chip Apple và framework MLX tối ưu hóa, tốc độ suy luận đạt hơn 40 token/giây. Tốc độ tương tự cũng được ghi nhận trên Samsung Galaxy khi bật chế độ suy nghĩ.

QLàm thế nào để chạy Gemma 4 trên điện thoại?

ANgười dùng có thể tải ứng dụng chính thức Google AI Edge Gallery, tải phiên bản mô hình mong muốn và chạy trực tiếp. Quy trình đơn giản, không yêu cầu kỹ năng kỹ thuật cao.

QGemma 4 có hạn chế gì khi sử dụng cho các tác vụ phức tạp?

AKhi được sử dụng làm coding agent với yêu cầu ngữ cảnh lớn (256K), prompt phức tạp và gọi công cụ ổn định, Gemma 4 thường bị treo, báo lỗi hoặc xuất ra cấu trúc không chính xác. Mô hình chưa được tối ưu hóa đầy đủ cho việc gọi công cụ và xuất dữ liệu có cấu trúc.

QXu hướng phát triển của mô hình AI chạy cục bộ so với mô hình đám mây là gì?

AVề lâu dài, khi phần cứng và kỹ thuật lượng tử hóa phát triển, mô hình phía thiết bị sẽ dần chiếm lĩnh các tác vụ đơn giản, tần suất cao. Các nhà cung cấp API dựa trên token sẽ buộc phải tập trung vào các lĩnh vực phức tạp hơn như Agent mạnh, ngữ cảnh dài đáng tin cậy và khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Nội dung Liên quan

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Polymarket, nền tảng dự đoán thị trường hàng đầu, đang đối mặt với thách thức lớn khi trải nghiệm giao dịch xuống cấp do hạ tầng không theo kịp đà tăng trưởng. Phó chủ tịch kỹ thuật Josh Stevens thừa nhận vấn đề và công bố kế hoạch cải tổ toàn diện, bao gồm: giảm độ trễ dữ liệu, sửa lỗi hủy lệnh, xây dựng lại hệ thống order book (CLOB), nâng cao hiệu suất website, và quan trọng nhất là di chuyển chain (chain migration). Nguyên nhân sâu xa nằm ở việc Polymarket không còn là ứng dụng dự đoán đơn thuần mà đã phát triển thành một nền tảng giao dịch tần suất cao. Polygon, từng là lựa chọn chi phí thấp hoàn hảo, giờ đây trở thành rào cản kỹ thuật. Động thái này ngay lập tức thu hút sự quan tâm của các blockchain khác như Solana, Sui, Algorand... trong khi Polygon nỗ lực giữ chân ứng dụng quan trọng này - nguồn đóng góp phí giao dịch đáng kể cho hệ sinh thái của họ. Bài kiểm tra thực sự của Polymarket không chỉ là chọn chain mới, mà là xây dựng một hệ thống giao dịch đủ mạnh và ổn định để giữ chân người dùng trong giai đoạn tăng trưởng mới, nơi độ tin cậy quan trọng hơn bao giờ hết.

Odaily星球日报15 giờ trước

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Odaily星球日报15 giờ trước

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

Tác giả Alex Xu, một nhà đầu tư Bitcoin lâu năm, đã chia sẻ quyết định giảm dần tỷ trọng BTC trong danh mục đầu tư của mình, từ vị thế lớn nhất xuống còn khoảng 30%, và giải thích lý do cho việc điều chỉnh kỳ vọng về đỉnh giá trong chu kỳ bull market tiếp theo. Các lý do chính bao gồm: 1. **Năng lượng tăng trưởng tiềm năng giảm:** Các chu kỳ trước được thúc đẩy bởi việc mở rộng đối tượng đầu tư theo cấp số nhân (từ cá nhân đến tổ chức). Chu kỳ tới cần sự chấp nhận từ các quỹ đầu tư quốc gia hoặc ngân hàng trung ương, điều này khó xảy ra trong 2-3 năm tới. 2. **Chi phí cơ hội cá nhân:** Tìm thấy nhiều cơ hội đầu tư hấp dẫn khác (cổ phiếu công ty) với mức giá hợp lý. 3. **Tác động tiêu cực từ sự thu hẹp của ngành crypto:** Nhiều mô hình Web3 (SocialFi, GameFi...) không thành công, dẫn đến sự thu hẹp của toàn ngành và làm chậm tốc độ tăng trưởng số người nắm giữ BTC. 4. **Áp lực từ nhà mua lớn nhất (MicroStrategy):** Chi phí huy động vốn của MicroStrategy tiếp tục tăng cao (lãi suất 11.5%), có thể làm giảm tốc độ mua vào và gây áp lực bán. 5. **Sự cạnh tranh từ Vàng được token hóa:** Sản phẩm vàng token hóa (tokenized gold) đã thu hẹp khoảng cách về tính dễ chia nhỏ, dễ mang theo và dễ xác minh so với BTC. 6. **Vấn đề ngân sách bảo mật:** Phần thưởng khối giảm sau mỗi lần halving làm trầm trọng thêm vấn đề ngân sách cho bảo mật mạng lưới. Tác giả vẫn giữ một phần BTC đáng kể và sẵn sàng mua lại nếu các lý kiến trên được giải quyết hoặc xuất hiện các yếu tố tích cực mới, với điều kiện giá cả phù hợp.

marsbit16 giờ trước

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

marsbit16 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 487Xuất bản vào 2025.10.20Cập nhật vào 2025.10.20

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片