iPhone chạy Gemma 4 cục bộ gây bão, Kỷ nguyên 0 token còn bao xa?

marsbitXuất bản vào 2026-04-06Cập nhật gần nhất vào 2026-04-06

Tóm tắt

Mô hình Gemma 4 mới của Google đã gây bão khi có thể chạy cục bộ trên điện thoại iPhone và Samsung với tốc độ ấn tượng lên đến 40 token/giây, nhờ tối ưu hóa trên chip Apple và framework MLX. Với hai phiên bản nhỏ gọn (2.3B và 4.5B tham số), hỗ trợ đa phương tiện và cửa sổ ngữ cảnh lên đến 128K, Gemma 4 được xem như một giải pháp thay thế Gemini thu nhỏ, tiện lợi cho thiết bị di động. Người dùng có thể dễ dàng trải nghiệm thông qua ứng dụng chính thức Google AI Edge Gallery. Tuy nhiên, ở phiên bản lớn hơn (26B), mô hình gặp hạn chế trong các tác vụ phức tạp như agent coding hay gọi công cụ, so với các đối thủ như Qwen3-Coder. Dù còn một số điểm yếu về trí tuệ và khả năng xử lý tác vụ phức tạp, Gemma 4 vẫn mở ra xu hướng chạy AI cục bộ trên thiết bị cá nhân, giảm phụ thuộc vào token và API đám mây. Điều này có thể thúc đẩy các nhà cung cấp dịch vụ AI tập trung vào những bài toán khó hơn như agent mạnh, ngữ cảnh dài và dữ liệu chuyên sâu. Tương lai của AI có thể chứng kiến sự dịch chuyển mạnh mẽ khi mô hình cục bộ ngày càng mạnh mẽ và phổ biến.

Biên tập viên Machine Heart

Mô hình mới Gemma 4 mà Google mới mã nguồn mở vài ngày trước đã mang đến một bất ngờ lớn cho ngành.

Nó sử dụng kiến trúc công nghệ cùng nguồn gốc với Gemini 3, hỗ trợ đa phương thức (multimodal) gốc, đứng thứ ba toàn cầu trên bảng xếp hạng Arena AI, và có nhiều model để lựa chọn. Một vài model nhỏ hơn — E2B (2.3B tham số hiệu dụng) và E4B (4.5B tham số hiệu dụng) — có thể triển khai trực tiếp để chạy cục bộ trên thiết bị di động, với cửa sổ ngữ cảnh (context window) lên đến 128K, có thể coi là "Gemini thay thế bỏ túi được".

Không ngoài dự đoán, mô hình nhanh chóng trở thành món đồ chơi mới của người dùng điện thoại.

Một bài đăng từ người dùng X đã thu hút hàng trăm nghìn lượt xem. Trong bài đăng có một video kể về việc họ chạy Gemma 4 cục bộ trên iPhone như thế nào, bao gồm xử lý hình ảnh, âm thanh, điều khiển bật tắt đèn pin. Họ cho biết, Gemma 4 nhanh một cách đáng kinh ngạc, cảm giác như phép thuật.

Ai đó đã định lượng tốc độ này trên iPhone 17 Pro, chỉ ra rằng nếu điện thoại sử dụng chip Apple, thì với sự trợ giúp của MLX (framework học máy của Apple) được tối ưu hóa cho bộ chip này, tốc độ suy luận (inference) của mô hình có thể vượt quá 40 token / giây.

Cũng có người chạy được tốc độ tương tự trên Samsung Galaxy, và thậm chí là trong khi bật chế độ suy nghĩ (thinking mode). Điều này khiến người ta phải thốt lên "nhanh đến mức không tưởng".

Tốc độ như vậy khiến việc chạy mô hình AI trên thiết bị di động trở thành một lựa chọn có thể chấp nhận được trong tương lai, và rất hữu ích trong các kịch bản nhạy cảm như chăm sóc sức khỏe.

Cửa sổ ngữ cảnh 128k cũng khiến những mô hình nhỏ này trở nên hấp dẫn hơn.

Vậy cụ thể chạy như thế nào? Thực ra rất đơn giản, không phải dành riêng cho dân geek, vì Google đã phát hành ứng dụng chính thức — Google AI Edge Gallery. Người muốn trải nghiệm trên điện thoại có thể trực tiếp tải ứng dụng này, sau đó tải phiên bản mô hình muốn chạy, mở lên là có thể dùng được.

Hơn nữa, vì là do Google chính thức phát hành, vấn đề an toàn đương nhiên cũng không cần quá lo lắng.

Ngoài những mô hình nhỏ chạy trên thiết bị di động này, còn có người thử nghiệm các phiên bản Gemma 4 lớn hơn trên phần cứng mạnh hơn, ví dụ như chạy Gemma 4 Mixture-of-Experts 26B trên MacBook Pro phiên bản M5 Pro.

Nếu chỉ đối thoại trực tiếp, tốc độ của model này vẫn rất nhanh, tạo văn bản, giải thích mã đều trơn tru.

Nhưng khi họ thực sự dùng Gemma 4 như một coding agent (tác nhân lập trình) thì vấn đề nảy sinh. Bởi vì chạy agent cần ngữ cảnh lớn (Gemma 4 26B có cửa sổ ngữ cảnh 256k), prompt phức tạp và gọi công cụ (tool calling) ổn định, Gemma 4 ở những điểm này tỏ ra không chịu nổi, thường xuyên bị đơ, báo lỗi, hoặc đầu ra có cấu trúc không đúng.

Bước ngoặt xảy ra khi họ chuyển sang dùng model qwen3-coder, trong cùng môi trường đó, tạo file, thực thi lệnh, tác vụ nhiều bước đều chạy bình thường. Họ cho rằng, vấn đề không nằm ở framework agent, mà ở bản thân model có được tối ưu hóa cho "tool calling + structured output" (gọi công cụ + đầu ra có cấu trúc) hay không. Về mặt này, Gemma 4 có lẽ làm chưa đủ, cũng có thể nhà phát triển này chưa tìm đúng cách dùng.

Ngoài ra, còn có người nói, trí tuệ của Gemma 4 vẫn còn hơi "dở dang".

Dù vậy, sự xuất hiện của Gemma 4 - thứ "viên đạn nhỏ hiệu năng cao" này - vẫn không thể xem thường. Nếu sau này phần lớn các tác vụ tra cứu hàng ngày, trò chuyện, suy luận đơn giản, tạo mã, hiểu hình ảnh đều có thể chạy cục bộ, không cần mua token nữa, thì những hãng bán token chẳng phải sẽ rất lúng túng sao?

Tất nhiên, tình hình hiện tại chưa bi quan đến vậy, xét cho cùng vẫn còn khoảng cách giữa các model mã nguồn mở hiện nay và các model độc quyền tiên phong ở front-line, và hầu hết các model mã nguồn mở mạnh vẫn bị giới hạn bởi khả năng phần cứng, tạm thời chưa thể đạt đến mức độ khả dụng trên thiết bị đầu cuối (edge side).

Nhưng xu hướng tương lai là rõ ràng. Trong ngắn hạn, các model độc quyền trên đám mây vẫn dẫn đầu trong lĩnh vực suy luận phức tạp nhất và sự hợp tác đa tác nhân quy mô siêu lớn; nhưng về lâu dài, khi phần cứng tiếp tục tiến bộ, công nghệ lượng tử hóa (quantization) tiếp tục được tối ưu hóa, các model trên thiết bị đầu cuối sẽ dần chiếm lĩnh các tác vụ đơn giản tần suất cao của đám mây.

Những hãng chỉ dựa vào bán token, bán đăng ký API, sẽ buộc phải cạnh tranh khốc liệt hơn ở phần "thực sự khó nhằn" — Agent siêu mạnh, ngữ cảnh dài đáng tin cậy, và các khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Gemma 4 chỉ là khởi đầu. Bất ngờ tiếp theo, rất có thể là một model trên thiết bị đầu cuối nào đó trong quá trình sử dụng hàng ngày khiến người dùng hoàn toàn không cảm nhận được sự khác biệt giữa "cục bộ" và "đám mây". Khi ngày đó đến, toàn bộ mô hình kinh doanh của ngành công nghiệp AI, sẽ đón một cuộc đại tái cấu trúc thực sự.

Bài viết từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014), tác giả: Machine Heart

Câu hỏi Liên quan

QMô hình Gemma 4 của Google có những đặc điểm nổi bật nào?

AGemma 4 sử dụng kiến trúc công nghệ đồng nguồn với Gemini 3, hỗ trợ đa phương tiện gốc, đứng thứ 3 trên bảng xếp hạng Arena AI. Các phiên bản nhỏ như E2B (2.3B tham số) và E4B (4.5B tham số) có thể chạy cục bộ trên điện thoại với cửa sổ ngữ cảnh lên đến 128K.

QTốc độ xử lý của Gemma 4 trên thiết bị di động là bao nhiêu?

ATrên iPhone 17 Pro với chip Apple và framework MLX tối ưu hóa, tốc độ suy luận đạt hơn 40 token/giây. Tốc độ tương tự cũng được ghi nhận trên Samsung Galaxy khi bật chế độ suy nghĩ.

QLàm thế nào để chạy Gemma 4 trên điện thoại?

ANgười dùng có thể tải ứng dụng chính thức Google AI Edge Gallery, tải phiên bản mô hình mong muốn và chạy trực tiếp. Quy trình đơn giản, không yêu cầu kỹ năng kỹ thuật cao.

QGemma 4 có hạn chế gì khi sử dụng cho các tác vụ phức tạp?

AKhi được sử dụng làm coding agent với yêu cầu ngữ cảnh lớn (256K), prompt phức tạp và gọi công cụ ổn định, Gemma 4 thường bị treo, báo lỗi hoặc xuất ra cấu trúc không chính xác. Mô hình chưa được tối ưu hóa đầy đủ cho việc gọi công cụ và xuất dữ liệu có cấu trúc.

QXu hướng phát triển của mô hình AI chạy cục bộ so với mô hình đám mây là gì?

AVề lâu dài, khi phần cứng và kỹ thuật lượng tử hóa phát triển, mô hình phía thiết bị sẽ dần chiếm lĩnh các tác vụ đơn giản, tần suất cao. Các nhà cung cấp API dựa trên token sẽ buộc phải tập trung vào các lĩnh vực phức tạp hơn như Agent mạnh, ngữ cảnh dài đáng tin cậy và khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Nội dung Liên quan

Quan điểm KOL: Tại sao SOL sẽ tăng giá tại điểm này?

Tác giả Gum (biên dịch bởi Deep Tide TechFlow) đưa ra quan điểm rằng SOL đang ở vị trí sẵn sàng tăng giá, dựa trên các lý do sau: SOL vừa phá vỡ khỏi giai đoạn tích lũy kéo dài 4 tháng, đánh dấu sự trở lại của tâm lý chấp nhận rủi ro trên thị trường tiền điện tử, mà SOL là đại diện cho xu hướng này. Lượng nắm giữ đang chuyển từ các nhà giao dịch ngắn hạn sang các nhà tích lũy dài hạn mạnh tay, trong khi khối lượng giao dịch ở mức thấp. Bất kỳ sự gia tăng khối lượng hợp lý nào cũng có thể thúc đẩy đà tăng. Solana được hưởng lợi từ sự hỗ trợ thể chế mạnh mẽ, tích hợp DeFi & Tài sản thực (RWA), và Đạo luật Clarity. Đây là một trong số ít mã thông báo đạt ATH mới trong chu kỳ trước và có hệ sinh thái ứng dụng, người dùng, giao thức mạnh mẽ. Các yếu tố tăng trưởng trong tương lai bao gồm: sự tập trung phát triển AI trên Solana sau hội nghị Accelerate tại Miami, và việc memecoins tiếp tục phát triển mạnh trên nền tảng này, thúc đẩy nhu cầu cho các sản phẩm liên quan như Axiom hay bot giao dịch. Tóm lại, sự chuyển đổi quyền sở hữu, cơ sở hạ tầng vững chắc và các động lực phát triển mới khiến tác giả tin rằng SOL đang ở điểm khởi đầu cho một đợt tăng giá.

marsbit40 phút trước

Quan điểm KOL: Tại sao SOL sẽ tăng giá tại điểm này?

marsbit40 phút trước

Những Giao Thức PoW Trước Bitcoin Đã Được Làm Lại Gần Đây

**Tóm tắt:** Trong 5 ngày đầu tháng 5 năm 2026, một nhóm các nhà phát triển trong hệ sinh thái Bitcoin đã cùng nhau tái hiện lại các giao thức Proof-of-Work tiền Bitcoin (cypherpunk), mở đầu bằng RPOW của Hal Finney (2004). Fred Krueger (rpow2.com) triển khai phiên bản trung tâm trung thành với thiết kế gốc, thay thế phần cứng tin cậy IBM 4758 bằng chữ ký Ed25519. Sau đó, anh ta thêm các đặc trưng của Bitcoin như giới hạn nguồn cung 21 triệu và điều chỉnh độ khó, đồng thời dành riêng 5.24% cho nhà sáng lập. Các nhà phát triển khác nhanh chóng tham gia: cryptonaut420 (rpow4.com) sao chép toàn bộ thông số Bitcoin, ImMike tạo thị trường dự đoán (rpowmarket.com), Adam McBride xây sàn giao dịch (rpow2swap.com). Mike In Space (người sáng lập Bitcoin Stamps) thậm chí đã tạo một nguyên mẫu cho b-money của Wei Dai (1998) - một đề xuất còn sớm hơn RPOW. Các dự án này đều mang tính chất thử nghiệm, tôn vinh và không có giá trị đầu tư. Chúng nổi bật lên một sự quan tâm tập thể từ một nhóm văn hóa phụ (Bitcoin cổ, Counterparty, Ordinals) trong việc khảo cổ và tái hiện lịch sử ý tưởng tiền điện tử phi tập trung trước khi Satoshi tổng hợp chúng thành Bitcoin. Một dự án khác tên HASH trên Ethereum cũng được đề cập, sử dụng cơ chế hook để đảm bảo fair launch hoàn toàn cho một token PoW mô phỏng Bitcoin.

marsbit41 phút trước

Những Giao Thức PoW Trước Bitcoin Đã Được Làm Lại Gần Đây

marsbit41 phút trước

Báo cáo tài chính, Đạo luật CLARITY, Warsh tới tay, CRCL đón ba cuộc kiểm tra liên tiếp trong tuần này

Tác giả Azuma phân tích ba sự kiện quan trọng ảnh hưởng tới Circle (CRCL) trong tuần này. 1. **Báo cáo tài chính Q1/2026 (11/5):** Báo cáo tập trung vào doanh thu, lợi nhuận (dự kiến doanh thu 715 triệu USD, EPS 0.178 USD), tỷ lệ chi phí phân phối cho Coinbase và thu nhập phi lãi suất. Điểm đáng chú ý là hợp đồng phân phối USDC giữa Circle và Coinbase hết hạn vào tháng 8. Việc đàm phán điều khoản gia hạn sẽ rất quan trọng, với lợi thế có thể thuộc về Circle do Coinbase đang phụ thuộc nhiều. 2. **Dự luật CLARITY tại Thượng viện (14/5):** Ủy ban Ngân hàng Thượng viện Mỹ sẽ bỏ phiếu thông qua dự luật thiết lập khuôn khổ pháp lý rõ ràng cho tài sản số. Sau khi vượt qua Hạ viện năm ngoái, dự luật gần đây đã đạt được thỏa hiệp về việc cấm trả lãi cho stablecoin dự trữ tĩnh nhưng cho phép với stablecoin hoạt động. Thị trường lạc quan (76% cơ hội thông qua), và nếu thành luật, đây sẽ là tin tích cực lớn cho Circle và toàn ngành. 3. **Chủ tịch Cục Dự trữ Liên bang (Fed) đổi nhiệm (15/5):** Kevin Warsh sẽ thay thế Jerome Powell. Ông ủng hộ kết hợp "thu hồi nợ (QT) + cắt giảm lãi suất". Về ngắn hạn, điều này có thể gây áp lực giảm giá cho CRCL do lợi nhuận từ trái phiếu kho bạc Mỹ bị ảnh hưởng bởi lãi suất thấp hơn. Tuy nhiên, về dài hạn, Warsh - một người nắm giữ tiền mã hóa và ủng hộ nâng cấp số hóa năng lực cạnh tranh tài chính Mỹ - có thể tạo thuận lợi về chính sách cho Circle, như việc ông muốn đưa các stablecoin tư nhân như USDC vào hệ thống giám sát của Fed.

marsbit1 giờ trước

Báo cáo tài chính, Đạo luật CLARITY, Warsh tới tay, CRCL đón ba cuộc kiểm tra liên tiếp trong tuần này

marsbit1 giờ trước

Những Tỷ Phú Đằng Sau Cuộc Bầu Cử Giữa Kỳ Đắt Giá Nhất Lịch Sử

Cuộc bầu cử giữa kỳ năm 2026 được dự báo là cuộc bầu cử đắt đỏ nhất trong lịch sử, với tổng chi tiêu cho quảng cáo chính trị ước tính lên tới 10,8 tỷ USD. Các tỷ phú đang đổ hàng chục triệu USD để tác động đến cuộc đua giành quyền kiểm soát Quốc hội và các chính sách then chốt. Theo phân tích của Bloomberg, hơn 4,7 tỷ USD đã được huy động cho các ủy ban chính trị liên bang trong chu kỳ này. Phần lớn nguồn tiền lớn đang chảy về phe Cộng hòa. Các nhà tài trợ cá nhân hàng đầu bao gồm George Soros (102,6 triệu USD), Elon Musk (84,8 triệu USD) và Jeff Yass (81,8 triệu USD). Yass là nhà tài trợ cá nhân lớn cho MAGA Inc. của ông Trump và ủng hộ mạnh mẽ quyền lựa chọn trường học. Các tỷ phú công nghệ cũng tham gia sâu rộng, với những khoản đóng góp lớn nhằm định hình quy định về trí tuệ nhân tạo và tiền mã hóa, hoặc chống lại các đề xuất thuế tỷ phú. Greg Brockman (OpenAI) và Marc Andreessen là những nhà tài trợ chính cho ủy ban hành động chính trị (PAC) về AI "Leading the Future". Các tỷ phú khác như Miriam Adelson và Paul Singer tiếp tục ủng hộ mạnh mẽ các ứng viên thân Israel. Bài viết nêu bật xu hướng "tiền đen" ẩn danh ngày càng tăng và dự báo sẽ có thêm các nhà tài trợ tỷ phú xuất hiện khi ngày bầu cử 3/11 đến gần.

marsbit2 giờ trước

Những Tỷ Phú Đằng Sau Cuộc Bầu Cử Giữa Kỳ Đắt Giá Nhất Lịch Sử

marsbit2 giờ trước

Sau khi lưu trữ tăng 50 lần, Sun Yuchen luôn hướng tới thập kỷ tiếp theo

Đa số người Trung Quốc biết đến Sun Yuchen (Tôn Vũ Thần) qua những câu chuyện gây tranh cãi và hành động thu hút sự chú ý. Tuy nhiên, ẩn sau hình ảnh đó là một nhà đầu tư có tầm nhìn xa trong thập kỷ qua. Năm 2016, ông khuyên giới trẻ không nên mua nhà mà đầu tư vào Bitcoin, NVIDIA, Tesla và Tencent. Đến năm 2026, những đề xuất này mang lại lợi nhuận khổng lồ, với NVIDIA tăng gần 24000%. Gần đây, tuyên bố "Mua ổ cứng" của ông vào tháng 11/2025 đã thúc đẩy cơn sốt cổ phiếu lưu trữ, như Western Digital (tách ra thành Sandisk) tăng gần 50 lần. Khi mọi người còn đang đuổi theo xu hướng này, Sun Yuchen đã chuyển sự chú ý sang bốn lĩnh vực mới nổi cho thập kỷ tới: Trí tuệ thể hiện (Robot hình người), Máy bay không người lái, Điện toán không gian và Khám phá vũ trụ. Ông nhấn mạnh rằng đây là những hướng đi then chốt mà AI vật lý sẽ định hình lại thế giới thực, từ nhà máy, chiến trường đến không gian. Triết lý đầu tư của ông là xác định các lĩnh vực có triển vọng và đặt cược vào cả "cơ thể" lẫn "bộ não" của ngành, không dựa vào một công ty duy nhất. Ví dụ, trong robot, ông tin vào khả năng sản xuất của Tesla (Optimus) và nền tảng AI của NVIDIA (GR00T). Năm 2025, Sun Yuchen đã tự mình bay qua đường Kármán trên chuyến bay của Blue Origin, củng cố niềm tin vào tương lai kinh tế vũ trụ. Ông kêu gọi giới trẻ tập trung vào công nghệ và đổi mới. Trong khi nhiều người vẫn chờ đợi cơ hội trong các lĩnh vực cũ, Sun Yuchen đã nhìn về một tương lai nơi AI vật lý thay đổi cách vận hành cơ bản của thế giới.

marsbit2 giờ trước

Sau khi lưu trữ tăng 50 lần, Sun Yuchen luôn hướng tới thập kỷ tiếp theo

marsbit2 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 509Xuất bản vào 2025.10.20Cập nhật vào 2025.10.20

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片