iPhone chạy Gemma 4 cục bộ gây bão, Kỷ nguyên 0 token còn bao xa?

marsbitXuất bản vào 2026-04-06Cập nhật gần nhất vào 2026-04-06

Tóm tắt

Mô hình Gemma 4 mới của Google đã gây bão khi có thể chạy cục bộ trên điện thoại iPhone và Samsung với tốc độ ấn tượng lên đến 40 token/giây, nhờ tối ưu hóa trên chip Apple và framework MLX. Với hai phiên bản nhỏ gọn (2.3B và 4.5B tham số), hỗ trợ đa phương tiện và cửa sổ ngữ cảnh lên đến 128K, Gemma 4 được xem như một giải pháp thay thế Gemini thu nhỏ, tiện lợi cho thiết bị di động. Người dùng có thể dễ dàng trải nghiệm thông qua ứng dụng chính thức Google AI Edge Gallery. Tuy nhiên, ở phiên bản lớn hơn (26B), mô hình gặp hạn chế trong các tác vụ phức tạp như agent coding hay gọi công cụ, so với các đối thủ như Qwen3-Coder. Dù còn một số điểm yếu về trí tuệ và khả năng xử lý tác vụ phức tạp, Gemma 4 vẫn mở ra xu hướng chạy AI cục bộ trên thiết bị cá nhân, giảm phụ thuộc vào token và API đám mây. Điều này có thể thúc đẩy các nhà cung cấp dịch vụ AI tập trung vào những bài toán khó hơn như agent mạnh, ngữ cảnh dài và dữ liệu chuyên sâu. Tương lai của AI có thể chứng kiến sự dịch chuyển mạnh mẽ khi mô hình cục bộ ngày càng mạnh mẽ và phổ biến.

Biên tập viên Machine Heart

Mô hình mới Gemma 4 mà Google mới mã nguồn mở vài ngày trước đã mang đến một bất ngờ lớn cho ngành.

Nó sử dụng kiến trúc công nghệ cùng nguồn gốc với Gemini 3, hỗ trợ đa phương thức (multimodal) gốc, đứng thứ ba toàn cầu trên bảng xếp hạng Arena AI, và có nhiều model để lựa chọn. Một vài model nhỏ hơn — E2B (2.3B tham số hiệu dụng) và E4B (4.5B tham số hiệu dụng) — có thể triển khai trực tiếp để chạy cục bộ trên thiết bị di động, với cửa sổ ngữ cảnh (context window) lên đến 128K, có thể coi là "Gemini thay thế bỏ túi được".

Không ngoài dự đoán, mô hình nhanh chóng trở thành món đồ chơi mới của người dùng điện thoại.

Một bài đăng từ người dùng X đã thu hút hàng trăm nghìn lượt xem. Trong bài đăng có một video kể về việc họ chạy Gemma 4 cục bộ trên iPhone như thế nào, bao gồm xử lý hình ảnh, âm thanh, điều khiển bật tắt đèn pin. Họ cho biết, Gemma 4 nhanh một cách đáng kinh ngạc, cảm giác như phép thuật.

Ai đó đã định lượng tốc độ này trên iPhone 17 Pro, chỉ ra rằng nếu điện thoại sử dụng chip Apple, thì với sự trợ giúp của MLX (framework học máy của Apple) được tối ưu hóa cho bộ chip này, tốc độ suy luận (inference) của mô hình có thể vượt quá 40 token / giây.

Cũng có người chạy được tốc độ tương tự trên Samsung Galaxy, và thậm chí là trong khi bật chế độ suy nghĩ (thinking mode). Điều này khiến người ta phải thốt lên "nhanh đến mức không tưởng".

Tốc độ như vậy khiến việc chạy mô hình AI trên thiết bị di động trở thành một lựa chọn có thể chấp nhận được trong tương lai, và rất hữu ích trong các kịch bản nhạy cảm như chăm sóc sức khỏe.

Cửa sổ ngữ cảnh 128k cũng khiến những mô hình nhỏ này trở nên hấp dẫn hơn.

Vậy cụ thể chạy như thế nào? Thực ra rất đơn giản, không phải dành riêng cho dân geek, vì Google đã phát hành ứng dụng chính thức — Google AI Edge Gallery. Người muốn trải nghiệm trên điện thoại có thể trực tiếp tải ứng dụng này, sau đó tải phiên bản mô hình muốn chạy, mở lên là có thể dùng được.

Hơn nữa, vì là do Google chính thức phát hành, vấn đề an toàn đương nhiên cũng không cần quá lo lắng.

Ngoài những mô hình nhỏ chạy trên thiết bị di động này, còn có người thử nghiệm các phiên bản Gemma 4 lớn hơn trên phần cứng mạnh hơn, ví dụ như chạy Gemma 4 Mixture-of-Experts 26B trên MacBook Pro phiên bản M5 Pro.

Nếu chỉ đối thoại trực tiếp, tốc độ của model này vẫn rất nhanh, tạo văn bản, giải thích mã đều trơn tru.

Nhưng khi họ thực sự dùng Gemma 4 như một coding agent (tác nhân lập trình) thì vấn đề nảy sinh. Bởi vì chạy agent cần ngữ cảnh lớn (Gemma 4 26B có cửa sổ ngữ cảnh 256k), prompt phức tạp và gọi công cụ (tool calling) ổn định, Gemma 4 ở những điểm này tỏ ra không chịu nổi, thường xuyên bị đơ, báo lỗi, hoặc đầu ra có cấu trúc không đúng.

Bước ngoặt xảy ra khi họ chuyển sang dùng model qwen3-coder, trong cùng môi trường đó, tạo file, thực thi lệnh, tác vụ nhiều bước đều chạy bình thường. Họ cho rằng, vấn đề không nằm ở framework agent, mà ở bản thân model có được tối ưu hóa cho "tool calling + structured output" (gọi công cụ + đầu ra có cấu trúc) hay không. Về mặt này, Gemma 4 có lẽ làm chưa đủ, cũng có thể nhà phát triển này chưa tìm đúng cách dùng.

Ngoài ra, còn có người nói, trí tuệ của Gemma 4 vẫn còn hơi "dở dang".

Dù vậy, sự xuất hiện của Gemma 4 - thứ "viên đạn nhỏ hiệu năng cao" này - vẫn không thể xem thường. Nếu sau này phần lớn các tác vụ tra cứu hàng ngày, trò chuyện, suy luận đơn giản, tạo mã, hiểu hình ảnh đều có thể chạy cục bộ, không cần mua token nữa, thì những hãng bán token chẳng phải sẽ rất lúng túng sao?

Tất nhiên, tình hình hiện tại chưa bi quan đến vậy, xét cho cùng vẫn còn khoảng cách giữa các model mã nguồn mở hiện nay và các model độc quyền tiên phong ở front-line, và hầu hết các model mã nguồn mở mạnh vẫn bị giới hạn bởi khả năng phần cứng, tạm thời chưa thể đạt đến mức độ khả dụng trên thiết bị đầu cuối (edge side).

Nhưng xu hướng tương lai là rõ ràng. Trong ngắn hạn, các model độc quyền trên đám mây vẫn dẫn đầu trong lĩnh vực suy luận phức tạp nhất và sự hợp tác đa tác nhân quy mô siêu lớn; nhưng về lâu dài, khi phần cứng tiếp tục tiến bộ, công nghệ lượng tử hóa (quantization) tiếp tục được tối ưu hóa, các model trên thiết bị đầu cuối sẽ dần chiếm lĩnh các tác vụ đơn giản tần suất cao của đám mây.

Những hãng chỉ dựa vào bán token, bán đăng ký API, sẽ buộc phải cạnh tranh khốc liệt hơn ở phần "thực sự khó nhằn" — Agent siêu mạnh, ngữ cảnh dài đáng tin cậy, và các khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Gemma 4 chỉ là khởi đầu. Bất ngờ tiếp theo, rất có thể là một model trên thiết bị đầu cuối nào đó trong quá trình sử dụng hàng ngày khiến người dùng hoàn toàn không cảm nhận được sự khác biệt giữa "cục bộ" và "đám mây". Khi ngày đó đến, toàn bộ mô hình kinh doanh của ngành công nghiệp AI, sẽ đón một cuộc đại tái cấu trúc thực sự.

Bài viết từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014), tác giả: Machine Heart

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QMô hình Gemma 4 của Google có những đặc điểm nổi bật nào?

AGemma 4 sử dụng kiến trúc công nghệ đồng nguồn với Gemini 3, hỗ trợ đa phương tiện gốc, đứng thứ 3 trên bảng xếp hạng Arena AI. Các phiên bản nhỏ như E2B (2.3B tham số) và E4B (4.5B tham số) có thể chạy cục bộ trên điện thoại với cửa sổ ngữ cảnh lên đến 128K.

QTốc độ xử lý của Gemma 4 trên thiết bị di động là bao nhiêu?

ATrên iPhone 17 Pro với chip Apple và framework MLX tối ưu hóa, tốc độ suy luận đạt hơn 40 token/giây. Tốc độ tương tự cũng được ghi nhận trên Samsung Galaxy khi bật chế độ suy nghĩ.

QLàm thế nào để chạy Gemma 4 trên điện thoại?

ANgười dùng có thể tải ứng dụng chính thức Google AI Edge Gallery, tải phiên bản mô hình mong muốn và chạy trực tiếp. Quy trình đơn giản, không yêu cầu kỹ năng kỹ thuật cao.

QGemma 4 có hạn chế gì khi sử dụng cho các tác vụ phức tạp?

AKhi được sử dụng làm coding agent với yêu cầu ngữ cảnh lớn (256K), prompt phức tạp và gọi công cụ ổn định, Gemma 4 thường bị treo, báo lỗi hoặc xuất ra cấu trúc không chính xác. Mô hình chưa được tối ưu hóa đầy đủ cho việc gọi công cụ và xuất dữ liệu có cấu trúc.

QXu hướng phát triển của mô hình AI chạy cục bộ so với mô hình đám mây là gì?

AVề lâu dài, khi phần cứng và kỹ thuật lượng tử hóa phát triển, mô hình phía thiết bị sẽ dần chiếm lĩnh các tác vụ đơn giản, tần suất cao. Các nhà cung cấp API dựa trên token sẽ buộc phải tập trung vào các lĩnh vực phức tạp hơn như Agent mạnh, ngữ cảnh dài đáng tin cậy và khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Nội dung Liên quan

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

Blockchain.com đã mở rộng khả năng tiếp cận cổ phiếu và ETF được mã hóa (tokenized) của Hoa Kỳ thông qua ví tiền điện tử của mình, nhờ vào quan hệ đối tác với Ondo Finance. Động thái này mang các tài sản trong thế giới thực được quản lý vào giao diện quen thuộc dành cho người dùng tiền điện tử đủ điều kiện, cho phép họ nắm giữ các sản phẩm truyền thống như cổ phiếu bên cạnh stablecoin và công cụ DeFi. Ondo Finance, một tên tuổi nổi bật trong thị trường tài sản thực được mã hóa (RWA), đóng vai trò trung tâm bằng cách cung cấp các sản phẩm tài chính quen thuộc dưới dạng token. Sự hợp tác này giải quyết thách thức về phân phối, đưa các tài sản được mã hóa trực tiếp đến người dùng ví tiền điện tử hiện có. Một khía cạnh quan trọng là mục tiêu phục vụ người dùng bên ngoài Hoa Kỳ, nơi việc tiếp cận thị trường vốn Mỹ có thể bị hạn chế. Giải pháp này cung cấp một lựa chọn thay thế mang tính bản địa hóa cho tiền điện tử, tích hợp vào cơ sở hạ tầng tài chính mà người dùng toàn cầu đã quen thuộc. Bối cảnh thị trường RWA đang trở nên cạnh tranh hơn, với nhiều nền tảng tranh giành để trở thành cổng kết nối chính cho tài sản truyền thống được mã hóa. Blockchain.com và Ondo đặt cược rằng việc tích hợp liền mạch vào ví tiền điện tử có thể cung cấp trải nghiệm đơn giản và đáng tin cậy, giúp thu hẹp khoảng cách so với các sản phẩm môi giới truyền thống.

bitcoinist1 giờ trước

Blockchain.com Mở Rộng Truy Cập Cổ Phiếu Token Hóa Thông Qua Ondo Finance

bitcoinist1 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

CPU đang trở lại trung tâm sân khấu trong kỷ nguyên AI, dẫn dắt một cơ hội thị trường trị giá 1700 tỷ USD vào năm 2030. Việc chuyển dịch từ huấn luyện sang suy luận (inference) và AI Agent đã làm thay đổi hoàn toàn vai trò của CPU. Trong các tác vụ Agent phức tạp, CPU hiện đảm nhận hơn 70% khối lượng công việc, xử lý luồng điều khiển, gọi công cụ và quản lý bộ nhớ (KV Cache). Tỷ lệ phối hợp GPU:CPU đang thu hẹp từ 1:8 xuống khoảng 1:4, thậm chí 1:1 trong một số trường hợp. Nhu cầu này dẫn đến việc thiếu hụt nguồn cung và lần tăng giá đầu tiên sau hơn một thập kỷ cho server CPU của Intel và AMD, với mức tăng 10-15%. Thị trường CPU server dự kiến tăng từ khoảng 300 tỷ USD năm 2025 lên 1700 tỷ USD vào năm 2030, được thúc đẩy bởi ba phân khúc: điện toán đám mây truyền thống, CPU head-node cho cụm AI và CPU node độc lập cho Agent – một thị trường hoàn toàn mới. NVIDIA cũng đã tham gia cuộc chơi với CPU Vera dựa trên kiến trúc ARM, nhấn mạnh tầm quan trọng chiến lược của CPU. Tại Trung Quốc, các công ty như Hygon (Hải Quang) và Huawei đang nắm bắt cơ hội từ làn sóng nhu cầu này và chương trình thay thế nhập khẩu (xinchuang), với hệ sinh thái phần mềm đang trưởng thành nhanh chóng.

marsbit1 giờ trước

CPU trở lại bàn đàm phán, một vở kịch "thăng tiến" trị giá 1700 tỷ USD bắt đầu

marsbit1 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

TechFlow Intelligence: Tóm tắt tin tức công nghệ & tài chính ngày... * **AI & Mô hình lớn:** Giám đốc AI của AMD chỉ trích Claude Code trở nên "kém thông minh và lười biếng". Z.AI (Trung Quốc) ra mắt GLM-5.2, tuyên bố ngang bằng Claude Opus mà không dùng chip NVIDIA. SK Telecom (Hàn Quốc) bị điều tra về chuyển giao công nghệ với Anthropic. DeepSeek gây sốt trên Zhihu với tính năng đa phương tiện mới. Gemini bị chỉ trích trên Reddit vì đưa lời khuyên sai trong tình huống lừa đảo. * **Chip & Phần cứng:** MIT tự viết hệ điều hành để nghiên cứu chip. Mỹ cáo buộc máy quang khắc EUV tối tân của ASML có thể đã tới Trung Quốc, ASML phủ nhận. Amazon đàm phán bán chip AI tự thiết kế ra bên ngoài. iPhone phiên bản kỷ niệm 20 năm của Apple dự kiến dùng quy trình N2P độc quyền từ TSMC. * **An ninh & Công ty:** Phát hiện 10.000 kho GitHub phân phối phần mềm độc hại. Apple vá lỗ hổng nghe lén nghiêm trọng trên tai nghe Beats. Nhiều kỹ sư Amazon bị điều tra nội bộ vì chỉ trích việc mở rộng trung tâm dữ liệu AI. Microsoft và Amazon có thể đối mặt với điều tra chống độc quyền khắt khe từ EU. * **Web3 / Crypto:** 0G Labs đạt cột mốc 100 tỷ token suy luận AI phi tập trung. Sàn Hàn Quốc Bithumb niêm yết RE, trong khi Upbit hủy niêm yết KERNEL. * **Thị trường & Địa chính trị:** Cổ phiếu bán dẫn Mỹ tăng mạnh, Intel tăng 10.6%, trong khi SpaceX giảm. Eo biển Hormuz chính thức mở cửa theo thỏa thuận Mỹ-Iran, nhưng hiệp hội vận tải dầu cảnh báo vẫn còn khoảng 80 quả thủy lôi trong luồng chính. Gần 80 tàu chở dầu chờ tín hiệu an toàn để xuất phát. Iran hoãn chuyến công du tới Thụy Sĩ, làm dấy lên nghi ngờ về tiến trình hòa bình.

marsbit1 giờ trước

TechFlow Tình Báo: Giám đốc AI của AMD công khai chỉ trích Claude Code 'ngày càng ngốc nghếch và lười biếng', Trump tuyên bố eo biển Hormuz sẽ ngừng bắn toàn diện nhưng vẫn còn 80 quả thủy lôi chờ dọn

marsbit1 giờ trước

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

Hàn Quốc dự kiến đưa các công ty fintech vào khuôn khổ cấp phép mới cho chuyển tiền bằng tài sản ảo, có hiệu lực từ tháng 12. Theo quy định sửa đổi, các công ty thực hiện chuyển tiền xuyên biên giới qua tài sản ảo phải đăng ký với Bộ Kinh tế & Tài chính và báo cáo giao dịch qua hệ thống hối đoái. Khung pháp lý này được lập ra để đưa các giao dịch dựa trên tiền mã hóa vào diện giám sát chính thức, nhằm ngăn chặn rửa tiền và tội phạm do nhiều giao dịch trước đây hoạt động ngoài hệ thống giám sát. Ban đầu, quy định chỉ giới hạn cho các sàn giao dịch tiền mã hóa như Upbit hay Bithumb. Tuy nhiên, ngân hàng trung ương Hàn Quốc cho biết có thể mở rộng đối tượng đủ điều kiện sang các thực thể phi truyền thống nếu họ đáp ứng yêu cầu. Bộ Kinh tế & Tài chính và Ngân hàng Trung ương đang phối hợp với các bên để hoàn thiện quy tắc thực thi trước tháng 12. Động thái này nằm trong bối cảnh Hàn Quốc đang tăng cường giám sát tài sản số, bao gồm cả việc sắp công bố quy tắc mới về chứng khoán token hóa vào tháng 7.

TheNewsCrypto3 giờ trước

Hàn Quốc Hành Động Quy Định Chuyển Tiền Xuyên Biên Giới Bằng Tiền Mã Hóa Theo Khuôn Khổ Mới

TheNewsCrypto3 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 558Xuất bản vào 2025.10.20Cập nhật vào 2026.06.02

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片