iPhone chạy Gemma 4 cục bộ gây bão, Kỷ nguyên 0 token còn bao xa?

marsbitXuất bản vào 2026-04-06Cập nhật gần nhất vào 2026-04-06

Tóm tắt

Mô hình Gemma 4 mới của Google đã gây bão khi có thể chạy cục bộ trên điện thoại iPhone và Samsung với tốc độ ấn tượng lên đến 40 token/giây, nhờ tối ưu hóa trên chip Apple và framework MLX. Với hai phiên bản nhỏ gọn (2.3B và 4.5B tham số), hỗ trợ đa phương tiện và cửa sổ ngữ cảnh lên đến 128K, Gemma 4 được xem như một giải pháp thay thế Gemini thu nhỏ, tiện lợi cho thiết bị di động. Người dùng có thể dễ dàng trải nghiệm thông qua ứng dụng chính thức Google AI Edge Gallery. Tuy nhiên, ở phiên bản lớn hơn (26B), mô hình gặp hạn chế trong các tác vụ phức tạp như agent coding hay gọi công cụ, so với các đối thủ như Qwen3-Coder. Dù còn một số điểm yếu về trí tuệ và khả năng xử lý tác vụ phức tạp, Gemma 4 vẫn mở ra xu hướng chạy AI cục bộ trên thiết bị cá nhân, giảm phụ thuộc vào token và API đám mây. Điều này có thể thúc đẩy các nhà cung cấp dịch vụ AI tập trung vào những bài toán khó hơn như agent mạnh, ngữ cảnh dài và dữ liệu chuyên sâu. Tương lai của AI có thể chứng kiến sự dịch chuyển mạnh mẽ khi mô hình cục bộ ngày càng mạnh mẽ và phổ biến.

Biên tập viên Machine Heart

Mô hình mới Gemma 4 mà Google mới mã nguồn mở vài ngày trước đã mang đến một bất ngờ lớn cho ngành.

Nó sử dụng kiến trúc công nghệ cùng nguồn gốc với Gemini 3, hỗ trợ đa phương thức (multimodal) gốc, đứng thứ ba toàn cầu trên bảng xếp hạng Arena AI, và có nhiều model để lựa chọn. Một vài model nhỏ hơn — E2B (2.3B tham số hiệu dụng) và E4B (4.5B tham số hiệu dụng) — có thể triển khai trực tiếp để chạy cục bộ trên thiết bị di động, với cửa sổ ngữ cảnh (context window) lên đến 128K, có thể coi là "Gemini thay thế bỏ túi được".

Không ngoài dự đoán, mô hình nhanh chóng trở thành món đồ chơi mới của người dùng điện thoại.

Một bài đăng từ người dùng X đã thu hút hàng trăm nghìn lượt xem. Trong bài đăng có một video kể về việc họ chạy Gemma 4 cục bộ trên iPhone như thế nào, bao gồm xử lý hình ảnh, âm thanh, điều khiển bật tắt đèn pin. Họ cho biết, Gemma 4 nhanh một cách đáng kinh ngạc, cảm giác như phép thuật.

Ai đó đã định lượng tốc độ này trên iPhone 17 Pro, chỉ ra rằng nếu điện thoại sử dụng chip Apple, thì với sự trợ giúp của MLX (framework học máy của Apple) được tối ưu hóa cho bộ chip này, tốc độ suy luận (inference) của mô hình có thể vượt quá 40 token / giây.

Cũng có người chạy được tốc độ tương tự trên Samsung Galaxy, và thậm chí là trong khi bật chế độ suy nghĩ (thinking mode). Điều này khiến người ta phải thốt lên "nhanh đến mức không tưởng".

Tốc độ như vậy khiến việc chạy mô hình AI trên thiết bị di động trở thành một lựa chọn có thể chấp nhận được trong tương lai, và rất hữu ích trong các kịch bản nhạy cảm như chăm sóc sức khỏe.

Cửa sổ ngữ cảnh 128k cũng khiến những mô hình nhỏ này trở nên hấp dẫn hơn.

Vậy cụ thể chạy như thế nào? Thực ra rất đơn giản, không phải dành riêng cho dân geek, vì Google đã phát hành ứng dụng chính thức — Google AI Edge Gallery. Người muốn trải nghiệm trên điện thoại có thể trực tiếp tải ứng dụng này, sau đó tải phiên bản mô hình muốn chạy, mở lên là có thể dùng được.

Hơn nữa, vì là do Google chính thức phát hành, vấn đề an toàn đương nhiên cũng không cần quá lo lắng.

Ngoài những mô hình nhỏ chạy trên thiết bị di động này, còn có người thử nghiệm các phiên bản Gemma 4 lớn hơn trên phần cứng mạnh hơn, ví dụ như chạy Gemma 4 Mixture-of-Experts 26B trên MacBook Pro phiên bản M5 Pro.

Nếu chỉ đối thoại trực tiếp, tốc độ của model này vẫn rất nhanh, tạo văn bản, giải thích mã đều trơn tru.

Nhưng khi họ thực sự dùng Gemma 4 như một coding agent (tác nhân lập trình) thì vấn đề nảy sinh. Bởi vì chạy agent cần ngữ cảnh lớn (Gemma 4 26B có cửa sổ ngữ cảnh 256k), prompt phức tạp và gọi công cụ (tool calling) ổn định, Gemma 4 ở những điểm này tỏ ra không chịu nổi, thường xuyên bị đơ, báo lỗi, hoặc đầu ra có cấu trúc không đúng.

Bước ngoặt xảy ra khi họ chuyển sang dùng model qwen3-coder, trong cùng môi trường đó, tạo file, thực thi lệnh, tác vụ nhiều bước đều chạy bình thường. Họ cho rằng, vấn đề không nằm ở framework agent, mà ở bản thân model có được tối ưu hóa cho "tool calling + structured output" (gọi công cụ + đầu ra có cấu trúc) hay không. Về mặt này, Gemma 4 có lẽ làm chưa đủ, cũng có thể nhà phát triển này chưa tìm đúng cách dùng.

Ngoài ra, còn có người nói, trí tuệ của Gemma 4 vẫn còn hơi "dở dang".

Dù vậy, sự xuất hiện của Gemma 4 - thứ "viên đạn nhỏ hiệu năng cao" này - vẫn không thể xem thường. Nếu sau này phần lớn các tác vụ tra cứu hàng ngày, trò chuyện, suy luận đơn giản, tạo mã, hiểu hình ảnh đều có thể chạy cục bộ, không cần mua token nữa, thì những hãng bán token chẳng phải sẽ rất lúng túng sao?

Tất nhiên, tình hình hiện tại chưa bi quan đến vậy, xét cho cùng vẫn còn khoảng cách giữa các model mã nguồn mở hiện nay và các model độc quyền tiên phong ở front-line, và hầu hết các model mã nguồn mở mạnh vẫn bị giới hạn bởi khả năng phần cứng, tạm thời chưa thể đạt đến mức độ khả dụng trên thiết bị đầu cuối (edge side).

Nhưng xu hướng tương lai là rõ ràng. Trong ngắn hạn, các model độc quyền trên đám mây vẫn dẫn đầu trong lĩnh vực suy luận phức tạp nhất và sự hợp tác đa tác nhân quy mô siêu lớn; nhưng về lâu dài, khi phần cứng tiếp tục tiến bộ, công nghệ lượng tử hóa (quantization) tiếp tục được tối ưu hóa, các model trên thiết bị đầu cuối sẽ dần chiếm lĩnh các tác vụ đơn giản tần suất cao của đám mây.

Những hãng chỉ dựa vào bán token, bán đăng ký API, sẽ buộc phải cạnh tranh khốc liệt hơn ở phần "thực sự khó nhằn" — Agent siêu mạnh, ngữ cảnh dài đáng tin cậy, và các khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Gemma 4 chỉ là khởi đầu. Bất ngờ tiếp theo, rất có thể là một model trên thiết bị đầu cuối nào đó trong quá trình sử dụng hàng ngày khiến người dùng hoàn toàn không cảm nhận được sự khác biệt giữa "cục bộ" và "đám mây". Khi ngày đó đến, toàn bộ mô hình kinh doanh của ngành công nghiệp AI, sẽ đón một cuộc đại tái cấu trúc thực sự.

Bài viết từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014), tác giả: Machine Heart

Câu hỏi Liên quan

QMô hình Gemma 4 của Google có những đặc điểm nổi bật nào?

AGemma 4 sử dụng kiến trúc công nghệ đồng nguồn với Gemini 3, hỗ trợ đa phương tiện gốc, đứng thứ 3 trên bảng xếp hạng Arena AI. Các phiên bản nhỏ như E2B (2.3B tham số) và E4B (4.5B tham số) có thể chạy cục bộ trên điện thoại với cửa sổ ngữ cảnh lên đến 128K.

QTốc độ xử lý của Gemma 4 trên thiết bị di động là bao nhiêu?

ATrên iPhone 17 Pro với chip Apple và framework MLX tối ưu hóa, tốc độ suy luận đạt hơn 40 token/giây. Tốc độ tương tự cũng được ghi nhận trên Samsung Galaxy khi bật chế độ suy nghĩ.

QLàm thế nào để chạy Gemma 4 trên điện thoại?

ANgười dùng có thể tải ứng dụng chính thức Google AI Edge Gallery, tải phiên bản mô hình mong muốn và chạy trực tiếp. Quy trình đơn giản, không yêu cầu kỹ năng kỹ thuật cao.

QGemma 4 có hạn chế gì khi sử dụng cho các tác vụ phức tạp?

AKhi được sử dụng làm coding agent với yêu cầu ngữ cảnh lớn (256K), prompt phức tạp và gọi công cụ ổn định, Gemma 4 thường bị treo, báo lỗi hoặc xuất ra cấu trúc không chính xác. Mô hình chưa được tối ưu hóa đầy đủ cho việc gọi công cụ và xuất dữ liệu có cấu trúc.

QXu hướng phát triển của mô hình AI chạy cục bộ so với mô hình đám mây là gì?

AVề lâu dài, khi phần cứng và kỹ thuật lượng tử hóa phát triển, mô hình phía thiết bị sẽ dần chiếm lĩnh các tác vụ đơn giản, tần suất cao. Các nhà cung cấp API dựa trên token sẽ buộc phải tập trung vào các lĩnh vực phức tạp hơn như Agent mạnh, ngữ cảnh dài đáng tin cậy và khả năng chuyên biệt cần dữ liệu thời gian thực khổng lồ.

Nội dung Liên quan

TIN VỠ: Mastercard Vừa Mở Cổng Mạng Thanh Toán Toàn Cầu Cho Tiền Mã Hóa — Những Altcoin Nào Được Lựa Chọn?

Vào ngày 3/6, Mastercard thông báo sẽ mở rộng cơ sở hạ tầng thanh toán toàn cầu của mình để hỗ trợ thanh toán trên chuỗi bằng cách sử dụng tiền điện tử thông qua các stablecoin được quản lý. Điều này cho phép các giao dịch thẻ được thanh toán 24/7, kể cả cuối tuần và ngày lễ, lần đầu tiên trong lịch sử mạng lưới. Sáu stablecoin được quản lý được hỗ trợ trong đợt triển khai đầu tiên: USDC của Circle, PYUSD của PayPal, USDG và USDP của Paxos, RLUSD của Ripple và SoFiUSD của SoFi. Việc thanh toán sẽ hoạt động trên tám mạng blockchain: Ethereum, Solana, Polygon, Base, Arbitrum, XRP Ledger, Canton và Tempo. Đây là một bước phát triển ở lớp thanh toán hậu kỳ, không phải là sự thay đổi sản phẩm hướng đến người tiêu dùng. Các đơn vị phát hành và ngân hàng trên mạng Mastercard giờ đây có thể chọn thanh toán các giao dịch thẻ bằng stablecoin trên chuỗi, thay vì thông qua các kênh ngân hàng truyền thống. Cả hai tùy chọn chạy song song. Người dùng thẻ không cần thay đổi cách thanh toán. Sự thay đổi nằm ở cơ sở hạ tầng phụ trợ, giờ có thể hoạt động trên mạng blockchain suốt ngày đêm, loại bỏ các điểm tắc nghẽn do giờ ngân hàng và ngày nghỉ gây ra trong nhiều thập kỷ. Sự kiện này được coi là sự xác nhận thể chế rõ ràng nhất cho nền kinh tế stablecoin cho đến nay.

bitcoinist3 giờ trước

TIN VỠ: Mastercard Vừa Mở Cổng Mạng Thanh Toán Toàn Cầu Cho Tiền Mã Hóa — Những Altcoin Nào Được Lựa Chọn?

bitcoinist3 giờ trước

Hoskinson Cảnh Báo Về 'Làn Sóng Thất Bại' Ở Cardano Sau Khi TapTools Đóng Cửa

Charles Hoskinson, người sáng lập Cardano, đã cảnh báo về một "làn sóng thất bại" có thể xảy ra trong hệ sinh thái Cardano sau khi nền tảng phân tích dữ liệu TapTools thông báo sẽ ngừng hoạt động trong hai tuần tới. Nguyên nhân được nêu ra là do sự ra đi của nhiều lãnh đạo chủ chốt và mô hình kinh tế nền tảng gặp khó khăn. Trong buổi phát trực tiếp ngày 2/6, Hoskinson nhấn mạnh đây không phải là một thất bại riêng lẻ mà là triệu chứng của những vấn đề sâu xa hơn về tài trợ, phối hợp và động lực trong hệ sinh thái. Ông tiên đoán sẽ có thêm nhiều dự án gặp khó khăn trong nửa cuối năm nay, dẫn JPEG Store và TapTools làm ví dụ. Hoskinson cho biết ông đã đề xuất nhiều cơ chế để giải quyết vấn đề, chẳng hạn như quỹ đầu tư của Cardano hoặc mua lại chiến lược, nhưng các ý tưởng này không nhận được đủ sự ủng hộ hoặc bị chỉ trích là tập trung quyền lực. Ông bày tỏ thất vọng khi cơ chế quản trị hiện tại chưa tạo ra cách hiệu quả để sử dụng nguồn lực từ kho bạc nhằm hỗ trợ cơ sở hạ tầng thương mại. Đồng thời, Hoskinson phủ nhận việc ông có quyền kiểm soát đơn phương đối với Cardano, nói rằng ông không có khóa quản trị, không thể khởi xướng một hard fork, và không kiểm soát kho bạc hay thương hiệu. Ông kêu gọi cộng đồng bỏ phiếu (DReps và delegators) cần lựa chọn rõ ràng về lãnh đạo và tầm nhìn để thúc đẩy tăng trưởng, thậm chí đưa ra các lựa chọn cực đoan như cải cách hiến pháp hoặc khởi động một Cardano mới nếu cần thiết.

bitcoinist4 giờ trước

Hoskinson Cảnh Báo Về 'Làn Sóng Thất Bại' Ở Cardano Sau Khi TapTools Đóng Cửa

bitcoinist4 giờ trước

Đợt Tăng Giá Không Thành

Tình hình thị trường Bitcoin hiện tại cho thấy các dấu hiệu yếu kém rõ rệt sau đợt giảm giá gần đây. Giá đã giảm khoảng 13% xuống vùng 67.000 USD, phá vỡ dưới mức trung bình thị trường thực (True Market Mean) ở 77,8k USD, củng cố nhận định rằng thị trường gấu vẫn đang chiếm ưu thế. Phân tích on-chain cho thấy cấu trúc đang xấu đi. Giá hiện giao dịch gần điểm giữa của vùng giá trị thị trường gấu. Lợi nhuận thực tế từ các giao dịch đang bị áp đảo bởi các khoản lỗ, một mô hình thường thấy ở các đỉnh cục bộ trong thị trường gấu. Các nhà đầu tư mới mua ở vùng đỉnh gần 78k-82k USD đang chịu áp lực lớn, và hành động của họ sẽ quyết định liệu mức giá hiện tại có đủ sức hấp thụ áp lực bán hay không. Tổng lỗ thực tế hàng ngày đã tăng mạnh lên 1,35 tỷ USD, cho thấy cả nhà đầu tư dài hạn và ngắn hạn đều đang chốt lỗ. Về off-chain, dòng tiền từ ETF Mỹ đã chứng kiến ba tuần rút vốn liên tiếp, với áp lực bán gia tăng khi giá bị từ chối ở mức giá trung bình của các nhà đầu tư ETF (khoảng 83k USD). Lực mua trên thị trường giao ngay (spot) đã biến mất, và một sự kiện thanh lý lớn đã xóa sổ hơn 400 triệu USD vị thế mua ký quỹ. Thị trường quyền chọn phản ánh tâm lý thận trọng, với nhu cầu bảo vệ trước rủi ro giảm giá (put options) vẫn ở mức cao và phí biến động (volatility premium) gần mức cao nhất trong ba tháng. Tóm lại, thị trường Bitcoin đang trong vị thế mong manh với áp lực bán từ nhiều phía. Một sự phục hồi bền vững cần có sự trở lại của lực mua giao ngay mạnh mẽ, việc giá vượt lại mức trung bình của ETF, và dấu hiệu áp lực bán giảm bớt. Cho đến khi đó, rủi ro tiếp tục điều chỉnh hoặc củng cố trong cấu trúc thị trường gấu vẫn còn hiện hữu.

insights.glassnode5 giờ trước

Đợt Tăng Giá Không Thành

insights.glassnode5 giờ trước

WLFI Cảnh Báo: Ví Bị Trừng Phạt Có Thể Kích Hoạt Khóa Chuyển Giao Tiền Mã Hóa

Thượng nghị sĩ Elizabeth Warren và Jack Reed đã theo dõi sát World Liberty Financial (WLFI) trước cả thông báo tuân thủ hôm thứ Ba, kêu gọi giới chức Mỹ năm ngoái rà soát việc các địa chỉ ví liên quan đến Nga, Triều Tiên và dịch vụ trộn tiền Tornado Cash bị cấm có vượt qua được quy trình sàng lọc từ đợt bán trước của dự án hay không. WLFI bác bỏ cáo buộc, nói rằng họ áp dụng các biện pháp chống rửa tiền và xác minh danh tính nghiêm ngặt. Tuy nhiên, dự án thừa nhận hợp đồng thông minh của họ có quyền đóng băng, hạn chế hoặc đốt số dư ví, điều này làm dấy lên sự giám sát mới về tính phi tập trung mà họ từng quảng bá. Thông báo tuân thủ đăng trên X hôm thứ Ba nói rõ rằng WLFI, dự án tiền mã hóa có liên quan đến cựu Tổng thống Donald Trump, cảnh báo các giao dịch liên quan đến các cá nhân, tổ chức hoặc địa chỉ ví bị trừng phạt có thể bị trì hoãn, hạn chế hoặc từ chối. Các biện pháp kiểm soát này nhằm đáp ứng yêu cầu quy định về các giao dịch bị cấm. Cảnh báo được đưa ra cùng ngày Bộ Tài chính Mỹ trừng phạt một số nền tảng tiền mã hóa của Iran, bao gồm sàn giao dịch lớn nhất Nobitex. Bộ trưởng Tài chính Bessent cho biết các nền tảng này đã xử lý giao dịch cho Lực lượng Vệ binh Cách mạng Hồi giáo Iran. WLFI khuyến cáo người dùng kiểm tra kỹ nguồn tiền và địa chỉ ví không có liên quan đến hoạt động bị cấm trước khi chuyển tiền. Tư thế tuân thủ này tạo ra một số mâu thuẫn với hình ảnh phi tập trung (DeFi) mà dự án từng thể hiện, khi lớp ứng dụng vẫn phải tuân theo các quy định liên bang.

bitcoinist5 giờ trước

WLFI Cảnh Báo: Ví Bị Trừng Phạt Có Thể Kích Hoạt Khóa Chuyển Giao Tiền Mã Hóa

bitcoinist5 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua 4

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua 4 (4) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua 4 (4) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ 4 (4) của BạnSau khi mua 4 (4), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch 4 (4)Giao dịch 4 (4) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 542Xuất bản vào 2025.10.20Cập nhật vào 2026.06.02

Làm thế nào để Mua 4

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của 4 (4) được trình bày dưới đây.

活动图片