Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

marsbitXuất bản vào 2026-05-31Cập nhật gần nhất vào 2026-05-31

Tóm tắt

Trong bài viết, tác giả phân tích động thái giảm giá API lên tới 99% cho dòng MiMo-V2.5 của Xiaomi và phản bác các ý kiến cho rằng đây chỉ là chiến lược marketing hay "bán lỗ cướp thị trường". Lộ Phúc Lợi, người đứng đầu MiMo, đã công bố một blog kỹ thuật dài 5000 chữ để giải thích cơ sở kỹ thuật của mức giá mới. Bài viết mô tả sáu trụ cột công nghệ chính cho phép mức giảm giá này: 1. **Kiến trúc Hybrid SWA (Sliding Window Attention):** Giảm dung lượng bộ nhớ tạm (KVCache) xuống còn 1/7 so với Full Attention truyền thống. 2. **Quản lý KVCache hai bể riêng biệt:** Tối ưu hóa việc phân bổ bộ nhớ để triệt để tận dụng lợi thế của SWA, tăng gấp 5 lần số lượng người dùng đồng thời. 3. **Hệ thống tiền tố cache được cải tiến:** Đảm bảo an toàn và nâng cao tỷ lệ trúng cache lên tới 93-95%, khiến phần lớn yêu cầu đọc lặp lại hầu như không cần tính toán lại. 4. **Hệ thống lưu trữ phân tán GCache:** Triển khai trực tiếp trên ổ SSD của máy GPU, giảm chi phí lưu trữ xuống gần bằng 0. 5. **Hệ thống điều phối LLM-Router:** Tối ưu định tuyến và lập lịch, ưu tiên các yêu cầu có cache, tăng hiệu suất tổng thể. 6. **Dự đoán đa token (MTP):** Giảm chi phí tạo văn bản (output), hoàn thiện vòng tròn giảm chi phí cho toàn bộ quá trình xử lý. Những cải tiến này, khi kết hợp, tạo ra một chuỗi tối ưu toàn diện làm giảm đáng kể chi phí tính toán và lưu trữ cho mỗi yêu cầu. Bài viết kết luận rằng mức giảm 99% không phải là con số tiếp thị, mà là kết quả có thể chứng minh của một hệ thống kỹ thuật...

Văn | Tượng Tiên Chí

Luo Fuli đăng một bài trên X, muốn đặt dấu chấm hết cho tranh cãi giảm giá của Xiaomi MiMo.

Ngày 26 tháng 5, tài khoản chính thức Xiaomi MiMo đã đăng một thông báo trên X: API dòng MiMo-V2.5 giảm giá vĩnh viễn, mức giảm cao nhất 99%. Tất cả các độ dài context đều được định giá thống nhất, gói Token nâng cấp lên 5-8 lần.

Thông báo này đã làm xôn xao cộng đồng AI trong nước suốt cả tuần. Phản ứng đầu tiên của giới công nghiệp được chia thành vài luồng. Luồng lớn nhất cho rằng đây là "một đợt chiến tranh giá cả nữa" - hai năm nay từ ZhiPu, DeepSeek, Byte DouBao đến Alibaba Tongyi, các mô hình lớn trong nước lần lượt giảm giá, ai cũng đang trong cuộc cạnh tranh.

Một luồng khác nhìn nhận theo hướng bi quan: Xiaomi vừa thông báo lợi nhuận năm nay giảm một nửa, lúc này vẫn đốt 600 tỷ cho AI, API trực tiếp cắt giảm 90% - điển hình của "lỗ vốn để chiếm thị trường". Còn có người cho rằng đây là hiệu ứng DeepSeek tiếp tục - người sau này đã kéo mức giá chuẩn của cả ngành xuống sàn, ai không theo sẽ bị loại.

Vì vậy với tư cách là người phụ trách MiMo, Luo Fuli tối qua đã công khai một bài blog kỹ thuật dài 5000 chữ, đưa bảng kế hoạch kỹ thuật giảm giá ra cho mọi người xem.

"Nhìn đây, đây là năng lực kỹ thuật thực sự, không phải là thủ đoạn marketing".

Để hiểu Luo Fuli đang nói gì, trước hết phải hiểu 99% này thực chất đang giảm cái gì.

Nó không phải giảm giá toàn bộ mô hình. Mức chiết khấu 99% đặc biệt nhắm vào một mức định giá gọi là Input (Cache Hit) - tức là phần "người dùng đọc lại lịch sử context trong cuộc hội thoại dài". Mức giảm cho input mới thông thường (No Cache Hit) nhỏ hơn nhiều, và mức giảm cho output của mô hình (Output) là nhỏ nhất.

Nếu bạn hình dung mô hình như một quán cà phê, thì sự việc này sẽ dễ hiểu hơn.

Bạn gọi một ly latte ít đường, quán cà phê có hai cách làm: mỗi lần đều xay hạt đong siro đổ sữa từ đầu, nguyên liệu nhân công đều phải trả một lần; nhưng mô hình biết tuần này bạn ngày nào cũng uống ly latte ít đường giống nhau, nên làm sẵn một ấm lớn bỏ vào tủ lạnh, lần sau múc một phần. Việc MiMo lần này làm là cách thứ hai - chuyển phần người dùng đọc lặp lại từ "tính toán lại" thành "lấy ngay", vì vậy chi phí thực tế của phần này gần bằng 0, tự nhiên có thể cho chiết khấu 99%.

Để làm được "lấy ngay", bài blog kỹ thuật đã nói đến sáu công trình, mỗi cái đều không thể thiếu. Dưới đây sẽ phân tích từng cái một.

Công trình một: Nén "ký ức" của mô hình xuống 1/7

Khi mô hình đối thoại với bạn, mỗi token đều phải tính một "trạng thái trung gian", lưu lại để bước tiếp theo sử dụng. Thứ này gọi là KVCache - có thể hiểu là "sổ tay ký ức ngắn hạn" của mô hình. Mỗi khi nói một câu, mô hình ghi chú tóm tắt câu này vào sổ tay, lần sau trực tiếp lật sổ ra xem, không cần nghe lại tất cả nội dung bạn đã nói từ đầu.

Mô hình truyền thống mỗi tầng đều làm "Full Attention" - tức là mỗi token đều phải xem toàn bộ tất cả token của đoạn hội thoại, sổ tay càng lật càng dày. MiMo-V2.5-Pro đã thay đổi kiến trúc: Trong 70 tầng, 60 tầng chỉ xem 128 token gần nhất (SWA, Sliding Window Attention), chỉ có 10 tầng "quản lý hồ sơ" xem toàn bộ.

Kết quả là thể tích KVCache trực tiếp bị nén xuống còn 1/7 của Full Attention, lượng tính toán cũng là 1/7.

Đây là nền móng đầu tiên của việc giảm chi phí. Ví dụ, ban đầu công ty yêu cầu mỗi nhân viên phải nhớ tất cả biên bản cuộc họp, kết quả là não của mỗi người đều không đủ dùng, hiệu suất cũng thấp. Quy định mới giảm gánh nặng não bộ của 60 nhân viên xuống còn 1/7, chỉ giữ lại 10 quản lý hồ sơ quản lý toàn bộ lịch sử - khả năng ghi nhớ tổng thể của công ty không giảm, nhưng hiệu suất tăng 7 lần.

Công trình hai: Để không gian tiết kiệm được từ SWA thực sự có thể sử dụng

Về kiến trúc, nén sổ tay xuống 1/7 là bước đầu tiên, nhưng để "1/7 trên lý thuyết" thực sự trở thành "1/7 thực tế", còn một trở ngại.

Hệ thống KVCache truyền thống phân bổ bộ nhớ cho tất cả các tầng thống nhất theo "lượng dùng tối đa có thể". Ý nghĩa là: dù 60 tầng SWA chỉ cần cuốn sổ nhỏ, hệ thống cũng phân bổ cho tất cả các tầng theo "cuốn sổ lớn của quản lý hồ sơ" - không gian tiết kiệm được của SWA bị dự trữ lãng phí, bằng như không tiết kiệm.

Cách làm của đội ngũ Luo Fuli là chia KVCache thành hai pool độc lập. 10 tầng Full Attention đi "pool lớn", phân bổ theo độ dài đầy đủ; 60 tầng SWA đi "pool nhỏ", chỉ phân bổ theo cửa sổ 128 token.

Ví dụ, ban đầu công ty phát cho mỗi nhân viên một "tủ hồ sơ có thể chứa tài liệu 100 năm" - nhưng 60 nhân viên thực ra chỉ cần "tủ nhỏ chứa tài liệu một tuần", 99% không gian trong những tủ lớn đó trống rỗng. Cách làm mới là phân tủ theo nhu cầu thực tế. Kết quả là cả văn phòng có thể chứa thêm hơn 5 lần đồng nghiệp vào làm việc - cùng một GPU có thể phục vụ số người dùng đồng thời tăng gấp 5 lần.

Bước này nhìn có vẻ đơn giản, nhưng không có nó, ưu thế thiết kế kiến trúc SWA phía trước bằng như thiết kế vô ích.

Công trình ba: Để "người dùng cũ đọc lại" thực sự có thể trúng cache

Sổ tay nén xuống 1/7 + không gian thực sự dùng được, bước tiếp theo phải giải quyết một vấn đề cũ: tỷ lệ trúng của cache tiền tố.

Nhiều cuộc hội thoại của người dùng có phần mở đầu giống nhau - cùng một đoạn system prompt, cùng một thư viện mã, cùng một tài liệu dài. Hệ thống sẽ lưu kết quả tính toán này lại, lần sau khớp được thì tái sử dụng trực tiếp. Cơ chế này gọi là cache tiền tố.

Nhưng trong chế độ SWA xuất hiện một cái hố: hai yêu cầu token giống nhau, không có nghĩa là KV vẫn còn. Có thể tiền tố đã tính toán, nhưng phần ngoài cửa sổ SWA đã sớm bị loại bỏ. Nếu hệ thống vẫn áp dụng quy tắc cũ "token giống nhau là trúng" để tái sử dụng cho bạn, sẽ đọc phải dữ liệu vô hiệu hoặc bị ghi đè, hiệu quả mô hình sẽ sụp đổ trực tiếp.

Đội ngũ Luo Fuli nâng cấp quy tắc lên "độ dài an toàn cửa sổ" - chỉ cam kết phần "bạn có thể mượn đầy đủ".

Ví dụ, thư viện có 1 triệu cuốn sách, bạn muốn mượn trọn bộ "Tam Thể" gồm ba cuốn. Kiến trúc ban đầu sẽ nói với bạn "cuốn sách này có", bạn chạy đến phát hiện trên giá chỉ còn bìa và tập một, hai tập sau đều bị mượn rồi. Loại "trúng giả" này khiến bạn chạy vô ích còn phải mượn lại. Quy tắc hệ thống mới đổi thành chỉ cam kết phần bạn có thể mượn đầy đủ - trước hết đưa bạn cuốn thứ nhất, sau đó lại điều hai cuốn sau cho bạn.

Nghe có vẻ nghiêm ngặt hơn, tỷ lệ trúng sẽ giảm. Nhưng thực tế ngược lại: vì SWA khiến thể tích KVCache nén xuống 1/7, cùng một không gian lưu trữ có thể chứa nội dung nhiều hơn gấp mấy lần, tỷ lệ trúng thực tế ngược lại tăng lên đáng kể.

Luo Fuli trong blog đã đưa ra số liệu thực tế trực tuyến: Dưới khung harness chủ lưu, tỷ lệ trúng cache phía máy chủ trung bình 93%, người dùng tần suất cao chu kỳ dài có thể đạt trên 95%.

Dịch ý nghĩa của con số này: 95% yêu cầu "đọc lại" căn bản không cần GPU tính toán, lấy trực tiếp từ cache. Đây chính là cơ sở vật lý của mức chiết khấu 99%.

Công trình bốn: Đưa "cache" vào SSD đi kèm GPU

Tỷ lệ trúng tăng lên, vấn đề tiếp theo là: những cache này được lưu ở đâu.

Bộ nhớ GPU (HBM memory trên GPU) rất đắt và hạn chế - một máy H100 tám card chỉ có 640GB bộ nhớ, nhưng KVCache mà MiMo cần lưu có thể là cấp độ hàng chục TB. Vì vậy phải phân tầng: dùng gần đây đặt vào bộ nhớ (L1), hơi cũ đặt vào bộ nhớ CPU (L2), dữ liệu lạnh lưu vào cache phân tán (L3).

Giống như bạn quản lý tiền vậy. Tiền mặt trong ví là bộ nhớ - dùng ngay lấy ngay nhưng không để được nhiều. Số dư thẻ ngân hàng là bộ nhớ CPU - lấy một lần mất 30 giây nhưng để được nhiều. Tiền gửi có kỳ hạn là cache phân tán L3 - lấy một lần mất 2 phút nhưng rẻ hơn nhiều.

Cách làm thông thường của ngành là xây dựng riêng một cụm lưu trữ cho L3, máy chuyên dụng, phòng máy chuyên dụng, tháng tháng trả tiền thuê.

Cách làm của đội ngũ lưu trữ Xiaomi khác. Họ tự nghiên cứu một bộ cache phân tán gọi là GCache, triển khai trực tiếp trên SSD đi kèm máy GPU - cùng phân bố chung trong một máy với nhiệm vụ huấn luyện, nhiệm vụ suy luận.

Dịch sang tiếng thông thường: người khác để lưu trữ lượng dữ liệu lớn, đã thuê riêng một nhà kho; Xiaomi phát hiện nhà để xe của máy GPU thực ra đang trống, trực tiếp lưu dữ liệu vào đó. Tiền thuê hàng tháng tiết kiệm được.

Nguyên văn trong blog kỹ thuật là: "Chi phí lưu trữ bổ sung là 0."

Sức sát thương của việc này lớn hơn vẻ ngoài. Trong "sổ sách tính toán năng lực" thông thường của "công ty AI", chi phí lưu trữ là một khoản chi cố định - mô hình của bạn càng lớn, người dùng càng nhiều, hóa đơn lưu trữ càng dài. Cách làm GCache này đánh bay mục này. Kết hợp với thể tích nhỏ SWA + tỷ lệ trúng 93-95%, thời gian tồn tại (TTL) của KVCache trong L3 kéo dài từ vài phút đến vài giờ thậm chí vài ngày - TTL càng dài, cửa sổ có thể trúng của context lịch sử càng rộng, tỷ lệ trúng cache càng cao, mức chiết khấu 99% đó càng đứng vững.

Công trình năm: Để yêu cầu trúng cache đi con đường ngắn nhất

Cache có thể chứa, có thể tra cứu, còn rẻ, bước cuối cùng là: làm thế nào để yêu cầu chính xác được định tuyến đến máy chính xác.

Xiaomi đã phát triển một hệ thống điều phối của riêng mình gọi là LLM-Router, làm ba việc:

Một là điều phối thân thiết. Các yêu cầu có tiền tố giống nhau được định tuyến đến cùng một máy, để tái sử dụng cache tối đa hóa.

Hai là phân nhóm theo độ dài. Chia yêu cầu ngắn (0-64K), yêu cầu trung bình (64K-256K), yêu cầu dài (256K-1M) vào các kênh xử lý khác nhau, tránh yêu cầu ngắn bị yêu cầu dài làm chậm.

Ba là tối ưu hóa TTFT. Trong hàng đợi chờ suy luận, ưu tiên điều phối các yêu cầu có lượng tính toán thực tế nhỏ (tức là các yêu cầu trúng cache nhiều) - tránh chúng bị các yêu cầu tính toán nặng kiểu "input hoàn toàn mới" làm tắc nghẽn.

Ví dụ, trong điều phối sân bay thông thường, tất cả hành khách bay cùng một điểm đến tập trung vào cùng một phòng chờ, chia sẻ quy trình lấy hành lý - đây là điều phối thân thiết. Người mang vali xách tay và người mang 3 vali ký gửi lớn đi hai lối an ninh khác nhau, người nhanh không bị người chậm làm chậm - đây là phân nhóm theo độ dài. Khi lên máy bay ưu tiên cho người chỉ mang vali xách tay, họ lên nhanh, để máy bay có thể cất cánh sớm - đây là tối ưu hóa TTFT.

Chiến lược điều phối này qua thực tế đã nâng tỷ lệ trúng cache L2 lên 25%, thông lượng input đơn máy tăng 30%, độ trễ P90 của yêu cầu dài giảm 30%.

Dịch lại tức là: cùng một GPU có thể phục vụ nhiều người dùng hơn. Nửa logic còn lại của việc giảm giá nằm ở đây - sản lượng hiệu quả trên đơn vị năng lực tính toán cao hơn, chi phí trên đơn vị người dùng thấp hơn.

Công trình sáu: Để mô hình "gõ chữ" cũng nhanh hơn

Năm việc phía trước đều tối ưu hóa phía "đọc" - giảm chi phí người dùng đọc lại context lịch sử xuống gần bằng 0. Việc thứ sáu là tối ưu hóa phía "viết" - tức là quá trình mô hình sinh token tiếp theo.

Mô hình truyền thống một lần chỉ có thể sinh 1 token. MiMo hỗ trợ nguyên bản 3 tầng MTP (Multi-Token Prediction) - một lần dự đoán 3 token tiếp theo, nếu dự đoán giữa chừng đúng, trực tiếp bỏ qua tính toán ở giữa.

Ví dụ, gõ chữ truyền thống là gõ từng chữ một - bạn muốn gõ "hôm nay thời tiết", phải nhấn 4 lần phím. MTP giống như có tính năng tự động bổ sung đoán chữ tiếp theo 1-2 chữ của bạn là gì - nếu nó đoán đúng, bạn không cần nhấn thêm hai lần đó nữa.

MTP của MiMo trong kịch bản agentic thực tế: giải mã 128 token đầu tiên tăng tốc 2.3 lần, 128-256 token tăng tốc 1.5 lần.

Ý nghĩa của việc này là, chiết khấu 99% đặc biệt hướng đến Input (Cache Hit), nhưng khi mô hình thực tế phục vụ người dùng, input và output xảy ra trong cùng một yêu cầu - nếu output không tiết kiệm, chi phí yêu cầu tổng thể chỉ tiết kiệm được một nửa. MTP khiến nửa output đó cũng giảm xuống, mô hình lợi nhuận của toàn bộ đợt giảm giá mới khép kín.

Nối sáu việc thành một chuỗi giảm chi phí:

Kiến trúc SWA → KVCache 1/7 → Hai pool thực sự giải phóng dung lượng → Cùng một GPU có thể chứa hơn 5 lần người dùng đồng thời → Tỷ lệ trúng cache tiền tố 93-95% → 95% yêu cầu hầu như không cần tính toán → GCache khiến chi phí lưu trữ về 0 → Điều phối ưu tiên điều chuyển yêu cầu trúng → MTP khiến việc sinh cũng tiết kiệm → Thời gian GPU trên đơn vị yêu cầu giảm một bậc độ lớn → Chi phí đơn vị giảm 95%+ → Định giá giảm 99%, tỷ suất lợi nhuận gộp vẫn dương.

Thiếu bất kỳ khâu nào, chuỗi này đều đứt ở một khúc nào đó. Giảm giá 99% không phải là con số marketing, là hiệu ứng tích lũy sau khi sáu trụ cột công trình chồng lên + xác minh thực tế trực tuyến.

Nhìn lại vài cách giải thích ban đầu của giới công nghiệp, mỗi cách đều có phần lý của nó. Hai năm nay cuộc chiến tranh giá cả giữa các công ty mô hình lớn Trung Quốc là thật; lợi nhuận Xiaomi giảm một nửa vẫn phải đổ tiền vào AI là thật; DeepSeek kéo mức giá chuẩn của ngành xuống sàn cũng là thật.

Nhưng lần này Luo Fili công khai blog kỹ thuật và phân tích chi tiết công nghệ một cách chi tiết, không nghi ngờ gì là hy vọng phản kích lại cách nói về chiến tranh giá cả, để "vấn đề kỹ thuật quy về kỹ thuật, vấn đề marketing quy về marketing."

Cô ấy đã viết trong blog, hiệu suất suy luận của dòng mô hình MiMo-V2.5 không đến từ đột phá đơn điểm của một khâu nào, mà là kết quả của tối ưu hóa phối hợp đa chiều. Hybrid SWA khiến prefill và decode cùng hưởng lợi, nhưng cách triển khai KVCache chưa được tối ưu hóa đầy đủ ngược lại sẽ đẩy cao chi phí ở các khâu. Xoay quanh mục tiêu này, đội ngũ MiMo đã xây dựng lại một cách có hệ thống quản lý KVCache, cache phân cấp, cây cache tiền tố, công phá vấn đề cốt lõi của SWA KVCache, tối ưu hóa chiến lược điều phối và liên kết Prefill / Decode, và thông qua kiểm tra kịch bản thực tế trực tuyến, cuối cùng biến ưu thế hiệu suất lý thuyết của nó thành hiện thực trong môi trường sản xuất. Đến lúc này, Hybrid SWA mới phát huy được ưu thế kiến trúc vừa có cường độ vừa có hiệu suất trong suy luận văn bản dài. Kết hợp với cấu hình MoE và các tối ưu hóa suy luận đa phương thức khác nhau, đã nâng cao hiệu suất dịch vụ suy luận trực tuyến ở mức độ rất lớn.

Đây là một cách đánh có hệ thống của kỹ thuật AI, cũng là phương tiện giảm chi phí đáng để ngành cùng tham khảo học hỏi.

Chiến tranh giá cả không cần viết blog, thực hiện công trình mới cần.

Câu hỏi Liên quan

QViệc giảm giá 99% của MiMo-V2.5 có phải là một chiến dịch marketing không? Đâu là lý do thực sự đằng sau việc giảm giá này?

AKhông, việc giảm giá 99% không phải là một chiến dịch marketing. Lý do thực sự là một loạt các cải tiến kỹ thuật hệ thống, bao gồm kiến trúc Hybrid SWA giúp giảm dung lượng KVCache xuống 1/7, hệ thống bộ nhớ đệm phân tầng GCache triển khai trên chính SSD của máy GPU (giảm chi phí lưu trữ về gần 0), và tỷ lệ hit cache lên đến 93-95%. Những cải tiến này giúp giảm đáng kể chi phí tính toán thực tế cho các yêu cầu đọc lặp lại, từ đó cho phép giảm giá mạnh mà vẫn đảm bảo tỷ suất lợi nhuận dương.

QKỹ thuật 'Sliding Window Attention' (SWA) đã giúp giảm chi phí như thế nào trong mô hình MiMo-V2.5?

AKiến trúc Hybrid SWA trong MiMo-V2.5-Pro chỉ định 10 trong tổng số 70 lớp mạng thực hiện 'Full Attention' (chú ý toàn bộ ngữ cảnh), trong khi 60 lớp còn lại chỉ xử lý cửa sổ 128 token gần nhất. Điều này giúp giảm dung lượng KVCache (bộ nhớ tạm của mô hình) xuống còn 1/7 so với kiến trúc Full Attention truyền thống, đồng thời cũng giảm khối lượng tính toán tương ứng. Đây là nền tảng đầu tiên để giảm chi phí.

QHệ thống bộ nhớ đệm GCache của Xiaomi có điểm đột phá gì so với cách làm thông thường?

AKhác với cách làm thông thường là xây dựng một cụm lưu trữ riêng biệt (L3) cho dữ liệu lạnh, nhóm kỹ thuật của Xiaomi tự phát triển GCache - một hệ thống bộ nhớ đệm phân tán triển khai trực tiếp trên ổ SSD đi kèm chính các máy chủ GPU chạy suy luận và huấn luyện. Cách tiếp cận 'tận dụng không gian trống' này giúp loại bỏ hoàn toàn chi phí thuê hạ tầng lưu trữ bổ sung, đồng thời kéo dài thời gian tồn tại (TTL) của dữ liệu trong cache, góp phần nâng cao tỷ lệ hit cache và củng cố cơ sở cho việc giảm giá.

QTỷ lệ hit cache cao (93-95%) đóng vai trò gì trong việc cho phép giảm giá 99%?

ATỷ lệ hit cache cao 93-95% là cơ sở vật lý then chốt cho mức giảm giá 99%. Nó có nghĩa là với 93-95% các yêu cầu đọc lại ngữ cảnh lịch sử từ người dùng, hệ thống không cần phải sử dụng GPU để tính toán lại mà có thể lấy trực tiếp kết quả từ bộ nhớ đệm. Chi phí cho những yêu cầu này do đó gần như bằng 0, tạo ra không gian để định giá giảm 99% cho phần Input (Cache Hit) mà vẫn có lãi.

QNgoài việc tối ưu hóa đầu vào (Input), MiMo còn có kỹ thuật nào để giảm chi phí cho phần đầu ra (Output) của mô hình?

AĐể giảm chi phí cho phần đầu ra (Output - quá trình mô hình sinh token), MiMo tích hợp sẵn kỹ thuật Dự đoán Đa Token (Multi-Token Prediction - MTP) với 3 lớp. Thay vì dự đoán từng token một, MTP cho phép dự đoán đồng thời 3 token tiếp theo. Nếu dự đoán đúng, hệ thống có thể bỏ qua các bước tính toán trung gian. Trong các tác vụ agent, MTP giúp tăng tốc độ decode lên 2.3 lần cho 128 token đầu và 1.5 lần cho token từ 128-256, từ đó giảm chi phí tính toán cho phần sinh nội dung và hoàn thiện vòng lặp giảm chi phí toàn diện.

Nội dung Liên quan

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit59 phút trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit59 phút trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

**Tóm tắt: Nhìn lại 20 dự đoán về ChatGPT năm 2023 sau 3 năm** Vào tháng 3/2023, khi ChatGPT mới xuất hiện và GPT-4 chưa ra mắt, tác giả Vương Kiến Thạc đã đưa ra 20 nhận định về tương lai của AI. Giờ đây, vào cuối tháng 5/2026, một hệ thống AI gồm 41 agent đã được sử dụng để kiểm chứng lại từng dự đoán đó dựa trên dữ liệu thực tế. **Kết quả kiểm chứng (Tính đến 5/2026):** * **Đúng/Bản chất đúng (✅/🟢):** 13/20 dự đoán. * **Một phần đúng (🟡):** 6/20 dự đoán. * **Sai (❌):** 1/20 dự đoán. **Những điểm dự đoán chính xác nổi bật:** 1. **Kiến trúc RAG & Tìm kiếm:** Dự đoán việc bổ sung kiến thức thông qua cơ chế truy xuất bên ngoài (như vector search) thay vì chỉ fine-tune model đã trở thành tiêu chuẩn. 2. **Giao diện ngôn ngữ tự nhiên (LUI):** Nhận định ChatGPT mở ra kỷ nguyên LUI, tạo ra một hệ sinh thái rộng lớn hơn cả việc phát triển model cơ bản, đã được chứng minh. 3. **Mô hình lớn Trung Quốc:** Dự báo khoảng cách về khả năng giữa các mô hình Trung Quốc và đỉnh cao thế giới sẽ thu hẹp nhanh chóng trong khoảng 3 năm đã thành hiện thực. 4. **Ý thức và Kiểm tra Turing:** Quan điểm cho rằng ChatGPT không có ý thức và bài kiểm tra Turing chỉ đánh giá biểu hiện bề ngoài vẫn vững vàng. **Những điểm dự đoán chưa chính xác hoặc sai lệch:** 1. **Tham số GPT-4 (❌):** Thông tin GPT-4 có 100 nghìn tỷ tham số là hoàn toàn sai. 2. **Khả năng toán học của LLM:** Mặc dù đúng khi cho rằng cần công cụ bổ trợ, nhưng khẳng định LLM "không thể" tự học toán thuần túy đã bị bác bỏ khi các model năm 2025 giành huy chương IMO. 3. **Nơi nắm giữ giá trị:** Dự đoán giá trị sẽ thuộc về tầng ứng dụng, còn các công ty làm model cơ bản có thể không sinh lời, đã không tính đến sự thống trị và lợi nhuận khổng lồ của NVIDIA ở tầng phần cứng tính toán. 4. **Bản quyền:** Nhận định AI có thể "né tránh" vi phạm bản quyền là sai, khi thực tế đã có những vụ kiện và dàn xếp bồi thường lớn nhất lịch sử liên quan đến dữ liệu huấn luyện. **Bài học rút ra sau 3 năm:** * **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể.** * Xu hướng chung: **Đánh giá quá lạc quan về tốc độ, nhưng lại đánh giá thấp mức độ phát triển** về lâu dài. * Sai lầm tinh vi thường nằm ở **sự phân bổ** (ví dụ: tác động việc làm lên nhóm người lao động trẻ), chứ không phải tổng thể. * **Những nhận định có giới hạn, điều kiện đi kèm thường chính xác hơn** những phát biểu tuyệt đối. * Một số câu hỏi lớn vẫn chưa có câu trả lời cuối cùng sau 3 năm. Bản tổng kết này không chỉ chấm điểm cho quá khứ, mà còn đặt ra những quy tắc cho việc dự đoán trong tương lai.

链捕手3 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

链捕手3 giờ trước

Cảnh báo bong bóng AI: Đầu tư vào AI mang lại lợi nhuận âm cho hầu hết các gã khổng lồ công nghệ

Bài viết cảnh báo về bong bóng đầu tư AI khi phân tích chỉ ra rằng hầu hết các gã khổng lồ công nghệ như Microsoft, Alphabet, Meta, Oracle (trừ Amazon) có thể nhận tỷ suất lợi nhuận âm từ các khoản đầu tư hàng nghìn tỷ USD vào trung tâm dữ liệu AI. Dựa trên kỳ vọng của nhà phân tích về doanh thu và chi tiêu vốn giai đoạn 2025-2030, tốc độ tăng đầu tư (~20%/năm) vượt xa tốc độ tăng doanh thu dự kiến (~15%/năm). Tác giả nhấn mạnh, đầu tư công nghệ hiện giải thích 93% tăng trưởng GDP Mỹ. Nếu các công ty cắt giảm chi tiêu, không chỉ chuỗi cung ứng (Nvidia, TSMC, ASML) bị ảnh hưởng mà nền kinh tế Mỹ có thể suy thoái, kéo theo thị trường chứng khoán lao dốc. Các IPO của OpenAI, Anthropic được xem như cách chuyển giao rủi ro từ nhà đầu tư ban đầu sang các nhà đầu tư tổ chức và cá nhân. Dù cơn sốt có thể kéo dài đến 2026 nhờ IPO, nhưng thực tế toán học khắc nghiệt (cần thêm 2-5 nghìn tỷ USD doanh thu để đạt lợi nhuận 10%) khiến việc điều chỉnh là không tránh khỏi vào 2027-2028, tương tự bong bóng dot-com những năm 2000. Câu hỏi then chốt: ai sẽ trả giá cho cuộc chạy đua cơ sở hạ tầng đắt đỏ này?

marsbit4 giờ trước

Cảnh báo bong bóng AI: Đầu tư vào AI mang lại lợi nhuận âm cho hầu hết các gã khổng lồ công nghệ

marsbit4 giờ trước

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

Từ công cụ thành "công nhân": AI đang trở thành lực lượng lao động máy móc Bài viết phân tích sự chuyển dịch trong thị trường AI: từ việc bán token hay giờ GPU đơn thuần, sang một thị trường "lao động máy móc" mới, nơi chính công việc được hoàn thành bởi phần mềm trở thành đối tượng được định giá và giao dịch. Tác giả dự đoán cơ chế định giá AI sẽ phát triển qua bốn giai đoạn: token thô -> thị trường năng lực LLM tiêu chuẩn hóa -> thị trường lao động theo ngành -> thị trường kết quả có thể lập trình. Trong tương lai, doanh nghiệp có thể không còn quan tâm công việc do model hay GPU cụ thể nào thực hiện, mà chỉ quan tâm liệu nó có được giao đúng tiêu chuẩn về độ trễ, độ chính xác, độ tin cậy và chi phí hay không. Điều này cũng làm thay đổi vai trò của con người, chuyển sang giám sát, chịu trách nhiệm, quản lý ngữ cảnh và đưa ra phán quyết cuối cùng - những yếu tố có thể trở nên có giá trị hơn. Bài viết nhấn mạnh AI không chỉ đơn thuần thay thế lao động mà mở rộng thị trường tổng thể. Khi chi phí công việc giảm, nhu cầu có thể tăng lên, tạo ra những loại hình công việc và dịch vụ mới khả thi về mặt kinh tế. Thị trường lao động máy móc sẽ bắt đầu từ những công việc có thể được xác định rõ ràng và đo lường được, hướng tới việc biến lao động máy móc thành một yếu tố sản xuất mới có thể được thu mua, thanh toán và giao dịch.

marsbit4 giờ trước

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

marsbit4 giờ trước

260 tỷ USD, "đội hình toàn Hoa" làm nên công ty lập trình AI có định giá cao nhất toàn cầu

260 tỷ USD, công ty lập trình AI Cognition với đội ngũ sáng lập toàn người Hoa đã trở thành công ty AI lập trình có định giá cao nhất toàn cầu sau vòng gọi vốn mới. Chỉ sau hơn 8 tháng kể từ khi đạt mốc định giá 102 tỷ USD, Cognition AI đã huy động thành công hơn 10 tỷ USD với định giá sau đầu tư lên tới 260 tỷ USD. Vòng này do các quỹ Lux Capital, General Catalyst và 8VC dẫn đầu. Cognition nổi tiếng với "kỹ sư phần mềm AI" đầu tiên trên thế giới tên là Devin. Tuy nhiên, sau khi gây sốt ban đầu, Devin vấp phải những nghi ngờ về khả năng thực sự và tỷ lệ hoàn thành nhiệm vụ không cao trong môi trường thực tế, cùng với mức giá khởi điểm cao. Bước ngoặt quan trọng giúp Cognition định hình lại câu chuyện là việc mua lại tài sản còn lại của Windsurf, một công ty IDE AI. Điều này giúp Cognition bổ sung một công cụ phát triển tích hợp AI mà các lập trình viên có thể kiểm soát trực tiếp, bên cạnh mô hình agent tự trị Devin xử lý công việc bất đồng bộ. Sự kết hợp "hai chân" này cho phép Cognition phục vụ cả nhu cầu hỗ trợ viết code hàng ngày và nhu cầu tự động hóa các tác vụ kỹ thuật có thể ủy thác cho doanh nghiệp. Dữ liệu tăng trưởng ấn tượng - lượng sử dụng doanh nghiệp tăng hơn 10 lần trong năm nay, run-rate doanh thu đạt 492 triệu USD - cùng danh sách khách hàng lớn như Goldman Sachs, Mercedes-Benz, NASA, Lục quân & Hải quân Mỹ đã thuyết phục các nhà đầu tư. Họ không chỉ nhìn thấy một công cụ cho lập trình viên, mà là tiềm năng trở thành hạ tầng cơ sở mới cho kỹ thuật phần mềm doanh nghiệp trong kỷ nguyên AI.

marsbit6 giờ trước

260 tỷ USD, "đội hình toàn Hoa" làm nên công ty lập trình AI có định giá cao nhất toàn cầu

marsbit6 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片