Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

marsbitXuất bản vào 2026-05-31Cập nhật gần nhất vào 2026-05-31

Tóm tắt

Trong bài viết, tác giả phân tích động thái giảm giá API lên tới 99% cho dòng MiMo-V2.5 của Xiaomi và phản bác các ý kiến cho rằng đây chỉ là chiến lược marketing hay "bán lỗ cướp thị trường". Lộ Phúc Lợi, người đứng đầu MiMo, đã công bố một blog kỹ thuật dài 5000 chữ để giải thích cơ sở kỹ thuật của mức giá mới. Bài viết mô tả sáu trụ cột công nghệ chính cho phép mức giảm giá này: 1. **Kiến trúc Hybrid SWA (Sliding Window Attention):** Giảm dung lượng bộ nhớ tạm (KVCache) xuống còn 1/7 so với Full Attention truyền thống. 2. **Quản lý KVCache hai bể riêng biệt:** Tối ưu hóa việc phân bổ bộ nhớ để triệt để tận dụng lợi thế của SWA, tăng gấp 5 lần số lượng người dùng đồng thời. 3. **Hệ thống tiền tố cache được cải tiến:** Đảm bảo an toàn và nâng cao tỷ lệ trúng cache lên tới 93-95%, khiến phần lớn yêu cầu đọc lặp lại hầu như không cần tính toán lại. 4. **Hệ thống lưu trữ phân tán GCache:** Triển khai trực tiếp trên ổ SSD của máy GPU, giảm chi phí lưu trữ xuống gần bằng 0. 5. **Hệ thống điều phối LLM-Router:** Tối ưu định tuyến và lập lịch, ưu tiên các yêu cầu có cache, tăng hiệu suất tổng thể. 6. **Dự đoán đa token (MTP):** Giảm chi phí tạo văn bản (output), hoàn thiện vòng tròn giảm chi phí cho toàn bộ quá trình xử lý. Những cải tiến này, khi kết hợp, tạo ra một chuỗi tối ưu toàn diện làm giảm đáng kể chi phí tính toán và lưu trữ cho mỗi yêu cầu. Bài viết kết luận rằng mức giảm 99% không phải là con số tiếp thị, mà là kết quả có thể chứng minh của một hệ thống kỹ thuật...

Văn | Tượng Tiên Chí

Luo Fuli đăng một bài trên X, muốn đặt dấu chấm hết cho tranh cãi giảm giá của Xiaomi MiMo.

Ngày 26 tháng 5, tài khoản chính thức Xiaomi MiMo đã đăng một thông báo trên X: API dòng MiMo-V2.5 giảm giá vĩnh viễn, mức giảm cao nhất 99%. Tất cả các độ dài context đều được định giá thống nhất, gói Token nâng cấp lên 5-8 lần.

Thông báo này đã làm xôn xao cộng đồng AI trong nước suốt cả tuần. Phản ứng đầu tiên của giới công nghiệp được chia thành vài luồng. Luồng lớn nhất cho rằng đây là "một đợt chiến tranh giá cả nữa" - hai năm nay từ ZhiPu, DeepSeek, Byte DouBao đến Alibaba Tongyi, các mô hình lớn trong nước lần lượt giảm giá, ai cũng đang trong cuộc cạnh tranh.

Một luồng khác nhìn nhận theo hướng bi quan: Xiaomi vừa thông báo lợi nhuận năm nay giảm một nửa, lúc này vẫn đốt 600 tỷ cho AI, API trực tiếp cắt giảm 90% - điển hình của "lỗ vốn để chiếm thị trường". Còn có người cho rằng đây là hiệu ứng DeepSeek tiếp tục - người sau này đã kéo mức giá chuẩn của cả ngành xuống sàn, ai không theo sẽ bị loại.

Vì vậy với tư cách là người phụ trách MiMo, Luo Fuli tối qua đã công khai một bài blog kỹ thuật dài 5000 chữ, đưa bảng kế hoạch kỹ thuật giảm giá ra cho mọi người xem.

"Nhìn đây, đây là năng lực kỹ thuật thực sự, không phải là thủ đoạn marketing".

Để hiểu Luo Fuli đang nói gì, trước hết phải hiểu 99% này thực chất đang giảm cái gì.

Nó không phải giảm giá toàn bộ mô hình. Mức chiết khấu 99% đặc biệt nhắm vào một mức định giá gọi là Input (Cache Hit) - tức là phần "người dùng đọc lại lịch sử context trong cuộc hội thoại dài". Mức giảm cho input mới thông thường (No Cache Hit) nhỏ hơn nhiều, và mức giảm cho output của mô hình (Output) là nhỏ nhất.

Nếu bạn hình dung mô hình như một quán cà phê, thì sự việc này sẽ dễ hiểu hơn.

Bạn gọi một ly latte ít đường, quán cà phê có hai cách làm: mỗi lần đều xay hạt đong siro đổ sữa từ đầu, nguyên liệu nhân công đều phải trả một lần; nhưng mô hình biết tuần này bạn ngày nào cũng uống ly latte ít đường giống nhau, nên làm sẵn một ấm lớn bỏ vào tủ lạnh, lần sau múc một phần. Việc MiMo lần này làm là cách thứ hai - chuyển phần người dùng đọc lặp lại từ "tính toán lại" thành "lấy ngay", vì vậy chi phí thực tế của phần này gần bằng 0, tự nhiên có thể cho chiết khấu 99%.

Để làm được "lấy ngay", bài blog kỹ thuật đã nói đến sáu công trình, mỗi cái đều không thể thiếu. Dưới đây sẽ phân tích từng cái một.

Công trình một: Nén "ký ức" của mô hình xuống 1/7

Khi mô hình đối thoại với bạn, mỗi token đều phải tính một "trạng thái trung gian", lưu lại để bước tiếp theo sử dụng. Thứ này gọi là KVCache - có thể hiểu là "sổ tay ký ức ngắn hạn" của mô hình. Mỗi khi nói một câu, mô hình ghi chú tóm tắt câu này vào sổ tay, lần sau trực tiếp lật sổ ra xem, không cần nghe lại tất cả nội dung bạn đã nói từ đầu.

Mô hình truyền thống mỗi tầng đều làm "Full Attention" - tức là mỗi token đều phải xem toàn bộ tất cả token của đoạn hội thoại, sổ tay càng lật càng dày. MiMo-V2.5-Pro đã thay đổi kiến trúc: Trong 70 tầng, 60 tầng chỉ xem 128 token gần nhất (SWA, Sliding Window Attention), chỉ có 10 tầng "quản lý hồ sơ" xem toàn bộ.

Kết quả là thể tích KVCache trực tiếp bị nén xuống còn 1/7 của Full Attention, lượng tính toán cũng là 1/7.

Đây là nền móng đầu tiên của việc giảm chi phí. Ví dụ, ban đầu công ty yêu cầu mỗi nhân viên phải nhớ tất cả biên bản cuộc họp, kết quả là não của mỗi người đều không đủ dùng, hiệu suất cũng thấp. Quy định mới giảm gánh nặng não bộ của 60 nhân viên xuống còn 1/7, chỉ giữ lại 10 quản lý hồ sơ quản lý toàn bộ lịch sử - khả năng ghi nhớ tổng thể của công ty không giảm, nhưng hiệu suất tăng 7 lần.

Công trình hai: Để không gian tiết kiệm được từ SWA thực sự có thể sử dụng

Về kiến trúc, nén sổ tay xuống 1/7 là bước đầu tiên, nhưng để "1/7 trên lý thuyết" thực sự trở thành "1/7 thực tế", còn một trở ngại.

Hệ thống KVCache truyền thống phân bổ bộ nhớ cho tất cả các tầng thống nhất theo "lượng dùng tối đa có thể". Ý nghĩa là: dù 60 tầng SWA chỉ cần cuốn sổ nhỏ, hệ thống cũng phân bổ cho tất cả các tầng theo "cuốn sổ lớn của quản lý hồ sơ" - không gian tiết kiệm được của SWA bị dự trữ lãng phí, bằng như không tiết kiệm.

Cách làm của đội ngũ Luo Fuli là chia KVCache thành hai pool độc lập. 10 tầng Full Attention đi "pool lớn", phân bổ theo độ dài đầy đủ; 60 tầng SWA đi "pool nhỏ", chỉ phân bổ theo cửa sổ 128 token.

Ví dụ, ban đầu công ty phát cho mỗi nhân viên một "tủ hồ sơ có thể chứa tài liệu 100 năm" - nhưng 60 nhân viên thực ra chỉ cần "tủ nhỏ chứa tài liệu một tuần", 99% không gian trong những tủ lớn đó trống rỗng. Cách làm mới là phân tủ theo nhu cầu thực tế. Kết quả là cả văn phòng có thể chứa thêm hơn 5 lần đồng nghiệp vào làm việc - cùng một GPU có thể phục vụ số người dùng đồng thời tăng gấp 5 lần.

Bước này nhìn có vẻ đơn giản, nhưng không có nó, ưu thế thiết kế kiến trúc SWA phía trước bằng như thiết kế vô ích.

Công trình ba: Để "người dùng cũ đọc lại" thực sự có thể trúng cache

Sổ tay nén xuống 1/7 + không gian thực sự dùng được, bước tiếp theo phải giải quyết một vấn đề cũ: tỷ lệ trúng của cache tiền tố.

Nhiều cuộc hội thoại của người dùng có phần mở đầu giống nhau - cùng một đoạn system prompt, cùng một thư viện mã, cùng một tài liệu dài. Hệ thống sẽ lưu kết quả tính toán này lại, lần sau khớp được thì tái sử dụng trực tiếp. Cơ chế này gọi là cache tiền tố.

Nhưng trong chế độ SWA xuất hiện một cái hố: hai yêu cầu token giống nhau, không có nghĩa là KV vẫn còn. Có thể tiền tố đã tính toán, nhưng phần ngoài cửa sổ SWA đã sớm bị loại bỏ. Nếu hệ thống vẫn áp dụng quy tắc cũ "token giống nhau là trúng" để tái sử dụng cho bạn, sẽ đọc phải dữ liệu vô hiệu hoặc bị ghi đè, hiệu quả mô hình sẽ sụp đổ trực tiếp.

Đội ngũ Luo Fuli nâng cấp quy tắc lên "độ dài an toàn cửa sổ" - chỉ cam kết phần "bạn có thể mượn đầy đủ".

Ví dụ, thư viện có 1 triệu cuốn sách, bạn muốn mượn trọn bộ "Tam Thể" gồm ba cuốn. Kiến trúc ban đầu sẽ nói với bạn "cuốn sách này có", bạn chạy đến phát hiện trên giá chỉ còn bìa và tập một, hai tập sau đều bị mượn rồi. Loại "trúng giả" này khiến bạn chạy vô ích còn phải mượn lại. Quy tắc hệ thống mới đổi thành chỉ cam kết phần bạn có thể mượn đầy đủ - trước hết đưa bạn cuốn thứ nhất, sau đó lại điều hai cuốn sau cho bạn.

Nghe có vẻ nghiêm ngặt hơn, tỷ lệ trúng sẽ giảm. Nhưng thực tế ngược lại: vì SWA khiến thể tích KVCache nén xuống 1/7, cùng một không gian lưu trữ có thể chứa nội dung nhiều hơn gấp mấy lần, tỷ lệ trúng thực tế ngược lại tăng lên đáng kể.

Luo Fuli trong blog đã đưa ra số liệu thực tế trực tuyến: Dưới khung harness chủ lưu, tỷ lệ trúng cache phía máy chủ trung bình 93%, người dùng tần suất cao chu kỳ dài có thể đạt trên 95%.

Dịch ý nghĩa của con số này: 95% yêu cầu "đọc lại" căn bản không cần GPU tính toán, lấy trực tiếp từ cache. Đây chính là cơ sở vật lý của mức chiết khấu 99%.

Công trình bốn: Đưa "cache" vào SSD đi kèm GPU

Tỷ lệ trúng tăng lên, vấn đề tiếp theo là: những cache này được lưu ở đâu.

Bộ nhớ GPU (HBM memory trên GPU) rất đắt và hạn chế - một máy H100 tám card chỉ có 640GB bộ nhớ, nhưng KVCache mà MiMo cần lưu có thể là cấp độ hàng chục TB. Vì vậy phải phân tầng: dùng gần đây đặt vào bộ nhớ (L1), hơi cũ đặt vào bộ nhớ CPU (L2), dữ liệu lạnh lưu vào cache phân tán (L3).

Giống như bạn quản lý tiền vậy. Tiền mặt trong ví là bộ nhớ - dùng ngay lấy ngay nhưng không để được nhiều. Số dư thẻ ngân hàng là bộ nhớ CPU - lấy một lần mất 30 giây nhưng để được nhiều. Tiền gửi có kỳ hạn là cache phân tán L3 - lấy một lần mất 2 phút nhưng rẻ hơn nhiều.

Cách làm thông thường của ngành là xây dựng riêng một cụm lưu trữ cho L3, máy chuyên dụng, phòng máy chuyên dụng, tháng tháng trả tiền thuê.

Cách làm của đội ngũ lưu trữ Xiaomi khác. Họ tự nghiên cứu một bộ cache phân tán gọi là GCache, triển khai trực tiếp trên SSD đi kèm máy GPU - cùng phân bố chung trong một máy với nhiệm vụ huấn luyện, nhiệm vụ suy luận.

Dịch sang tiếng thông thường: người khác để lưu trữ lượng dữ liệu lớn, đã thuê riêng một nhà kho; Xiaomi phát hiện nhà để xe của máy GPU thực ra đang trống, trực tiếp lưu dữ liệu vào đó. Tiền thuê hàng tháng tiết kiệm được.

Nguyên văn trong blog kỹ thuật là: "Chi phí lưu trữ bổ sung là 0."

Sức sát thương của việc này lớn hơn vẻ ngoài. Trong "sổ sách tính toán năng lực" thông thường của "công ty AI", chi phí lưu trữ là một khoản chi cố định - mô hình của bạn càng lớn, người dùng càng nhiều, hóa đơn lưu trữ càng dài. Cách làm GCache này đánh bay mục này. Kết hợp với thể tích nhỏ SWA + tỷ lệ trúng 93-95%, thời gian tồn tại (TTL) của KVCache trong L3 kéo dài từ vài phút đến vài giờ thậm chí vài ngày - TTL càng dài, cửa sổ có thể trúng của context lịch sử càng rộng, tỷ lệ trúng cache càng cao, mức chiết khấu 99% đó càng đứng vững.

Công trình năm: Để yêu cầu trúng cache đi con đường ngắn nhất

Cache có thể chứa, có thể tra cứu, còn rẻ, bước cuối cùng là: làm thế nào để yêu cầu chính xác được định tuyến đến máy chính xác.

Xiaomi đã phát triển một hệ thống điều phối của riêng mình gọi là LLM-Router, làm ba việc:

Một là điều phối thân thiết. Các yêu cầu có tiền tố giống nhau được định tuyến đến cùng một máy, để tái sử dụng cache tối đa hóa.

Hai là phân nhóm theo độ dài. Chia yêu cầu ngắn (0-64K), yêu cầu trung bình (64K-256K), yêu cầu dài (256K-1M) vào các kênh xử lý khác nhau, tránh yêu cầu ngắn bị yêu cầu dài làm chậm.

Ba là tối ưu hóa TTFT. Trong hàng đợi chờ suy luận, ưu tiên điều phối các yêu cầu có lượng tính toán thực tế nhỏ (tức là các yêu cầu trúng cache nhiều) - tránh chúng bị các yêu cầu tính toán nặng kiểu "input hoàn toàn mới" làm tắc nghẽn.

Ví dụ, trong điều phối sân bay thông thường, tất cả hành khách bay cùng một điểm đến tập trung vào cùng một phòng chờ, chia sẻ quy trình lấy hành lý - đây là điều phối thân thiết. Người mang vali xách tay và người mang 3 vali ký gửi lớn đi hai lối an ninh khác nhau, người nhanh không bị người chậm làm chậm - đây là phân nhóm theo độ dài. Khi lên máy bay ưu tiên cho người chỉ mang vali xách tay, họ lên nhanh, để máy bay có thể cất cánh sớm - đây là tối ưu hóa TTFT.

Chiến lược điều phối này qua thực tế đã nâng tỷ lệ trúng cache L2 lên 25%, thông lượng input đơn máy tăng 30%, độ trễ P90 của yêu cầu dài giảm 30%.

Dịch lại tức là: cùng một GPU có thể phục vụ nhiều người dùng hơn. Nửa logic còn lại của việc giảm giá nằm ở đây - sản lượng hiệu quả trên đơn vị năng lực tính toán cao hơn, chi phí trên đơn vị người dùng thấp hơn.

Công trình sáu: Để mô hình "gõ chữ" cũng nhanh hơn

Năm việc phía trước đều tối ưu hóa phía "đọc" - giảm chi phí người dùng đọc lại context lịch sử xuống gần bằng 0. Việc thứ sáu là tối ưu hóa phía "viết" - tức là quá trình mô hình sinh token tiếp theo.

Mô hình truyền thống một lần chỉ có thể sinh 1 token. MiMo hỗ trợ nguyên bản 3 tầng MTP (Multi-Token Prediction) - một lần dự đoán 3 token tiếp theo, nếu dự đoán giữa chừng đúng, trực tiếp bỏ qua tính toán ở giữa.

Ví dụ, gõ chữ truyền thống là gõ từng chữ một - bạn muốn gõ "hôm nay thời tiết", phải nhấn 4 lần phím. MTP giống như có tính năng tự động bổ sung đoán chữ tiếp theo 1-2 chữ của bạn là gì - nếu nó đoán đúng, bạn không cần nhấn thêm hai lần đó nữa.

MTP của MiMo trong kịch bản agentic thực tế: giải mã 128 token đầu tiên tăng tốc 2.3 lần, 128-256 token tăng tốc 1.5 lần.

Ý nghĩa của việc này là, chiết khấu 99% đặc biệt hướng đến Input (Cache Hit), nhưng khi mô hình thực tế phục vụ người dùng, input và output xảy ra trong cùng một yêu cầu - nếu output không tiết kiệm, chi phí yêu cầu tổng thể chỉ tiết kiệm được một nửa. MTP khiến nửa output đó cũng giảm xuống, mô hình lợi nhuận của toàn bộ đợt giảm giá mới khép kín.

Nối sáu việc thành một chuỗi giảm chi phí:

Kiến trúc SWA → KVCache 1/7 → Hai pool thực sự giải phóng dung lượng → Cùng một GPU có thể chứa hơn 5 lần người dùng đồng thời → Tỷ lệ trúng cache tiền tố 93-95% → 95% yêu cầu hầu như không cần tính toán → GCache khiến chi phí lưu trữ về 0 → Điều phối ưu tiên điều chuyển yêu cầu trúng → MTP khiến việc sinh cũng tiết kiệm → Thời gian GPU trên đơn vị yêu cầu giảm một bậc độ lớn → Chi phí đơn vị giảm 95%+ → Định giá giảm 99%, tỷ suất lợi nhuận gộp vẫn dương.

Thiếu bất kỳ khâu nào, chuỗi này đều đứt ở một khúc nào đó. Giảm giá 99% không phải là con số marketing, là hiệu ứng tích lũy sau khi sáu trụ cột công trình chồng lên + xác minh thực tế trực tuyến.

Nhìn lại vài cách giải thích ban đầu của giới công nghiệp, mỗi cách đều có phần lý của nó. Hai năm nay cuộc chiến tranh giá cả giữa các công ty mô hình lớn Trung Quốc là thật; lợi nhuận Xiaomi giảm một nửa vẫn phải đổ tiền vào AI là thật; DeepSeek kéo mức giá chuẩn của ngành xuống sàn cũng là thật.

Nhưng lần này Luo Fili công khai blog kỹ thuật và phân tích chi tiết công nghệ một cách chi tiết, không nghi ngờ gì là hy vọng phản kích lại cách nói về chiến tranh giá cả, để "vấn đề kỹ thuật quy về kỹ thuật, vấn đề marketing quy về marketing."

Cô ấy đã viết trong blog, hiệu suất suy luận của dòng mô hình MiMo-V2.5 không đến từ đột phá đơn điểm của một khâu nào, mà là kết quả của tối ưu hóa phối hợp đa chiều. Hybrid SWA khiến prefill và decode cùng hưởng lợi, nhưng cách triển khai KVCache chưa được tối ưu hóa đầy đủ ngược lại sẽ đẩy cao chi phí ở các khâu. Xoay quanh mục tiêu này, đội ngũ MiMo đã xây dựng lại một cách có hệ thống quản lý KVCache, cache phân cấp, cây cache tiền tố, công phá vấn đề cốt lõi của SWA KVCache, tối ưu hóa chiến lược điều phối và liên kết Prefill / Decode, và thông qua kiểm tra kịch bản thực tế trực tuyến, cuối cùng biến ưu thế hiệu suất lý thuyết của nó thành hiện thực trong môi trường sản xuất. Đến lúc này, Hybrid SWA mới phát huy được ưu thế kiến trúc vừa có cường độ vừa có hiệu suất trong suy luận văn bản dài. Kết hợp với cấu hình MoE và các tối ưu hóa suy luận đa phương thức khác nhau, đã nâng cao hiệu suất dịch vụ suy luận trực tuyến ở mức độ rất lớn.

Đây là một cách đánh có hệ thống của kỹ thuật AI, cũng là phương tiện giảm chi phí đáng để ngành cùng tham khảo học hỏi.

Chiến tranh giá cả không cần viết blog, thực hiện công trình mới cần.

Câu hỏi Liên quan

QViệc giảm giá 99% của MiMo-V2.5 có phải là một chiến dịch marketing không? Đâu là lý do thực sự đằng sau việc giảm giá này?

AKhông, việc giảm giá 99% không phải là một chiến dịch marketing. Lý do thực sự là một loạt các cải tiến kỹ thuật hệ thống, bao gồm kiến trúc Hybrid SWA giúp giảm dung lượng KVCache xuống 1/7, hệ thống bộ nhớ đệm phân tầng GCache triển khai trên chính SSD của máy GPU (giảm chi phí lưu trữ về gần 0), và tỷ lệ hit cache lên đến 93-95%. Những cải tiến này giúp giảm đáng kể chi phí tính toán thực tế cho các yêu cầu đọc lặp lại, từ đó cho phép giảm giá mạnh mà vẫn đảm bảo tỷ suất lợi nhuận dương.

QKỹ thuật 'Sliding Window Attention' (SWA) đã giúp giảm chi phí như thế nào trong mô hình MiMo-V2.5?

AKiến trúc Hybrid SWA trong MiMo-V2.5-Pro chỉ định 10 trong tổng số 70 lớp mạng thực hiện 'Full Attention' (chú ý toàn bộ ngữ cảnh), trong khi 60 lớp còn lại chỉ xử lý cửa sổ 128 token gần nhất. Điều này giúp giảm dung lượng KVCache (bộ nhớ tạm của mô hình) xuống còn 1/7 so với kiến trúc Full Attention truyền thống, đồng thời cũng giảm khối lượng tính toán tương ứng. Đây là nền tảng đầu tiên để giảm chi phí.

QHệ thống bộ nhớ đệm GCache của Xiaomi có điểm đột phá gì so với cách làm thông thường?

AKhác với cách làm thông thường là xây dựng một cụm lưu trữ riêng biệt (L3) cho dữ liệu lạnh, nhóm kỹ thuật của Xiaomi tự phát triển GCache - một hệ thống bộ nhớ đệm phân tán triển khai trực tiếp trên ổ SSD đi kèm chính các máy chủ GPU chạy suy luận và huấn luyện. Cách tiếp cận 'tận dụng không gian trống' này giúp loại bỏ hoàn toàn chi phí thuê hạ tầng lưu trữ bổ sung, đồng thời kéo dài thời gian tồn tại (TTL) của dữ liệu trong cache, góp phần nâng cao tỷ lệ hit cache và củng cố cơ sở cho việc giảm giá.

QTỷ lệ hit cache cao (93-95%) đóng vai trò gì trong việc cho phép giảm giá 99%?

ATỷ lệ hit cache cao 93-95% là cơ sở vật lý then chốt cho mức giảm giá 99%. Nó có nghĩa là với 93-95% các yêu cầu đọc lại ngữ cảnh lịch sử từ người dùng, hệ thống không cần phải sử dụng GPU để tính toán lại mà có thể lấy trực tiếp kết quả từ bộ nhớ đệm. Chi phí cho những yêu cầu này do đó gần như bằng 0, tạo ra không gian để định giá giảm 99% cho phần Input (Cache Hit) mà vẫn có lãi.

QNgoài việc tối ưu hóa đầu vào (Input), MiMo còn có kỹ thuật nào để giảm chi phí cho phần đầu ra (Output) của mô hình?

AĐể giảm chi phí cho phần đầu ra (Output - quá trình mô hình sinh token), MiMo tích hợp sẵn kỹ thuật Dự đoán Đa Token (Multi-Token Prediction - MTP) với 3 lớp. Thay vì dự đoán từng token một, MTP cho phép dự đoán đồng thời 3 token tiếp theo. Nếu dự đoán đúng, hệ thống có thể bỏ qua các bước tính toán trung gian. Trong các tác vụ agent, MTP giúp tăng tốc độ decode lên 2.3 lần cho 128 token đầu và 1.5 lần cho token từ 128-256, từ đó giảm chi phí tính toán cho phần sinh nội dung và hoàn thiện vòng lặp giảm chi phí toàn diện.

Nội dung Liên quan

Nghiên cứu mới nhất của BIS: Stablecoin và Tương lai của Cục diện Tiền tệ Toàn cầu

BIS: Tương lai của Stablecoin và Cục diện Tiền tệ Toàn cầu Nghiên cứu mới nhất của Ngân hàng Thanh toán Quốc tế (BIS) phân tích sâu sắc tác động của stablecoin đối với hệ thống tiền tệ quốc tế. Thị trường stablecoin đã phát triển nhanh chóng, với tổng vốn hóa vượt 3000 tỷ USD vào năm 2026, bị chi phối bởi các stablecoin neo theo USD như USDT và USDC. Báo cáo nhận định stablecoin hoạt động như một hình thức trái quyền tư nhân phi tập trung của USD, mở rộng tính thanh khoản đồng đô la ra toàn cầu. Về ngắn hạn, chúng có khả năng củng cố vị thế thống trị của đồng USD. Đối với các nền kinh tế mới nổi và đang phát triển (EMDEs), stablecoin USD trở thành kênh "đô la hóa kỹ thuật số", cho phép người dân trữ giá trị và thực hiện thanh toán xuyên biên giới, từ đó có thể làm xói mòn chủ quyền tiền tệ, làm giảm hiệu quả chính sách tiền tệ và khiến các biện pháp kiểm soát vốn trở nên kém hiệu quả. Báo cáo đưa ra ba viễn cảnh tương lai: 1. **Áp dụng hạn chế (Kịch bản cơ sở):** Stablecoin chủ yếu tồn tại trong hệ sinh thái tiền mã hóa. 2. **Đô la hóa kỹ thuật số (Kịch bản rủi ro cao):** Stablecoin USD trở thành phương tiện thanh toán và dự trữ giá trị phổ biến tại các EMDEs, gây ra rủi ro nghiêm trọng cho ổn định tài chính. 3. **Tích hợp stablecoin nội tệ (Kịch bản lý tưởng):** Các EMDEs phát triển stablecoin neo theo đồng nội tệ được quản lý chặt chẽ, kết nối với hệ thống thanh toán trong nước và CBDC để tăng hiệu quả mà vẫn giữ được chủ quyền. Để quản lý những thách thức này, báo cáo nhấn mạnh sự cần thiết của việc **hài hòa tiêu chuẩn quản lý toàn cầu**, **tăng cường hợp tác xuyên biên giới**, **nâng cấp khả năng phòng thủ trong nước** (như phát triển CBDC và hệ thống thanh toán hiệu quả), và **kiểm soát các hoạt động bất hợp pháp**. Tương lai sẽ là sự cạnh tranh giữa tiền tệ pháp định, CBDC và stablecoin tư nhân, đòi hỏi sự phối hợp quốc tế để đón nhận lợi ích công nghệ trong khi vẫn bảo vệ được an toàn tài chính và chủ quyền tiền tệ.

链捕手8 phút trước

Nghiên cứu mới nhất của BIS: Stablecoin và Tương lai của Cục diện Tiền tệ Toàn cầu

链捕手8 phút trước

"Công ty một người" bùng nổ: Người kiếm trăm triệu mỗi năm, kẻ thu nhập co lại 90%

"Mô hình 'công ty một người' (One Person Company - OPC) đang trở thành xu hướng trong thời đại AI, cho phép cá nhân khởi nghiệp độc lập với chi phí thấp. Năm 2026 được coi là năm khởi đầu, với hơn 16 triệu OPC tại Trung Quốc. Tuy nhiên, thành công không phải là điều đảm bảo, với hơn 52% có thu nhập dưới 7.000 tệ/tháng. Bài viết chia sẻ câu chuyện của bốn nhà sáng lập: • **Anh Zhang (lĩnh vực game):** Phát triển 6 game tương tác bullet chat (đạn màn hình) trong một năm, doanh thu ~200 triệu tệ, thu nhập cá nhân 80-100 triệu tệ. AI đảm nhận ~70% công việc đồ họa và hỗ trợ viết code, giúp giảm chi phí sản xuất từ 2 triệu tệ xuống còn 1.000-1.500 tệ/game và rút ngắn chu kỳ phát triển từ 2-4 tháng xuống còn 15 ngày. • **Chị October (nghiên cứu vật liệu tại Nhật Bản):** Thu nhập gấp ~3 lần mức lương văn phòng trung bình, đạt ~150 triệu yên/năm. AI được sử dụng cho mọi công đoạn như dịch thuật, tư vấn pháp lý, xử lý đơn hàng. Thị trường Nhật ít cạnh tranh khốc liệt nhưng rào cản ngành và yêu cầu tín dụng rất cao. • **Anh Xiao Tao (công nghệ sinh học):** Thu nhập tăng gấp đôi so với đi làm thuê. Anh sử dụng AI Agent (như DeepSeek, Claude) để tự động hóa ~80% công việc phân tích dữ liệu và báo cáo lặp đi lặp lại, tập trung vào 20% công việc đòi hỏi phán đoán chuyên môn và giao tiếp với khách hàng. • **Anh A Yuan (thương mại điện tử xuyên biên giới):** Chuyển từ vị trí vận hành tại tập đoàn lớn (thu nhập ~6 triệu tệ/năm) sang khởi nghiệp OPC ở thị trường Mexico. AI thay thế ~60% công việc như chọn sản phẩm, tạo nội dung. Tuy nhiên, sau 2 tháng, doanh thu chỉ đạt hơn 10.000 tệ, lợi nhuận khoảng 1.000 tệ, thu nhập giảm ~90%. Anh khuyên không nên khởi nghiệp bồng bột và nhấn mạnh giá trị học hỏi thực tế từ việc tự kinh doanh. Các câu chuyện cho thấy AI là công cụ đắc lực giảm chi phí, rút ngắn thời gian và tự động hóa, nhưng không đảm bảo thành công. Yếu tố then chốt vẫn là kinh nghiệm ngành, khả năng sáng tạo, quản lý, nguồn khách hàng và hiểu biết về thị trường cụ thể. Mô hình OPC phù hợp nhất với những người có chuyên môn sẵn và nguồn lực khách hàng, chứ không phải cho người mới bắt đầu hoàn toàn."

marsbit15 phút trước

"Công ty một người" bùng nổ: Người kiếm trăm triệu mỗi năm, kẻ thu nhập co lại 90%

marsbit15 phút trước

Giải mã báo cáo của Goldman Sachs: Thiếu hụt bộ nhớ kéo dài đến năm 2028, tiếp tục mua vào

Bài báo từ Goldman Sachs nhấn mạnh rằng chu kỳ tăng trưởng bộ nhớ bán dẫn (DRAM, NAND, HBM) hiện tại sẽ kéo dài hơn dự kiến, với tình trạng thiếu hụt kéo dài đến năm 2028 do nhu cầu từ máy chủ AI, nguồn cung hạn chế và các hợp đồng dài hạn. Báo cáo nâng mục tiêu giá cổ phiếu cho Samsung Electronics, SK Hynix và nâng hạng mua cho Kioxia. Các công ty khác trong chuỗi cung ứng AI cũng được đề xuất mua, bao gồm MediaTek (chuyển đổi sang chip AI), Eoptolink (mô-đun quang), Biren (chip AI Trung Quốc), Huaqin (gia công AI), Lenovo (AI PC), cùng các công ty như GDS và VNET. Báo cáo cũng đề cập đến các lĩnh vực khác như bất động sản Trung Quốc (trong kịch bản lạc quan), BYD (xe thông minh), thiết bị bán dẫn Nhật Bản và Panasonic. Một chủ đề vĩ mô được nêu bật là sự va chạm giữa đầu tư AI bùng nổ và khủng hoảng năng lượng, có lợi cho các nước xuất khẩu công nghệ. Lưu ý quan trọng: Tất cả xếp hạng và dự báo là quan điểm của nhà phân tích Goldman Sachs, không phải lời khuyên đầu tư. Độc giả nên tập trung vào logic tổng thể và các giả định đằng sau báo cáo.

marsbit50 phút trước

Giải mã báo cáo của Goldman Sachs: Thiếu hụt bộ nhớ kéo dài đến năm 2028, tiếp tục mua vào

marsbit50 phút trước

Phân Tích Chi Tiết Chiến Thuật Đầu Tư Thần Thánh Của Mộc Đầu Tỷ Vào Circle

Bài viết phân tích chiến lược đầu tư xuất sắc của Cathie Wood (còn gọi là "chị gỗ") vào cổ phiếu Circle (CRCL), một công ty phát hành stablecoin USDC. Chiến lược bao gồm ba bước chính: (1) **Mua cổ phần với giá phát hành (IPO)** - ARK đã đăng ký mua trước, sở hữu 4.49 triệu cổ phiếu với giá 31 USD/CP trước khi niêm yết, hưởng lợi từ việc giá tăng vọt 168% trong ngày đầu giao dịch. (2) **Bán ra ở vùng giá cao** - Khi giá tăng lên khoảng 210 USD nhờ tin tức về dự luật stablecoin (GENIUS Act), ARK đã bán khoảng 1.7 triệu cổ phiếu để chốt lời, một phần do kỷ luật tái cân bằng danh mục. (3) **Mua lại ở vùng giá thấp** - Khi giá giảm mạnh (từ đỉnh 299 USD xuống dưới 90 USD) do áp lực từ việc cổ phiếu được giải tỏa và lo ngại về lãi suất, ARK đã mua lại dần, khôi phục vị thế về khoảng 4.5 triệu cổ phiếu. Bài học chính: Chiến lược thành công dựa trên **niềm tin vững chắc vào mô hình kinh doanh dài hạn** của Circle, **thực hiện giao dịch theo từng đợt** (không cố bắt đỉnh/đáy), và tuân thủ **kỷ luật quản lý danh mục** nghiêm ngặt (như quy tắc tái cân bằng khi một cổ phiếu vượt 10%). Đối với nhà đầu tư cá nhân, việc "đuổi theo" đợt tăng giá mạnh lúc IPO thường rất rủi ro.

marsbit52 phút trước

Phân Tích Chi Tiết Chiến Thuật Đầu Tư Thần Thánh Của Mộc Đầu Tỷ Vào Circle

marsbit52 phút trước

Báo Buổi Sáng | Michael Saylor Cập Nhật Thông Tin Bitcoin Tracker; Aave Công Bố Điều Tra Sự Kiện Tấn Công Cầu Kelp rsETH; Gravity Bridge Tạm Ngừng Dịch Vụ Sau Khi Bị Tấn Công

Dưới đây là tóm tắt những tin tức chính về tiền điện tử và blockchain trong 24 giờ qua: **Tin tức quan trọng:** * **Quy định & Chấp thuận:** Công ty tài sản số Laser Digital nhận được phê chuẩn có điều kiện từ OCC để thành lập một ngân hàng ủy thác liên bang. Việt Nam đang xem xét cho phép doanh nghiệp vừa và nhỏ dùng tài sản số, tài sản ảo làm tài sản thế chấp cho vay ngân hàng. * **Sự cố bảo mật:** Gravity Bridge thuộc hệ sinh thái Cosmos đã bị tấn công và tạm dừng dịch vụ. Aave đã công bố báo cáo điều tra sau sự cố tấn công vào cầu Kelp rsETH, nhấn mạnh lỗ hổng nằm ở cơ sở hạ tầng cầu của bên thứ ba. * **Thị trường & Cá nhân:** Chủ tịch Ủy ban Chứng khoán Hồng Kông cho biết khối lượng giao dịch trên 12 nền tảng tài sản ảo được cấp phép trong quý I/2026 tăng gần gấp ba lần. Michael Saylor tiếp tục đăng thông tin về Bitcoin Tracker, dự kiến công bố dữ liệu mua vào trong tuần tới. * **Quan điểm & Pháp lý:** Cố vấn Cục Dự trữ Liên bang Mỹ (Fed) Christopher Waller nhận định sự phổ biến của stablecoin có thể khuếch đại tầm ảnh hưởng chính sách của Fed. Một vụ án tại Trung Quốc xác định Bitcoin là tài sản có giá trị và kết án tù một đối tượng vì đánh cắp 107 BTC. SEC Mỹ đã khởi kiện người sáng lập Privvy về một vụ lừa đảo tiền điện tử trị giá 12,3 triệu USD. * **Phân tích thị trường:** Santiment chỉ ra tỷ lệ Long/Short Bitcoin đạt mức cao nhất trong năm, cảnh báo có thể điều chỉnh ngắn hạn. Tâm lý thị trường xung quanh Ethereum đã chuyển từ FOMO sang FUD. **Meme Token nổi bật (24h):** * **Ethereum:** HEX, SHIB, LINK, PEPE, UNI. * **Solana:** TROLL, WORLDCUP, neet, Buttcoin, PBTC. * **Base:** toby, ELSA, cbETH, CYPR, ALB. **Bài viết đáng chú ý:** Một bài viết nhìn lại các dự đoán về ChatGPT từ năm 2023 sau ba năm phát triển của AI.

链捕手1 giờ trước

Báo Buổi Sáng | Michael Saylor Cập Nhật Thông Tin Bitcoin Tracker; Aave Công Bố Điều Tra Sự Kiện Tấn Công Cầu Kelp rsETH; Gravity Bridge Tạm Ngừng Dịch Vụ Sau Khi Bị Tấn Công

链捕手1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片