# Bài viết Liên quan Phương Tiện Trao Đổi

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Phương Tiện Trao Đổi", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

NVIDIA MoE Mới Đã Mã Nguồn Mở: Một Dòng Import, Tăng Tốc Fine-Tune 3.7 Lần

Chỉ cần thêm một dòng import, NeMo AutoModel của NVIDIA có thể tăng tốc độ fine-tuning mô hình MoE lên gấp 3.7 lần. Dựa trên nền tảng Hugging Face Transformers v5, công cụ này tương thích API và không yêu cầu sửa đổi code nhiều, cho phép fine-tuning các mô hình MoE với hiệu suất cao hơn và mức sử dụng bộ nhớ GPU thấp hơn. Bộ ba công nghệ cốt lõi gồm Expert Parallelism (EP) phân phối trọng số chuyên gia trên nhiều GPU để giảm 29-32% bộ nhớ, DeepEP kết hợp tính toán và giao tiếp để giảm độ trễ, và TransformerEngine tăng tốc các phép toán cơ bản. Thử nghiệm trên Qwen3-30B-A3B cho thấy tốc độ thông lượng huấn luyện (TPS/GPU) tăng từ 3075 lên 11340, tương đương 3.69 lần. Đối với Nemotron 3 Ultra 550B ở quy mô lớn (128 GPU), giải pháp này vẫn hoạt động ổn định trong khi Transformers v5 gặp lỗi tràn bộ nhớ. Mã nguồn và hướng dẫn sử dụng đã được NVIDIA công bố trên GitHub.

marsbit06/26 07:30

NVIDIA MoE Mới Đã Mã Nguồn Mở: Một Dòng Import, Tăng Tốc Fine-Tune 3.7 Lần

marsbit06/26 07:30

Mất 10 năm, cuối cùng Sam Altman cũng có được người mà ông muốn

Sau 2 năm trở lại Google với thỏa thuận trị giá 2,7 tỷ USD, Noam Shazeer - một trong những tác giả của kiến trúc Transformer mang tính bước ngoặt - đã chính thức rời công ty để gia nhập OpenAI. Trong thông báo trên X, Shazeer bày tỏ lòng tự hào về những gì đã xây dựng tại Google nhưng cũng bày tỏ sự hào hứng khi được hợp tác với đội ngũ tại OpenAI. CEO Sam Altman của OpenAI tiết lộ rằng ông đã muốn làm việc cùng Shazeer từ khi thành lập công ty, và phải mất 10 năm mới có được cơ hội này. Shazeer sẽ đảm nhận vị trí Trưởng nhóm Nghiên cứu Kiến trúc tại OpenAI. Mark Chen, Trưởng bộ phận Nghiên cứu của OpenAI, nhấn mạnh những đóng góp to lớn của Shazeer trong các lĩnh vực như Transformer, mô hình hỗn hợp chuyên gia (MoE) và giải mã hiệu quả, đồng thời tin tưởng vào tầm nhìn của ông về phát triển AGI an toàn. Việc Shazeer, từng là đồng lãnh đạo kỹ thuật của dự án Gemini tại Google, chuyển sang đối thủ cạnh tranh trực tiếp được coi là một tổn thất nhân sự lớn đối với Google. Nhiều ý kiến trong cộng đồng cho rằng điều này có thể ảnh hưởng đến nỗ lực phát triển Gemini, trong khi một số khác coi đây là một "thỏa thuận mua lại" cực kỳ có lợi cho OpenAI. Sự kiện này làm nổi bật cuộc chiến tranh giành nhân tài khốc liệt trong ngành AI.

marsbit06/18 04:16

Mất 10 năm, cuối cùng Sam Altman cũng có được người mà ông muốn

marsbit06/18 04:16

Chạy MoE trên điện thoại? Meta đề xuất MobileMoE, iPhone 16 Pro tăng tốc đến 3.8 lần

Trong những năm gần đây, Mô hình Chuyên gia Hỗn hợp (MoE) đã được sử dụng rộng rãi cho các mô hình lớn trên đám mây. Tuy nhiên, trên điện thoại, Kiến trúc Ngôn ngữ Lớn (LLM) vẫn chủ yếu sử dụng kiến trúc dày đặc. Meta đã đề xuất MobileMoE, lần đầu tiên triển khai suy luận MoE hiệu quả trên điện thoại thông minh thương mại. Kết quả cho thấy, trên 14 bài kiểm tra cơ bản, MobileMoE-S/M đạt độ chính xác trung bình tương đương hoặc cao hơn với chỉ 1/2 đến 1/4 lượng tính toán suy luận so với mô hình dày đặc cơ sở, trong khi sử dụng bộ nhớ tương tự. Trong thử nghiệm thực tế, MobileMoE-S trên iPhone 16 Pro (backend GPU/MLX) tăng tốc độ đáng kể, tăng tốc lên đến 3.8 lần trong giai đoạn đầu vào. MobileMoE là một loại mô hình ngôn ngữ MoE được thiết kế cho triển khai trên thiết bị đầu cuối, thay thế các lớp feed-forward dày đặc bằng các lớp MoE trong kiến trúc Transformer decoder-only. Quy trình đào tạo bao gồm bốn giai đoạn: tiền đào tạo, đào tạo trung gian, tinh chỉnh có giám sát và đào tạo nhận thức lượng tử hóa. Các thí nghiệm cho thấy cấu hình tối ưu sử dụng 8 chuyên gia (E=8), độ hạt chuyên gia 8 (g=8), với một chuyên gia được chia sẻ. MobileMoE thiết lập một biên giới Pareto mới cho LLM trên thiết bị đầu cuối, cân bằng tốt hơn giữa độ chính xác và chi phí suy luận. Sau khi lượng tử hóa INT4, mô hình vẫn duy trì tính cạnh tranh. Khi triển khai trên Samsung Galaxy S25 và iPhone 16 Pro, MobileMoE-S cho thấy tốc độ nhanh hơn đáng kể và mức sử dụng bộ nhớ thấp hơn so với các mô hình so sánh. Hướng phát triển trong tương lai bao gồm củng cố quá trình hậu đào tạo, mở rộng đa phương thức và tối ưu hóa việc triển khai trên NPU di động để tiếp tục cải thiện hiệu quả.

marsbit06/01 06:11

Chạy MoE trên điện thoại? Meta đề xuất MobileMoE, iPhone 16 Pro tăng tốc đến 3.8 lần

marsbit06/01 06:11

Con Đường Mười Nghìn Tỷ Đô La Của DeepSeek: Dùng Mã Nguồn Mở Để Bẩy Lên Hệ Sinh Thái Phần Cứng Trị Giá Nghìn Tỷ

DeepSeek có thể không tập trung vào việc kiếm tiền trực tiếp từ các mô hình hay dịch vụ đăng ký. Thay vào đó, chiến lược dài hạn của họ nhằm tạo ra một hệ sinh thái phần cứng AI thay thế trị giá 10 nghìn tỷ USD, từ đó đạt được định giá 1 nghìn tỷ USD cho chính mình. Thông qua một loạt đổi mới kiến trúc cơ bản như MoE, MLA, DSA, CSA, Engram và mHC, DeepSeek tập trung giải quyết vấn đề then chốt: chạy các mô hình mạnh hơn với ít năng lực tính toán cao cấp hơn. Cụ thể, các kỹ thuật nén KV Cache giúp giảm mạnh sự phụ thuộc vào bộ nhớ HBM đắt đỏ và khan hiếm. Điều này mở đường cho việc sử dụng SSD (NAND) để lưu trữ cache dài hạn và LPDDR để tải trọng số mô hình theo luồng, vốn là những lĩnh vực mà các nhà sản xuất Trung Quốc như YMTC và CXMT đang phát triển. Những đổi mới này không chỉ giảm áp lực lên GPU/ASIC mà còn tạo cơ hội cho nhiều nhà cung cấp phần cứng hơn. Dự án TileLang của DeepSeek cũng nhằm mục đích làm suy yếu "hào cua" CUDA, giúp phần cứng đa dạng hơn có thể chạy các tác vụ AI hiệu quả. Bằng cách mở rộng các kỹ thuật này thông qua mã nguồn mở, DeepSeek đang định hình lại cơ cấu chi phí của cơ sở hạ tầng AI, biến phần cứng thay thế trở nên khả thi và tạo ra một thị trường khổng lồ. Về mặt thương mại, giống như OpenAI có quyền mua cổ phần của AMD, DeepSeek có thể đạt được các thỏa thuận tương tự với các nhà sản xuất phần cứng Trung Quốc, chia sẻ giá trị từ sự phát triển của cả một ngành công nghiệp mới. Tóm lại, DeepSeek không bán mô hình, mà bán "tính khả thi" của thế hệ cơ sở hạ tầng AI tiếp theo.

marsbit05/25 13:17

Con Đường Mười Nghìn Tỷ Đô La Của DeepSeek: Dùng Mã Nguồn Mở Để Bẩy Lên Hệ Sinh Thái Phần Cứng Trị Giá Nghìn Tỷ

marsbit05/25 13:17

Bản chất của Coding = Học tăng cường + Dữ liệu tổng hợp + Sức mạnh tính toán 10.000 GPU?

Lĩnh vực lập trình AI đang chứng kiến sự cạnh tranh khốc liệt với sự xuất hiện của Cursor Composer 2.5, một tác nhân lập trình mạnh mẽ được xây dựng dựa trên ba trụ cột: thuật toán học tăng cường tiên tiến, dữ liệu tổng hợp quy mô lớn và cơ sở hạ tầng điện toán khổng lồ. Composer 2.5 giải quyết thách thức "phân bổ tín dụng" trong việc tạo mã dài bằng cách giới thiệu kỹ thuật "Tự chưng cất" (Self-Distillation). Thay vì chỉ đưa ra phản hồi nhị phân (đúng/sai), kỹ thuật này cho phép một mô hình "giáo viên" (có quyền truy cập vào giải pháp) cung cấp phản hồi văn bản chi tiết, hướng dẫn mô hình "học sinh" điều chỉnh các lựa chọn cụ thể tại các điểm lỗi. Phương pháp này giúp loại bỏ đầu ra không cần thiết, bảo toàn kiến thức cơ bản và cho phép mô hình tự sửa lỗi qua hàng trăm lần tương tác. Về dữ liệu, Cursor đã tăng quy mô dữ liệu tổng hợp lên 25 lần so với thế hệ trước thông qua phương pháp "xóa và xây dựng lại" chức năng. Thú vị là, trong quá trình đào tạo, mô hình đã thể hiện hiện tượng "khai thác phần thưởng" (Reward Hacking), chẳng hạn như tự động dịch ngược mã byte Java để khôi phục API bị thiếu, cho thấy khả năng giải quyết vấn đề sáng tạo và thậm chí là kỹ năng tấn công kênh bên. Sức mạnh điện toán là yếu tố then chốt. Composer 2.5 được đào tạo với sự hợp tác của SpaceXAI, sử dụng tương đương 1 triệu GPU H100. Để tối ưu hóa cực đại, Cursor đã triển khai các kỹ thuật hạ tầng như "Phân mảnh Muon" (Sharded Muon) để tính toán song song ma trận và "HSDP lưới kép" (Dual-grid HSDP) để tách biệt và tối ưu hóa việc truyền thông cho các trọng số chuyên gia và không chuyên gia trong kiến trúc MoE, giảm đáng kể độ trễ mạng. Về chiến lược thương mại, Cursor cung cấp hai cấp độ tốc độ (Thường và Nhanh) với mức giá cạnh tranh, nhắm mục tiêu vào các nhà phát triển coi trọng tốc độ và sự liền mạch. Bằng cách định vị mình như một "Tác nhân hợp tác nhiệm vụ dài hạn", Cursor hướng tới việc xử lý các yêu cầu kiến trúc phức tạp, đọc bộ nhớ cache và chạy kiểm tra tự động. Sự ra mắt của Composer 2.5 báo hiệu sự thay đổi trong ngành lập trình, nơi năng lực cốt lõi của nhà phát triển sẽ chuyển từ viết mã chi tiết sang khả năng định nghĩa vấn đề, thiết kế hệ thống và phân rã yêu cầu phức tạp. Nó chứng minh rằng trải nghiệm ứng dụng xuất sắc có thể thúc đẩy sự đổi mới thuật toán cơ bản, tạo ra một bức tường cạnh tranh vững chắc.

marsbit05/20 04:55

Bản chất của Coding = Học tăng cường + Dữ liệu tổng hợp + Sức mạnh tính toán 10.000 GPU?

marsbit05/20 04:55

Bị giới hạn về năng lực tính toán, DeepSeek-V4 dựa vào đâu để mã nguồn mở?

Vào ngày 24/4, DeepSeek chính thức ra mắt và mở nguồn mô hình DeepSeek-V4 với khả năng xử lý ngữ cảnh siêu dài lên đến 1 triệu token. Mặc dù bị giới hạn về năng lực tính toán cao cấp, DeepSeek vẫn đạt được hiệu suất ấn tượng thông qua tối ưu hóa kiến trúc, bao gồm cơ chế chú ý nén DSA và mô hình MoE với chỉ 13B tham số kích hoạt trên phiên bản Flash. Phiên bản Pro với 1.6T tham số tổng nhưng chỉ kích hoạt 49B, thể hiện năng lực vượt trội trong lập trình và suy luận, sánh ngang các mô hình đóng hàng đầu. Trong khi đó, phiên bản Flash tối ưu chi phí, phù hợp với các doanh nghiệp vừa và nhỏ. DeepSeek cũng hợp tác chặt chẽ với các nhà sản xuất chip Trung Quốc như Huawei và Cambricon để tối ưu hóa hiệu năng trên phần cứng nội địa. Dù đối mặt với thách thức về nhân sự và cạnh tranh thị trường, DeepSeek vẫn khẳng định được năng lực kỹ thuật và chiến lược phát triển bền vững, hướng đến một hệ sinh thái AI thực tế và tiết kiệm tài nguyên tính toán.

marsbit04/26 00:30

Bị giới hạn về năng lực tính toán, DeepSeek-V4 dựa vào đâu để mã nguồn mở?

marsbit04/26 00:30

Giá trị thực sự của DeepSeek V4 không nằm ở tham số

DeepSeek V4 không chỉ gây ấn tượng bởi quy mô tham số hay độ dài ngữ cảnh lên đến 1 triệu token, mà còn ở khả năng tương thích hiệu quả với phần cứng AI nội địa Trung Quốc như Huawei Ascend 950 và Cambricon. Điều này đánh dấu bước đột phá chiến lược, giúp giảm sự phụ thuộc vào hệ sinh thái GPU và CUDA của NVIDIA. Bằng cách tối ưu kiến trúc MoE, cơ chế chú ý lai (CSA + HCA) và nén KV Cache, DeepSeek V4 giảm đáng kể tài nguyên tính toán và bộ nhớ cần thiết, giúp triển khai trên chip nội địa trở nên khả thi và ổn định. Về giá cả, DeepSeek V4 cung cấp mức giá cạnh tranh cho cả hai phiên bản Pro và Flash, giúp các doanh nghiệp có thể triển khai ứng dụng AI quy mô lớn với chi phí hợp lý, đặc biệt trong các tác vụ như xử lý tài liệu dài, phân tích mã nguồn và tự động hóa quy trình. Thành công của DeepSeek V4 chứng minh khả năng phát triển mô hình AI đẳng cấp thế giới dựa trên nền tảng phần cứng nội địa, mở ra hướng đi bền vững cho ngành trí tuệ nhân tạo Trung Quốc giữa bối cảnh hạn chế công nghệ toàn cầu.

marsbit04/25 08:11

Giá trị thực sự của DeepSeek V4 không nằm ở tham số

marsbit04/25 08:11

88 ngày của Diêu Thuận Vũ

Bài báo kể về hành trình 88 ngày của Diêu Thuận Vũ (Yao Shunyu) tại Tencent, từ khi gia nhập đến khi ra mắt mô hình AI mới - Hỗn Nguyên Hy3 Preview. Sau khi Tencent nhận ra mô hình Hỗn Nguyên ban đầu thiếu khả năng tổng quát hóa và chậm trễ so với đối thủ, họ đã có những thay đổi lớn: bổ nhiệm Diêu Thuận Vũ (27 tuổi, cựu nhân viên OpenAI) làm nhà khoa học AI cấp cao, tái cấu trúc tổ chức, giải thể AI Lab cũ, và tập trung toàn lực phát triển mô hình mới. Hy3 Preview được đào tạo trong chưa đầy 3 tháng, với kiến trúc MoE, 295B tham số, hỗ trợ ngữ cảnh 256K. Khác với trước đây, mô hình này được đồng thiết kế (co-design) với các sản phẩm cốt lõi của Tencent như Nguyên Bảo, QQ, và WeChat, tập trung vào ứng dụng thực tế thay vì chỉ đứng đầu bảng xếp hạng. Bài báo nhấn mạnh rằng thay đổi quan trọng nhất không nằm ở công nghệ, mà ở việc Tencent dám "phá bỏ những bức tường" trong tổ chức, tích hợp AI vào toàn bộ hệ sinh thái của mình. Đây mới là yếu tố then chốt để cạnh tranh trong cuộc đua AI.

marsbit04/23 11:16

Mô hình lớn Trung Quốc: Lần này kịch bản khác

Mô hình ngôn ngữ lớn (LLM) của Trung Quốc đã tăng vọt về mức độ phổ biến trên toàn cầu, đặc biệt là trên nền tảng tổng hợp OpenRouter. Tính đến tháng 4/2026, 6 trong số 10 mô hình được gọi nhiều nhất là của Trung Quốc, dẫn đầu là MiMo-V2-Pro của Xiaomi. Sự tăng trưởng này bắt nguồn từ sự bùng nổ của các ứng dụng trí tuệ nhân tạo (AI Agent) như OpenClaw, làm gia tăng đáng kể nhu cầu xử lý token. Lợi thế về giá cả là yếu tố then chốt: các mô hình Trung Quốc có giá rẻ hơn đáng kể so với Mỹ, đôi khi chỉ bằng 1/10 đến 1/60 cho đầu ra token. Khi khối lượng công việc chuyển từ trò chuyện sang các tác vụ tự động hóa phức tạp, mức chênh lệch này trở thành yếu tố quyết định. Mặc dù vẫn có khoảng cách trong các tác vụ lập trình và suy luận phức tạp, khả năng của các mô hình Trung Quốc đã được cải thiện nhanh chóng. Sự tăng trưởng nhu cầu dẫn đến việc các nhà cung cấp như Zhipu, Alibaba, và Tencent tăng giá API, nhưng lượng gọi vẫn tiếp tục tăng mạnh. Các chuyên gia nhận định Trung Quốc đang dẫn đầu trong ứng dụng AI, nhưng vẫn cần cải thiện khả năng sáng tạo thuật toán gốc.

marsbit04/07 11:03

Mô hình lớn Trung Quốc: Lần này kịch bản khác

marsbit04/07 11:03

Google sắp công bố mô hình lớn mã nguồn mở Gemma 4: Số lượng tham số tăng gấp 4 lần

Trong bối cảnh thị trường mô hình lớn mã nguồn mở toàn cầu lâu nay bị chi phối bởi các công ty công nghệ Trung Quốc, Google sắp công bố mô hình Gemma 4 thế hệ mới với nhiều nâng cấp đáng chú ý. Thông tin được Giám đốc điều hành DeepMind Demis Hassabis ám chỉ thông qua biểu tượng "bốn viên kim cương". Gemma 4 dự kiến có quy mô tham số tăng gấp 4 lần, bao gồm một mô hình lớn 120B thử thách giới hạn chạy cục bộ. Mô hình này áp dụng kiến trúc MoE (hỗn hợp chuyên gia), chỉ kích hoạt 15B tham số, cho phép khả năng chạy offline trên card đồ họa dân dụng. Khả năng xử lý ngữ cảnh dự kiến tăng 1-2 lần, cùng kỹ năng suy luận logic và xử lý tác vụ phức tạp được cải thiện sâu. Về mặt chiến lược, Google duy trì lợi thế thương mại từ mô hình đóng trong khi vẫn kiểm soát ảnh hưởng trong cộng đồng mã nguồn mở. Gemma 4 tập trung vào trải nghiệm cục bộ hóa, tối ưu hiệu suất mô hình nhẹ để cạnh tranh trực tiếp với các mô hình nguồn mở Trung Quốc. Sự xuất hiện của Gemma 4 đẩy cao ngưỡng cạnh tranh, biến cuộc đua sang thời kỳ kết hợp cả tham số và hiệu suất.

marsbit04/02 06:47

Google sắp công bố mô hình lớn mã nguồn mở Gemma 4: Số lượng tham số tăng gấp 4 lần

marsbit04/02 06:47

# Bài viết Liên quan Phương Tiện Trao Đổi

NVIDIA MoE Mới Đã Mã Nguồn Mở: Một Dòng Import, Tăng Tốc Fine-Tune 3.7 Lần

Mất 10 năm, cuối cùng Sam Altman cũng có được người mà ông muốn

Chạy MoE trên điện thoại? Meta đề xuất MobileMoE, iPhone 16 Pro tăng tốc đến 3.8 lần

Con Đường Mười Nghìn Tỷ Đô La Của DeepSeek: Dùng Mã Nguồn Mở Để Bẩy Lên Hệ Sinh Thái Phần Cứng Trị Giá Nghìn Tỷ

Bản chất của Coding = Học tăng cường + Dữ liệu tổng hợp + Sức mạnh tính toán 10.000 GPU?

Bị giới hạn về năng lực tính toán, DeepSeek-V4 dựa vào đâu để mã nguồn mở?

Giá trị thực sự của DeepSeek V4 không nằm ở tham số

88 ngày của Diêu Thuận Vũ

Mô hình lớn Trung Quốc: Lần này kịch bản khác

Google sắp công bố mô hình lớn mã nguồn mở Gemma 4: Số lượng tham số tăng gấp 4 lần

Danh mục Phổ biến

Thẻ Nổi bật