Phía sau bảng điểm AI, ẩn giấu một 'người ra đề' gốc Hoa

marsbitXuất bản vào 2026-06-20Cập nhật gần nhất vào 2026-06-20

Tóm tắt

Mỗi khi một mô hình AI tiên tiến ra mắt, giới công nghệ lại dõi theo những “bảng điểm” quen thuộc như MMLU-Pro, MMMU hay MMMU-Pro. Đây là các tiêu chuẩn đánh giá quan trọng giúp so sánh năng lực của các mô hình lớn như GPT, Claude hay Gemini. Tuy nhiên, ít người biết rằng đằng sau những bộ đề thi này là một nhà nghiên cứu người Hoa: Chen Wenhu (Trần Văn Hổ), trợ lý giáo sư tại Đại học Waterloo, Canada. Ông cùng phòng thí nghiệm TIGERLab (còn gọi là Hổ Đầu Bang) đã tạo ra MMLU-Pro vào năm 2024 để giải quyết vấn đề “mất chuẩn” của bộ đánh giá MMLU cũ, khi nhiều mô hình tiên tiến đạt điểm gần tuyệt đối, khó phân biệt được sự khác biệt thực sự. MMLU-Pro với hơn 12.000 câu hỏi, mở rộng lựa chọn và tăng cường các câu đòi hỏi suy luận, đã giúp kéo giãn khoảng cách điểm số và đánh giá ổn định hơn. Trước đó, nhóm của Chen Wenhu cũng phát triển MMMU - bộ đánh giá đa phương thức (multimodal) yêu cầu mô hình kết hợp hiểu biết hình ảnh, biểu đồ với kiến thức chuyên môn để trả lời câu hỏi. Ngay cả các mô hình mạnh nhất thời điểm đó như GPT-4V cũng chỉ đạt độ chính xác khoảng 56%. Phiên bản MMMU-Pro sau này được thiết kế để đảm bảo mô hình không thể “bỏ qua” thông tin hình ảnh mà chỉ dựa vào văn bản để đoán đáp án. Nghiên cứu của Chen Wenhu tập trung vào việc hiểu thông tin phức tạp, hỏi đáp tri thức và suy luận. Ông từng làm việc tại Google Research và DeepMind, tham gia vào dự án Gemini, trước khi gia nhập Đại học Waterloo và thành lập TIGERLab. Phòng thí nghiệm không chỉ tạo ra các bộ...

Mỗi khi một mô hình tiên phong được phát hành, giới AI lại chú ý đến vài bảng điểm quen thuộc.

MMLU-Pro, MMMU, MMMU-Pro... Những cái tên này có thể xa lạ với người dùng thông thường, nhưng với các công ty mô hình và nhà nghiên cứu, chúng gần như đã trở thành 'môn học tiêu chuẩn'. GPT, Claude, Gemini, Llama, Qwen, DeepSeek liên tục nộp bài trên các tiêu chuẩn này.

'Lừa hay ngựa, cứ dắt ra chạy là biết', mô hình thế nào, thường cũng phải dựa vào những điểm số này để chứng minh.

Nhiều biểu đồ so sánh hiệu năng trong các buổi ra mắt mô hình, không thể thiếu chúng; một số bảng xếp hạng trên HuggingFace cũng được xây dựng dựa trên các hệ thống đánh giá này. Thậm chí có thể nói, ngành công nghiệp AI ngày nay khi thảo luận về năng lực mô hình, đang sử dụng một ngôn ngữ chung được định nghĩa bởi những tiêu chuẩn này.

Nhưng điều thú vị là, hầu như mọi người đều tập trung vào điểm số, lại rất ít người biết người ra đề là ai. Và đằng sau MMLU-Pro, MMMU và MMMU-Pro, đều có thể thấy cùng một cái tên – Chen Wenhu (Trần Văn Hổ).

Ông là trợ lý giáo sư tại Khoa Khoa học Máy tính, Đại học Waterloo, Canada, trên Google Scholar, các bài báo của ông đã được trích dẫn hơn 30,000 lần.

Ông cũng là người sáng lập 'Phòng thí nghiệm Hổ (TIGERLab)', tên đầy đủ tiếng Anh của phòng thí nghiệm này là Text and Image GEnerative Research Lab, vì trong tên có chữ 'Hổ', Chen Wenhu đã đặt cho nó một cái tên tiếng Trung rất dễ nhận biết – Hổ đầu bang.

01 Sau khi đề thi cũ mất tác dụng

Chen Wenhu được nhiều người chú ý hơn trước tiên, là vì MMLU-Pro.

MMLU từng là một trong những tiêu chuẩn đánh giá phổ biến nhất để đánh giá năng lực của mô hình ngôn ngữ lớn. Nó giống như một bài kiểm tra tổng hợp, bao phủ nhiều môn học, dùng để đo lường biểu hiện của mô hình trong các nhiệm vụ hiểu biết và suy luận kiến thức.

Trong giai đoạn đầu, bài kiểm tra này rất hữu ích. Khoảng cách giữa các mô hình có thể được phân biệt bằng điểm số, ngành công nghiệp cũng có thể thông qua nó để quan sát xem các mô hình ngôn ngữ lớn có thực sự tiến bộ hay không.

Nhưng vấn đề nhanh chóng xuất hiện.

Khi năng lực mô hình ngày càng được nâng cao, MMLU dần trở nên 'không đủ khó để kiểm tra'. Điểm số của các mô hình tiên phong ngày càng cao, khoảng cách giữa chúng ngày càng nhỏ.

Đến khi OpenAI phát hành o3, vấn đề này càng trở nên rõ ràng. Độ chính xác của o3 trên MMLU đã gần đạt 100%, các mô hình tiên phong khác cũng lần lượt đạt điểm số gần như tuyệt đối.

Nghe thì có vẻ là một tin tốt, nhưng đối với việc đánh giá, điều này lại mang ý nghĩa rắc rối.

Một đề thi nếu ai cũng có thể đạt điểm gần tuyệt đối, sẽ rất khó để tiếp tục phán đoán ai mạnh hơn, mạnh ở điểm nào. Nó vẫn có thể chứng minh mô hình đã có một số năng lực nhất định, nhưng không còn phù hợp để đo lường những tiến bộ mới nữa.

Ngành công nghiệp AI cần một đề thi khó hơn, và cũng khó bị 'qua mặt' hơn.

Năm 2024, Chen Wenhu và nhóm của ông đã cho ra mắt MMLU-Pro.

MMLU-Pro tái thiết kế lại đề thi này, chứ không đơn giản là mở rộng ngân hàng câu hỏi.

Nó bao gồm 12032 câu hỏi, bao phủ 14 lĩnh vực như toán học, vật lý, hóa học, luật pháp, kỹ thuật, tâm lý học, sức khỏe... So với phiên bản MMLU gốc, nó mở rộng lựa chọn từ 4 lên 10, giảm xác suất mô hình đoán mò đúng; đồng thời thêm vào nhiều câu hỏi thiên về suy luận hơn, loại bỏ những câu hỏi tương đối đơn giản, có sự mơ hồ hoặc khả năng phân biệt không đủ trong ngân hàng câu hỏi gốc.

Hiệu quả rất trực tiếp.

Kết quả nghiên cứu cho thấy, độ chính xác của mô hình trên MMLU-Pro so với phiên bản MMLU gốc đã giảm từ 16% đến 33%. Khi cùng một mô hình được kiểm tra với 24 phong cách gợi ý khác nhau, sự dao động điểm số cũng giảm từ khoảng 4% đến 5% của MMLU gốc xuống còn khoảng 2%.

Tức là, đề thi mới này không chỉ khó hơn, mà còn ổn định hơn.

Nó khiến những mô hình vốn có vẻ xuất sắc trên đề thi cũ, một lần nữa bị kéo ra khoảng cách. Việc mô hình thực sự có khả năng suy luận, hay chỉ giỏi đối phó với đề cũ, vì thế cũng dễ dàng được nhận ra hơn.

02 Tiêu chuẩn đánh giá hiệu quả

MMLU-Pro nhanh chóng được ngành công nghiệp đem đi sử dụng.

MMLU-Pro sau đó đã tham gia vào hạng mục tập dữ liệu và đánh giá tiêu chuẩn của NeurIPS2024, cũng được tích hợp vào khung đánh giá mô hình ngôn ngữ lm-evaluation-harness của EleutherAI. Đối với cộng đồng mô hình mã nguồn mở, điều này có nghĩa nó không còn chỉ là một tập dữ liệu trong bài báo nghiên cứu, mà đã bước vào chuỗi công cụ đánh giá thông dụng.

Nhiều bản phát hành mô hình bắt đầu báo cáo điểm số MMLU-Pro. Một số bảng xếp hạng trên HuggingFace cũng đưa nó vào hệ thống đánh giá.

Nếu nói MMLU-Pro giải quyết vấn đề 'đề thi cũ mất tác dụng' trong đánh giá mô hình ngôn ngữ, thì MMMU đã đưa Chen Wenhu và TIGERLab vào trung tâm của việc đánh giá đa phương thức.

Vấn đề của mô hình đa phương thức còn phức tạp hơn.

Mô hình ngôn ngữ trả lời câu hỏi, chủ yếu xử lý văn bản. Mô hình đa phương thức thì phải đồng thời xử lý thông tin ở nhiều dạng khác nhau như hình ảnh, biểu đồ, sơ đồ minh họa, bản đồ, bảng biểu, bản nhạc, cấu trúc hóa học... Nó không chỉ cần hiểu đề bài, mà còn phải thực sự 'đọc' được nội dung trong hình ảnh, và đặt thông tin thị giác, thông tin văn bản cùng kiến thức chuyên ngành vào chung để suy luận.

Tiêu chuẩn đánh giá MMMU bao gồm 11.5 nghìn câu hỏi đa phương thức, xuất phát từ đề thi đại học, bài kiểm tra và giáo trình, bao phủ sáu lĩnh vực lớn: nghệ thuật và thiết kế, kinh doanh, khoa học, sức khỏe và y học, khoa học xã hội và nhân văn, công nghệ và kỹ thuật, được chia nhỏ thành 30 môn học và 183 lĩnh vực con.

Những câu hỏi này không đơn giản chỉ hỏi mô hình 'trong hình có gì', nó yêu cầu mô hình giống như học sinh làm bài chuyên ngành, kết hợp thông tin hình ảnh và kiến thức môn học.

Khi MMMU được phát hành, nhóm nghiên cứu đã thử nghiệm 14 mô hình đa phương thức mã nguồn mở, cùng với các mô hình nguồn đóng tiêu biểu như GPT-4V, GeminiUltra. Ngay cả những mô hình nguồn đóng mạnh nhất lúc đó, GPT-4V và GeminiUltra, cũng chỉ đạt độ chính xác lần lượt là 56% và 59%.

Những con số này cho thấy, mô hình đa phương thức có vẻ tiến bộ rất nhanh, nhưng đối với những vấn đề thực sự cần sự hiểu biết và suy luận chuyên môn, vẫn còn rất nhiều không gian để cải thiện.

Sau đó, nhóm của Chen Wenhu lại cho ra mắt MMMU-Pro, tiếp tục bịt kín các lỗ hổng mà mô hình có thể dùng để bỏ qua thông tin thị giác. Nó lọc bỏ những câu hỏi chỉ dùng mô hình văn bản cũng có thể trả lời được, mở rộng các lựa chọn, và đưa vào cài đặt vision-only, nhúng câu hỏi vào hình ảnh, yêu cầu mô hình đồng thời hoàn thành việc đọc thông tin thị giác và hiểu văn bản.

Nói đơn giản, là không cho phép mô hình 'chỉ đọc văn bản để đoán câu trả lời'.

Loại công việc này nghe có vẻ hơi tỉ mỉ, nhưng chúng lại rất quan trọng. Bởi vì mô hình đa phương thức trong tương lai sẽ bước vào các lĩnh vực như y tế, giáo dục, nghiên cứu, thiết kế, kỹ thuật..., chỉ có khả năng mô tả hình ảnh là không đủ. Nó phải có khả năng phán đoán, suy luận, giải thích, và cũng phải có khả năng tìm ra phần thông tin thực sự hữu ích trong những thông tin thị giác phức tạp.

03 Con người đằng sau 'đề thi'

Việc Chen Wenhu sau này làm MMLU-Pro và MMMU, bắt nguồn từ hướng nghiên cứu mà ông luôn theo đuổi.

Mối quan tâm nghiên cứu của ông vốn dĩ đã liên quan đến việc hiểu thông tin phức tạp, hỏi đáp kiến thức và suy luận.

Ông tốt nghiệp cử nhân tại Đại học Khoa học và Công nghệ Hoa Trung, sau đó đến Đại học RWTH Aachen (Đức) để học thạc sĩ, rồi đến Đại học California, Santa Barbara để lấy bằng tiến sĩ khoa học máy tính. Trong thời gian học tiến sĩ, ông đã bắt đầu nghiên cứu xoay quanh các hướng như hỏi đáp phức tạp, suy luận bảng biểu, định vị bằng chứng kiến thức.

Loại nhiệm vụ này có một điểm chung: câu trả lời thường không nằm trong một văn bản đơn lẻ.

Nó có thể ẩn trong một bảng biểu, cũng có thể cần kết hợp giữa một đoạn văn bản và một bức hình, hoặc có thể yêu cầu mô hình phải truy xuất thông tin trước, sau đó tổng hợp, tính toán và suy luận. Mô hình không thể chỉ biết lặp lại kiến thức có sẵn.

Các dự án mà Chen Wenhu đã tham gia như HybridQA, TabFact, ProgramofThoughts, MAmmoTH, đều liên quan đến hướng nghiên cứu này.

Điều này cũng giải thích vì sao ông lại nhạy cảm với các lỗ hổng trong việc đánh giá mô hình.

Một tiêu chuẩn đánh giá tốt không phải là đơn giản làm cho câu hỏi ngày càng khó, mà phải dự đoán được nơi mô hình dễ 'đoán trúng đề', 'có vẻ như biết' nhất.

Mô hình có thể đã ghi nhớ ngân hàng câu hỏi, cũng có thể dựa vào các lựa chọn để đoán câu trả lời, hoặc dùng văn bản để bỏ qua thông tin thị giác... Việc đánh giá tốt phải bịt kín được những lỗ hổng này.

Sau khi nhận bằng tiến sĩ, Chen Wenhu gia nhập Google Research, sau đó từ năm 2021 đến năm 2025 tham gia vào công việc liên quan đến mô hình đa phương thức Gemini và đánh giá tại Google DeepMind. Giai đoạn này cũng rất quan trọng. Tiếp xúc lâu dài với việc nghiên cứu và phát triển mô hình tiên phong, giúp ông hiểu rõ hơn năng lực mô hình phát triển như thế nào, cũng dễ dàng nhìn thấy những sai lệch và điểm mù có thể tồn tại trong việc đánh giá.

Mùa thu năm 2022, Chen Wenhu gia nhập Khoa Khoa học Máy tính, Đại học Waterloo, giữ chức trợ lý giáo sư. Cùng năm, ông được chọn vào Canada CIFAR AI Chair. Sau đó, ông thành lập 'Phòng thí nghiệm Hổ (tức Hổ đầu bang)', tiếp tục nghiên cứu xoay quanh mô hình nền tảng, năng lực đa phương thức và tiêu chuẩn đánh giá.

Hổ đầu bang không chỉ làm tiêu chuẩn đánh giá, mà còn làm nghiên cứu mô hình và hệ thống.

Trong hướng video, UniVideo cố gắng đặt việc hiểu, tạo và chỉnh sửa video vào cùng một khuôn khổ, để mô hình không chỉ tạo ra một đoạn hình ảnh, mà còn có thể hiểu nội dung, phản hồi hướng dẫn và hoàn thành chỉnh sửa. Vamba nhắm vào việc hiểu video dài, giải quyết vấn đề bộ nhớ, tính toán và hiệu quả huấn luyện do video có độ dài cấp giờ gây ra. MoCha, hợp tác với nhóm AI tạo sinh (Generative AI) của Meta, lại tập trung vào việc tạo nhân vật ảo biết nói, thông qua mô tả bằng giọng nói và văn bản để tạo video nhân vật chất lượng cao.

Một người ra đề chưa bao giờ tự mình làm bài, thì không thể ra đề hay được. Việc tự mình tham gia tạo mô hình, ngược lại cũng khiến họ phù hợp hơn để làm công việc đánh giá.

Bởi vì việc đánh giá thực sự tốt, thường xuất phát từ sự hiểu biết về giới hạn năng lực của mô hình. Chỉ khi biết mô hình được tạo ra như thế nào, biết nó sẽ gặp vấn đề gì trong nhiệm vụ thực tế, mới dễ dàng thiết kế ra những câu hỏi có thể đo được khoảng cách, và cũng có thể phơi bày vấn đề.

Hiện nay, Chen Wenhu đã gia nhập Phòng thí nghiệm Siêu trí tuệ (Super Intelligent Lab) của Meta, công việc tiếp tục tập trung vào dữ liệu và đánh giá tiền huấn luyện đa phương thức, và phục vụ cho các mô hình nền tảng của Meta.

Ngành công nghiệp AI không thiếu những người được nhìn thấy. Trong ngành AI, ánh đèn sân khấu thường rọi vào những nhà khởi nghiệp, nhà nghiên cứu nổi tiếng và người đứng đầu các công ty mô hình lớn. Việc ra mắt sản phẩm mới, tin tức gọi vốn, mô hình mã nguồn mở và điều chỉnh đội ngũ, thường dễ thu hút sự chú ý từ bên ngoài nhất, cũng khiến những cái tên này dễ bước vào tầm mắt công chúng hơn.

Nhưng lĩnh vực AI ngày nay, sự tham gia của nhân tài gốc Hoa đã vượt xa những vị trí nổi bật nhất này.

Bài viết từ tài khoản công chúng WeChat 'Zimu AI', tác giả: Jin Ya Xiao

Tiền kỹ thuật số thịnh hành

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

Câu hỏi Liên quan

QAi là người được cho là 'người ra đề' đằng sau các bảng điểm AI phổ biến như MMLU-Pro, MMMU và MMMU-Pro?

AĐó là Giáo sư Trần Văn Hổ (Chen Wenhu), trợ lý giáo sư tại Khoa Khoa học Máy tính, Đại học Waterloo, Canada, và là người sáng lập Phòng thí nghiệm TIGER (hay còn gọi là Hổ Đầu Bang).

QTại sao MMLU-Pro được tạo ra để thay thế cho MMLU?

AMMLU-Pro được tạo ra vì các mô hình AI tiên tiến (như o3 của OpenAI) đã đạt điểm gần như tuyệt đối trên bộ đánh giá MMLU cũ, khiến nó không còn khả năng phân biệt sự khác biệt về năng lực giữa các mô hình. MMLU-Pro khó hơn, ổn định hơn, với nhiều lựa chọn hơn và các câu hỏi tập trung vào suy luận, giúp đánh giá chính xác hơn.

QMMMU đánh giá khả năng nào của mô hình AI?

AMMMU (Massive Multi-discipline Multi-modal Understanding) là bộ tiêu chuẩn đánh giá khả năng đa phương thức (multimodal) của mô hình AI. Nó kiểm tra khả năng hiểu và suy luận kết hợp thông tin từ cả văn bản và các dạng hình ảnh phức tạp như biểu đồ, sơ đồ, bảng, bản nhạc, cấu trúc hóa học trong bối cảnh của nhiều lĩnh vực học thuật khác nhau.

QPhòng thí nghiệm của Giáo sư Trần Văn Hổ (TIGER Lab) còn nghiên cứu những lĩnh vực nào khác ngoài việc tạo ra các bài đánh giá?

ANgoài việc tạo ra các bộ đánh giá, TIGER Lab (Hổ Đầu Bang) còn nghiên cứu phát triển các mô hình và hệ thống AI, đặc biệt trong lĩnh vực video, chẳng hạn như: UniVideo (hiểu, tạo và chỉnh sửa video), Vamba (hiểu video dài) và MoCha (tạo video nhân vật ảo nói chuyện).

QKinh nghiệm làm việc nào đã giúp Giáo sư Trần Văn Hổ thiết kế ra những bài đánh giá hiệu quả?

AKinh nghiệm nghiên cứu về hỏi đáp phức tạp và suy luận đa nguồn thông tin từ thời tiến sĩ, cùng với kinh nghiệm thực tế khi làm việc tại Google Research và Google DeepMind (tham gia vào dự án mô hình đa phương thức Gemini và công việc đánh giá), đã giúp ông hiểu rõ cách mô hình phát triển và các lỗ hổng trong đánh giá. Hiện tại, ông tiếp tục công việc này tại Phòng thí nghiệm Siêu Trí tuệ của Meta.

Nội dung Liên quan

Báo cáo Ethereum Q1 2026: Phí giảm, người dùng và khối lượng giao dịch lập kỷ lục mới

Báo cáo Q1/2026 của Ethereum cho thấy một xu hướng đối lập: lượng người dùng, số giao dịch và thông lượng mạng lưới đều đạt mức cao kỷ lục, trong khi phí giao dịch, tổng giá trị bị khóa (TVL), khối lượng giao dịch và vốn hóa pha loãng hoàn toàn (FDV) của ETH lại giảm. Hiện tượng này được giải thích là "Nghịch lý Jevons": việc giảm chi phí sử dụng mạng lưới sau đợt nâng cấp Fusaka đã giải phóng nhu cầu, thúc đẩy tăng trưởng quy mô. Báo cáo nhấn mạnh sự chuyển dịch trong định vị cốt lõi của Ethereum từ một blockchain DeFi sang một tầng thanh toán tài chính toàn cầu. Ethereum tiếp tục thống trị thị trường tài sản được mã hóa, chiếm phần lớn thị phần trong các lĩnh vực stablecoin (61,8%), quỹ được mã hóa (73%), hàng hóa được mã hóa (84%) và cổ phiếu được mã hóa. Sự tham gia của các tổ chức lớn như BlackRock, JPMorgan và Fidelity đang đẩy nhanh quá trình "thể chế lên chuỗi". Mặc dù phí giao dịch tầng cơ sở giảm mạnh (-47,9%), đây được xem là một sự đánh đổi có chủ đích để đổi lấy tăng trưởng mạng lưới dài hạn. Chiến lược này nhằm củng cố vị thế là nền tảng định sẵn cho việc thanh toán và quyết toán các tài sản tài chính ngày càng được mã hóa, từ đó tạo ra giá trị cơ bản cho ETH thông qua nhu cầu sử dụng mạng lưới.

marsbit29 phút trước

Báo cáo Ethereum Q1 2026: Phí giảm, người dùng và khối lượng giao dịch lập kỷ lục mới

marsbit29 phút trước

CEO Intel Anrrit Patel lần đầu phỏng vấn podcast: Mục tiêu của chúng tôi là '10 lần trong 5-10 năm', đặt cược vào đóng gói tiên tiến, bản nền bằng kính và kim cương nhân tạo

Giám đốc điều hành Intel, Lip-Bu Tan, đặt mục tiêu tạo ra lợi nhuận gấp 10 lần trong 5-10 năm. Chiến lược tập trung vào ba lĩnh vực then chốt: đóng gói tiên tiến (như công nghệ EMIB), vật liệu bán dẫn mới (GaN, SiC, InP, kim cương nhân tạo) và công nghệ nền tảng thế hệ tiếp theo (như nền thủy tinh). Ông nhấn mạnh nhu cầu CPU mạnh mẽ từ AI thông minh và suy luận, đồng thời cam kết xây dựng lại doanh nghiệp sản xuất của Intel với trọng tâm là tỷ lệ phần trăm hoàn hảo, độ tin cậy và thời gian chu kỳ để giành lấy niềm tin của khách hàng. Tan cũng tiết lộ hợp tác Terafab với Elon Musk để giải quyết tình trạng thiếu hụt cơ sở hạ tầng bán dẫn. Ông xem giai đoạn hiện tại là "bò" và dự đoán tiềm năng thực sự của Intel, vượt ra ngoài PC để đến với điện toán biên và AI vật lý, sẽ được công nhận đầy đủ sau năm 2030.

marsbit31 phút trước

CEO Intel Anrrit Patel lần đầu phỏng vấn podcast: Mục tiêu của chúng tôi là '10 lần trong 5-10 năm', đặt cược vào đóng gói tiên tiến, bản nền bằng kính và kim cương nhân tạo

marsbit31 phút trước

Anh ấy vừa gọi được 2,7 tỷ USD, Lý Phi Phi cũng rót tiền đầu tư

"Generalist AI", công ty khởi nghiệp trí tuệ thể hiện (embodied AI) do Pete Florence - cựu nhà khoa học nghiên cứu cốt cán của Google DeepMind và là một trong những người đặt nền móng cho kiến trúc mô hình VLA (Vision-Language-Action) - sáng lập, vừa huy động thành công 4 tỷ USD (tương đương 27 tỷ RMB) ở vòng gọi vốn mới, định giá 20 tỷ USD. Vòng đầu tư có sự tham gia của các tổ chức và cá nhân uy tín như NVentures (từ NVIDIA), NFDG, Bezos Expeditions, đồng sáng lập Xiaomi Lin Bin, người sáng lập Zoom Eric Yuan, và nhà khoa học nổi tiếng Fei-Fei Li. Mặc dù được coi là người tiên phong trong lĩnh vực "mô hình thế giới" (world model), Florence lại công khai phản đối việc dán nhãn này cho công ty mình. Triết lý của ông, chịu ảnh hưởng từ người thầy Russ Tedrake tại MIT, là ưu tiên "mục tiêu" cụ thể hơn các "nhãn" công nghệ chung chung. Mục tiêu tối thượng của Generalist AI là tạo ra những robot đa năng có thể thực hiện với độ tin cậy cực cao nhiều nhiệm vụ chưa từng thấy mà không cần dữ liệu huấn luyện riêng cho từng tác vụ. Để hiện thực hóa điều này, Generalist AI đã lần lượt ra mắt các mô hình GEN-0 và GEN-1. GEN-1, được công bố vào tháng 4/2026, được huấn luyện trên hơn 50 nghìn giờ dữ liệu tương tác vật lý thu thập qua một thiết bị đeo tay đặc biệt. Theo công ty, mô hình này đạt tỷ lệ thành công 99% trong một số nhiệm vụ thao tác lặp lại và tinh vi (như gấp hộp, đóng gói), với tốc độ nhanh gấp ba lần GEN-0 và chỉ cần khoảng một giờ để thích ứng với tác vụ mới. Thành tựu này chứng minh lộ trình phát triển rõ ràng của công ty và là lý do chính thu hút được sự ủng hộ mạnh mẽ từ các nhà đầu tư hàng đầu, đưa Generalist AI trở thành một trong những công ty được kỳ vọng nhất trong lĩnh vực robot và trí tuệ thể hiện.

marsbit37 phút trước

Anh ấy vừa gọi được 2,7 tỷ USD, Lý Phi Phi cũng rót tiền đầu tư

marsbit37 phút trước

Mất hai huyền thoại trong ba ngày: Con đập nhân tài AI của Google đang vỡ?

Chỉ trong ba ngày, Google đã chứng kiến hai huyền thoại AI rời đi: Noam Shazeer (đồng tác giả Transformer, lãnh đạo Gemini) gia nhập OpenAI, và John Jumper (người đoạt giải Nobel Hóa học 2024, lãnh đạo AlphaFold) chuyển sang Anthropic. Đây không phải là trường hợp cá biệt mà là một xu hướng rõ ràng, bổ sung cho việc cựu thành viên sáng lập OpenAI Andrej Karpathy gia nhập Anthropic trước đó. Các tài năng AI hàng đầu đang tập trung ngày càng nhiều vào OpenAI và Anthropic, khiến Google trở thành nguồn cung cấp chính trong cuộc tái cấu trúc nhân tài này. Sự dịch chuyển này bắt nguồn từ sự khác biệt cốt lõi về sứ mệnh. Google, với doanh thu chính phụ thuộc vào quảng cáo, thường đặt các dự án AI trong khuôn khổ phục vụ mục tiêu sản phẩm và lợi nhuận. Ngược lại, OpenAI (với sứ mệnh AGI) và Anthropic (tập trung vào AI an toàn) cho phép các nhà nghiên cứu tập trung hoàn toàn vào việc đẩy xa giới hạn năng lực mô hình. Ngoài ra, cơ hội thu lợi nhuận lớn từ cổ phiếu trước thềm IPO của hai công ty này là động lực hấp dẫn mà Google - một gã khổng lồ trưởng thành - khó có thể sánh được. Việc sáp nhập Google Brain và DeepMind vào năm 2023 cũng tạo ra những lực ly tâm mới, làm xói mòn văn hóa nghiên cứu dài hạn dưới áp lực phải phù hợp với lộ trình sản phẩm. Sự ra đi của các nhân vật then chốt như Jumper và Shazeer phản ánh điều này. Cuộc khủng hoảng nhân tài này mang tính cấu trúc. Google có thể sở hữu cơ sở hạ tầng máy tính khổng lồ và kho dữ liệu đồ sộ, nhưng việc thiếu những bộ óc xuất sắc nhất để khai thác chúng khiến lợi thế đó trở nên vô nghĩa. Trong khi OpenAI và Anthropic củng cố vị thế với đội ngũ tinh nhuệ ngày càng mạnh, Google đang mất dần hào quang là trung tâm hấp dẫn nhân tài AI toàn cầu. Trong cuộc đua mà mật độ tài năng quyết định năng lực mô hình và thị phần, đây là một thách thức tồn vong thầm lặng nhưng nghiêm trọng của Google.

marsbit2 giờ trước

Mất hai huyền thoại trong ba ngày: Con đập nhân tài AI của Google đang vỡ?

marsbit2 giờ trước

Thư gửi các nhà sáng lập từ Alliance: Viết vào thời điểm Cursor được bán với giá 600 tỷ USD

Ngồi trước máy tính, bạn nảy ra ý tưởng khởi nghiệp. Bạn thấy Cursor được bán với giá 600 tỷ USD cho Elon Musk. Bạn tự hỏi: Tại sao mình không thể làm được điều tương tự? Hầu hết các nhà sáng lập đều bắt đầu từ đây, nhưng cũng chính tại đây, họ thường bị mắc kẹt. Họ nhìn thấy AI, tiền điện tử, hàng nghìn công ty khởi nghiệp đã được tài trợ và kết luận: Cơ hội đã cạn kiệt. Họ từ bỏ. Đây là lý do nhiều ý tưởng thất bại - không phải do năng lực, mà do họ nghĩ trò chơi đã kết thúc. Hãy nhìn Cursor. Năm 2022, trước cả ChatGPT, họ bắt đầu với niềm tin rằng AI sẽ thay đổi công việc tri thức. Họ tập trung vào ba điều: lĩnh vực họ đam mê (AI), trở thành khách hàng của chính sản phẩm, và tập trung không lay chuyển vào người dùng nặng. Đây không phải là câu chuyện duy nhất. Stripe, Figma, Shopify đều đi theo mô hình tương tự: bắt đầu với một niềm tin phi đồng thuận về tương lai, kiên trì xây dựng nhiều năm trước khi tương lai đó trở nên hiển nhiên với tất cả. Câu hỏi quan trọng: Bạn đang ở giai đoạn nào của chu kỳ công nghệ? Nếu tham gia sớm như Coinbase hay Cursor, cơ hội nằm ở việc làm cho công nghệ mới trở nên khả dụng cho người dùng nặng. Nếu tham gia ở giai đoạn sau, cơ hội thường là tìm ra "mặt âm" - điểm mù mà thế hệ đầu tiên bỏ sót, giống như Stripe so với PayPal hay Shopify so với Amazon. Vậy bạn làm gì khi chưa có sự hiểu biết sâu sắc? Hãy đắm mình vào thị trường. Dùng mọi sản phẩm trong lĩnh vực. Trở thành người dùng nặng. Nói chuyện với khách hàng. Khi làm điều này đủ lâu, bạn sẽ ngừng tìm kiếm ý tưởng và bắt đầu nhận thấy chúng ở khắp mọi nơi. Khi có ý tưởng, hãy tự hỏi: Đây có phải là cải tiến gấp mười lần hoặc một "cơn đau nhức nhối" cần giải quyết ngay lập tức? Nếu không, đừng phí công. Mọi người chỉ chuyển đổi khi thứ gì đó tốt hơn rất nhiều hoặc nỗi đau đủ lớn. Khi xây dựng MVP, hãy tập trung vào câu hỏi cốt lõi: Tại sao ai đó từ bỏ công cụ hiện tại để dùng sản phẩm của bạn? Các công ty khởi nghiệp vĩ đại hiếm khi bắt người dùng học hành vi mới. Họ tìm cách cải thiện đáng kể quy trình quen thuộc. Chuyển đổi càng ít ma sát, giá trị tạo ra càng cao, thì tốc độ áp dụng càng nhanh. Đừng đánh giá thấp kênh phân phối. Kênh phân phối thường là hào rào cạnh tranh. Trước khi đạt được Sự Phù Hợp Sản Phẩm-Thị Trường (PMF), bạn cần Sự Phù Hợp Kênh Phân Phối-Thị Trường. Các nhà sáng lập giỏi không chỉ xây sản phẩm, họ xây dựng cỗ máy phân phối. Cuối cùng là sự kiên cường, khả năng thích ứng và không bao giờ bỏ cuộc. Không ai có thể dạy bạn điều này. Nó chỉ đến từ trải nghiệm. Cursor, Airbnb, Nvidia, Rain - tất cả đều trải qua những giai đoạn khó khăn tưởng chừng như vô vọng. Bài học không phải là họ thông minh hơn, mà là họ kiên trì đủ lâu để sự hiểu biết của họ sinh lãi kép. Vậy, hãy tìm kiếm sự chuyển đổi chu kỳ công nghệ. Nuôi dưỡng những hiểu biết độc đáo. Ám ảnh với thị trường của bạn. Nói chuyện với khách hàng. Tìm ra những cơn đau nhức nhối. Tạo điểm tiếp cận đơn giản nhất có thể. Chinh phục kênh phân phối của riêng bạn. Và quan trọng nhất, đừng bao giờ bỏ cuộc khi mọi thứ trở nên khó khăn. Không có bí mật nào cả. Hầu hết mọi người không thể làm những điều này một cách nhất quán và lâu dài. Một số ít những người làm được, cuối cùng sẽ xây dựng nên những công ty vĩ đại mà thế hệ nhà sáng lập tiếp theo sẽ nghiên cứu. Thế giới là của bạn. Hãy ra ngoài và sáng tạo.

marsbit2 giờ trước

Thư gửi các nhà sáng lập từ Alliance: Viết vào thời điểm Cursor được bán với giá 600 tỷ USD

marsbit2 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua EDGE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua edgeX (EDGE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua edgeX (EDGE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ edgeX (EDGE) của BạnSau khi mua edgeX (EDGE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch edgeX (EDGE)Giao dịch edgeX (EDGE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 716Xuất bản vào 2026.03.31Cập nhật vào 2026.06.02

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của EDGE (EDGE) được trình bày dưới đây.

Danh mục Phổ biến

Phân tích Thị trường4,314 tin tức

Phía sau bảng điểm AI, ẩn giấu một 'người ra đề' gốc Hoa

Tóm tắt

01

Sau khi đề thi cũ mất tác dụng

02

Tiêu chuẩn đánh giá hiệu quả

03

Con người đằng sau 'đề thi'

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

Nội dung Liên quan

Báo cáo Ethereum Q1 2026: Phí giảm, người dùng và khối lượng giao dịch lập kỷ lục mới

CEO Intel Anrrit Patel lần đầu phỏng vấn podcast: Mục tiêu của chúng tôi là '10 lần trong 5-10 năm', đặt cược vào đóng gói tiên tiến, bản nền bằng kính và kim cương nhân tạo

Anh ấy vừa gọi được 2,7 tỷ USD, Lý Phi Phi cũng rót tiền đầu tư

Mất hai huyền thoại trong ba ngày: Con đập nhân tài AI của Google đang vỡ?

Thư gửi các nhà sáng lập từ Alliance: Viết vào thời điểm Cursor được bán với giá 600 tỷ USD

Giao dịch

Bài viết Nổi bật

Làm thế nào để Mua EDGE

Thảo luận

Danh mục Phổ biến

Thẻ Nổi bật