Google Deep Think thống trị bảng xếp hạng Olympic 8 ngôn ngữ, tự động giải quyết 4 vấn đề chưa có lời giải, rào cản nghiên cứu sụp đổ

marsbitXuất bản vào 2026-04-08Cập nhật gần nhất vào 2026-04-08

Tóm tắt

Google DeepMind vừa công bố thành tích đột phá của AI Deep Think khi vượt qua 8 kỳ thi Olympic bằng 8 ngôn ngữ khác nhau, bao gồm Toán, Lập trình, Vật lý và Hóa học. Hệ thống này đạt điểm tối đa trong kỳ thi Toán học Nhật Bản (JMO) và ICPC châu Á, đồng thời đạt 86.3% ở Olympic Toán Trung Quốc. Deep Think cũng chứng minh khả năng nghiên cứu khoa học độc lập bằng cách giải quyết 4 vấn đề toán học chưa có lời giải và đóng góp vào các lĩnh vực như vật lý lý thuyết, kinh tế học. Mặc dù kết quả chưa được xác thực bởi bên thứ ba, thành tích đa ngôn ngữ này cho thấy tiềm năng phá vỡ rào cản ngôn ngữ trong nghiên cứu khoa học, giúp các nhà khoa học không dùng tiếng Anh tiếp cận công cụ AI tiên tiến. DeepMind định vị Deep Think như "bộ khuếch đại trí tuệ" toàn cầu, mở rộng khả năng tự động hóa tư duy phức tạp.

「Deep Think」đánh bại/sánh ngang đối thủ trong mọi cuộc thi!

Vừa qua, nhà nghiên cứu cấp cao Google DeepMind Conglong Li đã đăng 12 bài liên tiếp trên nền tảng X, công bố một bảng điểm chưa từng thấy.

Một AI, cùng một bộ não, tám đề thi ngôn ngữ khác nhau, tất cả đều nộp bài với điểm số cao.

Ở bất kỳ mô hình nào, thành tích như vậy thực sự hiếm thấy.

Từ huy chương vàng IMO đến phủ sóng giải khu vực

Việc Deep Think đạt điểm cao trên nhiều bảng xếp hạng lần này không phải là một sự bùng nổ đơn lẻ đột ngột, mà là một đường cong phát triển năng lực đã diễn ra gần một năm.

Đầu tiên là đứng đầu trên đấu trường suy luận khó nhất.

Tháng 7/2025, Gemini Deep Think lần đầu tiên đạt tiêu chuẩn huy chương vàng tại Olympic Toán học Quốc tế (IMO), đạt 35/42 điểm. Cùng kỳ cũng đạt thành tích cao tương tự tại chung kết thế giới ICPC.

Hai thành tích này đã được DeepMind chính thức công bố trên blog.

Google DeepMind sau đó đã đưa hai thành tích này vào blog chính thức, như một dấu mốc cho việc Deep Think vượt qua "ngưỡng thi đấu thế giới" về toán học và lập trình.

Tiếp theo, Deep Think bắt đầu chuyển từ "đột phá đơn lẻ đẳng cấp vô địch thế giới" sang "xác minh hệ thống đa ngôn ngữ, đa lĩnh vực, đa tình huống".

Tháng 2/2026, Google đã liên tiếp đăng ba blog.

Một bài giới thiệu mô hình chính Gemini 3.1 Pro, một bài giới thiệu bản nâng cấp lớn cho chế độ suy luận chuyên dụng Deep Think, và một bài từ nhóm khám phá khoa học DeepMind, trực tiếp định vị Deep Think là "công cụ khuếch đại trí tuệ con người".

Deep Think sau khi nâng cấp đã đưa ra một loạt chỉ tiêu cứng:

Humanity's Last Exam đạt 48.4% (không có trợ giúp công cụ), ARC-AGI-2 đạt 84.6% (được xác minh chính thức bởi Quỹ ARC Prize), điểm Elo lập trình thi đấu Codeforces là 3455, phần thi viết của Olympic Vật lý và Hóa học Quốc tế 2025 đạt trình độ huy chương vàng.

Lộ trình này rất rõ ràng: đầu tiên sử dụng các cuộc thi đẳng cấp thế giới như IMO, ICPC để chứng minh khả năng suy luận mạnh mẽ của nó, sau đó sử dụng thành tích đa ngôn ngữ, giải khu vực và Olympic đa lĩnh vực để chứng minh khả năng suy luận sâu tổng quát có thể di chuyển ổn định xuyên ngôn ngữ và lĩnh vực.

Sự phát triển năng lực của Gemini Deep Think từ huy chương vàng IMO đến tăng tốc nghiên cứu cấp Tiến sĩ

Xem xét chi tiết từng thành tích trong bảng điểm 8 ngôn ngữ

Bây giờ, hãy thực sự mở bảng điểm này ra xem.

Tiếng Nhật nổi bật nhất.

Kỳ thi chọn Olympic Toán học Nhật Bản lần thứ 35 năm 2025 (JMO Finals), điểm tuyệt đối.

Vòng sơ khảo ICPC châu Á tại Nhật Bản, điểm tuyệt đối.

Trong đó, thành tích tại JMO Finals thậm chí còn vượt quá mức 80% tương ứng với điểm cao nhất của kỳ thi đó, đạt tiêu chuẩn "tương đương huy chương vàng" theo thông báo chính thức.

Tiếng Pháp cũng đạt điểm tuyệt đối, 100%.

Tiếng Trung thì thú vị.

Tại Olympic Toán học Trung Quốc lần thứ 41 (CMO), Deep Think đạt 86.3%, rất xuất sắc. Nhưng tại Olympic Tin học Trung Quốc (NOI) chỉ đạt 63.3%.

Khoảng cách giữa 86.3% và 63.3% đã vẽ ra ranh giới thực sự của khả năng suy luận AI.

Trong các kỳ thi toán, mô hình đối mặt với suy diễn trừu tượng, xây dựng chứng minh và diễn dịch nhiều bước, đây chính xác là dải năng lực mà Deep Think giỏi nhất.

Nhưng đến các kỳ thi tin học, vấn đề không chỉ là "nghĩ thông suốt", mà còn bao gồm việc dịch logic thành mã thực thi, kiểm soát điều kiện biên, cân nhắc các ràng buộc độ phức tạp, và tránh sai sót ở cấp độ triển khai.

Cái trước gần hơn với suy luận thuần túy, cái sau yêu cầu đồng thời đạt chuẩn "suy luận + thiết kế thuật toán + triển khai kỹ thuật".

Ở các ngôn ngữ khác như Hàn Quốc, Hindi, Việt Nam, Nga, Bồ Đào Nha trong các kết quả thi tương ứng, Deep Think cũng đều đánh bại đối thủ hoặc ít nhất là ngang bằng.

Nếu gộp tiếng Nhật, tiếng Pháp, tiếng Trung lại để xem, điểm bất thường nhất lần này thực ra không phải là một môn đơn lẻ nào đó đạt điểm tuyệt đối, mà là cùng một mô hình, cùng một hệ thống suy luận Deep Think, trên đề thi của nhiều ngôn ngữ khác nhau, đều giao nộp thành tích thuộc nhóm dẫn đầu.

Bảng điểm này có đáng tin không?

Nhưng ở đây có một thiếu sót then chốt:

Conglong Li đã không liệt kê dữ liệu so sánh cụ thể của các đối thủ cạnh tranh: tất cả thành tích đều đến từ đánh giá nội bộ của Google. Không có xác minh độc lập của bên thứ ba, không có chứng nhận chính thức từ ban tổ chức cuộc thi, phương pháp đánh giá hoàn toàn không được công khai.

Mỗi bài tập được làm một lần hay làm nhiều lần lấy kết quả tốt nhất? Sử dụng bao nhiêu năng lực tính toán khi suy luận? Có can thiệp của kỹ thuật gợi ý nhân tạo không?

Những chi tiết này ảnh hưởng trực tiếp đến hàm lượng vàng của thành tích, cũng đều không được đề cập.

Một điểm dễ bị bỏ qua khác: tất cả các kỳ thi này đều là vòng chọn khu vực của các quốc gia, không phải chung kết quốc tế.

Giữa độ khó của đề thi khu vực và chung kết quốc tế, cách nhau một cấp độ.

Nhà nghiên cứu đã nói rõ, những thành tích này "sẽ được đưa vào thẻ mô hình (model card)", tính đến thời điểm phát hành, thẻ mô hình vẫn chưa được cập nhật chính thức.

Vì vậy, hiện tại đây dường như vẫn là một bảng điểm do thí sinh tự chấm điểm, tự công bố, chưa nộp cho phòng giáo vụ đóng dấu.

Tính công bằng nghiên cứu đa ngôn ngữ, chiến trường thực sự bị bỏ qua

Tại sao Google lại dành sức lực đặc biệt để đánh giá giải khu vực bằng 8 ngôn ngữ?

Việc đánh giá năng lực suy luận AI hiện tại, hầu như hoàn toàn dựa trên tiếng Anh.

MATH, GSM8K, HumanEval, ARC-AGI...... tất cả đều là tiếng Anh.

Các nhà toán học, vật lý học, kỹ sư trên toàn thế giới, chỉ cần tiếng mẹ đẻ không phải là tiếng Anh, khi sử dụng công cụ nghiên cứu AI đều phải vượt qua một rào cản ngôn ngữ.

8 ngôn ngữ Google chọn không phải ngẫu nhiên.

Tiếng Nhật, Hàn Quốc, Trung Quốc bao phủ trọng điểm nghiên cứu Đông Á, Hindi, Việt Nam bao phủ thị trường mới nổi, tiếng Pháp, Nga, Bồ Đào Nha bao phủ châu Âu và Nam Mỹ.

Cộng lại, đây là phần lớn sản lượng nghiên cứu toàn cầu.

DeepMind trong blog chính thức đã định vị Deep Think là "công cụ khuếch đại trí tuệ con người", nói rằng nó có thể "xử lý truy xuất kiến thức và xác minh nghiêm ngặt, để các nhà khoa học tập trung vào chiều sâu khái niệm và định hướng sáng tạo".

Kết hợp với thành tích đa ngôn ngữ lần này, hàm ý của câu nói này không khó hiểu: công cụ khuếch đại này, không chỉ dành cho các nhà khoa học nói tiếng Anh.

Đáng chú ý hơn là Deep Think đã đi được bao xa trong việc ứng dụng nghiên cứu.

DeepMind đã công bố một tác nhân nghiên cứu toán học tên là Aletheia, dựa trên Deep Think, có thể tự động tạo, xác minh, sửa đổi giải pháp cho các vấn đề toán học cấp nghiên cứu.

Aletheia được điều khiển bởi Deep Think, có khả năng tạo lặp, xác minh và sửa chữa đối với các vấn đề toán học cấp nghiên cứu

Aletheia đã tham gia tạo ra nhiều bài báo nghiên cứu, trong đó một bài hoàn toàn do AI tự chủ hoàn thành, tính toán hằng số cấu trúc cụ thể trong hình học số học.

Ngoài ra, trong đánh giá bán tự chủ 700 vấn đề toán học mở, nó còn tự giải quyết độc lập 4 vấn đề trước đó chưa có lời giải.

Chế độ Gemini Deep Think cũng thể hiện tiềm năng to lớn trong các lĩnh vực như khoa học máy tính, vật lý học, kinh tế học.

Trong lĩnh vực khoa học máy tính, Deep Think giúp lật đổ một giả thuyết tồn tại mười năm chưa giải quyết, trong lĩnh vực vật lý tìm ra nghiệm giải tích mới cho bức xạ hấp dẫn của dây vũ trụ, trong lĩnh vực kinh tế mở rộng một định lý lý thuyết đấu giá.

Sơ đồ quy trình suy luận AI, cho thấy việc khám phá không gian giải pháp quy mô lớn ở lớp mạng được tổng hợp thành suy luận có cấu trúc như thế nào, và được xác nhận thông qua xác minh tự động và nhân tạo.

Thông qua hợp tác với chuyên gia giải quyết 18 vấn đề nghiên cứu hóc búa, phiên bản nâng cao của Gemini Deep Think đã giúp đột phá các nút thắt cổ chai tồn tại lâu dài trong các lĩnh vực thuật toán, học máy và tối ưu hóa tổ hợp, lý thuyết thông tin và kinh tế học.

Điều này đã vượt xa phạm vi "giải bài tập thi".

Khi các đối thủ cạnh tranh vẫn còn xoay quanh bảng xếp hạng benchmark tiếng Anh, Google đã tìm thấy một chiến trường mới trong lĩnh vực "công cụ tăng tốc nghiên cứu AI".

Thứ quan trọng nhất của sự việc này thực ra không phải là điểm số, tín hiệu thực sự đằng sau nó là: rào cản ngôn ngữ của công cụ nghiên cứu AI đang được coi là một vấn đề kỹ thuật để giải quyết.

Nếu con đường này thành công, các nhà khoa học nghiên cứu bằng tiếng Nhật, Hàn Quốc, Trung Quốc, Hindi trên toàn thế giới, lần đầu tiên sẽ đứng trên cùng một vạch xuất phát với những người nói tiếng Anh bản ngữ.

Lần này, Google đã đặt bài lên bàn.

Còn đối thủ cạnh tranh nào sẽ theo bài, tin rằng chúng ta cũng sẽ sớm thấy.

Tài liệu tham khảo:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

Bài viết từ tài khoản WeChat công cộng "Tân Trí Nguyên" (新智元), tác giả: Tân Trí Nguyên

Câu hỏi Liên quan

QGoogle DeepMind đã công bố thành tích gì đáng chú ý của Deep Think trong các kỳ thi Olympic?

AGoogle DeepMind công bố Deep Think đạt điểm cao trong 8 ngôn ngữ khác nhau, bao gồm điểm tuyệt đối trong Olympic Toán học Nhật Bản (JMO Finals) và ICPC châu Á tại Nhật, cùng điểm số ấn tượng ở các kỳ thi Olympic Toán, Lý, Hóa, và lập trình.

QTại sao kết quả của Deep Think trong kỳ thi Olympic Tin học Trung Quốc (NOI) thấp hơn so với Olympic Toán học Trung Quốc (CMO)?

AKết quả NOI (63.3%) thấp hơn CMO (86.3%) do Olympic Tin học yêu cầu không chỉ suy luận mà còn cả thiết kế thuật toán, triển khai mã lệnh, kiểm soát điều kiện biên và tối ưu độ phức tạp, trong khi Toán học thiên về suy luận trừu tượng và chứng minh - lĩnh vực Deep Think mạnh hơn.

QDeep Think đã đạt được những đột phá nào trong nghiên cứu khoa học thực tế?

ADeep Think đã tự động giải quyết 4 vấn đề toán học chưa có lời giải trong 700 bài toán mở, giúp lật đỏ một giả thuyết tồn tại 10 năm trong khoa học máy tính, tìm ra lời giải giải tích mới cho bức xạ hấp dẫn của dây vũ trụ trong vật lý, và mở rộng một định lý lý thuyết đấu giá trong kinh tế.

QTại sao việc đánh giá Deep Think trên 8 ngôn ngữ lại quan trọng đối với cộng đồng nghiên cứu toàn cầu?

AĐánh giá đa ngôn ngữ (Nhật, Hàn, Trung, Hindi, Việt, Nga, Bồ Đào Nha, Pháp) giúp phá vỡ rào cản ngôn ngữ trong nghiên cứu, cho phép các nhà khoa học không dùng tiếng Anh tiếp cận công cụ AI công bằng, thúc đẩy hợp tác và sáng tạo toàn cầu mà không phụ thuộc vào ngôn ngữ mẹ đẻ.

QCó những hạn chế nào trong báo cáo thành tích của Deep Think do Conglong Li công bố?

ABáo cáo thiếu dữ liệu so sánh trực tiếp với đối thủ, không có xác nhận từ bên thứ ba hoặc ban tổ chức kỳ thi, phương pháp đánh giá (số lần thử, lượng tính toán, can thiệp kỹ thuật) không được tiết lộ, và tất cả kết quả dựa trên đánh giá nội bộ của Google, chưa được cập nhật chính thức trong model card.

Nội dung Liên quan

Ai muốn phòng ngừa rủi ro thì mua vàng/dầu, ai muốn tăng trưởng bùng nổ thì mua AI, Bitcoin “lỗi thời” bước vào thị trường gấu

Tác giả: Wall Street News Bitcoin tiếp tục giảm mạnh, có lúc chạm mức thấp nhất trong hai tháng là 66.123 USD. Nhiều lý do được đưa ra như dòng tiền ETF rút ra, căng thẳng địa chính trị, hay việc Strategy bán bớt cổ phần. Tuy nhiên, phân tích cho thấy những điều này chỉ là biểu hiện bề mặt. Vấn đề cốt lõi là Bitcoin đang thua trong một cuộc cạnh tranh tài sản. Thị trường đã thay đổi. Bitcoin hiện rơi vào một "vùng lưỡng nan" khó xử, bị tấn công từ ba phía: 1. **Vai trò phòng ngừa lạm phát:** Vàng đang chiến thắng. Các nhà đầu tư lo ngại lạm phát hiện nay ưa chuộng vàng, cổ phiếu năng lượng và các nhà sản xuất hàng hóa hơn là Bitcoin, vì chúng có tài sản hữu hình hỗ trợ và logic rõ ràng hơn. 2. **Vai trò tăng trưởng:** AI đang chiến thắng. Những nhà đầu tư muốn tăng trưởng cao có thể chọn các công ty AI có doanh thu và lợi nhuận thực tế. Bitcoin không tạo ra dòng tiền nên không có lợi thế trên sân chơi này. 3. **Vai trò trong lĩnh vực tiền mã hóa:** Stablecoin và cơ sở hạ tầng đang chiến thắng. Ngay cả các nhà đầu tư muốn tiếp xúc với tiền mã hóa cũng không nhất thiết phải mua Bitcoin. Họ có thể chọn các sàn giao dịch, stablecoin, mạng thanh toán - những tài sản có hiệu suất gắn trực tiếp với tỷ lệ ứng dụng thực tế của ngành. Tóm lại, Bitcoin không còn là tài sản phòng ngừa rủi ro tốt nhất, cũng không phải là tài sản tăng trưởng tốt nhất, và cũng không còn là tài sản mã hóa duy nhất. Một ví dụ rõ ràng: cảnh báo gần đây của Chủ tịch Fed Cleveland về rủi ro lạm phát dai dẳng trước đây có thể là tin tốt cho Bitcoin, nhưng lần này thị trường không phản ứng theo cách đó. Cách ứng phó với lạm phát của nhà đầu tư đã thay đổi. Việc ETF rút vốn và Strategy bán bớt cổ phần phản ánh một thực tế cơ bản: vốn giờ đây có nhiều nơi để đầu tư hơn, và các nhà đầu tư cũng đòi hỏi khắt khe hơn đối với Bitcoin. Họ muốn biết Bitcoin mang lại lợi nhuận gì và tại sao phải chọn nó thay vì các tài sản khác. Logic thị trường gấu mới cho Bitcoin không còn là "nó là lừa đảo" hay "công nghệ thất bại", mà là: bản thân tính khan hiếm giờ đây đã không còn đủ sức thuyết phục.

marsbit4 phút trước

Ai muốn phòng ngừa rủi ro thì mua vàng/dầu, ai muốn tăng trưởng bùng nổ thì mua AI, Bitcoin “lỗi thời” bước vào thị trường gấu

marsbit4 phút trước

SaaS Cuộc Đào Tẩu Sinh Tử: Những Người Chiến Thắng Sống Sót Có Một Điểm Chung

Bài viết phân tích tác động của AI đối với ngành SaaS, so sánh sự biến động cổ phiếu gần đây. Các công ty như Snowflake và Datadog tăng mạnh nhờ mô hình tính phí theo mức sử dụng (consumption-based), được AI thúc đẩy nhu cầu xử lý dữ liệu và giám sát. Ngược lại, những công ty dựa trên phí theo chỗ ngồi (per-seat) hoặc theo nhiệm vụ như Intuit và Adobe chịu áp lực khi AI có thể thay thế lao động thủ công. Bài viết phân loại các công ty SaaS thành bốn nhóm: nền tảng tiêu thụ (Snowflake, Datadog), lớp kênh phân phối/nền tảng (Microsoft, Palantir), công ty quy trình làm việc đang chuyển đổi (Salesforce, ServiceNow) và công ty chịu áp lực trực tiếp (Intuit, Workday). Salesforce, dù có doanh thu AI tăng trưởng, vẫn bị ảnh hưởng bởi mô hình cũ, cho thấy quá trình chuyển đổi sang tính phí theo giá trị cần thời gian. Các tín hiệu từ Microsoft Build 2026 cho thấy AI đang trở thành một phần của hệ điều hành và Microsoft đang giảm phụ thuộc vào OpenAI. Thị trường hiện đang trong giai đoạn phân biệt công ty nào được AI hỗ trợ và công ty nào bị ảnh hưởng. Cần theo dõi sự lan rộng của đợt phục hồi, tốc độ chuyển đổi của Salesforce và dữ liệu áp dụng Copilot doanh nghiệp sau sự kiện Build.

marsbit20 phút trước

SaaS Cuộc Đào Tẩu Sinh Tử: Những Người Chiến Thắng Sống Sót Có Một Điểm Chung

marsbit20 phút trước

DeepSeek Có Thể Giúp Trung Quốc Tiết Kiệm 1 Nghìn Tỷ Đô La Mỹ?

Vào nửa cuối năm 2026, Nvidia sẽ giao nền tảng AI mạnh nhất từ trước đến nay: Vera Rubin VR200 NVL72, với chi phí vật tư khoảng 7,8 triệu USD, trong đó bộ nhớ (HBM4 và LPDDR5X) chiếm tới 2 triệu USD. Bài viết phân tích cách DeepSeek, thông qua các công nghệ như nén bộ nhớ ngữ cảnh dài (MLA), mô hình hỗn hợp chuyên gia (MoE) và tái sử dụng bộ nhớ cache, có thể tăng hiệu suất xử lý token lên gấp 4 lần trên cùng phần cứng, giảm đáng kể sự phụ thuộc vào phần cứng đắt đỏ như GPU và HBM. Khi nhu cầu token AI của Trung Quốc dự kiến đạt hàng nghìn tỷ mỗi ngày, việc tăng hiệu quả này có khả năng tiết kiệm một lượng lớn đầu tư cơ sở hạ tầng. Ước tính, với mức tăng hiệu suất 4 lần, có thể tiết kiệm số tiền tương đương việc xây dựng ít đi hàng chục nghìn trung tâm điện toán AI, tổng giá trị lên tới khoảng 1 nghìn tỷ USD trong tương lai. Chiến lược của DeepSeek không phải là thay thế phần cứng tính toán mà là tối ưu hóa việc sử dụng nó, dịch chuyển giá trị sang các khâu như kiến trúc mô hình, hệ thống suy luận và quản lý bộ nhớ - những lĩnh vực mà chuỗi cung ứng trong nước có lợi thế hơn. Điều này làm giảm sự phụ thuộc vào các linh kiện công nghệ cao bị hạn chế và giúp phổ biến AI với chi phí thấp hơn cho các ngành công nghiệp Trung Quốc.

marsbit1 giờ trước

DeepSeek Có Thể Giúp Trung Quốc Tiết Kiệm 1 Nghìn Tỷ Đô La Mỹ?

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片