Google Deep Think thống trị bảng xếp hạng Olympic 8 ngôn ngữ, tự động giải quyết 4 vấn đề chưa có lời giải, rào cản nghiên cứu sụp đổ

marsbitXuất bản vào 2026-04-08Cập nhật gần nhất vào 2026-04-08

Tóm tắt

Google DeepMind vừa công bố thành tích đột phá của AI Deep Think khi vượt qua 8 kỳ thi Olympic bằng 8 ngôn ngữ khác nhau, bao gồm Toán, Lập trình, Vật lý và Hóa học. Hệ thống này đạt điểm tối đa trong kỳ thi Toán học Nhật Bản (JMO) và ICPC châu Á, đồng thời đạt 86.3% ở Olympic Toán Trung Quốc. Deep Think cũng chứng minh khả năng nghiên cứu khoa học độc lập bằng cách giải quyết 4 vấn đề toán học chưa có lời giải và đóng góp vào các lĩnh vực như vật lý lý thuyết, kinh tế học. Mặc dù kết quả chưa được xác thực bởi bên thứ ba, thành tích đa ngôn ngữ này cho thấy tiềm năng phá vỡ rào cản ngôn ngữ trong nghiên cứu khoa học, giúp các nhà khoa học không dùng tiếng Anh tiếp cận công cụ AI tiên tiến. DeepMind định vị Deep Think như "bộ khuếch đại trí tuệ" toàn cầu, mở rộng khả năng tự động hóa tư duy phức tạp.

「Deep Think」đánh bại/sánh ngang đối thủ trong mọi cuộc thi!

Vừa qua, nhà nghiên cứu cấp cao Google DeepMind Conglong Li đã đăng 12 bài liên tiếp trên nền tảng X, công bố một bảng điểm chưa từng thấy.

Một AI, cùng một bộ não, tám đề thi ngôn ngữ khác nhau, tất cả đều nộp bài với điểm số cao.

Ở bất kỳ mô hình nào, thành tích như vậy thực sự hiếm thấy.

Từ huy chương vàng IMO đến phủ sóng giải khu vực

Việc Deep Think đạt điểm cao trên nhiều bảng xếp hạng lần này không phải là một sự bùng nổ đơn lẻ đột ngột, mà là một đường cong phát triển năng lực đã diễn ra gần một năm.

Đầu tiên là đứng đầu trên đấu trường suy luận khó nhất.

Tháng 7/2025, Gemini Deep Think lần đầu tiên đạt tiêu chuẩn huy chương vàng tại Olympic Toán học Quốc tế (IMO), đạt 35/42 điểm. Cùng kỳ cũng đạt thành tích cao tương tự tại chung kết thế giới ICPC.

Hai thành tích này đã được DeepMind chính thức công bố trên blog.

Google DeepMind sau đó đã đưa hai thành tích này vào blog chính thức, như một dấu mốc cho việc Deep Think vượt qua "ngưỡng thi đấu thế giới" về toán học và lập trình.

Tiếp theo, Deep Think bắt đầu chuyển từ "đột phá đơn lẻ đẳng cấp vô địch thế giới" sang "xác minh hệ thống đa ngôn ngữ, đa lĩnh vực, đa tình huống".

Tháng 2/2026, Google đã liên tiếp đăng ba blog.

Một bài giới thiệu mô hình chính Gemini 3.1 Pro, một bài giới thiệu bản nâng cấp lớn cho chế độ suy luận chuyên dụng Deep Think, và một bài từ nhóm khám phá khoa học DeepMind, trực tiếp định vị Deep Think là "công cụ khuếch đại trí tuệ con người".

Deep Think sau khi nâng cấp đã đưa ra một loạt chỉ tiêu cứng:

Humanity's Last Exam đạt 48.4% (không có trợ giúp công cụ), ARC-AGI-2 đạt 84.6% (được xác minh chính thức bởi Quỹ ARC Prize), điểm Elo lập trình thi đấu Codeforces là 3455, phần thi viết của Olympic Vật lý và Hóa học Quốc tế 2025 đạt trình độ huy chương vàng.

Lộ trình này rất rõ ràng: đầu tiên sử dụng các cuộc thi đẳng cấp thế giới như IMO, ICPC để chứng minh khả năng suy luận mạnh mẽ của nó, sau đó sử dụng thành tích đa ngôn ngữ, giải khu vực và Olympic đa lĩnh vực để chứng minh khả năng suy luận sâu tổng quát có thể di chuyển ổn định xuyên ngôn ngữ và lĩnh vực.

Sự phát triển năng lực của Gemini Deep Think từ huy chương vàng IMO đến tăng tốc nghiên cứu cấp Tiến sĩ

Xem xét chi tiết từng thành tích trong bảng điểm 8 ngôn ngữ

Bây giờ, hãy thực sự mở bảng điểm này ra xem.

Tiếng Nhật nổi bật nhất.

Kỳ thi chọn Olympic Toán học Nhật Bản lần thứ 35 năm 2025 (JMO Finals), điểm tuyệt đối.

Vòng sơ khảo ICPC châu Á tại Nhật Bản, điểm tuyệt đối.

Trong đó, thành tích tại JMO Finals thậm chí còn vượt quá mức 80% tương ứng với điểm cao nhất của kỳ thi đó, đạt tiêu chuẩn "tương đương huy chương vàng" theo thông báo chính thức.

Tiếng Pháp cũng đạt điểm tuyệt đối, 100%.

Tiếng Trung thì thú vị.

Tại Olympic Toán học Trung Quốc lần thứ 41 (CMO), Deep Think đạt 86.3%, rất xuất sắc. Nhưng tại Olympic Tin học Trung Quốc (NOI) chỉ đạt 63.3%.

Khoảng cách giữa 86.3% và 63.3% đã vẽ ra ranh giới thực sự của khả năng suy luận AI.

Trong các kỳ thi toán, mô hình đối mặt với suy diễn trừu tượng, xây dựng chứng minh và diễn dịch nhiều bước, đây chính xác là dải năng lực mà Deep Think giỏi nhất.

Nhưng đến các kỳ thi tin học, vấn đề không chỉ là "nghĩ thông suốt", mà còn bao gồm việc dịch logic thành mã thực thi, kiểm soát điều kiện biên, cân nhắc các ràng buộc độ phức tạp, và tránh sai sót ở cấp độ triển khai.

Cái trước gần hơn với suy luận thuần túy, cái sau yêu cầu đồng thời đạt chuẩn "suy luận + thiết kế thuật toán + triển khai kỹ thuật".

Ở các ngôn ngữ khác như Hàn Quốc, Hindi, Việt Nam, Nga, Bồ Đào Nha trong các kết quả thi tương ứng, Deep Think cũng đều đánh bại đối thủ hoặc ít nhất là ngang bằng.

Nếu gộp tiếng Nhật, tiếng Pháp, tiếng Trung lại để xem, điểm bất thường nhất lần này thực ra không phải là một môn đơn lẻ nào đó đạt điểm tuyệt đối, mà là cùng một mô hình, cùng một hệ thống suy luận Deep Think, trên đề thi của nhiều ngôn ngữ khác nhau, đều giao nộp thành tích thuộc nhóm dẫn đầu.

Bảng điểm này có đáng tin không?

Nhưng ở đây có một thiếu sót then chốt:

Conglong Li đã không liệt kê dữ liệu so sánh cụ thể của các đối thủ cạnh tranh: tất cả thành tích đều đến từ đánh giá nội bộ của Google. Không có xác minh độc lập của bên thứ ba, không có chứng nhận chính thức từ ban tổ chức cuộc thi, phương pháp đánh giá hoàn toàn không được công khai.

Mỗi bài tập được làm một lần hay làm nhiều lần lấy kết quả tốt nhất? Sử dụng bao nhiêu năng lực tính toán khi suy luận? Có can thiệp của kỹ thuật gợi ý nhân tạo không?

Những chi tiết này ảnh hưởng trực tiếp đến hàm lượng vàng của thành tích, cũng đều không được đề cập.

Một điểm dễ bị bỏ qua khác: tất cả các kỳ thi này đều là vòng chọn khu vực của các quốc gia, không phải chung kết quốc tế.

Giữa độ khó của đề thi khu vực và chung kết quốc tế, cách nhau một cấp độ.

Nhà nghiên cứu đã nói rõ, những thành tích này "sẽ được đưa vào thẻ mô hình (model card)", tính đến thời điểm phát hành, thẻ mô hình vẫn chưa được cập nhật chính thức.

Vì vậy, hiện tại đây dường như vẫn là một bảng điểm do thí sinh tự chấm điểm, tự công bố, chưa nộp cho phòng giáo vụ đóng dấu.

Tính công bằng nghiên cứu đa ngôn ngữ, chiến trường thực sự bị bỏ qua

Tại sao Google lại dành sức lực đặc biệt để đánh giá giải khu vực bằng 8 ngôn ngữ?

Việc đánh giá năng lực suy luận AI hiện tại, hầu như hoàn toàn dựa trên tiếng Anh.

MATH, GSM8K, HumanEval, ARC-AGI...... tất cả đều là tiếng Anh.

Các nhà toán học, vật lý học, kỹ sư trên toàn thế giới, chỉ cần tiếng mẹ đẻ không phải là tiếng Anh, khi sử dụng công cụ nghiên cứu AI đều phải vượt qua một rào cản ngôn ngữ.

8 ngôn ngữ Google chọn không phải ngẫu nhiên.

Tiếng Nhật, Hàn Quốc, Trung Quốc bao phủ trọng điểm nghiên cứu Đông Á, Hindi, Việt Nam bao phủ thị trường mới nổi, tiếng Pháp, Nga, Bồ Đào Nha bao phủ châu Âu và Nam Mỹ.

Cộng lại, đây là phần lớn sản lượng nghiên cứu toàn cầu.

DeepMind trong blog chính thức đã định vị Deep Think là "công cụ khuếch đại trí tuệ con người", nói rằng nó có thể "xử lý truy xuất kiến thức và xác minh nghiêm ngặt, để các nhà khoa học tập trung vào chiều sâu khái niệm và định hướng sáng tạo".

Kết hợp với thành tích đa ngôn ngữ lần này, hàm ý của câu nói này không khó hiểu: công cụ khuếch đại này, không chỉ dành cho các nhà khoa học nói tiếng Anh.

Đáng chú ý hơn là Deep Think đã đi được bao xa trong việc ứng dụng nghiên cứu.

DeepMind đã công bố một tác nhân nghiên cứu toán học tên là Aletheia, dựa trên Deep Think, có thể tự động tạo, xác minh, sửa đổi giải pháp cho các vấn đề toán học cấp nghiên cứu.

Aletheia được điều khiển bởi Deep Think, có khả năng tạo lặp, xác minh và sửa chữa đối với các vấn đề toán học cấp nghiên cứu

Aletheia đã tham gia tạo ra nhiều bài báo nghiên cứu, trong đó một bài hoàn toàn do AI tự chủ hoàn thành, tính toán hằng số cấu trúc cụ thể trong hình học số học.

Ngoài ra, trong đánh giá bán tự chủ 700 vấn đề toán học mở, nó còn tự giải quyết độc lập 4 vấn đề trước đó chưa có lời giải.

Chế độ Gemini Deep Think cũng thể hiện tiềm năng to lớn trong các lĩnh vực như khoa học máy tính, vật lý học, kinh tế học.

Trong lĩnh vực khoa học máy tính, Deep Think giúp lật đổ một giả thuyết tồn tại mười năm chưa giải quyết, trong lĩnh vực vật lý tìm ra nghiệm giải tích mới cho bức xạ hấp dẫn của dây vũ trụ, trong lĩnh vực kinh tế mở rộng một định lý lý thuyết đấu giá.

Sơ đồ quy trình suy luận AI, cho thấy việc khám phá không gian giải pháp quy mô lớn ở lớp mạng được tổng hợp thành suy luận có cấu trúc như thế nào, và được xác nhận thông qua xác minh tự động và nhân tạo.

Thông qua hợp tác với chuyên gia giải quyết 18 vấn đề nghiên cứu hóc búa, phiên bản nâng cao của Gemini Deep Think đã giúp đột phá các nút thắt cổ chai tồn tại lâu dài trong các lĩnh vực thuật toán, học máy và tối ưu hóa tổ hợp, lý thuyết thông tin và kinh tế học.

Điều này đã vượt xa phạm vi "giải bài tập thi".

Khi các đối thủ cạnh tranh vẫn còn xoay quanh bảng xếp hạng benchmark tiếng Anh, Google đã tìm thấy một chiến trường mới trong lĩnh vực "công cụ tăng tốc nghiên cứu AI".

Thứ quan trọng nhất của sự việc này thực ra không phải là điểm số, tín hiệu thực sự đằng sau nó là: rào cản ngôn ngữ của công cụ nghiên cứu AI đang được coi là một vấn đề kỹ thuật để giải quyết.

Nếu con đường này thành công, các nhà khoa học nghiên cứu bằng tiếng Nhật, Hàn Quốc, Trung Quốc, Hindi trên toàn thế giới, lần đầu tiên sẽ đứng trên cùng một vạch xuất phát với những người nói tiếng Anh bản ngữ.

Lần này, Google đã đặt bài lên bàn.

Còn đối thủ cạnh tranh nào sẽ theo bài, tin rằng chúng ta cũng sẽ sớm thấy.

Tài liệu tham khảo:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

Bài viết từ tài khoản WeChat công cộng "Tân Trí Nguyên" (新智元), tác giả: Tân Trí Nguyên

Câu hỏi Liên quan

QGoogle DeepMind đã công bố thành tích gì đáng chú ý của Deep Think trong các kỳ thi Olympic?

AGoogle DeepMind công bố Deep Think đạt điểm cao trong 8 ngôn ngữ khác nhau, bao gồm điểm tuyệt đối trong Olympic Toán học Nhật Bản (JMO Finals) và ICPC châu Á tại Nhật, cùng điểm số ấn tượng ở các kỳ thi Olympic Toán, Lý, Hóa, và lập trình.

QTại sao kết quả của Deep Think trong kỳ thi Olympic Tin học Trung Quốc (NOI) thấp hơn so với Olympic Toán học Trung Quốc (CMO)?

AKết quả NOI (63.3%) thấp hơn CMO (86.3%) do Olympic Tin học yêu cầu không chỉ suy luận mà còn cả thiết kế thuật toán, triển khai mã lệnh, kiểm soát điều kiện biên và tối ưu độ phức tạp, trong khi Toán học thiên về suy luận trừu tượng và chứng minh - lĩnh vực Deep Think mạnh hơn.

QDeep Think đã đạt được những đột phá nào trong nghiên cứu khoa học thực tế?

ADeep Think đã tự động giải quyết 4 vấn đề toán học chưa có lời giải trong 700 bài toán mở, giúp lật đỏ một giả thuyết tồn tại 10 năm trong khoa học máy tính, tìm ra lời giải giải tích mới cho bức xạ hấp dẫn của dây vũ trụ trong vật lý, và mở rộng một định lý lý thuyết đấu giá trong kinh tế.

QTại sao việc đánh giá Deep Think trên 8 ngôn ngữ lại quan trọng đối với cộng đồng nghiên cứu toàn cầu?

AĐánh giá đa ngôn ngữ (Nhật, Hàn, Trung, Hindi, Việt, Nga, Bồ Đào Nha, Pháp) giúp phá vỡ rào cản ngôn ngữ trong nghiên cứu, cho phép các nhà khoa học không dùng tiếng Anh tiếp cận công cụ AI công bằng, thúc đẩy hợp tác và sáng tạo toàn cầu mà không phụ thuộc vào ngôn ngữ mẹ đẻ.

QCó những hạn chế nào trong báo cáo thành tích của Deep Think do Conglong Li công bố?

ABáo cáo thiếu dữ liệu so sánh trực tiếp với đối thủ, không có xác nhận từ bên thứ ba hoặc ban tổ chức kỳ thi, phương pháp đánh giá (số lần thử, lượng tính toán, can thiệp kỹ thuật) không được tiết lộ, và tất cả kết quả dựa trên đánh giá nội bộ của Google, chưa được cập nhật chính thức trong model card.

Nội dung Liên quan

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Polymarket, nền tảng dự đoán thị trường hàng đầu, đang đối mặt với thách thức lớn khi trải nghiệm giao dịch xuống cấp do hạ tầng không theo kịp đà tăng trưởng. Phó chủ tịch kỹ thuật Josh Stevens thừa nhận vấn đề và công bố kế hoạch cải tổ toàn diện, bao gồm: giảm độ trễ dữ liệu, sửa lỗi hủy lệnh, xây dựng lại hệ thống order book (CLOB), nâng cao hiệu suất website, và quan trọng nhất là di chuyển chain (chain migration). Nguyên nhân sâu xa nằm ở việc Polymarket không còn là ứng dụng dự đoán đơn thuần mà đã phát triển thành một nền tảng giao dịch tần suất cao. Polygon, từng là lựa chọn chi phí thấp hoàn hảo, giờ đây trở thành rào cản kỹ thuật. Động thái này ngay lập tức thu hút sự quan tâm của các blockchain khác như Solana, Sui, Algorand... trong khi Polygon nỗ lực giữ chân ứng dụng quan trọng này - nguồn đóng góp phí giao dịch đáng kể cho hệ sinh thái của họ. Bài kiểm tra thực sự của Polymarket không chỉ là chọn chain mới, mà là xây dựng một hệ thống giao dịch đủ mạnh và ổn định để giữ chân người dùng trong giai đoạn tăng trưởng mới, nơi độ tin cậy quan trọng hơn bao giờ hết.

Odaily星球日报17 giờ trước

Polymarket Bị Kẹt: Bài Kiểm Tra Thực Sự Sau Khi Vượt Qua Giai Đoạn Lưu Lượng Tăng Đột Biến

Odaily星球日报17 giờ trước

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

Tác giả Alex Xu, một nhà đầu tư Bitcoin lâu năm, đã chia sẻ quyết định giảm dần tỷ trọng BTC trong danh mục đầu tư của mình, từ vị thế lớn nhất xuống còn khoảng 30%, và giải thích lý do cho việc điều chỉnh kỳ vọng về đỉnh giá trong chu kỳ bull market tiếp theo. Các lý do chính bao gồm: 1. **Năng lượng tăng trưởng tiềm năng giảm:** Các chu kỳ trước được thúc đẩy bởi việc mở rộng đối tượng đầu tư theo cấp số nhân (từ cá nhân đến tổ chức). Chu kỳ tới cần sự chấp nhận từ các quỹ đầu tư quốc gia hoặc ngân hàng trung ương, điều này khó xảy ra trong 2-3 năm tới. 2. **Chi phí cơ hội cá nhân:** Tìm thấy nhiều cơ hội đầu tư hấp dẫn khác (cổ phiếu công ty) với mức giá hợp lý. 3. **Tác động tiêu cực từ sự thu hẹp của ngành crypto:** Nhiều mô hình Web3 (SocialFi, GameFi...) không thành công, dẫn đến sự thu hẹp của toàn ngành và làm chậm tốc độ tăng trưởng số người nắm giữ BTC. 4. **Áp lực từ nhà mua lớn nhất (MicroStrategy):** Chi phí huy động vốn của MicroStrategy tiếp tục tăng cao (lãi suất 11.5%), có thể làm giảm tốc độ mua vào và gây áp lực bán. 5. **Sự cạnh tranh từ Vàng được token hóa:** Sản phẩm vàng token hóa (tokenized gold) đã thu hẹp khoảng cách về tính dễ chia nhỏ, dễ mang theo và dễ xác minh so với BTC. 6. **Vấn đề ngân sách bảo mật:** Phần thưởng khối giảm sau mỗi lần halving làm trầm trọng thêm vấn đề ngân sách cho bảo mật mạng lưới. Tác giả vẫn giữ một phần BTC đáng kể và sẵn sàng mua lại nếu các lý kiến trên được giải quyết hoặc xuất hiện các yếu tố tích cực mới, với điều kiện giá cả phù hợp.

marsbit17 giờ trước

Điều chỉnh kỳ vọng giảm cho chu kỳ tăng giá tiếp theo của BTC

marsbit17 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片