Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước

marsbitXuất bản vào 2026-05-27Cập nhật gần nhất vào 2026-05-27

Tóm tắt

Hôm nay, Code Arena công bố bảng xếp hạng mới nhất. Qwen3.7-Max của Alibaba đạt 1541 điểm, lọt vào top 4 toàn cầu, vượt qua các mô hình hàng đầu như GPT-5.5 và Gemini 3.5 Flash. Hiện chỉ có Claude Opus 4.7 và Opus 4.6 xếp trên nó. Điều này giúp Alibaba trở thành công ty Trung Quốc duy nhất trong top đầu, đứng thứ hai thế giới, chỉ sau Anthropic. Qwen3.7-Max được mệnh danh là "mô hình nền tảng cho Agent", được thiết kế để thực hiện các nhiệm vụ tự chủ dài hạn. Trong một thử nghiệm, nó có thể chạy liên tục 35 giờ, thực hiện 1158 lần gọi công cụ để tối ưu hóa mã, đạt tốc độ tăng trung bình gấp 10 lần. Khả năng lập trình vượt trội của nó được chứng minh qua các thử nghiệm thực tế. Khi được yêu cầu tạo một trò chơi đua xe 3D, Qwen3.7-Max tạo ra một phiên bản có thể chơi được ngay lần đầu, bao gồm giao diện bắt đầu và hiệu ứng âm thanh - những chi tiết mà các mô hình khác như Gemini, Claude hay ChatGPT bỏ sót hoặc cần nhiều lần sửa lỗi. Hai yếu tố then chốt giúp Qwen3.7-Max đạt được thành tích này là: 1) Đào tạo mở rộng môi trường, giúp mô hình học các chiến lược tổng quát thay vì chỉ hoạt động tốt trong một framework cụ thể; 2) Khả năng thực thi tự chủ dài hạn, cho phép nó đưa ra hàng nghìn quyết định liên tục mà không bị suy giảm ngữ cảnh hay rơi vào vòng lặp. Với việc Qwen3.7-Max gia nhập cuộc đua, cuộc cạnh tranh về mô hình lập trình toàn cầu không còn là câu chuyện độc quyền của Thung lũng Silicon.

Ngay hôm nay, bảng xếp hạng mới nhất của Code Arena đã được công bố!

Qwen3.7-Max với 1541 điểm đã lọt vào top 4 toàn cầu, một bước vượt qua hàng loạt mô hình đỉnh cao như GPT-5.5, Gemini 3.5 Flash.

Đứng trước nó, giờ chỉ còn Claude Opus 4.7 và Opus 4.6.

Nói cách khác, trên đấu trường mô hình lập trình toàn cầu, Alibaba là nhà sản xuất Trung Quốc duy nhất lọt vào bàn chơi này, chỉ đứng sau Anthropic, xếp thứ hai.

Qwen3.7-Max lọt vào top 5 toàn cầu

Mô hình phi Claude duy nhất

Thực ra, trước khi Code Arena công bố bảng xếp hạng, Qwen3.7-Max đã tạo nên tên tuổi trong cộng đồng nhà phát triển nước ngoài.

Atomic Chat đã thực hiện một so sánh trực diện, cho Opus 4.7, GPT-5.5 và Qwen3.7-Max thi đấu trên cùng một sân khấu, nhiệm vụ là viết một AI Tetris có khả năng tự huấn luyện.

Kết quả, Qwen3.7-Max không chỉ vượt qua cả Opus 4.7 và GPT-5.5 với chi phí token chỉ $1.32, mà còn cải thiện hiệu suất lên 56%.

Một nhà phát triển nước ngoài khác đã chọn để Qwen3.7-Max xây dựng một mô hình 3D của vũ trụ, hiệu quả đủ để gây chấn động.

Trong nhiệm vụ tạo mô hình "tháp bảo thu nhỏ phong cách pixel 3D", tốc độ xuất và chất lượng đầu ra của Qwen3.7-Max cũng vượt trội hoàn toàn.

Nhà phát triển Paul Couvert còn ca ngợi rằng, khi Qwen3.7-Max được tích hợp với Hermes Agent và OpenCode, về cơ bản có thể thay thế GPT-5.5 và Opus 4.7.

Lập trình, quá đỉnh

Tuy nhiên, điểm số cao không bằng thực chiến.

Chúng tôi đã sắp xếp cho Qwen3.7-Max một thử thách "trò chơi đua xe" cứng nhân.

Một đoạn Prompt chi tiết được đưa vào, chẳng mấy chốc, Qwen3.7-Max cho ra ngay một file HTML có thể chơi được.

Phiên bản đầu tiên có một lỗi nhỏ, các phím chuyển hướng A/D bị đảo ngược trái phải.

Nhưng sau đợt điều chỉnh đối thoại đơn giản ở vòng thứ hai, một trò chơi đua xe 3D hoàn chỉnh đã chạy được.

Khoảnh khắc mở ra, thật sự, có chút bất ngờ.

4 xe cùng chạy, đua tốc độ trên đường đua vòng tròn 3 vòng, trên đường đua rải rác hơn 100 đồng xu, chạm vào chướng ngại vật sẽ giảm tốc, mất kiểm soát.

Bảng điểm sau cuộc đua, thứ hạng, thời gian, số xu, vòng đơn nhanh nhất, không thiếu mục nào.

Nhưng điều thực sự gây bất ngờ, là hai chi tiết mà chỉ Qwen3.7-Max làm được.

Một là giao diện bắt đầu. Sau khi kiểm tra ngang bốn mô hình, chỉ có nó tạo một trang bắt đầu chính thức cho trò chơi, nhấn "Start" mới vào cuộc đua. Ba nhà còn lại mở ra là chạy ngay, thậm chí không có cả màn hình tiêu đề.

Hai là hiệu ứng âm thanh. Prompt cuối cùng có đính kèm một yêu cầu, thêm hiệu ứng tiếng động cơ gầm rú và tiếng ăn xu. Trong bốn mô hình, cũng chỉ có nó xử lý được bonus này, tiếng động cơ và tiếng đinh đoong của đồng xu đều được sắp xếp.

Hãy xem biểu hiện của các đối thủ khác.

Hình ảnh của Gemini 3.5 Flash rõ ràng mỏng manh hơn một bậc, thiếu đi cảm giác nổi bật ba chiều sắp bật ra.

Bố cục UI cũng có vấn đề, thông tin bảng đồng hồ phân tán ở bốn góc màn hình, tiêu điểm thị giác rời rạc.

Ngược lại, cách xử lý của Qwen3.7-Max là tập trung các chỉ số chính vào trung tâm màn hình, phù hợp hơn với điểm rơi tự nhiên của ánh nhìn người chơi.

Hiệu ứng của Claude Opus 4.6, có chút khó diễn tả.

Không chỉ đồng xu trên đường đua ít đến thảm hại, mà 3 xe đua AI còn di chuyển gần như đồng bộ, không có tính ngẫu nhiên, như được sao chép ra.

Cuối cùng là GPT-5.5.

Có thể thấy, chất lượng hình ảnh thực sự mạnh hơn nhiều so với hai nhà trước, thao tác cũng mượt mà hơn.

Nhưng không hiểu sao, đồng xu lại được làm thành "vòng bánh" màu vàng...

Kiểu dáng chỉ là chuyện nhỏ. Quan trọng là, cả Gemini, Claude, ChatGPT đều phải sửa vài vòng lỗi mới chạy thông được toàn bộ chức năng.

Chỉ có Qwen3.7-Max ở vòng tạo đầu tiên đã cơ bản có thể chơi được.

Điểm số gần nhau, thực chiến không hư, giá chỉ bằng một phần nhỏ. Kết luận còn lại, chờ các nhà phát triển dùng chân để bỏ phiếu.

Mô hình "nền tảng" thời đại Agent

Lý do Qwen3.7-Max có thể thể hiện trình độ như vậy trên võ đài lập trình cạnh tranh nhất, câu trả lời nằm ở định vị sản phẩm của nó.

Vài ngày trước, khi Alibaba ra mắt Qwen3.7-Max, họ đã gắn cho nó một nhãn rất đặc biệt: Mô hình nền tảng Agent.

Nó sinh ra, là mô hình được thiết kế cho việc thực thi nhiệm vụ tự chủ trong thời gian dài.

Dữ liệu thử nghiệm nội bộ cho thấy, trong một nhiệm vụ lập trình tự chủ, Qwen3.7-Max chạy liên tục 35 giờ, thực hiện 1158 lần gọi công cụ.

Mã nguồn được tạo ra cuối cùng so với bản triển khai tham chiếu Triton, đạt được tốc độ tăng trung bình hình học đáng kinh ngạc là 10 lần.

Ấn tượng hơn nữa là khả năng "chiến đấu dai sức" của nó——

Sau khi quá trình suy luận tiến đến giờ thứ 30, mô hình vẫn giữ được sự nhạy bén, tiếp tục khám phá ra không gian tối ưu hóa mới.

Toàn bộ quá trình không bị thoái hóa ngữ cảnh, không trôi lệch hướng dẫn, không vòng lặp chết!

Phải nói rằng, điểm khó của việc này không nằm ở 1000 lần gọi công cụ. Sau khi giao thức MCP mở rộng, gọi 1000 lần công cụ không có gì lạ.

Điểm khó nằm ở suy luận liên tục trong 35 giờ.

Phần lớn mô hình khi chạy nhiệm vụ dài sẽ sụp đổ: hoặc ngữ cảnh tích tụ càng lúc càng rối, mục tiêu định ở nửa đầu đến sau quên sạch sẽ; hoặc rơi vào vòng lặp chết, lặp lại thử nghiệm cùng một phương án thất bại.

Qwen3.7-Max đã làm ra được việc "liên tục làm đúng".

Tiết lộ công nghệ cốt lõi

Sự nhảy vọt lập trình này của Qwen3.7-Max, chúng tôi hiểu cốt lõi có thể liên quan đến nâng cấp của hai phương pháp huấn luyện.

Thứ nhất là, mở rộng môi trường.

Khi Qwen3.7-Max thực hiện huấn luyện lập trình, mỗi nhiệm vụ được chia thành ba chiều độc lập: bản thân nhiệm vụ, khung thực thi, phương thức xác thực, ba thứ kết hợp tự do.

Cùng một đề bài, đôi khi làm trong khung Claude Code, đôi khi làm trong OpenClaw, đôi khi đổi một phương thức xác thực.

Hiệu quả giống như một thực tập sinh được luân chuyển đến tất cả các nhóm dự án. Thứ nó buộc phải học là chiến lược tổng quát giải quyết vấn đề, không phải "trong một khung cụ thể thì làm sao để lách".

Điều này giải thích một hiện tượng phản trực giác: Qwen3.7-Max biểu hiện đều ổn trong các khung Claude Code, OpenClaw, Qwen Code, không xuất hiện tình trạng "trong khung của mình thì mạnh, đổi cái khác thì tụt dốc".

Nâng cấp thứ hai là, thực thi tự chủ tầm xa.

Trong huấn luyện, nhóm đã đưa vào khung "trò chơi sinh tồn tích lũy động".

Tức là, để mô hình đưa ra quyết định liên tục hơn một nghìn bước trong môi trường mô phỏng thay đổi liên tục, tự xây dựng giả thuyết, điều chỉnh chiến lược dựa trên phản hồi, và không được "thoái hóa ngữ cảnh" vì chạy quá lâu.

Ở đây có một dữ liệu trực quan, YC-Bench mô phỏng công ty khởi nghiệp vận hành cả năm, Qwen3.7-Max đạt doanh thu 2,08 triệu USD, gấp đôi thế hệ trước (1,05 triệu).

Quan trọng hơn, nó thể hiện sự tiến hóa chiến lược, khi gặp khủng hoảng ở giai đoạn giữa có thể tự chủ điều chỉnh hướng đi, nhận diện và chặn khách hàng độc hại, cuối cùng hội tụ vào vòng lặp thực thi ổn định.

Đây chính là nền tảng hỗ trợ cho trường hợp tối ưu hóa kernel 35 giờ, cũng là lý do tại sao trên Kernel Bench L3, Qwen3.7-Max có thể khiến 96% tình huống chạy ra hiệu quả tăng tốc.

Mà lập trình mới chỉ là mặt trận đầu tiên. Nền tảng suy luận tầm xa cộng với gọi công cụ này, hướng tới một tham vọng lớn hơn——Nền tảng Agent tổng quát.

Chung kết lập trình, thêm một kẻ gây rối

Từ khi Code Arena ra mắt đến nay, những gì nó kiểm tra luôn là kỹ năng cứng, suy luận đa bước, sắp xếp công cụ, bàn giao dự án hoàn chỉnh, toàn là cạnh tranh thực chiến cấp độ Agent.

Hôm nay, Qwen3.7-Max với thành tích 1541 điểm đã chèn vào vị trí thứ tư, kẹp giữa Opus 4.6 Thinking và Opus 4.6.

Trên đường đua mà Claude thống trị phần lớn nửa năm này, nó đã đưa ra câu trả lời của mình, mô hình Trung Quốc không chỉ là kẻ đuổi theo, mà còn có thể là người định nghĩa.

Cuộc đua mô hình lập trình toàn cầu, không còn là độc diễn của thung lũng Silicon nữa.

Tài liệu tham khảo:

https://arena.ai/leaderboard/code/webdev

Bài viết này đến từ tài khoản WeChat công chúng "Tân Trí Nguyên", tác giả: ASI Khải Thị Lục

Câu hỏi Liên quan

QMô hình AI Trung Quốc nào vừa đạt vị trí thứ tư trong bảng xếp hạng Code Arena toàn cầu?

AMô hình Qwen3.7-Max của Alibaba đã đạt 1541 điểm và lọt vào top 4 trên bảng xếp hạng Code Arena.

QTheo bài viết, hiện tại chỉ có mô hình nào vượt trội hơn Qwen3.7-Max về khả năng lập trình?

ATheo bài viết, hiện tại chỉ có các mô hình Claude Opus 4.7 và Claude Opus 4.6 của Anthropic là xếp trên Qwen3.7-Max.

QTrong thử thách phát triển game đua xe 3D, Qwen3.7-Max thể hiện ưu điểm nào so với các đối thủ?

AQwen3.7-Max tạo ra một trò chơi có giao diện bắt đầu (Start page) chính thức và hiệu ứng âm thanh (tiếng động cơ, tiếng ăn xu), trong khi các mô hình khác không làm được. Ngoài ra, nó cũng ít lỗi hơn và tạo ra trò chơi có thể chơi được ngay từ lần tạo đầu tiên.

QBài viết gọi Qwen3.7-Max là mô hình 'Agent基座模型'. Điều này có nghĩa là gì?

A'Agent基座模型' (Mô hình nền tảng cho Agent) có nghĩa là Qwen3.7-Max được thiết kế đặc biệt để thực thi các tác vụ phức tạp một cách tự chủ trong thời gian dài, với khả năng gọi công cụ liên tục và duy trì lập luận ổn định mà không bị suy giảm ngữ cảnh, trôi lệnh hay rơi vào vòng lặp vô hạn.

QHai phương pháp huấn luyện then chốt nào giúp Qwen3.7-Max đạt được khả năng lập trình vượt trội?

AHai phương pháp huấn luyện chính được đề cập là: 1) Mở rộng môi trường (Environment Extension): huấn luyện mô hình trên nhiều tổ hợp khác nhau của nhiệm vụ, khuôn khổ thực thi và phương thức xác minh. 2) Thực thi tự chủ dài hạn (Long-range Autonomous Execution): sử dụng khung 'tồn tại động lũy tích' để mô hình thực hiện hàng nghìn bước quyết định liên tục trong môi trường mô phỏng biến đổi.

Nội dung Liên quan

Circle Đưa Địa Chỉ Giao Thức Zama Vào Danh Sách Đen, Đóng Băng 12,6 Triệu USD Tiền Của Người Dùng – Chi Tiết

Nhà phát hành stablecoin Circle đã đưa vào danh sách đen một hợp đồng thông minh của giao thức bảo mật Zama, đóng băng khoảng 12,6 triệu USD tiền của người dùng. Hành động này, được phát hiện bởi nhà điều tra on-chain ZachXBT, nhắm vào hợp đồng Confidential USDC (cUSDC) của Zama trên Ethereum. Việc đóng băng có thể liên quan gián tiếp đến các vấn đề pháp lý và tranh cãi xung quanh giao thức Overnight Finance, vì một ví được cho là của họ đã gửi số tiền lớn vào hợp đồng Zama trước đó. Sự chồng chéo này làm dấy lên lo ngại về rủi ro lây lan giữa các giao thức DeFi. Hành động đơn phương của Circle, được cho là không có cảnh báo trước cho Zama, đã làm dấy lên chỉ trích về tính minh bạch và tạo ra tiền lệ đáng lo ngại khi nhắm mục tiêu vào hợp đồng cấp giao thức chứa tiền chung của người dùng, thay vì các ví riêng lẻ. Điều này đặt ra câu hỏi về rủi ro lưu ký trong các hệ thống được cho là phi tập trung. Circle hiện chưa đưa ra giải thích chính thức cho động thái này.

bitcoinist18 phút trước

Circle Đưa Địa Chỉ Giao Thức Zama Vào Danh Sách Đen, Đóng Băng 12,6 Triệu USD Tiền Của Người Dùng – Chi Tiết

bitcoinist18 phút trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

Biên tập viên: Khi AI Agent ngày càng rẻ và dễ gọi, phát triển phần mềm đang bước vào giai đoạn mới. Vấn đề không còn là có thể chạy nhiều Agent hơn hay không, mà là liệu con người có đủ sự chú ý để quản lý, đánh giá và hợp nhất đầu ra của chúng hay không. Bài viết giới thiệu khái niệm "thuế điều phối". Chi phí khởi chạy Agent rất thấp, chỉ cần một Prompt hoặc một cú nhấp chuột. Nhưng các bước tiếp theo mới thực sự đắt đỏ: kiểm tra kết quả, hiểu tác động đến kiến trúc hệ thống, xử lý xung đột giữa các Agent, và quyết định mã nào được đưa vào nhánh chính. Những công việc này không thể song song hóa đơn giản, mà vẫn phải quay về một tài nguyên tuần tự duy nhất: khả năng phán đoán của con người. Tác giả ví nhà phát triển như "GIL" trong hệ thống AI Agent - khóa luồng đơn hạn chế thông lượng cuối cùng của hệ thống đồng thời. Nhiều Agent có thể chạy cùng lúc, nhưng một khi bước vào giai đoạn đánh giá kiến trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển. Do đó, càng nhiều Agent không nhất thiết có nghĩa là sản lượng cao hơn, mà có thể chỉ làm cho hàng đợi công việc chờ xem xét dài hơn, khiến nhà phát triển mệt mỏi vì chuyển đổi ngữ cảnh liên tục. Điều dễ bị bỏ qua trong cơn sốt công cụ lập trình AI hiện nay là cảm giác hiệu quả không phải lúc nào cũng đồng nghĩa với năng suất thực. Một bảng điều khiển đầy Agent đang chạy tạo ra ảo giác "năng suất cao", nhưng nếu nhà phát triển không thực sự hiểu, xem xét và tích hợp các thay đổi, hệ thống cuối cùng tích lũy có thể là nợ kỹ thuật và nợ nhận thức. Vì vậy, bài viết thảo luận về "cách thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong thời đại Agent, năng lực then chốt không chỉ là biết đặt câu hỏi và phân công nhiệm vụ, mà là biết nhiệm vụ nào có thể giao cho máy móc xử lý song song, nhiệm vụ nào phải dành cho con người đánh giá; khi nào nên xem xét hàng loạt, khi nào nên dừng điều phối để tập trung lại vào một vấn đề cốt lõi. AI đang mở rộng khả năng xử lý đồng thời trong sản xuất phần mềm, nhưng sự chú ý của con người vẫn là tài nguyên khan hiếm và không thể nhân bản nhất trong hệ thống. Một quy trình làm việc với Agent thực sự trưởng thành không phải là ném mọi nhiệm vụ cho máy móc, mà là thiết kế kiến trúc sự chú ý của chính mình một cách cẩn thận, giống như thiết kế một hệ thống sản xuất.

marsbit1 giờ trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

marsbit1 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit7 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit7 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

**Tóm tắt: Nhìn lại 20 dự đoán về ChatGPT năm 2023 sau 3 năm** Vào tháng 3/2023, khi ChatGPT mới xuất hiện và GPT-4 chưa ra mắt, tác giả Vương Kiến Thạc đã đưa ra 20 nhận định về tương lai của AI. Giờ đây, vào cuối tháng 5/2026, một hệ thống AI gồm 41 agent đã được sử dụng để kiểm chứng lại từng dự đoán đó dựa trên dữ liệu thực tế. **Kết quả kiểm chứng (Tính đến 5/2026):** * **Đúng/Bản chất đúng (✅/🟢):** 13/20 dự đoán. * **Một phần đúng (🟡):** 6/20 dự đoán. * **Sai (❌):** 1/20 dự đoán. **Những điểm dự đoán chính xác nổi bật:** 1. **Kiến trúc RAG & Tìm kiếm:** Dự đoán việc bổ sung kiến thức thông qua cơ chế truy xuất bên ngoài (như vector search) thay vì chỉ fine-tune model đã trở thành tiêu chuẩn. 2. **Giao diện ngôn ngữ tự nhiên (LUI):** Nhận định ChatGPT mở ra kỷ nguyên LUI, tạo ra một hệ sinh thái rộng lớn hơn cả việc phát triển model cơ bản, đã được chứng minh. 3. **Mô hình lớn Trung Quốc:** Dự báo khoảng cách về khả năng giữa các mô hình Trung Quốc và đỉnh cao thế giới sẽ thu hẹp nhanh chóng trong khoảng 3 năm đã thành hiện thực. 4. **Ý thức và Kiểm tra Turing:** Quan điểm cho rằng ChatGPT không có ý thức và bài kiểm tra Turing chỉ đánh giá biểu hiện bề ngoài vẫn vững vàng. **Những điểm dự đoán chưa chính xác hoặc sai lệch:** 1. **Tham số GPT-4 (❌):** Thông tin GPT-4 có 100 nghìn tỷ tham số là hoàn toàn sai. 2. **Khả năng toán học của LLM:** Mặc dù đúng khi cho rằng cần công cụ bổ trợ, nhưng khẳng định LLM "không thể" tự học toán thuần túy đã bị bác bỏ khi các model năm 2025 giành huy chương IMO. 3. **Nơi nắm giữ giá trị:** Dự đoán giá trị sẽ thuộc về tầng ứng dụng, còn các công ty làm model cơ bản có thể không sinh lời, đã không tính đến sự thống trị và lợi nhuận khổng lồ của NVIDIA ở tầng phần cứng tính toán. 4. **Bản quyền:** Nhận định AI có thể "né tránh" vi phạm bản quyền là sai, khi thực tế đã có những vụ kiện và dàn xếp bồi thường lớn nhất lịch sử liên quan đến dữ liệu huấn luyện. **Bài học rút ra sau 3 năm:** * **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể.** * Xu hướng chung: **Đánh giá quá lạc quan về tốc độ, nhưng lại đánh giá thấp mức độ phát triển** về lâu dài. * Sai lầm tinh vi thường nằm ở **sự phân bổ** (ví dụ: tác động việc làm lên nhóm người lao động trẻ), chứ không phải tổng thể. * **Những nhận định có giới hạn, điều kiện đi kèm thường chính xác hơn** những phát biểu tuyệt đối. * Một số câu hỏi lớn vẫn chưa có câu trả lời cuối cùng sau 3 năm. Bản tổng kết này không chỉ chấm điểm cho quá khứ, mà còn đặt ra những quy tắc cho việc dự đoán trong tương lai.

链捕手10 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

链捕手10 giờ trước

Cảnh báo bong bóng AI: Đầu tư vào AI mang lại lợi nhuận âm cho hầu hết các gã khổng lồ công nghệ

Bài viết cảnh báo về bong bóng đầu tư AI khi phân tích chỉ ra rằng hầu hết các gã khổng lồ công nghệ như Microsoft, Alphabet, Meta, Oracle (trừ Amazon) có thể nhận tỷ suất lợi nhuận âm từ các khoản đầu tư hàng nghìn tỷ USD vào trung tâm dữ liệu AI. Dựa trên kỳ vọng của nhà phân tích về doanh thu và chi tiêu vốn giai đoạn 2025-2030, tốc độ tăng đầu tư (~20%/năm) vượt xa tốc độ tăng doanh thu dự kiến (~15%/năm). Tác giả nhấn mạnh, đầu tư công nghệ hiện giải thích 93% tăng trưởng GDP Mỹ. Nếu các công ty cắt giảm chi tiêu, không chỉ chuỗi cung ứng (Nvidia, TSMC, ASML) bị ảnh hưởng mà nền kinh tế Mỹ có thể suy thoái, kéo theo thị trường chứng khoán lao dốc. Các IPO của OpenAI, Anthropic được xem như cách chuyển giao rủi ro từ nhà đầu tư ban đầu sang các nhà đầu tư tổ chức và cá nhân. Dù cơn sốt có thể kéo dài đến 2026 nhờ IPO, nhưng thực tế toán học khắc nghiệt (cần thêm 2-5 nghìn tỷ USD doanh thu để đạt lợi nhuận 10%) khiến việc điều chỉnh là không tránh khỏi vào 2027-2028, tương tự bong bóng dot-com những năm 2000. Câu hỏi then chốt: ai sẽ trả giá cho cuộc chạy đua cơ sở hạ tầng đắt đỏ này?

marsbit11 giờ trước