Xu hướng Công nghệ

Khám phá những đổi mới công nghệ mới nhất, nâng cấp giao thức, giải pháp cross-chain và cơ chế bảo mật trong lĩnh vực blockchain. Cung cấp góc nhìn tập trung vào nhà phát triển để phân tích xu hướng công nghệ mới nổi và đột phá tiềm năng.

Mô hình lớn quét sạch mọi kỳ thi, nhưng lại càng xa rời AGI hơn: Bài báo này đã vạch trần điều gì?

Nếu ai đó nói rằng AGI (Trí tuệ nhân tạo phổ quát) đã đạt được, làm sao để phân biệt thật hư? Ngành công nghiệp AI đang chạy đua hướng tới một mục tiêu không có đường kết thúc rõ ràng. Một bài báo gần đây của nhà nghiên cứu Michael Timothy Bennett đã đề xuất một thước đo mới cho AGI: không phải là khả năng bắt chước con người, mà là khả năng thích ứng và khám phá tri thức mới như một "nhà khoa học nhân tạo". Bài báo chỉ ra rằng các bài kiểm tra chuẩn cũ như bài kiểm tra Turing đã bị các mô hình lớn (large models) vượt qua, nhưng chúng ta lại càng xa rời trí thông minh phổ quát thực sự. Các mô hình hiện tại chủ yếu dựa vào "Scale-maxing" - tối đa hóa quy mô dữ liệu và tham số, lưu trữ các câu trả lời gần đúng trong trọng số mạng. Chúng thiếu khả năng chủ động thử nghiệm, hiểu biết nhân quả và cân bằng giữa khám phá (exploration) và khai thác (exploitation) trong điều kiện tài nguyên hạn chế (như năng lượng). Một AGI thực sự, theo định nghĩa mới này, cần có ba đặc điểm cốt lõi: (1) Chủ động thử nghiệm để thu thập thông tin, thay vì thụ động học từ dữ liệu có sẵn. (2) Hiểu được quan hệ nhân quả, không chỉ là tương quan. (3) Biết cách phân bổ tài nguyên tính toán một cách khôn ngoan để cân bằng giữa việc tìm kiếm thông tin mới và sử dụng kiến thức đã biết. Điều này đòi hỏi một sự chuyển dịch mô hình trong ngành AI. Tiêu chí đánh giá sẽ chuyển từ bảng xếp hạng điểm số sang các "điểm chuẩn thích ứng", nơi AI được đặt vào môi trường hoàn toàn mới để kiểm tra khả năng khám phá quy luật. Lộ trình kỹ thuật cũng cần kết hợp nhiều phương pháp (Scale-maxing, Simp-maxing, W-maxing) thay vì chỉ phụ thuộc vào một luật duy nhất. Tóm lại, bài báo nhấn mạnh rằng con đường đến AGI không phải là sự lặp lại tuyến tính của các mô hình lớn, mà là một sự thiết lập lại lộ trình, hướng tới việc xây dựng những hệ thống có tinh thần của một nhà khoa học: biết đặt câu hỏi "tại sao" và chủ động tìm kiếm câu trả lời.

marsbit05/28 00:26

Mô hình lớn quét sạch mọi kỳ thi, nhưng lại càng xa rời AGI hơn: Bài báo này đã vạch trần điều gì?

marsbit05/28 00:26

Giáo hoàng phát hành thông điệp đầu tiên về AI: 40.000 chữ, 10 quan điểm, nói thấu nỗi lo lắng về AI

Ngày 15/5/2026, Giáo hoàng Leo XIV đã công bố thông điệp "Magnifica Humanitas", văn kiện đầu tiên của Giáo hội Công giáo tập trung vào trí tuệ nhân tạo (AI), kỷ niệm 135 năm thông điệp "Rerum Novarum" về cách mạng công nghiệp. Thông điệp dài 40.000 chữ này không phải là tài liệu kỹ thuật mà là một bản kiểm điểm đạo đức, đề cập đến chiến tranh, việc làm, giáo dục, y tế và ra quyết định công. Tóm tắt 10 quan điểm cốt lõi: 1. AI không phải kẻ thù, nhưng đã trở thành môi trường ảnh hưởng đến quyết định hằng ngày. 2. Vấn đề then chốt là ai nắm quyền lực công nghệ (dữ liệu, năng lực tính toán, nền tảng), không chỉ là quy định. 3. Ngay cả nhà phát triển cũng khó giải thích đầy đủ cơ chế hoạt động nội bộ của AI. 4. AI không phải là chủ thể đạo đức, không thể thay thế trách nhiệm của con người trong các mối quan hệ. 5. Các quyết định AI về việc làm, phúc lợi, tư pháp, y tế cần cơ chế minh bạch, giải trình và giám sát con người. 6. Tài nguyên AI (dữ liệu, tri thức, mô hình) nên phục vụ lợi ích chung, tránh tập trung vào số ít. 7. AI khuếch đại thông tin sai lệch và thao túng nhận thức, đe dọa sự thật - một hàng hóa công cộng. 8. Giáo dục AI không chỉ dạy công cụ, mà phải bảo vệ khả năng đặt câu hỏi, tư duy phản biện. 9. AI định hình lại lao động, nhưng công việc không chỉ là hiệu quả, mà còn là nơi con người phát triển và tham gia xã hội. 10. Quyết định sinh tử hoặc không thể đảo ngược không được giao cho hệ thống tự động. Thông điệp nhấn mạnh: Công nghệ không trung lập. Giá trị và lợi ích của những người tạo ra và triển khai AI sẽ định hình trải nghiệm của xã hội. Thách thức cốt lõi do AI mang lại là thách thức về nhân học: Khi AI mô phỏng sáng tạo, phán đoán và quan hệ, con người phải tự hỏi ý nghĩa đích thực và giá trị độc đáo của mình là gì. AI có thể mô phỏng bề ngoài, nhưng không thể có ý chí, chịu trách nhiệm hoặc trải qua cái giá thực sự đằng sau những hành động đó.

marsbit05/28 00:22

Giáo hoàng phát hành thông điệp đầu tiên về AI: 40.000 chữ, 10 quan điểm, nói thấu nỗi lo lắng về AI

marsbit05/28 00:22

Ai sẽ kiếm được tiền trong kỷ nguyên Agents?

Tác giả Jonah Burian thảo luận về việc ai sẽ nắm bắt được giá trị trong kỷ nguyên của các Agent (tác nhân tự động) trong lĩnh vực tiền mã hóa. Bài viết phân tích hai lý thuyết chính: 1. **Lý thuyết "Giao thức phát triển" (Fat Protocols):** Cho rằng trong giai đoạn đầu, giá trị tập trung ở các giao thức cơ sở như Bitcoin và Ethereum do tính khan hiếm. Tuy nhiên, ngày nay với sự cạnh tranh của nhiều L1, L2 và lớp mô-đun, không gian khối đã dư thừa, làm suy yếu quyền định giá và làm cho cơ sở hạ tầng trở thành hàng hóa. 2. **Lý thuyết "Ứng dụng phát triển" (Fat Apps):** Đề xuất rằng giá trị hiện đang chuyển sang tầng ứng dụng (ví dụ: Phantom, Coinbase) vì họ kiểm soát mối quan hệ người dùng, giao diện và luồng giao dịch, từ đó thu lợi nhuận. Tuy nhiên, **Agent sẽ phá vỡ logic này**. Không như người dùng là con người, Agent không quan tâm đến UX, thương hiệu hay sự tiện lợi. Chúng gọi trực tiếp API, không có sự trung thành và chuyển đổi với chi phí bằng không. Điều này làm suy yếu hào phòng bảo vệ dựa trên giao diện người dùng của các ứng dụng. Bài viết đưa ra một số viễn cảnh cho tương lai: * **Ứng dụng trở nên "không đầu" (Headless):** Các ứng dụng chiến thắng có thể chuyển đổi thành cơ sở hạ tầng back-end thuần túy cung cấp API cho Agent. * **Sự trỗi dậy trở lại của các giao thức:** Nếu việc tích hợp trở nên dễ dàng, Agent có thể bỏ qua lớp trung gian và tương tác trực tiếp với các giao thức, hồi sinh lý thuyết "giao thức phát triển". * **Sự sụp đổ quyền định giá trên toàn bộ tech stack:** Agent có thể gây áp lực cạnh tranh về giá lên mọi tầng, nén biên lợi nhuận về chi phí cận biên, biến công nghệ mã hóa thành một tiện ích công cộng. * **Agent tạo ra hoạt động chưa từng có:** Agent có thể tạo ra các loại hình hoạt động kinh tế mới, với khối lượng giao dịch khổng lồ, mở rộng toàn bộ "chiếc bánh" kinh tế mặc dù biên lợi nhuận trên mỗi giao dịch có thể thấp. * **Mô hình kinh doanh chưa được đặt tên:** Có thể xuất hiện các mô hình nắm bắt giá trị hoàn toàn mới mà chúng ta chưa thể dự đoán được. Kết luận, trong một thời gian dài, **con người và Agent sẽ cùng tồn tại** với bản đồ nắm bắt giá trị khác nhau. Lý thuyết "ứng dụng phát triển" vẫn phù hợp với người dùng con người, trong khi thế giới của Agent sẽ tuân theo một bộ quy tắc khác. Câu hỏi quan trọng cho các nhà xây dựng là: **Điều gì khiến một Agent quay lại sử dụng bạn thay vì chuyển sang lựa chọn thay thế rẻ nhất tiếp theo?** Câu trả lời có thể không phải là UX mà là tính thanh khoản, độ trễ, đảm bảo thanh toán...

marsbit05/27 14:09

Ai sẽ kiếm được tiền trong kỷ nguyên Agents?

marsbit05/27 14:09

Ai sẽ kiếm được tiền trong kỷ nguyên Agents?

Tác giả Jonah Burian thảo luận về việc ai sẽ kiếm được tiền trong kỷ nguyên AI Agents của blockchain. Bài viết phân tích sự chuyển dịch từ lý thuyết "Giao thức béo" (Fat Protocols), nơi giá trị tập trung ở lớp giao thức cơ bản, sang lý thuyết "Ứng dụng béo" (Fat Apps), nơi các ứng dụng nắm giữ mối quan hệ người dùng để nắm bắt giá trị. Tuy nhiên, sự xuất hiện của Agents (phần mềm tự động) có thể phá vỡ cả hai lý thuyết này. Không như người dùng là con người, Agents không quan tâm đến trải nghiệm người dùng (UX) hay thương hiệu. Chúng gọi trực tiếp API, không có sự trung thành và chuyển đổi giữa các nền tảng với chi phí bằng không, làm xói mòn lợi thế cạnh tranh dựa trên giao diện người dùng. Bài viết đưa ra một số viễn cảnh tương lai: 1. **Ứng dụng trở nên "không đầu" (Headless):** Các ứng dụng chiến thắng có thể chuyển đổi thành cơ sở hạ tầng backend thuần túy cung cấp API cho Agents. 2. **Sự trỗi dậy trở lại của giao thức:** Nếu việc tích hợp trở nên dễ dàng, Agents có thể bỏ qua các lớp trung gian và tương tác trực tiếp với các giao thức, hồi sinh lý thuyết "Giao thức béo". 3. **Sự sụp đổ quyền định giá trên toàn bộ tech stack:** Sự cạnh tranh thuần túy về giá do Agents mang lại có thể ép lợi nhuận của mọi lớp về sát chi phí biên, biến công nghệ blockchain thành một tiện ích công cộng. 4. **Agents tạo ra hoạt động mới chưa từng có:** Chúng có thể tạo ra các hình thức hoạt động kinh tế hoàn toàn mới (như giao dịch máy-máy, tái cân bằng danh mục liên tục), làm tăng tổng quy mô thị trường. 5. **Một mô hình kinh doanh chưa được đặt tên:** Có thể xuất hiện những mô hình nắm bắt giá trị hoàn toàn mới mà chúng ta chưa thể hình dung được ngày nay. Kết luận, thế giới có thể sẽ tồn tại song song, nơi lý thuyết "Ứng dụng béo" vẫn áp dụng cho người dùng con người, trong khi một hệ thống lý thuyết khác, dựa trên các yếu tố như thanh khoản, độ trễ và đảm bảo thanh toán, sẽ chi phối thế giới của các Agents. Câu hỏi then chốt cho các nhà xây dựng là tìm ra thứ gì khiến một Agents quay lại sử dụng dịch vụ của họ thay vì chỉ chọn lựa chọn rẻ nhất tiếp theo.

链捕手05/27 13:56

Ai sẽ kiếm được tiền trong kỷ nguyên Agents?

链捕手05/27 13:56

Bằng chứng không thể chối cãi: GPT-5.5 bị bắt quả tang 'hạ trí', tài liệu chính thức của OpenAI thừa nhận

**Sự thật: GPT-5.5 bị bắt quả tang "giảm trí", tài liệu chính thức của OpenAI thừa nhận** Người dùng phát hiện GPT-5.5, đặc biệt là chế độ "Suy nghĩ mở rộng" (Extended Thinking), có biểu hiện giảm chất lượng đột ngột sau một thời gian sử dụng ngắn (1-2 giờ), trả lời nhanh nhưng kém thông minh trong khi giao diện vẫn hiển thị nhãn cũ. Các khiếu nại trên diễn đàn OpenAI cho thấy mô hình mất khả năng tuân theo chỉ dẫn, xử lý tác vụ kém hơn trước. Một số thử nghiệm tiết lộ: dù chọn GPT-5.5 Thinking, hệ thống thực tế lại chạy phiên bản Instant (dựa trên ngày cắt dữ liệu huấn luyện); hoặc yêu cầu GPT-5.3 Codex nhưng nhận về kết quả từ GPT-5.2. Quan trọng nhất, tài liệu Trung tâm Trợ giúp chính thức của OpenAI xác nhận cơ chế: sau khi người dùng gói Plus dùng hết 160 tin nhắn GPT-5.5/3 giờ, hệ thống sẽ **chuyển thầm (silent switch)** sang mô hình mini mà không có cảnh báo hay thay đổi nhãn giao diện. Người dùng gói Pro cũng có thể bị giới hạn dung lượng ở chế độ Heavy khi máy chủ quá tải. Sự cố "giảm cấp thầm lặng" này không mới, đã từng xảy ra với GPT-5.3 Codex vào tháng 2/2026 và là một mô hình lặp lại qua các bản cập nhật từ GPT-5 đến 5.5. Dù OpenAI từng đánh dấu sự cố "đã giải quyết", các báo cáo mới nhất vẫn tiếp tục xuất hiện. Phân tích cho rằng động cơ có thể là để tiết kiệm chi phí điện toán. Trong khi người dùng vật lộn với trải nghiệm không ổn định của GPT-5.5, thì GPT-5.6 đã xuất hiện trong nhật ký backend, dự kiến ra mắt sớm. Điều này làm dấy lên lo ngại về cuộc đua phát triển AI siêu trí tuệ (ASI) có thể đang hy sinh độ ổn định và minh bạch của dịch vụ hiện tại để theo đuổi các mẫu mới.

marsbit05/27 11:08

Bằng chứng không thể chối cãi: GPT-5.5 bị bắt quả tang 'hạ trí', tài liệu chính thức của OpenAI thừa nhận

marsbit05/27 11:08

Hệ điều hành Agent hóa: Không phải cạnh tranh AI, mà là nền tảng

Bài viết phân tích xu hướng "Hệ điều hành đầu cuối chuyển sang Agent hóa" (Agentic OS), nổi bật từ sau các sự kiện như Google I/O 2026, với sự tham gia của Android, iOS, HarmonyOS và Windows. Tác giả nhấn mạnh rằng, điểm cạnh tranh thực sự không nằm ở các tính năng AI được trưng bày, mà ở ba tầng "bệ đỡ" nền tảng bên dưới: 1. **Hệ thống thời gian chạy AI cấp hệ thống (System-level AI Runtime)**: Đóng vai trò trung tâm điều phối, cung cấp năng lực suy luận chia sẻ và dịch vụ ổn định cho ứng dụng, biến Agent thành một dịch vụ thường trú của hệ điều hành. Các ví dụ điển hình là Google AICore, Apple Foundation Models và Huawei HMAF. 2. **Chip khả chủ (Controllable Chip)**: Là điểm tựa cho sự phối hợp phần cứng-phần mềm. Việc tự chủ thiết kế chip (như Apple Silicon, Google Tensor, Huawei Kirin) cho phép tối ưu hóa kiến trúc sâu, quyết định hiệu suất, mức tiêu thụ năng lượng và trải nghiệm tối đa của Agent phía đầu cuối. 3. **Ma trận mô hình đầu cuối-đám mây (End-Cloud Model Matrix)**: Là nguồn "trí tuệ" của Agent. Các mô hình phía đầu cuối (như Gemini Nano, Phi Silica, mô hình nền tảng của Apple) được nhúng sâu vào hệ điều hành và NPU, đảm bảo độ trễ thấp, quyền riêng tư và khả năng hoạt động ổn định. Tự nghiên cứu mô hình phía đầu cuối là lựa chọn mặc định để tối ưu hóa hiệu suất. Bài viết chỉ ra rằng sự kết hợp chặt chẽ giữa ba tầng này càng sâu, không gian khác biệt hóa và lợi thế cạnh tranh của các nhà phát triển hệ điều hành càng lớn, thể hiện qua khả năng giảm độ trễ/tiêu thụ điện, bảo vệ quyền riêng tư, cung cấp ngữ cảnh hệ thống và độ tin cậy như một dịch vụ hệ thống. Apple, Google và Huawei là những ví dụ điển hình cho mô hình phối hợp này. Ngoài ra, các yếu tố dài hạn khác như khả năng tương tác của Agent với ứng dụng (thông qua API như AppFunctions, App Intents) và hệ thống bảo vệ quyền riêng tư mạnh mẽ cũng là những biến số quan trọng củng cố hào cạnh tranh. Cuối cùng, xu hướng này không chỉ giới hạn ở điện thoại và PC mà sẽ mở rộng sang ô tô, thiết bị đeo (XR) và hệ sinh thái IoT thông qua các khung phân tán, định hình lại phân phối lưu lượng truy cập đầu cuối. Thành công phụ thuộc vào sự tích lũy lâu dài qua nhiều thế hệ chip, mô hình và hệ thống thời gian chạy.

marsbit05/27 10:24

Hệ điều hành Agent hóa: Không phải cạnh tranh AI, mà là nền tảng

marsbit05/27 10:24

Nghiên cứu mới của AMD đảo lộn nhận thức: FP4 huấn luyện không ổn định, nguyên nhân không phải do tính ngẫu nhiên không đủ

Bài viết nghiên cứu mới của AMD và Đại học Bang Pennsylvania lật ngược nhận thức trước đây về việc huấn luyện mô hình lớn bằng định dạng FP4. Trái với suy nghĩ phổ biến rằng sự bất ổn đến từ tính ngẫu nhiên không đủ, nghiên cứu xác định nguyên nhân chính là lỗi cấu trúc từ việc thu nhỏ tỷ lệ (micro-scaling) tích lũy và khuếch đại dọc theo đường truyền gradient trọng số (Wgrad) nhạy cảm. Các thí nghiệm kiểm soát trên phần cứng AMD Instinct MI355X với định dạng MXFP4 cho thấy: khi thay thế phép tính Wgrad từ FP8 sang MXFP4, chất lượng hội tụ suy giảm đáng kể. Các chiến lược thêm tính ngẫu nhiên như làm tròn ngẫu nhiên hoặc phép xoay Hadamard ngẫu nhiên thậm chí còn gây ra phân kỳ. Ngược lại, phép xoay Hadamard xác định đã ổn định quá trình huấn luyện bằng cách áp dụng cùng một phép biến đổi mỗi bước, giữ cho mẫu lỗi nhất quán và tránh tích lũy. Với giải pháp này, nghiên cứu đã hoàn thành việc tiền huấn luyện đầy đủ cho Llama 3.1-8B trên C4, đạt được tốc độ huấn luyện nhanh hơn 9-10% so với đường cơ sở FP8, với chi phí token chỉ tăng thêm 8-9%. Đây là minh chứng đầu tiên về việc huấn luyện mô hình lớn hoàn chỉnh bằng FP4 trên phần cứng nguyên bản. Nghiên cứu có ý nghĩa quan trọng: (1) Cung cấp chẩn đoán nguyên nhân rõ ràng, hướng dẫn tập trung vào lỗi cấu trúc thay vì tính ngẫu nhiên; (2) Mở rộng phạm vi sử dụng FP4 từ suy luận sang huấn luyện, tiềm năng tăng gấp đôi hiệu suất phần cứng hiện có; (3) Dựa trên tiêu chuẩn mở OCP Microscaling, đảm bảo khả năng di chuyển giữa các nền tảng phần cứng khác nhau.

marsbit05/27 06:21

Nghiên cứu mới của AMD đảo lộn nhận thức: FP4 huấn luyện không ổn định, nguyên nhân không phải do tính ngẫu nhiên không đủ

marsbit05/27 06:21

OpenSea Ra Mắt ERC-8257: Cửa Hàng Công Cụ Cho AI Agent, Mua NFT Là Có Thể Mở Khóa API

OpenSea đã giới thiệu ERC-8257, một tiêu chuẩn đăng ký công cụ trên chuỗi (blockchain) dành cho AI Agent. Tiêu chuẩn này cho phép các nhà phát triển công bố công cụ (API, dịch vụ) cùng các quy tắc truy cập và định giá lên chuỗi khối, ví dụ như yêu cầu sở hữu một NFT cụ thể để được dùng với giá ưu đãi. AI Agent có thể tự động duyệt danh sách công cụ, kiểm tra điều kiện truy cập (như mua NFT, đúc gói đăng ký) và thanh toán mà không cần sự can thiệp của con người. Một ví dụ minh họa: Một Agent AI cần dùng công cụ định giá NFT chuyên nghiệp nhưng bị từ chối vì thiếu quyền truy cập. Agent ngay lập tức tự mua NFT cần thiết trên chuỗi và thử lại, sau đó nhận được kết quả định giá thành công. Điều này biến NFT thành "chìa khóa" trong nền kinh tế Agent, mang lại tiện ích mới cho các bộ sưu tập NFT hiện có. ERC-8257 đảm nhiệm việc phát hiện và kiểm soát truy cập, trong khi các giao thức thanh toán như x402 xử lý việc trả phí. Nó có thể kết hợp với các tiêu chuẩn khác như ERC-8004 (danh tính Agent) và MCP. Tiêu chuẩn hiện đang trong giai đoạn dự thảo và đã triển khai trên Ethereum và Base, khuyến khích các nhà phát triển xây dựng và đóng góp ý kiến.

marsbit05/27 04:28

OpenSea Ra Mắt ERC-8257: Cửa Hàng Công Cụ Cho AI Agent, Mua NFT Là Có Thể Mở Khóa API

marsbit05/27 04:28

AI và Cách mạng Công nghiệp: Chúng Ta Đang Ở Đâu?

Tác giả phân tích cuộc cách mạng AI hiện tại thông qua lăng kính lịch sử Cách mạng Công nghiệp, lập luận rằng chúng ta vẫn đang ở giai đoạn đầu: thay thế công cụ cũ (máy nước) bằng động cơ mới (AI) nhưng chưa "tháo dỡ phân xưởng cũ" - tức chưa thiết kế lại quy trình sản xuất và cách thức làm việc cốt lõi xung quanh AI. Bài viết chỉ ra ba điểm chính: 1. **Cách làm việc chưa thay đổi**: Dù AI giúp tiết kiệm thời gian lẻ, các quy trình cũ, cuộc họp vô ích và sự phân mảnh dữ liệu vẫn ăn mòn lợi ích. 2. **Đầu tư dồn vào hạ tầng, thiếu chuyển đổi tổ chức**: Giống cơn sốt đường sắt xưa, vốn đổ vào GPU, data center (hạ tầng tính toán), nhưng sự thay đổi thực sự - nơi AI thay thế vai trò và tái cấu trúc quy trình - trong doanh nghiệp và công việc tri thức vẫn rất hạn chế. 3. **Tương lai thuộc về người "tháo dỡ phân xưởng"**: Những người như đồng sáng lập Notion (dùng AI Agent thay vì tự viết code) hay YC (xây dựng hệ thống tự cải tiến đệ quy) mới thực sự tái thiết kế công việc. Tương lai sẽ xuất hiện các vai trò nghề nghiệp mới chưa có tên. Thông điệp then chốt: Cơ hội lớn không nằm ở việc sở hữu công cụ hay cổ phần hạ tầng, mà ở năng lực tái tư duy cách làm việc, tích hợp sâu AI vào quy trình và chuyên môn riêng. Cuộc cách mạng thực sự bắt đầu khi ai đó dám phá bỏ "nhà máy cũ bên bờ sông" để xây dựng mô hình mới xung quanh "động cơ hơi nước" AI.

marsbit05/27 01:35

AI và Cách mạng Công nghiệp: Chúng Ta Đang Ở Đâu?

marsbit05/27 01:35

Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước

Hôm nay, Code Arena công bố bảng xếp hạng mới nhất. Qwen3.7-Max của Alibaba đạt 1541 điểm, lọt vào top 4 toàn cầu, vượt qua các mô hình hàng đầu như GPT-5.5 và Gemini 3.5 Flash. Hiện chỉ có Claude Opus 4.7 và Opus 4.6 xếp trên nó. Điều này giúp Alibaba trở thành công ty Trung Quốc duy nhất trong top đầu, đứng thứ hai thế giới, chỉ sau Anthropic. Qwen3.7-Max được mệnh danh là "mô hình nền tảng cho Agent", được thiết kế để thực hiện các nhiệm vụ tự chủ dài hạn. Trong một thử nghiệm, nó có thể chạy liên tục 35 giờ, thực hiện 1158 lần gọi công cụ để tối ưu hóa mã, đạt tốc độ tăng trung bình gấp 10 lần. Khả năng lập trình vượt trội của nó được chứng minh qua các thử nghiệm thực tế. Khi được yêu cầu tạo một trò chơi đua xe 3D, Qwen3.7-Max tạo ra một phiên bản có thể chơi được ngay lần đầu, bao gồm giao diện bắt đầu và hiệu ứng âm thanh - những chi tiết mà các mô hình khác như Gemini, Claude hay ChatGPT bỏ sót hoặc cần nhiều lần sửa lỗi. Hai yếu tố then chốt giúp Qwen3.7-Max đạt được thành tích này là: 1) Đào tạo mở rộng môi trường, giúp mô hình học các chiến lược tổng quát thay vì chỉ hoạt động tốt trong một framework cụ thể; 2) Khả năng thực thi tự chủ dài hạn, cho phép nó đưa ra hàng nghìn quyết định liên tục mà không bị suy giảm ngữ cảnh hay rơi vào vòng lặp. Với việc Qwen3.7-Max gia nhập cuộc đua, cuộc cạnh tranh về mô hình lập trình toàn cầu không còn là câu chuyện độc quyền của Thung lũng Silicon.

marsbit05/27 00:19

Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước

marsbit05/27 00:19

活动图片