Đúng vậy, AI vẫn đang phi nước đại.
Năm 2016, học sâu mới bùng nổ được một năm đã gần như đình trệ. Năm 2026, sau 4 năm bùng nổ, mô hình lớn vẫn chưa chạm tới giới hạn.
Tại hiện trường Hội nghị Trí Nguyên 2026, Cone Intelligence thấy rằng, từ mô hình, phần mềm phần cứng đến sản phẩm, tất cả đều đang nỗ lực để AI từ thế giới số "chạy" vào thế giới vật lý.
Một mặt, Scaling Law phát huy ổn định, thúc đẩy mô hình ngôn ngữ lớn và mô hình đa phương thức vẫn tiếp tục phát triển, ngành công nghiệp AI đã bước vào giai đoạn đuổi theo mô hình thế giới. Chỉ là hiện tại các vấn đề về đường hướng công nghệ, dữ liệu vẫn chưa được giải quyết, có thể cần thêm ít nhất 3-5 năm nữa để khám phá.
Mặt khác, đột phá của Agent đã đẩy nhanh việc triển khai AI trong các tình huống thực tế. Khi Agent đạt đến giai đoạn khả dụng, ngành đang thúc đẩy ứng dụng của nó trong các lĩnh vực như y tế, hội họp. Để Agent từ khả dụng trở nên dễ dùng, sự phối hợp giữa phần mềm và phần cứng cũng trở thành then chốt. Tại khu triển lãm của Hội nghị Trí Nguyên, các nhà sản xuất chip chiếm "một nửa sân khấu". Hầu hết các chip AI hàng đầu trong nước đều có mặt.
“Chúng ta đang đứng trước một điểm tới hạn lịch sử mới. Trí tuệ nhân tạo không còn chỉ là công cụ cải tạo một ngành nào đó, mà đang trở thành lực lượng nền tảng tái cấu trúc thế giới. AI Coding, tác nhân thông minh tự chủ, sự tự tiến hóa của mô hình, đang mở ra khả năng cho AI, sáng tạo ra AI. Mô hình thế giới, trí thông minh hình thể và robot, thì đang kéo dài trí thông minh từ thế giới số sang thế giới vật lý.” Viện trưởng Viện Nghiên cứu Trí Nguyên Vương Trọng Viễn nói.
Trong làn sóng tái cấu trúc lực lượng nền tảng này, rốt cuộc đang xảy ra điều gì?
Ngày đầu tiên của Hội nghị Trí Nguyên, các khách mời tại hiện trường đã đưa ra câu trả lời này: AI đang từ "biết trò chuyện" tiến tới "biết làm việc". Scaling Law vẫn tiếp diễn, mô hình thế giới - hướng công nghệ chưa hội tụ trở thành trọng tâm của giai đoạn tiếp theo, còn tác nhân thông minh đã từ khả dụng bắt đầu tiến tới dễ dùng, cũng có nhiều vấn đề đang chờ được tối ưu hóa.
AI không chỉ công nghệ chưa tới trần
Còn học được cách tự tiến hóa
Một năm qua, khi dữ liệu văn bản internet chất lượng cao bị tiêu hao cạn kiệt, trong ngành tràn ngập một tâm trạng bi quan "Scaling Law (định luật tỷ lệ) sắp chạm đỉnh".
Trong nhiều diễn đàn tại Hội nghị Trí Nguyên, vấn đề "Lợi ích của Scaling Law có đang thu hẹp không" thường xuyên được nhắc đến, nhiều vị khách mời đều phủ nhận quan điểm này.
“Tôi vẫn tin tưởng khá vững chắc rằng Scaling còn lâu mới tới hồi kết.” Người sáng lập kiêm CTO Ngân Hà Thông Dụng Vương Hạc nói, “Nhìn lại hôm nay, Scaling Law không hề mất hiệu lực, chỉ là nó trở nên đa dạng hơn.”
Trên một loạt mô hình ngôn ngữ lớn mới được phát hành, Scaling vẫn tiếp tục phát huy tác dụng. Lấy Fable 5 mới được Anthropic phát hành để phân tích, Tiểu Mễ La Phúc Lợi cho biết, bản thân mô hình này là sản phẩm của việc thúc đẩy Scaling một cách khoa học. Nó là kết quả mở rộng có được từ sự kết hợp ba chiều: quy mô tham số, dữ liệu tổng hợp và học tăng cường.
“Chúng tôi đoán, quy mô tham số của bản thân Fable 5 nên gấp vài lần mô hình nguồn mở lớn nhất hiện nay, thứ hai là trên Test-Time Scanning (mở rộng khi suy luận) hoặc học tăng cường cũng đã đầu tư sức mạnh tính toán lớn. Ngoài ra, dữ liệu tổng hợp do con người và Agent tạo ra đã đưa quy mô dữ liệu lên một cấp độ mới.” La Phúc Lợi nói.
Về lĩnh vực đa phương thức, sự cải thiện hiệu suất mô hình do Scaling mang lại cũng có hiệu quả đáng kể. Người sáng lập kiêm nhà khoa học trưởng Sinh Số Khoa Kỹ Chu Quân cho biết, chất lượng dữ liệu, kích thước mô hình và huấn luyện quy mô lớn đều sẽ mang lại sự cải thiện cho mô hình. Trên nền tảng nâng cao năng lực mô hình cơ bản, việc mô hình học các quy luật vật lý, hiểu biết về cảnh 3D cũng sẽ hiệu quả hơn.
Scaling tiếp tục có hiệu lực, đồng thời cùng với AI Coding dần trưởng thành, Agent triển khai nhanh chóng, xu hướng tự tiến hóa của AI rõ ràng, từ viết code nâng cấp lên tự hoàn thành việc cập nhật lặp sản phẩm.
“Phần nền tảng của thế giới số của con người phần lớn được cấu thành thông qua mã code, AI Coding có tiến bộ thực chất thực sự và trở thành dòng chính, có nghĩa là tất cả những thứ trong thế giới số, AI đều có khả năng dần dần tiếp quản.” Vương Trọng Viễn nói.
Trong và ngoài nước, việc dùng AI để hoàn thành cập nhật sản phẩm đã trở thành thông thường.
“Nếu nói mô hình quyết định năng lực của tác nhân thông minh, thì Harness quyết định trần năng lực của tác nhân thông minh.” Lý Cảnh Thu nói. “Khó khăn của nó nằm ở chỗ cần phải làm tốt hơn nữa việc làm rõ, xác minh và phản hồi vấn đề trên cơ sở mô hình.”
Ví dụ, nếu chỉ dựa vào mô hình để hiểu vấn đề, nó khó tránh khỏi có hạn chế. Việc Harness cần làm là hoàn thiện và làm phong phú thêm một câu lệnh đơn giản của người dùng, để mô hình có thể hiểu nhu cầu tốt hơn, ở đây cần Harness phát huy khả năng hiểu ý định, và sau khi nhận nhiệm vụ, thiết kế quy trình nhiệm vụ tiếp theo, rồi điều phối mô hình thực hiện. Trong quá trình này có thể cần kết hợp can thiệp và điều chỉnh sai lệch thủ công, rồi kiểm tra trước khi hoàn thành nhiệm vụ.
Mô hình thế giới
Mặt trận then chốt tiếp theo của mô hình lớn
Dọc theo ranh giới thế giới số đột phá ra ngoài, mô hình thế giới đã trở thành mặt trận then chốt tiếp theo của mô hình lớn.
“Hiện tại chưa có mô hình thế giới nào thực sự khiến người ta cảm thấy đặc biệt ấn tượng, giải quyết được các vấn đề đa dạng của thế giới vật lý thực.” Vương Trọng Viễn nói.
Đối với mô hình thế giới đang ở giai đoạn phát triển ban đầu, về công nghệ hướng tới mô hình thế giới, ngành hiện chưa hoàn toàn đạt được đồng thuận. Và trong tình huống đường hướng công nghệ chưa hội tụ, còn có một loạt vấn đề cấp bách chờ giải quyết. Lấy dữ liệu làm ví dụ, Vương Trọng Viễn nêu ví dụ, rốt cuộc là cần dữ liệu video, dữ liệu mô phỏng hay dữ liệu thế giới vật lý thực, mọi người vẫn chưa tìm ra phương pháp đường đi.
Lấy Ngân Hà Thông Dụng làm ví dụ, Vương Hạc tại hiện trường đã giới thiệu ứng dụng dữ liệu tổng hợp của họ.
“Trước khi mô thức WAM (World Action Model, tức mô hình hành động thế giới) xuất hiện, chúng tôi trong mô thức VLA, trước tiên sử dụng dữ liệu tổng hợp, đã thử nghiệm rất nhiều đối với việc nắm bắt.” Vương Hạc nói, “Chúng tôi đã dùng 1 tỷ khung hình dữ liệu mô phỏng để chứng minh: chỉ cần bạn Scale dữ liệu đến mức độ này, bạn có thể hoàn toàn thực hiện zero-shot (học không mẫu), trong thế giới thực đưa cho tôi một thứ bất kỳ, đều có thể giải quyết việc nắm bắt.”
Đối với tình hình phát triển của mô hình thế giới, Viện Nghiên cứu Trí Nguyên dự đoán "ít nhất còn cần vài năm nữa", ba đến năm năm tới sẽ là giai đoạn mô hình thế giới tiếp tục tiến hóa và lặp lại.
Trong vài năm, trong ngành đã xuất hiện nhiều mô hình thế giới với các đường hướng công nghệ khác nhau, và sự phát triển mỗi cái đều có điểm mạnh riêng.
Lấy mô hình thế giới đa phương thức làm ví dụ, Chu Quân cho biết, mô hình video và mô hình thế giới có quan hệ mật thiết, vì mô hình thế giới cần có năng lực xem hiểu và hiểu trạng thái, dự đoán, hành động ba khả năng. Mà trong dữ liệu huấn luyện có thể tiếp xúc hiện tại, liên quan nhất đến mô hình thế giới chính là dữ liệu video.
Trong tình huống các loại đường hướng công nghệ phân hóa, ngành chưa hình thành đồng thuận, Viện Nghiên cứu Trí Nguyên chia mô hình thế giới thành bốn loại:
Loại thứ nhất là mô hình thế giới lấy ngôn ngữ làm trung tâm, ánh xạ các phương thức khác, năng lực khác vào không gian ngôn ngữ, bao gồm mô hình ngôn ngữ lớn, VLM, VLA, v.v.;
Loại thứ hai là mô hình thế giới lấy pixel làm trung tâm, bản chất của tạo sinh video là dự đoán khung hình tiếp theo, nhưng mô hình tạo sinh video không bằng mô hình thế giới, nó liên quan đến mô hình thế giới, World Action Model (WAM) có thể rất hot năm nay đều lấy pixel làm trung tâm để tiến hóa;
Loại thứ ba là mô hình thế giới lấy cấu trúc ba chiều làm trung tâm, bao gồm tái tạo 3D đơn thuần là thế giới ba chiều;
Loại thứ tư là mô hình thế giới lấy biểu thị thị giác làm trục.
Hiện tại, Viện Nghiên cứu Trí Nguyên đang khám phá con đường "loại thứ năm" - sự hợp nhất giữa lấy ngôn ngữ làm trung tâm và lấy biểu thị thị giác làm trung tâm, tức biểu thị không gian tiềm ẩn, tương đương với việc nén một loạt thông tin văn bản, hình ảnh vào không gian vector, để biểu thị các trạng thái thế giới vật lý thực.
“Việc mô hình hóa không gian tiềm ẩn thống nhất trong tương lai không chỉ là không gian thị giác, mà là không gian tiềm ẩn toàn phương thức, rất có khả năng là con đường thực sự tiếp theo của mô hình thế giới.” Vương Trọng Viễn nói.
Viện Nghiên cứu Trí Nguyên tại hội nghị đã giới thiệu mô hình thế giới đang được nghiên cứu phát triển - Ngộ Giới·Physis-v0.1, nó lấy mô hình hóa không gian vật lý, thực hiện dự đoán trạng thái vật lý tiếp theo làm trung tâm. Định vị của nó là mô hình nền tảng thế giới thông dụng đầu tiên toàn cầu, nhấn mạnh bốn năng lực then chốt "đúng vật lý, có thể truy nguyên nguyên nhân hành động, nhất quán dài thời gian, tổng quát hóa thông dụng".
Hiện tại, mô hình này vẫn đang trong giai đoạn huấn luyện, nửa cuối năm Trí Nguyên sẽ tiếp tục chia sẻ tiến triển, sau khi huấn luyện hoàn thành sẽ mở nguồn mô hình.
Từ "khả dụng" tiến tới "dễ dùng"
Tác nhân thông minh còn nhiều cửa ải phải vượt
Phía mô hình, tiến triển của mô hình thế giới thúc đẩy việc hiện thực hóa AI vật lý; phía sản phẩm, Agent (tác nhân thông minh) trở thành sản phẩm triển khai then chốt để AI bước vào cuộc sống đại chúng.
Bắt đầu từ năm 2025 được gọi là "năm nguyên của tác nhân thông minh", Agent đã xuất hiện một phần sản phẩm gây ấn tượng, có dấu hiệu bùng nổ, nhưng sức nóng "lobster" của năm nay vẫn ngoài dự đoán.
So với năm ngoái tác nhân thông minh còn ở trạng thái thực thi, năm nay tác nhân thông minh rõ ràng trở nên chủ động hơn, biết làm việc hơn, có thể giúp người dùng chủ động thực hiện nhiệm vụ phức tạp hơn.
Hội nghị Trí Nguyên năm nay, Viện Nghiên cứu Trí Nguyên cũng phát hành bốn tác nhân thông minh thiên về lĩnh vực dọc: Tác nhân thông minh hỗ trợ chẩn đoán hướng tới cộng hưởng từ tim BAAI Cardiac Agent đầu tiên toàn cầu, thông qua hợp nhất năng lực đa phương thức và kiến thức chuyên môn bác sĩ, hỗ trợ bác sĩ hoàn thành quyết định; Tác nhân thông minh nghiên cứu tự chủ AREX ứng dụng trong lĩnh vực nghiên cứu khoa học; Tác nhân thông minh SoulAgent giúp người dùng nghe hội nghị thời gian thực, nắm bắt điểm chính; và tác nhân thông minh phát hiện rủi ro hướng tới việc thu nhận protein có hại.
Trong đó, lấy tác nhân thông minh nghe hội làm ví dụ, Cone Intelligence đã kiểm tra năng lực tổng kết nội dung hội nghị khác nhau của nó. SoulAgent thực sự đã đưa ra tổng kết đơn giản về nội dung hội nghị. Mặc dù không đầy đủ như biên bản, nhưng quan điểm cốt lõi không sai. Khá phù hợp với tình huống thời gian phân diễn đàn trùng lặp như thế này.
Tuy nhiên, hiện tại tác nhân thông minh về mặt kỹ thuật vẫn còn nhiều vấn đề cần được tối ưu hóa thêm. Giáo sư Đặc biệt Hiệu trưởng Đại học Công nghệ Nanyang An Dương đề cập, để duy trì năng lực tác nhân thông minh tiếp tục nâng cao, hiện tại quan trọng nhất vẫn là phần liên quan đến công nghệ ngữ cảnh, như Memory (bộ nhớ), biên soạn, v.v.
Hiện trường diễn đàn tác nhân thông minh, Harness (dịch thẳng là dây cương ngựa, chỉ toàn bộ khung công trình hóa hoặc môi trường được xây dựng xung quanh tác nhân thông minh) năm ngoái ít được chú ý, năm nay sức nóng khá cao đã trở thành từ khóa tần suất cao được nhắc đến tại hiện trường.
“Nếu nói mô hình quyết định năng lực của tác nhân thông minh, thì Harness quyết định trần năng lực của tác nhân thông minh.” Lý Cảnh Thu nói. “Khó khăn của nó nằm ở chỗ cần phải làm tốt hơn nữa việc làm rõ, xác minh và phản hồi vấn đề trên cơ sở mô hình.”
Ví dụ, nếu chỉ dựa vào mô hình để hiểu vấn đề, nó khó tránh khỏi có hạn chế. Việc Harness cần làm là hoàn thiện và làm phong phú thêm một câu lệnh đơn giản của người dùng, để mô hình có thể hiểu nhu cầu tốt hơn, ở đây cần Harness phát huy khả năng hiểu ý định, và sau khi nhận nhiệm vụ, thiết kế quy trình nhiệm vụ tiếp theo, rồi điều phối mô hình thực hiện. Trong quá trình này có thể cần kết hợp can thiệp và điều chỉnh sai lệch thủ công, rồi kiểm tra trước khi hoàn thành nhiệm vụ.
Nói một cách đơn giản, giống như một trợ lý người thật, mỗi bước chi tiết trong đó đều cần sản phẩm mài giũa đối với Harness, mới có thể nâng cao hơn nữa hiệu quả thực thi của Agent.
Hiện tại, Agent vẫn đang ở giai đoạn phát triển ban đầu, có thể dự kiến là không gian tiến bộ của ngành này rất lớn, dù là nâng cao năng lực mô hình, hay củng cố chi tiết công trình, đều sẽ tiếp tục góp phần cho năng lực làm việc của Agent.
Bài viết này đến từ tài khoản công chúng WeChat: Cone Intelligence , tác giả: Quan tâm đến công nghệ tiên phong










