Văn | AIX Tài chính, Tác giả | Lôi Tinh, Biên tập | Kim Doãn Phân
Làng AI gần đây có nhiều động thái, Tencent Hunyuan Hy3 preview cũng chính thức ra mắt.
Ngày 23 tháng 4, Tencent Hunyuan chính thức phát hành và mã nguồn mở mô hình ngôn ngữ thế hệ mới Hy3 preview. Theo giới thiệu trên trang web chính thức, mô hình này sử dụng kiến trức chuyên gia hỗn hợp (Mixture of Experts) kết hợp tư duy nhanh-chậm, tổng số tham số 295B, tham số kích hoạt 21B, hỗ trợ tối đa độ dài ngữ cảnh 256K. Đây là mô hình được hãng gọi là thông minh nhất của Hunyuan từ trước đến nay.
Ba tháng trước, Diêu Thuận Vũ mang theo framework ReAct và kinh nghiệm thực chiến từ OpenAI gia nhập Tencent, chủ trì hoàn thành việc tái cấu trúc cơ sở hạ tầng huấn luyện trước và học tăng cường. Hy3 preview là bản báo cáo đầu tiên sau quá trình tái xây dựng này. Hãng cho biết, mô hình này đã có những cải thiện đáng kể về khả năng suy luận phức tạp, tuân thủ chỉ thị, học từ ngữ cảnh, tạo mã cũng như tác tử thông minh (Agent).
Dựa trên dữ liệu và kết quả đánh giá được hãng công bố, Hy3 preview thể hiện năng lực nổi bật trong nhiều bài kiểm tra cơ bản, mặc dù chưa chắc đã đạt trình độ đỉnh cao ngành ở mọi chiều kích, nhưng đủ để đáp ứng nhu cầu sử dụng thực tế trong đa số tình huống.
Về hiệu suất vận hành thực tế và tính ổn định, Hy3 preview cũng có những đột phá. Dữ liệu chính thức cho thấy, độ trễ Token đầu tiên của mô hình này giảm 54%, thời gian end-to-end giảm 47%, cải thiện đáng kể tốc độ phản hồi. Đồng thời, tỷ lệ thành công của nhiệm vụ cũng được nâng cao, đã có thể ổn định vận hành quy trình công việc Agent phức tạp, bao phủ nhiều tình huống nghiệp vụ như xử lý tài liệu, phân tích dữ liệu.
Ngoài ra, chi phí suy luận của nó cũng giảm. Trên API Tencent Cloud, đầu vào chỉ từ 1.2 NDT/triệu Tokens, gói cá nhân thấp nhất 28 NDT/tháng, thuộc nhóm giá thấp nhất trong các mô hình cùng kích thước. Hiện tại, Hy3 preview đã được triển khai trên các sản phẩm cốt lõi của Tencent như Tencent Cloud, Yuanbao (Nguyên Bảo), WorkBuddy.
Tiếp theo, chúng tôi sẽ dựa trên bốn hướng mà hãng đề cập để kiểm tra thực tế biểu hiện của mô hình lớn Hunyuan trong ứng dụng thực tế.
Khả năng suy luận: Có thể phân giải logic phức tạp, nhận diện bẫy vẫn cần tăng cường
Đầu tiên chúng tôi kiểm tra khả năng suy luận của mô hình. Câu đố logic là loại mà cư dân mạng thích dùng để thử "chỉ số thông minh" của mô hình nhất. Ở phần này, chúng tôi đầu tiên dùng bài toán kinh điển "vấn đề rửa xe" để kiểm tra trong Yuanbao.
Trong câu hỏi bẫy kinh điển này, Hy3 preview ban đầu đã không trả lời đúng. Nó đưa ra suy luận rõ ràng, mạch lạc để đề nghị đi bộ, mà bỏ qua trọng tâm là "rửa xe". Sau khi nhắc lại cần rửa xe, nó mới đưa ra đáp án chính xác.
Cần lưu ý, trong các bài kiểm tra thực tế khác của cư dân mạng, Hy3 preview đã từng xuất hiện trường hợp trả lời đúng ngay lập tức, điều này cho thấy khả năng nhận diện bẫy của nó chưa đủ ổn định.
Chúng ta hãy thử một câu đố mẹo khác. Trong vấn đề này, cần hiểu logic thực tế, những quả trứng bị vỡ, rán và ăn là cùng một lô. Nhưng Hy3 preview không nhận ra điều này, nó cho rằng những quả trứng đã rán vẫn tồn tại và có thể ăn.
Sau đó, chúng tôi tăng độ khó, dùng một bài logic có quá trình suy diễn phức tạp hơn để thử thách nó. Điểm khó của bài này là không có thông tin định vị trực tiếp, cần dựa vào điều kiện ngầm để loại trừ, dễ bỏ sót thông tin then chốt.
Trong tình huống này, Hy3 preview đã đưa ra câu trả lời chính xác. Nó đầu tiên phân tích từng manh mối,提炼 (tinh luyện - extract) mối quan hệ loại trừ lẫn nhau giữa người và nghề nghiệp, sau đó thông qua phương pháp loại trừ để khóa chặt danh tính. Tiếp theo, nó lần lượt xác định sự phân bổ của một số vị trí, rồi kết hợp quy tắc để dần hoàn thiện.
Tổng hợp lại, khả năng suy diễn logic lý tính thông thường của Hy3 preview khá mạnh, nhưng tư duy ngược, nhận diện bẫy và khả năng suy nghĩ linh hoạt trong bối cảnh đời sống vẫn còn thiếu sót. Khi đối mặt với câu đố mẹo dạng bẫy, dễ bị giới hạn trong logic thông thường theo mặt chữ, bỏ qua bẫy câu hỏi và bối cảnh thực tế, phản ứng chưa tốt. Nhưng khi đối mặt với bài toán suy luận logic phức tạp có điều kiện ẩn, suy diễn rườm rà, nó có thể phân giải manh mối, suy diễn từng tầng, khả năng phân tích logic và suy diễn từng bước thể hiện vững chắc.
Học từ ngữ cảnh và tuân thủ chỉ thị: Trích xuất thông tin, biểu hiện ổn định trong tình huống nhiễu
Mục này kiểm tra hai kỹ năng cơ bản của mô hình: Liệu có nắm bắt được chỉ thị thực sự, và liệu có thể nhanh chóng hiểu chỉ thị.
Tencent trong blog chính thức đã đưa ra năm tình huống như lập kế hoạch dự án, tổng kết du lịch, ghi chép đọc sách, chúng tôi chọn hai tình huống để kiểm tra thực tế.
Tình huống 1: Trích xuất thông tin từ biên bản cuộc họp nội dung hỗn loạn
Chúng tôi đưa ra một đoạn ghi chép chuyển thể từ ghi âm cuộc họp hỗn loạn, lẫn lộn lời chen ngang, chạy đề, sửa đổi lặp lại, yêu cầu nó trích lục ba loại thông tin.
Đáp án mà Hy3 preview đưa ra đã liệt kê chính xác ba loại thông tin này, khả năng nắm bắt thông tin biểu hiện khá tốt.
Tình huống 2: Hiểu và tuân theo quy tắc ngôn ngữ mới
Chúng tôi tự tạo một ngôn ngữ đơn giản, thông qua ví dụ để展示 (triển thị - demonstrate) quy tắc cho nó, và đưa ba câu mới để nó dịch.
Ở vòng này, Hy3 preview có thể hoàn thành chính xác yêu cầu liên quan, mỗi chi tiết đều thực hiện theo quy tắc.
Tổng hợp lại, Hy3 preview có thể hiểu yêu cầu chỉ thị, loại bỏ hiệu quả thông tin nhiễu, phù hợp với các tình huống thực dụng như nhiễu thông tin phức tạp, nắm bắt thông tin.
Mã và Tác tử: Gọi công cụ khá trưởng thành, tính hoàn chỉnh trong giao nhiệm vụ chưa đủ
Khả năng mã hóa và năng lực tác tử là chiều kích quan trọng để đánh giá một trợ lý AI có dễ dùng hay không. Điều này vừa thử thách độ sâu hiểu biết nhu cầu người dùng của mô hình, cũng kiểm tra khả năng lập kế hoạch, gọi công cụ và khép kín nhiệm vụ của Agent trong nhiệm vụ nhiều bước. Ở mục này, chúng tôi thiết kế ba nhiệm vụ cho WorkBuddy (trợ lý AI của Tencent).
Nhiệm vụ đầu tiên, chúng tôi yêu cầu WorkBuddy thu thập dữ liệu tình trạng không khí của năm thành phố trong một năm gần đây, và dựa trên dữ liệu chất lượng không khí để tạo một báo cáo phân tích.
Xét về mặt hiển thị trang, thành phẩm biểu hiện đạt yêu cầu. Các板块 (bǎn kuài -板块 blocks) như chuyển mùa, biểu đồ radar, biểu đồ xu hướng, biểu đồ heatmap tương quan đều cấu trúc hoàn chỉnh, trình bày trực quan có trật tự, biểu đồ cũng có chức năng tương tác cơ bản. Điều này cho thấy khả năng thực thi của nó ở tầng trình bày front-end là đạt chuẩn.
Nhưng vấn đề chủ yếu có hai điểm, một là do giai đoạn lấy dữ liệu bị cản trở, Hy3 preview chỉ lấy được 224 ngày dữ liệu hiệu lực, khoảng trống khá lớn, ảnh hưởng đến độ tin cậy của bảng biểu sau đó; hai là trong prompt words (từ gợi ý) yêu cầu rõ viết một đoạn kết luận phân tích, Hy3 preview mặc dù trên trang vẫn giữ khu vực板块 tương ứng, nhưng nội dung thực tế là một khoảng trống. Điều này có nghĩa là nó có ý thức khép kín nhiệm vụ, nhưng khả năng giao hàng cuối cùng vẫn chưa đủ.
Nhiệm vụ thứ hai, chúng tôi yêu cầu nó xây dựng một trò chơi nhỏ rắn săn mồi (贪吃蛇).
Kết quả cuối cùng khá trưởng thành, hình ảnh tinh xảo, logic hoàn chỉnh, có thể chạy bình thường. Nhưng cần chỉ ra rằng, rắn săn mồi thuộc nhiệm vụ dạng đóng kín quy tắc, nhu cầu rõ ràng và không cần gọi dữ liệu bên ngoài, tiêu chuẩn đánh giá tương đối rõ ràng, là tình huống ứng dụng mà tác tử khá giỏi. Biểu hiện của WorkBuddy trong nhiệm vụ này chỉ có thể thể hiện năng lực trong vùng thoải mái, xác nhận nó có một giá trị thực dụng nhất định.
Nhiệm vụ thứ ba, chúng tôi nâng độ khó lên, yêu cầu nó phân tích một nhiệm vụ phức tạp mở: Phân tích sự biến đổi mô hình kinh doanh của ngành AI Coding, kiểm kê quá trình phát triển từ năm 2023 đến nay, và tìm ra các điểm ngoặt then chốt ngành cùng nhân tố thúc đẩy cốt lõi.
Đây là một nhiệm vụ phức tạp mở, không có đáp án tiêu chuẩn thống nhất, chất lượng thành quả phụ thuộc vào khả năng phán đoán, sàng lọc thông tin và biểu đạt của Agent.
Về mặt thực thi, WorkBuddy có thể tự động gọi nhiều công cụ, đầu tiên sửa đổi kế hoạch thực thi, sau đó triển khai kế hoạch, toàn bộ quá trình mất khoảng nửa giờ.
Nhưng kết quả cuối cùng không thật sự ấn tượng, nó chỉ xây dựng một khung cơ bản, nội dung thực tế chưa đủ chắc chắn. Có thể thấy, mặc dù nó nắm được phương pháp phân giải vấn đề nghiên cứu, nhưng lại không biết cách đúc kết những chiều kích này thành luận điểm nghiên cứu có giá trị.
Nói chung, WorkBuddy đã có năng lực mà một trợ lý mã hóa hàng ngày nên có, nhưng trong việc thực thi sâu nhiệm vụ phức tạp và giao hàng cuối cùng, vẫn còn không gian để nâng cao.
Đối thoại tự nhiên: Vị AI giảm rõ rệt
Cuối cùng, chúng ta hãy xem Yuanbao có "hơi người" không. Vòng này kiểm tra qua hai tình huống: đối thoại tán gẫu và sáng tác sáng tạo.
Tình huống 1: Đối thoại tán gẫu
Tài liệu chính thức đề cập, Hy3 preview có thể hiểu hơn ý đồ giãi bày của người dùng, có thể tiếp nhận cảm xúc người dùng, tránh những phản hồi mang tính giáo điều, khuôn mẫu.
Kiểm tra thực tế, biểu hiện của Hy3 preview thực sự phù hợp với định vị này. Nó không lập tức liệt kê một loạt đề xuất, mà đầu tiên phân tích khách quan nguyên nhân có thể đằng sau, sau đó hỏi thăm xem có gặp chuyện gì không. Toàn bộ ngữ khí ôn hòa, khá có chừng mực, có cảm giác tự nhiên trong bối cảnh tán gẫu.
Tình huống 2: Sáng tác sáng tạo
Ở mục này, chúng tôi thiết kế hai nhiệm vụ, thử thách khả năng tường thuật và biểu đạt của nó.
Đầu tiên chúng tôi yêu cầu nó viết một câu chuyện mà nhân vật chính không xuất hiện xuyên suốt, nhưng người đọc sau khi đọc xong có thể biết rõ anh ta là ai, đã trải qua những gì, tại sao quan trọng.
Thành phẩm mà Yuanbao giao nộp, toàn văn logic tự consistent, tường thuật trôi chảy, độ hoàn thiện khá cao, hầu như không đọc ra cảm giác khuôn sáo thường thấy trong văn AI.
Tiếp theo, chúng tôi lại yêu cầu nó bắt chước văn phong "Minh triều những năm ấy" (《明朝那些事儿》), soạn viết câu chuyện lịch sử nhân vật triều đại khác.
Khi viết, AI dễ biểu hiện việc sao chép văn phong thành sự bắt chước cứng nhắc, chỉ dừng lại ở việc sao chép khung văn bản, mà không thể thấu hiểu phong cách bài viết. Nhưng xét từ kết quả生成 (sinh thành - generated), khả năng sao chép văn phong của Hy3 preview khá mạnh, tổng thể đáp ứng yêu cầu. Nó nắm bắt được phong cách kể sử thông tục của nguyên tác, trình bày khá tốt toàn bộ câu chuyện.
Vòng đánh giá này, là điều gây bất ngờ nhất. Nhìn chung, Hy3 preview trong biểu đạt ngôn ngữ tự nhiên, đã thoát khỏi giọng điệu khuôn sáo đúng nhưng vô vị, có thể viết ra văn bản có tính khả đọc cao.
Kết luận
Bốn chiều kích kiểm tra xuống, Hy3 preview mang lại cảm giác là "ổn định nhưng không gây kinh ngạc".
Nó không có biểu hiện áp đảo ở một hạng mục nào, nhưng nó cũng hầu như không có điểm yếu rõ rệt. Đặt trong bảng xếp hạng toàn bộ mô hình lớn trong nước, nó chưa chắc là mẫu gây ấn tượng mạnh nhất, nhưng phù hợp với tiêu chuẩn mô hình thực dụng biết làm việc.
Kéo góc nhìn ra xa một chút, ý nghĩa thực sự của Hy3 preview có lẽ không nằm ở bản thân mô hình.
Hai năm qua, Tencent trên chiến trường mô hình lớn khá bị động. Cuối tháng 1 năm nay, Mã Hóa Đằng trong họp cuối năm đã công khai thừa nhận, động tác AI của Tencent chậm. Nhịp độ công nghệ tương đối chậm, không có một mô hình tiêu biểu khiến bên ngoài nhớ đến, là hai vấn đề Tencent đối mặt. Và việc phát hành Hy3 preview, khiến câu chuyện AI của Tencent có điểm ngoặt, cũng khiến Tencent có mô hình AI mà toàn bộ hệ sinh thái đều dùng được.
Hiện tại Hy3 preview mới chỉ là một bản preview, phản hồi từ cộng đồng mã nguồn mở vẫn đang thu thập, trải nghiệm gọi thực tế của các sản phẩm như Yuanbao, QQ, Tencent Tài liệu cũng cần thời gian kiểm chứng. Theo tiết lộ chính thức, sau này sẽ phát hành mô hình có quy mô tham số lớn hơn.
Nhưng ít nhất, Tencent AI đã bắt đầu xé nhãn "bị động" của hai năm qua.



















