AI của WeChat cuối cùng cũng động đậy.
Vào cùng ngày với WWDC của Apple, WeChat đã làm một việc có thể quan trọng hơn cả Apple: công bố một thông báo giản dị nhưng đầy ý nghĩa: "Hướng dẫn cho Nhà phát triển Kết nối vào Hệ sinh thái AI WeChat".
Từ hôm nay, các nhà phát triển Mini Program có thể cấp quyền để AI WeChat hoàn thành việc đọc, thao tác và gọi các chức năng của Mini Program.
WeChat cung cấp hai cách thức tích hợp: một là "Chế độ tự động", ngưỡng gần như bằng không, nhà phát triển chỉ cần bật một công tắc, nền tảng sẽ tự đọc mã nguồn, phân tích trang, hiểu Mini Program có thể làm gì, sau đó AI có thể trực tiếp thao tác, không cần viết một dòng code.
Loại còn lại gọi là "Chế độ phát triển", nhà phát triển tự xây dựng Skill tùy chỉnh, sau khi được phê duyệt sẽ được AI gọi. Cả hai có thể được bật đồng thời. Meituan đã thông báo tích hợp.
Đây không chỉ đơn giản là một tính năng mới được ra mắt, mà cần phải thấy rằng, WeChat đang biến toàn bộ hệ sinh thái của mình — hàng triệu Mini Program, WeChat Pay, thông báo dịch vụ, Official Account — thành tầng thực thi của AI.
Khám phá tài liệu Skill, xem AI WeChat điều khiển Mini Program như thế nào
Tài liệu mở của WeChat đã công bố quy chuẩn kỹ thuật Skill để Mini Program kết nối với AI, nhìn kỹ sẽ thấy ẩn chứa nhiều chi tiết thiết kế.
Đường dẫn tài liệu skill chính thức👇🏻:
https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html
Về kiến trúc, những người đã làm phát triển AI sẽ nhận ra ngay, về bản chất đây chính là MCP. File mcp.json khai báo chức năng và tham số của mỗi giao diện nguyên tử, SKILL.md mô tả toàn bộ quy trình nghiệp vụ chạy như thế nào, điều này gần như giống hệt kiến trúc MCP+Skills trong Claude, Cursor, VS Code. WeChat không xây dựng lại từ đầu, mà trực tiếp áp dụng tiêu chuẩn đang được ngành hội tụ.
Trong hướng dẫn, WeChat đưa ra một hệ thống "trọng số chú ý" rất rõ ràng. Khi AI quyết định gọi giao diện nào, tạo tham số gì, ưu tiên cao nhất là xem content trả về từ giao diện (năm sao), tiếp theo là description của giao diện trong mcp.json (bốn sao) và description của tham số (bốn sao), SKILL.md xếp cuối cùng (ba sao). Điều này có nghĩa là nhà phát triển viết ở đâu quan trọng hơn viết cái gì — cùng một quy tắc, viết trong phần trả về của giao diện và viết trong SKILL.md, trọng số AI đưa ra hoàn toàn khác nhau.
Ở cấp độ trả về giao diện có một quy tắc cốt lõi: cấu trúc hai phần "sự thật + hành động". Đầu tiên nói cho AI biết "chuyện gì đã xảy ra", sau đó nói với nó "bước tiếp theo làm gì". Nếu chỉ viết hành động mà không viết sự thật, AI có thể hiểu "hiển thị thẻ" thành "chuẩn bị gọi giao diện tiếp theo" mà bỏ qua xác nhận của người dùng. Đây là một quy tắc chỉ có thể tổng kết được sau khi vấp phải rất nhiều vấn đề.
Thứ tư, ưu tiên truyền tham số bằng ID thay vì ngôn ngữ tự nhiên. Lấy ví dụ cảnh "đặt cà phê" trong hình, sau khi người dùng đưa ra yêu cầu, AI hiểu ý định mơ hồ cũng như các tùy chọn, thay đổi quy cách, xử lý thanh toán, toàn bộ quá trình không rời khỏi hộp thoại.
Thiết kế này tiết lộ tín hiệu: WeChat đã chạy đủ nhiều trường hợp trong thực tế, biết những vấn đề ở đâu khi AI gọi dịch vụ bên ngoài, và đã củng cố những kinh nghiệm này thành quy chuẩn cho nhà phát triển.
Trên thực tế, nếu so sánh WeChat Mini Program và ứng dụng Apple, cả hai đều nổi tiếng với "hệ sinh thái", WeChat có một "góc nhìn của Chúa" đối với hệ sinh thái của mình, đây là tiền đề cho mọi thực hiện.
Tại sao còn quan trọng hơn cả AI của Apple
Phiên bản Siri AI mới mà Apple công bố tại WWDC năm nay, dù có tích hợp Google Gemini ở tầng dưới, Shortcuts hỗ trợ tạo bằng ngôn ngữ tự nhiên, nhưng không gây ra nhiều thảo luận.
Nhìn kỹ sẽ thấy sự khác biệt: Apple làm là để AI phối hợp một số chức năng gốc trong hệ thống iOS, một khi liên quan đến ứng dụng bên thứ ba, những App cài trên điện thoại của bạn, nó sẽ trở nên bất lực.
Ví dụ như Ele.me, mã của nó chạy trên máy chủ của chính Ele.me, Apple không thể đọc. Siri muốn gọi Ele.me, kỹ sư của Ele.me phải chủ động tiếp cận bộ giao diện App Intents này, đàm phán và tích hợp từng cái một, mất nhiều thời gian và công sức.
Còn WeChat làm là để AI trực tiếp thao tác hàng triệu dịch vụ bên thứ ba, bởi vì Mini Program thì khác. Mã của mỗi Mini Program, từ khi nhà phát triển gửi lên, đến khi WeChat xét duyệt, cuối cùng chạy trên điện thoại người dùng, toàn bộ quá trình đều nằm trong hệ thống kỹ thuật của WeChat. WeChat ở giai đoạn xét duyệt đã có thể quét qua mã, tự động phân tích "Mini Program này có những trang nào, có thể làm gì, đầu vào đầu ra là gì".
Vì vậy "Chế độ tự động" mới có thể thành lập — nhà phát triển không cần viết một dòng code, chỉ cần bật công tắc, WeChat tự có thể dịch Mini Program của bạn thành công cụ mà AI có thể gọi. Kiến trúc cơ sở của WeChat tự nhiên hỗ trợ làm điều này, nó sở hữu "góc nhìn của Chúa", có thể dựa trên sự tập trung hóa để thực hiện điều phối.
Lợi thế kiến trúc này, Apple không có, Google cũng không có.
Cũng đáng chú ý, là tin đồn trước đây, WeChat đang hợp tác với Huawei, Honor, Xiaomi, OPPO, vivo để ra mắt khả năng trợ lý A2A (Agent-to-Agent), người dùng có thể thông qua trợ lý giọng nói trên điện thoại trực tiếp khởi phát cuộc gọi thoại/ video WeChat hoặc gửi tin nhắn.
Đối nội, AI WeChat có thể gọi hàng triệu Mini Program; đối ngoại, trợ lý AI của nhà sản xuất điện thoại có thể gọi WeChat. WeChat đang trở thành siêu kết nối trong thời đại AI, trung tâm dịch vụ mà tất cả AI đều có thể kết nối vào.
Lời tiên tri cũ về "WeChat OS"
Khi Mini Program ra mắt, nhiều người đùa rằng WeChat muốn làm "WeChat OS". Lúc đó điều này giống một cách nói tu từ hơn — Mini Program thay thế một phần chức năng của App, nhưng về bản chất vẫn là một "nền tảng ứng dụng nhẹ".
Tình cờ hơn, cơ chế xét duyệt tập trung được thiết kế lúc đó, là để kiểm soát chất lượng và an toàn. Nhưng chín năm sau, thiết kế từng bị chỉ trích là "kiểm soát quá mức" này, bất ngờ trở thành lợi thế cơ sở hạ tầng trong thời đại AI. Hệ sinh thái App phân tán (Apple/Android) lúc đó trông có vẻ "tự do" hơn, giờ lại trở thành trở ngại cho việc kết nối AI.
Một lời tiên tri cũ, do sự xuất hiện của công nghệ thời đại mới — AI — đã có sự thay đổi mang tính đột phá.
Trước đây khi viết về OpenClaw và Feishu, tôi đã đưa ra một nhận định: IM là cổng vào tự nhiên nhất cho AI Agent, bởi vì bản thân hội thoại chính là cách tương tác tự nhiên nhất giữa người và AI, trong khi hệ sinh thái dịch vụ đi kèm của IM (robot, thanh toán, Mini Program) khiến AI không chỉ có thể "nói chuyện" mà còn có thể "làm việc". Feishu đang đi theo hướng này, đã ra mắt Bot API tăng cường và nút AI Agent.
Tuy nhiên, Feishu là công cụ hợp tác doanh nghiệp, bao phủ các cảnh làm việc. WeChat có một phạm vi rộng hoàn toàn khác — 1.432 tỷ người dùng hoạt động hàng tháng, hàng trăm Mini Program trong các lĩnh vực chuyên biệt, từ đặt đồ ăn đến đăng ký khám bệnh, mua vé máy bay đến đóng tiền điện nước, gần như bao phủ tất cả nhu cầu dịch vụ hàng ngày của một người.
Nếu AI WeChat thực sự có thể gọi các Mini Program này một cách trơn tru để hoàn thành nhiệm vụ, thì như lời tiên tri đã nói, nó trở thành một hệ điều hành có thể thao tác bằng ngôn ngữ tự nhiên.
Người dùng nói một câu "giúp tôi đặt vé tàu cao tốc từ Bắc Kinh đến Thượng Hải lúc 3 giờ chiều ngày mai", AI phân giải ý định, gọi Mini Program 12306 tra vé, chọn chỗ, WeChat Pay hoàn tất đặt hàng, toàn bộ quá trình không rời khỏi WeChat. Về lý thuyết, chuỗi liên kết này hôm nay đã có thể chạy thông.
Tất nhiên, giữa lý thuyết và thực tế vẫn có khoảng cách. Việc AI gọi các dịch vụ liên quan đến cảnh thanh toán, tỷ lệ dung sai gần bằng không — đặt nhầm một ly cà phê là chuyện nhỏ, mua nhầm một vé máy bay là chuyện lớn. Yêu cầu chính xác của mô hình cơ sở ở cấp độ cao hơn nhiều so với cảnh hội thoại. Đây cũng là nút cổ chung mà AI Agent toàn cầu đang đối mặt khi triển khai: từ "có thể trò chuyện" đến "có thể làm việc", ở giữa không phải là chỉ số kỹ thuật, mà là sự tin tưởng.
Nhưng ít nhất WeChat đã làm đúng một việc: nó không xây dựng mạng lưới dịch vụ từ con số không. Những năm qua, việc ChatGPT làm là trước tiên có một bộ não thông minh, sau đó từng cái một kết nối với Shopify, DoorDash, Stripe, mỗi kết nối đều được xây dựng từ số không, cho đến nay tỷ lệ truy vấn liên quan đến giao dịch vẫn chưa đến 3%.
Sự thay đổi thực sự sắp xảy ra, đối với hầu hết người dùng, có thể là lặng lẽ. Một ngày nào đó bạn gõ vào WeChat một câu "giúp tôi đặt vé đi Thượng Hải tối nay lúc 9 giờ", sau đó nó đã đặt xong, bạn thậm chí không biết phía sau đã gọi Mini Program nào, trải qua quy trình thanh toán gì.
Loại "hoàn thành không cảm nhận" này, mới là dấu hiệu trưởng thành thực sự của AI Agent, WeChat cách bước này, gần hơn bất kỳ ai.
Bài viết từ tài khoản công chúng WeChat "APPSO", tác giả: APPSO phát hiện sản phẩm ngày mai

















