Từ đầu năm nay, ba gã khổng lồ AI của Mỹ đã lần lượt gắn cho sản phẩm mô hình của mình những "nhãn hiệu khoa học viễn tưởng".
OpenAI nói, ChatGPT đã học được cách "mơ mộng"; Anthropic muốn trang bị cho Claude một "Wiki cá nhân" tích hợp sẵn; Google thì tuyên bố, khiến Gemini "tự nhiên mang theo ký ức mười năm của bạn".
Ba cách nói, nhìn qua tưởng không liên quan, thực chất đang cạnh tranh cùng một thứ — Context (Ngữ cảnh/Văn cảnh).
Ban đầu, Context chỉ là một tham số kỹ thuật không mấy ai để ý, dùng để đo lường xem mô hình một lần có thể đọc được bao nhiêu ký tự. Ngày nay, ý nghĩa của Context đang được mở rộng: Nó là tài sản người dùng, là quyền truy cập công cụ, cũng là trạng thái thời gian thực của một nhiệm vụ đang diễn ra đến đâu, và hơn hết, là việc AI hiểu bạn đến mức nào.
Theo thống kê của 「Sâu Lưu Nghiên Cứu Sở」, từ đầu năm đến nay, OpenAI, Anthropic, Google đã xoay quanh Context phát hành hơn 40 sản phẩm và cập nhật tính năng quan trọng — trung bình cứ ba bốn ngày, lại có một khả năng mới được đưa ra thị trường.
Từ cửa sổ ngữ cảnh dài, đến Memory (Bộ nhớ) xuyên phiên, rồi đến khả năng thao tác trình duyệt, desktop và giao diện đồ họa người dùng (GUI), những thay đổi quan trọng nhất của sản phẩm AI trong hai năm qua, hầu như đều xoay quanh Context.
Một cuộc chiến về "Context" đã nổ ra, và điều này cũng đang âm thầm định nghĩa lại hào sâu của thời đại AI.
1. Từ Cửa Sổ Dài Đến Môi Trường Thực, Ba Lần Nhảy Vọt Của Biên Giới Context
Cuộc cạnh tranh Context sớm nhất, diễn ra trên "độ dài văn bản".
Thời Chatbot, Context chủ yếu có nghĩa là mô hình một lần có thể đọc được bao nhiêu thông tin. Cửa sổ càng dài, mô hình càng có thể xử lý luận văn, kho mã nguồn, thậm chí toàn bộ tài liệu dự án. Vì vậy, OpenAI, Anthropic, Google đã châm ngòi cho một cuộc chạy đua vũ trang về cửa sổ ngữ cảnh.
Tháng 5/2023, Anthropic tiên phong đẩy cửa sổ ngữ cảnh của Claude từ 9K lên 100K, tương đương khoảng 75.000 chữ, lần đầu tiên biến "tải lên cả một cuốn sách" thành hiện thực. Tháng 11/2023, OpenAI dùng GPT-4 Turbo với 128K để theo kịp. Ba tháng sau, Google lại dùng Gemini 1.5 Pro đẩy cửa sổ lên cấp độ triệu.
Chưa đầy một năm, Context đã nhảy vọt từ cấp độ trăm nghìn lên cấp độ triệu.
Cửa sổ dài giải quyết vấn đề "thông lượng" của AI, nhưng cuộc đua này nhanh chóng bộc lộ hạn chế: Việc mô hình có thể thấy nhiều thông tin hơn, không có nghĩa là nó có thể hiểu nhiệm vụ tốt hơn.
Đặc biệt khi sản phẩm AI từ Chatbot tiến lên Agent (Đại lý/Trợ lý thông minh), biên giới của Context bắt đầu thay đổi. Nó không còn chỉ là văn bản đầu vào trong một cuộc hội thoại, mà là dòng trạng thái được tích lũy liên tục, cập nhật động trong vòng lặp nhiệm vụ.
Trọng tâm cạnh tranh cũng chuyển dịch theo: từ việc mô hình "một lần có thể biết bao nhiêu", chuyển sang việc mô hình "về lâu dài có thể nhớ những gì". Memory trở thành hình thái sản phẩm điển hình trong giai đoạn này.
Đầu năm 2024, OpenAI tiên phong đưa tính năng ghi nhớ xuyên phiên (cross-session memory) vào ChatGPT, cho phép mô hình ghi nhớ sở thích, bối cảnh và nhu cầu dài hạn của người dùng. Sau đó, Anthropic và Google cũng lần lượt bổ sung khả năng ghi nhớ cho Claude và Gemini.
Context bắt đầu có chiều thời gian. AI không chỉ xử lý đầu vào hiện tại, mà cũng bắt đầu thử thiết lập tính liên tục giữa các tương tác của người dùng hôm nay, tuần trước, tháng trước. Chỉ có AI có Context dài hạn, mới có thể kết nối các tương tác rời rạc thành một mối quan hệ bền vững.
Tuy nhiên, Memory trả lời câu hỏi "quá khứ đã xảy ra điều gì", vẫn chưa chạm đến một vấn đề then chốt hơn: điều gì đang xảy ra ngay lúc này?
Bước ngoặt thực sự xuất hiện vào nửa cuối năm 2025.
Bắt đầu từ tháng 8 năm nay, ba công ty gần như đồng thời đẩy mặt trận Context vào trình duyệt: Anthropic phát hành Claude for Chrome, Google nhúng Gemini vào Chrome, OpenAI thì ra mắt trình duyệt AI độc lập ChatGPT Atlas.
Trình duyệt là một mỏ vàng Context tự nhiên. Nội dung trang web, ý định tìm kiếm, trạng thái đăng nhập, biểu mẫu, lịch sử duyệt web, thẻ trang, cũng như nhiệm vụ người dùng đang thực hiện, đều lắng đọng trong trình duyệt. Quan trọng hơn, Context ở đây còn thời gian thực hơn, liên tục hơn, và cũng gần với hiện trường nhiệm vụ thực tế hơn.
Trước đây, cách AI lấy Context, về bản chất vẫn là chờ người dùng đưa tài liệu vào: tải tệp lên, nhập lệnh, ủy quyền ghi nhớ, kết nối nguồn dữ liệu.
Sau khi vào trình duyệt, logic thay đổi. AI bắt đầu đi vào môi trường làm việc của người dùng, quan sát trạng thái trang, hiểu tiến độ nhiệm vụ, nắm bắt ý định thao tác, và thực hiện bước tiếp theo trong giao diện thực.
Đây là lần nhảy vọt thứ ba của biên giới Context: Nó từ dữ liệu tĩnh đầu vào phía mô hình, biến thành trạng thái động mà Agent nắm bắt được trong môi trường GUI, trang web và hệ thống.
Cửa sổ dài quyết định mô hình một lần có thể chứa bao nhiêu thông tin; Memory quyết định mô hình có thể hiểu người dùng xuyên thời gian hay không; khả năng trình duyệt, sản phẩm desktop và GUI, thì quyết định mô hình có thể đi vào hiện trường nhiệm vụ thực tế hay không.
Ba cái này liên kết với nhau, tạo thành chủ tuyến cạnh tranh chính của sản phẩm AI trong hai năm qua: Context không còn chỉ là vấn đề năng lực mô hình, mà dần dần trở thành vấn đề điểm vào sản phẩm, vấn đề quan hệ người dùng, và vấn đề tích lũy tài sản.
2. Context Trở Thành Chiến Trường Mới, Ba Con Đường Của "Tam Đại" AI Mỹ
Khi Context từ tham số mô hình biến thành tài sản người dùng, cốt lõi cạnh tranh trở thành: Ai có thể ổn định hơn trong việc thu nhận, tổ chức và gọi Context.
Xoay quanh điểm này, OpenAI, Anthropic, Google đã đi ra ba con đường khác biệt.
ChatGPT là nguồn Context cốt lõi nhất của OpenAI.
Những ký ức, sở thích, nhiệm vụ lịch sử và bản ghi gọi công cụ mà người dùng để lại trong từng cuộc hội thoại, dần dần lắng đọng dưới cùng một tài khoản ChatGPT.
Tài khoản này khác với tài khoản internet truyền thống. Tài khoản truyền thống ghi lại trạng thái đăng nhập, quan hệ đăng ký và thông tin thanh toán; tài khoản ChatGPT ghi lại, là "lịch sử đã được AI hiểu" của người dùng.
Đây là một loại tài sản người dùng nguyên sinh AI. Giá trị của nó không chỉ thể hiện ở việc trả lời cá nhân hóa hơn, mà còn ở việc giảm chi phí khởi động lạnh, kéo dài trạng thái nhiệm vụ, và tái sử dụng cùng một bộ hiểu biết về người dùng trong các bối cảnh sản phẩm khác nhau.
Đối với OpenAI, do thiếu hệ sinh thái dữ liệu nguyên sinh như Google, nó phải khiến người dùng liên tục tạo ra Context mới trong hệ thống ChatGPT.
Vì vậy, động thái sản phẩm của OpenAI trong hai năm qua, luôn không ngừng mở rộng bán kính nhiệm vụ mà tài khoản ChatGPT có thể bao phủ — Apps SDK để ứng dụng bên thứ ba vào ChatGPT, Atlas đưa trình duyệt vào ChatGPT, Codex mới nhất hợp nhất thì đưa nhiệm vụ lập trình vào cùng một luồng công việc.
Con đường đặc biệt của OpenAI nằm ở chỗ, nó không phải nắm giữ điểm vào trước, rồi mới đưa AI vào; mà lấy ChatGPT làm điểm xuất phát, kéo ngược các bối cảnh như ứng dụng, trình duyệt, lập trình trở về cùng một hệ thống tài khoản.
ChatGPT vì thế không còn chỉ là điểm vào hội thoại, mà là một trung tâm tập hợp, gọi ra, cập nhật Context.
So sánh với, Anthropic vừa thiếu điểm vào phía C (người dùng cuối), cũng không có dữ liệu người dùng tồn kho quy mô lớn.
Con đường của nó, là cắt vào các bối cảnh dọc giá trị cao như Coding, Agent, và trong những bối cảnh này củng cố khả năng chủ động thu nhận Context của Claude.
Đối với Claude, Context không phải là một đoạn văn bản người dùng nhập vào, mà là môi trường biến đổi động trong hiện trường nhiệm vụ: kho mã nguồn, hệ thống tệp, đầu ra terminal, trang trình duyệt, cơ sở dữ liệu, tài liệu dự án, và phản hồi sau mỗi bước thực thi.
Vì vậy, Anthropic nhấn mạnh hơn tính chủ động trong việc thu nhận Context. Mô hình không nên chỉ chờ đầu vào từ người dùng, mà cũng nên chủ động đi vào môi trường, đọc trạng thái, thu nhận phản hồi trong quá trình thực thi nhiệm vụ.
Tháng 10/2024, Anthropic ra mắt Computer Use, cho phép Claude di chuyển chuột, nhấn nút, nhập văn bản dựa trên ảnh chụp màn hình.
Theo cách nói chính thức, Claude 3.5 Sonnet là mô hình AI tiên phong công khai đầu tiên cung cấp khả năng sử dụng máy tính.
Điều này có nghĩa là, khi Context tồn tại trong giao diện trang web, biểu mẫu, hệ thống back-end và phần mềm local, thay vì trong API có cấu trúc, Claude cũng có thể thông qua GUI đi vào môi trường, quan sát trạng thái và thực hiện thao tác.
Một tháng sau, Anthropic phát hành MCP. Giao thức mở này kết nối trợ lý AI với công cụ bên ngoài, nguồn dữ liệu, được định nghĩa chính thức là kết nối trợ lý AI với "hệ thống nơi dữ liệu tồn tại", bao gồm kho nội dung, công cụ nghiệp vụ và môi trường phát triển.
Giá trị của nó nằm ở chỗ, cho phép Claude không còn phụ thuộc vào việc người dùng sao chép dán, mà có thể thông qua cách thức tiêu chuẩn kết nối với công cụ và nguồn dữ liệu bên ngoài.
Hai loại năng lực này, tương ứng với hai con đường Anthropic thu nhận Context:
Computer Use thông qua GUI đi vào giao diện, MCP thông qua giao thức kết nối hệ thống. Một bên đi vào hiện trường nhiệm vụ, một bên thông suốt công cụ bên ngoài, cùng nhau giúp Claude có được Context động.
Nhìn lại Google. Bên ngoài thường nói, Google là một trong những công ty sở hữu nhiều Context nhất. Nó không thiếu điểm vào, cũng không thiếu dữ liệu. Các sản phẩm như Chrome, Gmail, YouTube, Search tạo thành một trong những điểm chạm người dùng lớn nhất toàn cầu.
Nhưng nhìn từ góc độ AI, dữ liệu nhiều không có nghĩa là Context mạnh.
Dữ liệu Google tích lũy trong quá khứ là tìm kiếm, duyệt web, email, tài liệu, vị trí, tiêu thụ video, chủ yếu phục vụ sắp xếp tìm kiếm, phân phối quảng cáo, đề xuất nội dung và cộng tác văn phòng. Về bản chất, chúng là tín hiệu hành vi cần thiết cho hệ thống vận hành.
Còn Agent cần là bối cảnh nhiệm vụ có thể được mô hình hiểu, suy luận và gọi ra.
Chỉ khi mô hình có thể phán đoán thông tin nào liên quan đến nhiệm vụ hiện tại, thông tin nào đã lỗi thời, thông tin nào có thể được gọi ra, và những thông tin này liên quan với nhau như thế nào, dữ liệu mới thực sự biến thành Context.
Google đối mặt không phải là "kết nối dữ liệu" đơn giản, mà là một cuộc tái cấu trúc dữ liệu. Nó cần lọc lại, liên kết lại, ủy quyền lại, và chuyển đổi dữ liệu cũ phân tán trong các sản phẩm khác nhau, phục vụ các mục tiêu hệ thống khác nhau, thành ngữ cảnh cá nhân mà Gemini có thể sử dụng.
Độ khó của công trình này, không hề thấp hơn việc OpenAI tái lắng đọng Context, Anthropic đi vào hiện trường nhiệm vụ.
Hai năm qua, động thái sản phẩm của Google không phải là lập lò riêng, mà là cải tạo hướng nội dọc theo các vị trí đã có. Cốt lõi của con đường này, là tổ chức dữ liệu phân mảnh thành chuỗi nhiệm vụ.
Tháng 5/2024, Gemini 1.5 Pro vào thanh bên Workspace, để mô hình đầu tiên trong các bối cảnh công việc như Gmail, Docs, Drive gọi Context hiện tại.
Tháng 7/2025, ứng dụng Gemini bắt đầu kết nối các công cụ như Gmail, Drive, Calendar, mở rộng Context từ ứng dụng đơn lẻ sang nhiệm vụ xuyên ứng dụng.
Tháng 1/2026, Personal Intelligence ra mắt bản thử nghiệm, đưa thêm dữ liệu cá nhân như Gmail, Photos vào bối cảnh cá nhân hóa của Gemini.
Chiến lược Context của Google không phải là "dữ liệu nhiều, nên đương nhiên dẫn đầu".
Điều nó thực sự cần hoàn thành, là một công trình khả dụng hóa dữ liệu: chuyển đổi dữ liệu hành vi đã lắng đọng trong quá khứ, phục vụ các mục tiêu hệ thống như tìm kiếm, quảng cáo và đề xuất, thành Context có thể hiểu, có thể ủy quyền, có thể hành động trong thời đại AI.
3. Từ "Quy Mô Mạng" Đến "Chiều Sâu Cá Nhân", Hào Sâu Thời Đại AI Đã Thay Đổi
Hai năm qua, OpenAI, Anthropic, Google đều tăng tốc lắng đọng và khai thác Context, và xoay quanh nó xây dựng năng lực thu nhận, tổ chức và gọi ra, cố gắng hình thành rào cản cạnh tranh mới.
Nhưng một biến hóa thoạt nhìn mâu thuẫn cũng đồng thời xảy ra: từ đầu năm nay, ba công ty đồng loạt khiến Memory trở nên minh bạch, có thể giải thích, thậm chí có thể di chuyển.
Tháng 3/2026, Anthropic và Google lần lượt ra mắt Memory Import, hỗ trợ người dùng di chuyển ký ức giữa ChatGPT, Gemini, Claude.
Sau đó, OpenAI thông qua Memory Sources, cho phép người dùng nhìn thấy đằng sau một câu trả lời cá nhân hóa đã gọi những ký ức, lịch sử trò chuyện hay nguồn dữ liệu bên ngoài nào.
Nếu Context là tài sản quan trọng nhất thời đại AI, tại sao nền tảng lại bắt đầu mở quyền hạn của nó?
Câu trả lời nằm ở chỗ, Memory Import thực sự mở, chỉ là Context bề mặt: sở thích người dùng, tóm tắt ký ức lịch sử, phiên bản nén lịch sử hội thoại.
Những thông tin này có cấu trúc cao, cũng dễ dàng được mô tả bằng ngôn ngữ tự nhiên. Di chuyển chúng, ngưỡng kỹ thuật không cao.
Cái thực sự khó di chuyển, là một loại Context khác: trạng thái nhiệm vụ, quyền hạn công cụ, kết nối hệ thống doanh nghiệp, phản hồi thời gian thực tại hiện trường thực thi.
Những Context này nhúng sâu trong môi trường sản phẩm và hệ thống, không thể dựa vào một đoạn prompt để di chuyển nguyên vẹn.
Điều này cũng cho thấy, logic cạnh tranh thời đại AI, đang khác với thời đại internet.
Hình thái cơ bản của internet là mạng lưới. Nó kết nối con người, nội dung, hàng hóa, dịch vụ và thông tin thành các nút. Nút càng nhiều, kết nối càng dày, sản phẩm càng có giá trị. Vì vậy, hào sâu mạnh nhất thời đại internet là hiệu ứng mạng, giá trị đến từ việc nhiều người sử dụng hơn.
Hình thái cơ bản của AI, gần hơn với một loại máy tính mới, hay nói cách khác là hệ thống xử lý thông tin mới.
Giá trị thứ nhất của nó không phải là kết nối nhiều người hơn, mà là hiểu thông tin, xử lý nhiệm vụ, gọi công cụ và hoàn thành hành động. Một AI dù chỉ phục vụ một người dùng, cũng có thể tạo ra giá trị lớn.
Vì vậy, hào sâu thời đại AI, đang trên cơ sở "quy mô mạng" chuyển hướng sang "chiều sâu cá nhân". Rào cản "chiều sâu cá nhân" này, chủ yếu đến từ ba tầng:
Thứ nhất, là lợi tức kép của Context. Mỗi lần AI hoàn thành một nhiệm vụ, sẽ hiểu hơn về thói quen biểu đạt, tiêu chuẩn phán đoán, nguồn tư liệu và quy trình công việc của người dùng. Lần thực thi tiếp theo, chi phí khởi động lạnh sẽ thấp hơn.
Thứ hai, là sự nhúng của quyền hạn và chuỗi công cụ. Khi người dùng ủy quyền hòm thư, tài liệu, kho mã nguồn... cho AI, AI không còn chỉ là một công cụ hỏi đáp có thể thay thế, mà đã đi vào hiện trường nhiệm vụ thực tế.
Thứ ba, là sự hình thành mối quan hệ tin tưởng. Nhiệm vụ càng phức tạp, giá trị càng cao, người dùng càng không dễ dàng giao cho một AI lạ. Chỉ có AI hiểu mình lâu dài, biết ranh giới, có thể tiếp nối ngữ cảnh, mới có thể được phép thực hiện bước tiếp theo.
Nếu sản phẩm internet tranh giành là điểm vào chú ý, thì sản phẩm AI tranh giành là điểm vào nhiệm vụ.
Một khi một AI liên tục đi vào luồng công việc của người dùng, tích lũy ngữ cảnh và có được quyền thực thi, chi phí di chuyển không chỉ là thay một ứng dụng, mà là xây dựng lại một mối quan hệ nhiệm vụ được hiểu, được ủy quyền, được tin tưởng.
Biến hóa của sản phẩm trong nước, cũng có thể đặt trong logic này để hiểu.
Lấy Tencent làm ví dụ, thời đại internet nó tích lũy được chuỗi quan hệ, nội dung, hệ sinh thái dịch vụ và điểm vào tần suất cao; đến thời đại AI, giá trị của những tài sản này, đang nằm ở việc có thể được tổ chức lại thành Context mà Agent có thể hiểu, có thể gọi, có thể thực thi hay không.
Dù là WorkBuddy kết nối các bối cảnh công việc như tài liệu, cuộc họp, WeChat doanh nghiệp, hay WeChat "Xiao Wei" thử nghiệm gọi mini-program và dịch vụ trong hệ sinh thái WeChat, về bản chất đều là chuyển đổi nội dung, quan hệ và quy trình vốn phục vụ con người, thành môi trường nhiệm vụ mà AI có thể đi vào.
Như nhà khoa học AI trưởng Tencent Yao Shunyu đánh giá: Context nhìn qua là tài sản dữ liệu, về bản chất lại là sự thể hiện tổng hợp của năng lực sản phẩm, năng lực công trình và năng lực phối hợp tổ chức.
Thời đại internet, hào sâu nhìn vào quy mô. Thời đại AI, hào sâu nên nhìn vào hiệu suất chuyển đổi hơn:
Ai có thể chuyển đổi hệ sinh thái tồn kho thành môi trường làm việc của AI nhanh hơn, ai có thể để AI trong từng nhiệm vụ tích lũy hiểu biết về người dùng sâu hơn, ai càng có thể xây dựng rào cản mới.
Đây cũng là nơi đáng chú ý thực sự của cuộc chiến Context.
Bài viết từ WeChat công chúng "Sâu Lưu Nghiên Cứu Sở", tác giả: Jiang Feng









