Vừa rồi, Claude Opus 4.8 chính thức ra mắt, mở miệng đã tự nhận mình là DeepSeek, Qwen

marsbitXuất bản vào 2026-05-28Cập nhật gần nhất vào 2026-05-28

Tóm tắt

Anthropic vừa công bố Claude Opus 4.8, nâng cấp mô hình flagship với cải thiện về lập trình, tác vủ agent, suy luận và công việc tri thức, đồng thời giữ nguyên giá. Mô hình này được cho là trung thực hơn, ít đưa ra kết luận thiếu căn cứ. Tuy nhiên, một số người dùng phát hiện nó đôi khi tự nhận là DeepSeek hay Qwen. Cùng lúc, Anthropic công bố hoàn thành vòng gọi vốn H trị giá 650 tỷ USD, định giá sau gần 10.000 tỷ USD. Khoản tiền này nhằm mở rộng năng lực hạ tầng điện toán thông qua thỏa thuận với Amazon, Google, Broadcom và SpaceX. Bên cạnh mô hình mới, Anthropic ra mắt tính năng "dynamic workflows" trong Claude Code, cho phép tạo và quản lý hàng trăm agent con song song để xử lý các nhiệm vụ kỹ thuật phức tạp như di chuyển codebase quy mô lớn, thể hiện qua ví dụ chuyển Bun từ Zig sang Rust. Các bản cập nhật này cho thấy Anthropic đang chuyển từ một công ty cung cấp mô hình thuần túy sang một nền tảng tích hợp AI vào quy trình làm việc và hệ thống doanh nghiệp.

Cùng với việc kỳ vọng IPO ngày càng tăng cao, nhịp độ phát hành sản phẩm mô hình của Anthropic cũng ngày càng tăng tốc.

Vừa rồi, Anthropic liên tiếp công bố hai tin tức quan trọng:một là nâng cấp mô hình hàng đầu lên Claude Opus 4.8, hai là hoàn tất vòng gọi vốn Series H trị giá 650 tỷ USD, định giá sau đầu tư đạt 9650 tỷ USD, đang tiến sát ngưỡng nghìn tỷ USD.

Đối với một công ty AI đã có định giá tiệm cận nghìn tỷ USD, thị trường không còn chỉ nhìn vào điểm benchmark của mô hình, mà là liệu nó có thể biến trí tuệ, công cụ, môi trường phát triển, nền tảng đám mây và tài nguyên tính toán thành một bộ cơ sở hạ tầng có thể giao hàng trên quy mô lớn hay không.

Nói cách khác, Anthropic phải chuyển dần từ một công ty giao mô hình tốt, sang một công ty đang cố gắng định hình lại cách thức làm việc với AI của doanh nghiệp.

Thêm lượng không tăng giá, Claude Opus 4.8 chính thức trình làng

Claude Opus 4.8 được phát hành lần này là một lần nâng cấp của Anthropic đối với dòng mô hình hàng đầu Opus. Với nhịp độ phát hành mô hình hiện tại, như lời đùa của cư dân mạng,chúng ta rất có thể sẽ nhìn thấy Claude Opus 6 trước cả khi GTA 6 ra mắt (nếu không delay, tháng 11).

Anthropic tuyên bố, Opus 4.8 được xây dựng trên nền tảng Opus 4.7, có cải thiện về mã hóa, nhiệm vụ tác nhân, lập luận và công việc tri thức, đồng thời đã mở cửa cho người dùng, giá sử dụng tiêu chuẩn vẫn không thay đổi,vẫn là 5 USD cho một triệu token đầu vào, 25 USD cho một triệu token đầu ra.

Nhà phát triển cũng có thể sử dụng claude-opus-4-8 thông qua Claude API.

So sánh giá API https://platform.claude.com/docs/en/about-claude/models/overview

Từ thông tin chính thức được tiết lộ, những cải tiến của Opus 4.8 bao phủ mã hóa, khả năng tác nhân, khả năng lập luận và các nhiệm vụ công việc tri thức thực tế.

Anthropic sử dụng một bảng so sánh trong tài liệu phát hành để thể hiện hiệu suất của Opus 4.8 so với Opus 4.7 đời trước và các mô hình khác trong nhiều bài kiểm tra, tất nhiên, so với chất lượng câu trả lời một lần,trọng tâm nâng cấp mô hình vẫn nằm ở biểu hiện trong các nhiệm vụ dài và cộng tác phức tạp.

Trong quy trình công việc thực tế, mô hình thường cần xử lý liên tục các nhiệm vụ nhiều bước, gọi công cụ, kiểm tra kết quả trung gian và tiếp tục tiến lên dựa trên phản hồi. Anthropic cho biết, những người thử nghiệm sớm nhận thấy Opus 4.8 đáng tin cậy hơn khi thực hiện nhiệm vụ tác nhân, và phán đoán cũng rõ ràng hơn.

Việc nâng cao tính trung thực của Opus 4.8 là một điểm nhấn.

Vấn đề phổ biến của mô hình AI là đưa ra phán đoán quá sớm khi chứng cứ không đủ, và tự tin tuyên bố đã đạt được tiến triển. Anthropic tuyên bố, Opus 4.8 sẵn sàng hơn trong việc nói rõ sự không chắc chắn trong công việc, và cũng ít đưa ra phán đoán thiếu cơ sở hơn.

Nhiệm vụ mã hóa đặc biệt thể hiện sự thay đổi này.

Đánh giá nội bộ cho thấy, xác suất để Opus 4.8 khiến mã do chính nó viết ra có lỗi nhưng vẫn vượt qua mà không được thông báo, chỉ bằng khoảng một phần tư so với đời trước. Nghĩa là, mô hình mới có khả năng cao hơn trong việc nhắc nhở người dùng khi phát hiện rủi ro, thay vì để lại vấn đề cho các bài kiểm tra sau này hoặc môi trường sản xuất.

Về mặt alignment và an toàn, Anthropic tiếp tục câu chuyện cốt lõi của mình. Tỷ lệ xảy ra hành vi không alignment như lừa dối, hợp tác lạm dụng của Opus 4.8 thấp hơn đáng kể so với Opus 4.7, và tiệm cận với một trong những mô hình có biểu hiện alignment tốt nhất hiện nay là Claude Mythos Preview.

An toàn, đáng tin cậy, có thể kiểm soát, vẫn là một nhóm từ khóa mà Anthropic dùng để phân biệt bản thân. Khi Claude thâm nhập sâu hơn vào quy trình doanh nghiệp, những từ khóa này cũng bắt đầu mang nhiều ý nghĩa thương mại hơn.

Tuy nhiên điều thú vị là, sau khi Opus 4.8 được phát hành, cư dân mạng đã phát hiện ra có chút không ổn.

https://x.com/realNyarime/status/2060059543820963975

Nhiều cư dân mạng thử nghiệm phát hiện, khi họ truy vấn sâu về danh tính mô hình của Opus 4.8, câu trả lời nó đưa ra không phải lúc nào cũng là Claude.

Đôi khi nó sẽ tự nhận mình là Qwen, đôi khi lại báo tên DeepSeek, nghi ngờ có hành vi chưng cất.

Và khi cư dân mạng đặt câu hỏi tương tự trong ứng dụng khách chính thức Claude, những câu trả lời kiểu này thường không dễ tái hiện. Nguyên nhân có lẽ nằm ở việc, prompt hệ thống và các ràng buộc ở tầng sản phẩm trong ứng dụng khách đầy đủ hơn.

Dynamic workflows ra mắt, Claude Code tiến tới cộng tác đa tác nhân

Cùng với Claude Opus 4.8 ra mắt, còn có nhiều tính năng sản phẩm và dành cho nhà phát triển.

Trong đó, tính năng ảnh hưởng trực tiếp nhất đến trải nghiệm người dùng Claude chính là effort control, tức điều chỉnh cường độ suy nghĩ.

Tùy chọn điều khiển nằm cạnh bộ chọn mô hình, như tên gọi, người dùng có thể quyết định Claude sẽ đầu tư bao nhiêu năng lực tính toán lập luận vào một nhiệm vụ. Ở cường độ cao hơn, Claude sẽ thực hiện nhiều suy luận hơn để đổi lấy chất lượng trả lời tốt hơn; ở cường độ thấp hơn, Claude phản hồi nhanh hơn, và mức tiêu hao hạn ngạch sử dụng cũng chậm hơn.

Anthropic cho biết, Opus 4.8 mặc định sử dụng high effort, người dùng còn có thể chọn extra, tương ứng với xhigh trong Claude Code, hoặc chọn max, để mô hình đầu tư thêm token. Anthropic đề xuất, các nhiệm vụ khó và quy trình công việc bất đồng bộ chạy lâu ngày phù hợp hơn với việc sử dụng extra.

Tính năng thực sự ảnh hưởng đến hình thái sản phẩm Claude Code, là dynamic workflows.

Tính năng này hiện đang trong giai đoạn research preview, mục tiêu là để Claude Code xử lý các nhiệm vụ quy mô lớn trong quá khứ cần chu kỳ kỹ thuật dài hơn. Công việc trước đây được lập kế hoạch theo quý, bây giờ thậm chí có cơ hội hoàn thành trong vài ngày.

Cơ chế cốt lõi của dynamic workflows là, Claude sẽ dựa trên nhiệm vụ người dùng để tự động viết orchestration scripts, và chạy hàng chục đến hàng trăm subagents song song trong một phiên duy nhất. Mô hình sẽ lập kế hoạch nhiệm vụ trước, sau đó phân bổ cho nhiều subagents, sau đó kiểm tra kết quả trả về, cuối cùng báo cáo lại cho người dùng. Sau khi Opus 4.8 ra mắt, các agents này còn có thể chạy lâu hơn.

Tính năng này chủ yếu hướng đến các kho mã phức tạp, đồ sộ hoặc có gánh nặng lịch sử lớn. Các tình huống điển hình bao gồm tìm lỗi trong phạm vi toàn bộ dịch vụ, kiểm toán tối ưu hóa hiệu suất, kiểm toán an ninh, di chuyển kho mã lớn, thay thế framework, di chuyển API lỗi thời, port ngôn ngữ, cũng như xác thực đa góc độ đối với các giải pháp quan trọng.

Về cách sử dụng, Anthropic đề xuất bật chế độ auto trong dynamic workflows. Người dùng có thể yêu cầu trực tiếp Claude tạo workflow, hoặc bật ultracode trong Claude Code. ultracode sẽ đặt cường độ suy nghĩ thành xhigh, và để Claude tự động đánh giá nhiệm vụ hiện tại có phù hợp sử dụng workflow hay không.

dynamic workflows hiện đã mở cửa trong Claude Code CLI, Desktop và VS Code extension, hướng đến các gói Max, Team và Enterprise. Trong đó, Enterprise khi phát hành mặc định đã tắt, cần quản trị viên bật trong cài đặt Claude Code.

Tính năng này cũng có thể được sử dụng thông qua Claude API, Amazon Bedrock, Vertex AI và Microsoft Foundry. Đối với người dùng Max, Team, và người dùng sử dụng Claude Code thông qua API, dynamic workflows mặc định được bật.

Anthropic sử dụng trường hợp di chuyển Bun để thể hiện giới hạn trên của dynamic workflows. Jarred Sumner sử dụng tính năng này để port Bun từ Zig sang Rust, cuối cùng tạo ra khoảng 750 nghìn dòng mã Rust, tỷ lệ vượt qua bộ test hiện có đạt 99.8%, từ lần commit đầu tiên đến khi merge mất khoảng 11 ngày.

Toàn bộ quá trình di chuyển được hoàn thành bởi nhiều workflow: đầu tiên ánh xạ lifetime Rust cho các trường struct trong kho mã Zig, sau đó tạo các file .rs có hành vi nhất quán cho mỗi file .zig, hàng trăm agents làm việc song song, mỗi file đều có hai reviewer. Sau đó, fix loop liên tục chạy build và test suite, cho đến khi build và test vượt qua. Sau khi di chuyển hoàn tất, lại có overnight workflow xử lý vấn đề sao chép dữ liệu không cần thiết, và mở PR cho từng loại vấn đề, để đánh giá cuối cùng.

Ngoài Claude Code, Anthropic còn cập nhật Messages API. Hiện tại, Messages API có thể chấp nhận system entries bên trong mảng messages.

Nhà phát triển có thể cập nhật hướng dẫn cho Claude trong quá trình thực thi nhiệm vụ, đồng thời không phá vỡ prompt cache, cũng không cần truyền cập nhật thông qua user turn. Khả năng này có thể được sử dụng để cập nhật quyền, ngân sách token hoặc ngữ cảnh môi trường trong thời gian chạy của agent.

Bước tiếp theo, Anthropic còn có kế hoạch ra mắt một loại mô hình mới có trình độ thông minh cao hơn Opus.Đúng vậy, chính là Claude Mythos Preview đáng sợ đó, dự kiến trong vài tuần tới có thể đưa các mô hình thuộc lớp Mythos đến với tất cả khách hàng.

Đến lúc đó, chúng tôi cũng sẽ lập tức nếm thử hương vị.

Đằng sau định giá gần nghìn tỷ USD, Claude cần nền tảng tính toán lớn hơn

Một tin tức khác được công bố cùng ngày với Claude Opus 4.8,là Anthropic hoàn tất vòng gọi vốn Series H trị giá 650 tỷ USD. Vòng này do Altimeter Capital, Dragoneer, Greenoaks và Sequoia Capital dẫn đầu, định giá sau đầu tư đạt 9650 tỷ USD.

Vòng gọi vốn này còn bao gồm cam kết đầu tư hiện có 150 tỷ USD từ các hyperscalers, trong đó có 50 tỷ USD từ Amazon. Các đối tác cơ sở hạ tầng chiến lược như Micron, Samsung, SK hynix cũng tham gia. Anthropic tuyên bố, những công ty này có vai trò then chốt trong việc cung cấp memory, storage và logic chips toàn cầu, có thể giúp họ mở rộng năng lực tính toán theo nhu cầu tăng trưởng của Claude.

Mở rộng năng lực tính toán là bối cảnh then chốt đằng sau vòng gọi vốn này. Anthropic đã tiết lộ nhiều thỏa thuận cơ sở hạ tầng: ký kết thỏa thuận với Amazon, nhận được công suất bổ sung tối đa 5 gigawatt; ký kết thỏa thuận với Google và Broadcom, nhận được công suất TPU thế hệ tiếp theo 5 gigawatt; đạt thỏa thuận với SpaceX, có thể sử dụng công suất GPU trong Colossus 1 và Colossus 2.

Anthropic còn nhấn mạnh, Claude là mô hình tiên phong đầu tiên đồng thời bước vào ba nền tảng đám mây lớn: AWS, Google Cloud và Microsoft Azure. Tuy nhiên, AWS vẫn là nhà cung cấp dịch vụ đám mây chính và đối tác huấn luyện của Anthropic.

Đằng sau việc gọi vốn, thực chất là sự thay đổi định vị thương mại của Anthropic. Các công ty mô hình lớn thời kỳ đầu cạnh tranh bằng năng lực mô hình và trải nghiệm trò chuyện chung, còn bây giờ khách hàng doanh nghiệp quan tâm hơn đến việc AI có thể bước vào quy trình cốt lõi hay không, có thể xử lý nhiệm vụ phức tạp hay không, có thể được tích hợp vào môi trường phát triển, nền tảng đám mây và hệ thống nội bộ hay không.

Claude Code, Cowork, effort control, dynamic workflows và cập nhật Messages API, đều xoay quanh hướng đi này.

Nhìn chung phát hành sản phẩm và gọi vốn, Anthropic đang đồng thời mở rộng ba loại năng lực.

Thứ nhất là năng lực mô hình,Opus 4.8 nâng cao biểu hiện về mã hóa, lập luận, nhiệm vụ tác nhân và công việc tri thức, đồng thời tăng cường biểu đạt sự không chắc chắn.

Thứ hai là năng lực quy trình công việc,dynamic workflows đưa Claude Code từ hỗ trợ mã đơn lần đi đến thực thi và kiểm tra kỹ thuật phức tạp hơn.

Thứ ba là năng lực cơ sở hạ tầng,gọi vốn 650 tỷ USD, cam kết đầu tư từ các nhà cung cấp đám mây siêu lớn, sự tham gia của các đối tác bộ nhớ và chip, cùng các thỏa thuận tính toán với Amazon, Google, Broadcom, SpaceX, cung cấp tài nguyên cho nhu cầu huấn luyện và suy luận mô hình tiếp theo.

Đây cũng là logic cốt lõi đằng sau việc định giá của Anthropic tiệm cận nghìn tỷ USD. Claude không còn chỉ là một cửa sổ trò chuyện AI, mà đang trở thành hệ thống công việc kết nối mô hình, mã, quy trình doanh nghiệp, nền tảng đám mây và cơ sở hạ tầng tính toán.

Opus 4.8 là nền tảng mô hình mới nhất trong hệ thống này, dynamic workflows là hình thái sản phẩm hướng đến nhiệm vụ kỹ thuật phức tạp, gọi vốn 650 tỷ USD và mở rộng năng lực tính toán là điều kiện tiên quyết để tiếp tục đưa hệ thống này đến với khách hàng quy mô lớn hơn.

Con sóng AI đã đẩy Anthropic lên đỉnh sóng, đứng ở độ cao này, phía trước là lướt theo gió, phía sau là chìm đắm rơi nước, không có tư thế thứ ba.

Bài viết này đến từ tài khoản WeChat công chúng "APPSO", tác giả: APPSO phát hiện sản phẩm ngày mai

Câu hỏi Liên quan

QAnthropic vừa công bố những thông tin quan trọng nào?

AAnthropic vừa công bố hai thông tin lớn: nâng cấp mô hình hàng đầu lên Claude Opus 4.8 và hoàn thành vòng gọi vốn H trị giá 650 tỷ USD, với định giá sau gọi vốn là 9.650 tỷ USD.

QClaude Opus 4.8 có những cải tiến nổi bật gì so với phiên bản trước?

AClaude Opus 4.8 được cải thiện về mã hóa, nhiệm vụ đại lý thông minh, suy luận và công việc tri thức. Nó trung thực hơn, ít đưa ra phán đoán thiếu căn cứ, và giảm khả năng để lỗi mã mà không thông báo xuống còn khoảng một phần tư so với phiên bản trước.

QTính năng 'dynamic workflows' trong Claude Code là gì và có tác dụng thế nào?

ADynamic workflows là tính năng cho phép Claude Code xử lý các nhiệm vụ quy mô lớn phức tạp bằng cách tự động lập kế hoạch, phân công cho nhiều subagents chạy song song, kiểm tra kết quả và báo cáo. Nó giúp rút ngắn đáng kể thời gian cho các dự án như di chuyển codebase, kiểm toán bảo mật hoặc tối ưu hiệu suất.

QVòng gọi vốn H của Anthropic có ý nghĩa gì đối với sự phát triển của công ty?

AVòng gọi vốn 650 tỷ USD giúp Anthropic mở rộng đáng kể năng lực hạ tầng và tính toán, thông qua các thỏa thuận với Amazon, Google, Broadcom, SpaceX để tiếp cận thêm công suất xử lý. Điều này là cần thiết để hỗ trợ việc đào tạo mô hình và đáp ứng nhu cầu ngày càng tăng cho Claude, đồng thời củng cố định hướng trở thành nền tảng AI doanh nghiệp toàn diện.

QTại sao một số người dùng phát hiện Claude Opus 4.8 đôi khi tự nhận mình là các mô hình khác như DeepSeek hay Qwen?

AMột số người dùng thử nghiệm phát hiện khi được hỏi trực tiếp về danh tính mô hình, Claude Opus 4.8 đôi khi trả lời rằng nó là DeepSeek hoặc Qwen. Hiện tượng này được nghi ngờ có liên quan đến quá trình chưng cất (distillation) trong đào tạo mô hình. Tuy nhiên, hành vi này khó tái hiện trên ứng dụng khách chính thức của Claude, nơi có ràng buộc và hướng dẫn hệ thống đầy đủ hơn.

Nội dung Liên quan

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

Tuần cuối tháng 5, hai sự kiện AI liền kề đã phơi bày hai cách tiếp cận khác biệt của các gã khổng lồ công nghệ Trung Quốc. Alibaba tập trung vào tích hợp và thương mại hóa AI. Họ kết nối ứng dụng Qwen với Taobao, cho phép mua sắm và sử dụng các tính năng AI như thử đồ, so giá. Tổ chức được tái cấu trúc để tập trung vào AI, với động lực rõ ràng từ thị trường vốn. Doanh thu bên ngoài của Alibaba Cloud tăng 40%, cho thấy chiến lược "lắp AI vào quầy thu ngân" đang tạo ra dòng tiền. Tuy nhiên, cách tiếp cận thực dụng này có thể đi kèm rủi ro nếu có sự chênh lệch lớn về năng lực mô hình nền trong tương lai. Ngược lại, ByteDance theo đuổi giới hạn công nghệ thông qua bộ phận Seed. Họ đạt được thành tích đỉnh cao với mô hình tạo video Seedance 2.0 và đầu tư mạnh vào nghiên cứu cơ bản, thu hút nhân tài với các mục tiêu thuần túy học thuật. Ngân sách vốn (capex) của ByteDance được báo cáo là tăng vọt, lên tới 4700 tỷ NDT vào năm 2026, được tài trợ chủ yếu từ lợi nhuận. Lợi thế lớn của họ là không bị áp lực thị trường công khai, cho phép tập trung vào nghiên cứu dài hạn. Bài viết chỉ ra rằng sự khác biệt chiến lược này không chỉ là triết lý, mà chủ yếu bị chi phối bởi việc công ty có niêm yết hay không. Các công ty đại chúng như Alibaba chịu áp lực phải thể hiện kết quả tài chính ngắn hạn, dẫn đến chiến lược "bán AI". Các công ty chưa niêm yết như ByteDance có "sự xa xỉ" để "làm AI" và tập trung vào đột phá công nghệ. Tương lai của con đường nghiên cứu dài hạn tại ByteDance có thể được kiểm chứng nếu công ty này tiến hành IPO.

marsbit7 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

marsbit7 phút trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

Biên tập viên: Khi AI Agent ngày càng rẻ và dễ gọi, phát triển phần mềm đang bước vào giai đoạn mới. Vấn đề không còn là có thể chạy nhiều Agent hơn hay không, mà là liệu con người có đủ sự chú ý để quản lý, đánh giá và hợp nhất đầu ra của chúng hay không. Bài viết giới thiệu khái niệm "thuế điều phối". Chi phí khởi chạy Agent rất thấp, chỉ cần một Prompt hoặc một cú nhấp chuột. Nhưng các bước tiếp theo mới thực sự đắt đỏ: kiểm tra kết quả, hiểu tác động đến kiến trúc hệ thống, xử lý xung đột giữa các Agent, và quyết định mã nào được đưa vào nhánh chính. Những công việc này không thể song song hóa đơn giản, mà vẫn phải quay về một tài nguyên tuần tự duy nhất: khả năng phán đoán của con người. Tác giả ví nhà phát triển như "GIL" trong hệ thống AI Agent - khóa luồng đơn hạn chế thông lượng cuối cùng của hệ thống đồng thời. Nhiều Agent có thể chạy cùng lúc, nhưng một khi bước vào giai đoạn đánh giá kiến trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển. Do đó, càng nhiều Agent không nhất thiết có nghĩa là sản lượng cao hơn, mà có thể chỉ làm cho hàng đợi công việc chờ xem xét dài hơn, khiến nhà phát triển mệt mỏi vì chuyển đổi ngữ cảnh liên tục. Điều dễ bị bỏ qua trong cơn sốt công cụ lập trình AI hiện nay là cảm giác hiệu quả không phải lúc nào cũng đồng nghĩa với năng suất thực. Một bảng điều khiển đầy Agent đang chạy tạo ra ảo giác "năng suất cao", nhưng nếu nhà phát triển không thực sự hiểu, xem xét và tích hợp các thay đổi, hệ thống cuối cùng tích lũy có thể là nợ kỹ thuật và nợ nhận thức. Vì vậy, bài viết thảo luận về "cách thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong thời đại Agent, năng lực then chốt không chỉ là biết đặt câu hỏi và phân công nhiệm vụ, mà là biết nhiệm vụ nào có thể giao cho máy móc xử lý song song, nhiệm vụ nào phải dành cho con người đánh giá; khi nào nên xem xét hàng loạt, khi nào nên dừng điều phối để tập trung lại vào một vấn đề cốt lõi. AI đang mở rộng khả năng xử lý đồng thời trong sản xuất phần mềm, nhưng sự chú ý của con người vẫn là tài nguyên khan hiếm và không thể nhân bản nhất trong hệ thống. Một quy trình làm việc với Agent thực sự trưởng thành không phải là ném mọi nhiệm vụ cho máy móc, mà là thiết kế kiến trúc sự chú ý của chính mình một cách cẩn thận, giống như thiết kế một hệ thống sản xuất.

marsbit1 giờ trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

marsbit1 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit8 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit8 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

**Tóm tắt: Nhìn lại 20 dự đoán về ChatGPT năm 2023 sau 3 năm** Vào tháng 3/2023, khi ChatGPT mới xuất hiện và GPT-4 chưa ra mắt, tác giả Vương Kiến Thạc đã đưa ra 20 nhận định về tương lai của AI. Giờ đây, vào cuối tháng 5/2026, một hệ thống AI gồm 41 agent đã được sử dụng để kiểm chứng lại từng dự đoán đó dựa trên dữ liệu thực tế. **Kết quả kiểm chứng (Tính đến 5/2026):** * **Đúng/Bản chất đúng (✅/🟢):** 13/20 dự đoán. * **Một phần đúng (🟡):** 6/20 dự đoán. * **Sai (❌):** 1/20 dự đoán. **Những điểm dự đoán chính xác nổi bật:** 1. **Kiến trúc RAG & Tìm kiếm:** Dự đoán việc bổ sung kiến thức thông qua cơ chế truy xuất bên ngoài (như vector search) thay vì chỉ fine-tune model đã trở thành tiêu chuẩn. 2. **Giao diện ngôn ngữ tự nhiên (LUI):** Nhận định ChatGPT mở ra kỷ nguyên LUI, tạo ra một hệ sinh thái rộng lớn hơn cả việc phát triển model cơ bản, đã được chứng minh. 3. **Mô hình lớn Trung Quốc:** Dự báo khoảng cách về khả năng giữa các mô hình Trung Quốc và đỉnh cao thế giới sẽ thu hẹp nhanh chóng trong khoảng 3 năm đã thành hiện thực. 4. **Ý thức và Kiểm tra Turing:** Quan điểm cho rằng ChatGPT không có ý thức và bài kiểm tra Turing chỉ đánh giá biểu hiện bề ngoài vẫn vững vàng. **Những điểm dự đoán chưa chính xác hoặc sai lệch:** 1. **Tham số GPT-4 (❌):** Thông tin GPT-4 có 100 nghìn tỷ tham số là hoàn toàn sai. 2. **Khả năng toán học của LLM:** Mặc dù đúng khi cho rằng cần công cụ bổ trợ, nhưng khẳng định LLM "không thể" tự học toán thuần túy đã bị bác bỏ khi các model năm 2025 giành huy chương IMO. 3. **Nơi nắm giữ giá trị:** Dự đoán giá trị sẽ thuộc về tầng ứng dụng, còn các công ty làm model cơ bản có thể không sinh lời, đã không tính đến sự thống trị và lợi nhuận khổng lồ của NVIDIA ở tầng phần cứng tính toán. 4. **Bản quyền:** Nhận định AI có thể "né tránh" vi phạm bản quyền là sai, khi thực tế đã có những vụ kiện và dàn xếp bồi thường lớn nhất lịch sử liên quan đến dữ liệu huấn luyện. **Bài học rút ra sau 3 năm:** * **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể.** * Xu hướng chung: **Đánh giá quá lạc quan về tốc độ, nhưng lại đánh giá thấp mức độ phát triển** về lâu dài. * Sai lầm tinh vi thường nằm ở **sự phân bổ** (ví dụ: tác động việc làm lên nhóm người lao động trẻ), chứ không phải tổng thể. * **Những nhận định có giới hạn, điều kiện đi kèm thường chính xác hơn** những phát biểu tuyệt đối. * Một số câu hỏi lớn vẫn chưa có câu trả lời cuối cùng sau 3 năm. Bản tổng kết này không chỉ chấm điểm cho quá khứ, mà còn đặt ra những quy tắc cho việc dự đoán trong tương lai.

链捕手10 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

链捕手10 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片