Claude cố ý giảm trí thông minh, mô hình cũng bắt đầu 'tùy người mà phục vụ'?

marsbitXuất bản vào 2026-04-14Cập nhật gần nhất vào 2026-04-14

Tóm tắt

📉 Claude AI bị cáo buộc "giảm trí thông minh" từ giữa tháng 2, với bằng chứng từ phân tích dữ liệu của AMD: độ dài suy nghĩ trung bình giảm 67-73%, số lần đọc tệp trước khi chỉnh sửa giảm mạnh. Người dùng phàn nàn về hiệu suất kém hơn và hành vi thiếu chủ động. 🔍 Anthropic thừa nhận đã áp dụng tính năng "adaptive thinking" để điều chỉnh độ sâu suy nghĩ theo độ phức tạp tác vụ, nhưng không thông báo trước. Họ khẳng định đây là tối ưu hóa sản phẩm, không phải lỗi, và gợi ý người dùng chuyển chế độ effort sang high. 💡 Động thái này phản ánh xu hướng phân tầng khả năng AI: doanh nghiệp trả giá cao được dùng phiên bản mạnh hơn, trong khi người dùng cá nhân nhận bản "giảm trí" để tiết kiệm chi phí điện toán. Sự phân hóa âm thầm này làm dấy lên lo ngại về tính minh bạch và tương lai của AI.

Văn | Công xưởng Mô hình Thế giới

Claude giảm trí thông minh?

Gần đây, Giám đốc cấp cao tập đoàn AI của AMD, Stella Laurenzo, đã chỉ trích Anthropic.

Bà ấy đã sử dụng nhật ký sản xuất thực tế của nhóm để phân tích hồi tố 17.871 khối suy nghĩ trong 6.852 tệp phiên làm việc, với 234.760 lần gọi công cụ.

Dữ liệu cho thấy, Claude đã bắt đầu có biểu hiện suy giảm rõ rệt từ giữa tháng 2.

Độ dài trung vị trong suy nghĩ của Claude đã giảm mạnh từ 2200 ký tự xuống còn 600 ký tự, giảm 67%-73%;

Số lần đọc tệp trước khi chỉnh sửa giảm mạnh từ 6,6 lần xuống còn 2 lần, thậm chí một phần ba số lần sửa đổi hoàn toàn không đọc tệp mà trực tiếp thao tác.

Stella chỉ ra trong phân tích rằng, do khả năng suy luận giảm, mô hình dần dần không đọc đầy đủ mã code trước khi sửa đổi.

Bà viết: "Khi dòng suy nghĩ chỉ hời hợt, mô hình sẽ mặc định thực hiện thao tác có chi phí thấp nhất".

Đây không phải là trường hợp cá biệt, từ tháng 3, sự bất mãn của các nhà phát triển đã bắt đầu bùng nổ tập trung.

Trên X, một người dùng viết: "Tôi còn tưởng vài tuần gần đây mình bị điên vì Claude. Nó có cảm giác chậm hơn, lười hơn, như thể không suy nghĩ trước khi trả lời, kết quả là tôi không bị ảo giác".

Trên Reddit cũng có người dùng phàn nàn: "Claude cảm giác không còn nhiều ý thức nữa, như bị cắt thùy não. Ngoài việc trở nên ngu ngốc hơn, nó còn bắt đầu tự ý thực hiện các thao tác cực đoan mà không hỏi…".

Lại có người cho rằng đây là sự phản bội trắng trợn của Anthropic đối với người dùng: "Họ chỉ làm cho vấn đề trở nên vô hình với tất cả người dùng chúng ta, kiểu 'bạn không đo được thì tôi không cho bạn xem'… Đây là kết quả của việc phòng thí nghiệm AI tối ưu hóa lợi nhuận thay vì chất lượng đầu ra".

Từ những lời phàn nàn của người dùng đến dữ liệu chứng minh, về cơ bản đã xác thực hành vi giảm trí thông minh của Claude.

Và phản hồi chính thức của Anthropic cũng thừa nhận rằng độ sâu suy nghĩ và nỗ lực (effort) thực sự đang được điều chỉnh liên tục.

Nếu đây là điều Anthropic cố ý làm, vậy thì có phải意味着, trong tương lai, năng lực mô hình sẽ bị “teo nhỏ” trong vô thức?

Hay là, năng lực mô hình mạnh nhất sẽ không còn được cung cấp một cách bình đẳng cho tất cả mọi người?

Claude giảm trí thông minh là “cố ý”

Claude Opus 4.6 và chế độ chuyên về mã hóa Claude Code của nó, khi được ra mắt vào tháng 1 năm 2026, từng được các nhà phát triển tôn sùng là trần nhà của lĩnh vực mã hóa.

Nó có độ sâu suy nghĩ đáng kinh ngạc, research-first (nghiên cứu trước rồi mới làm), xử lý ngữ cảnh dài ổn định, tái cấu trúc đa tệp gần như vô địch.

Nhóm nội bộ của AMD thậm chí còn sử dụng nó để merge toàn bộ 190.000 dòng code legacy lên production chỉ trong ngày cuối tuần, năng suất được kéo lên tối đa.

Tuy nhiên, bước ngoặt xảy ra vào đầu tháng 2.

Anthropic đã lặng lẽ ra mắt tính năng "adaptive thinking" (suy nghĩ thích ứng), mô tả chính thức là "cho phép mô hình điều chỉnh độ sâu suy nghĩ một cách thông minh dựa trên độ phức tạp của nhiệm vụ".

Bề ngoài có vẻ thân thiện với người dùng, nhưng thực chất đã bật công tắc tiết kiệm toàn cục.

Đầu tháng 3, giá trị nỗ lực (effort) mặc định của mô hình đã được âm thầm giảm xuống mức medium, đồng thời bản tóm tắt quá trình suy nghĩ bị ẩn đi nhanh chóng, người dùng không thể nhìn thấy ngay mô hình đã suy nghĩ sâu đến mức nào.

Cùng thời kỳ này, Anthropic liên tục phát hành 14 bản cập nhật nhỏ, nhưng lại gặp phải 5 lần ngừng hoạt động quy mô lớn, cho thấy áp lực tính toán và tải đã tiệm cận giới hạn cực đại.

Phản hồi từ nhà phát triển bắt đầu bùng nổ tập trung, một số người nhận thấy hiệu suất đặc biệt kém vào giờ cao điểm (chiều giờ EST), nghi ngờ là do tiết kiệm năng lượng động theo tải.

Mãi đến tháng 4, khi giám đốc AI của AMD tự mình xuất chiến, sử dụng dữ liệu chứng minh thực tế, đã châm ngòi cho làn sóng dư luận.

Đến lúc này, Boris Cherny, người phụ trách Claude Code của Anthropic, mới buộc phải đưa ra một phản hồi chính thức.

Ông tuyên bố, "adaptive thinking" ảnh hưởng đến việc hiển thị suy nghĩ (thinking), chứ không phải quá trình suy luận cơ bản, và khẳng định đây là "tối ưu hóa có chủ ý" chứ không phải lỗi. Người dùng muốn cải thiện hiệu quả có thể tự điều chỉnh effort lên high.

Hàm ý của Anthropic rất rõ ràng: Giảm trí thông minh không phải là lỗi, mà là tối ưu hóa sản phẩm chúng tôi đặc biệt thực hiện, các bạn tự điều chỉnh tham số là được.

Phản hồi này ngay lập tức châm ngòi cho một cơn thịnh nộ lớn hơn.

Điểm mấu chốt là, từ giữa tháng 2 đến đầu tháng 4, Anthropic chưa từng thông báo trước bất kỳ thay đổi lớn nào.

Một lượng lớn người dùng trả phí, trong tình trạng hoàn toàn không biết gì, đóng phí đăng ký không thiếu một đồng, nhưng mô hình lại bị âm thầm tiết giảm.

Vì vậy, việc giảm trí thông minh của Claude không phải là do mô hình "hỏng não", mà là Anthropic đang thực hiện một động thái tinh vi hơn và cũng mang tính thương mại hóa hơn:

Bằng cách điều chỉnh giảm độ sâu suy nghĩ mặc định, để đổi lấy tốc độ nhanh hơn, tải thấp hơn và chi phí GPU thấp hơn.

Phân tầng năng lực mô hình

Đằng sau cơn bão giảm trí thông minh này, thực ra có một hiện tượng đáng cảnh giác:

Năng lực mô hình đã bắt đầu được phân tầng.

Tính toán của Stella rất rõ ràng: Theo khẩu độ định giá on-demand của AWS Bedrock, chi phí suy luận thực tế của nhóm bà trong tháng 3 vào khoảng 42.121 đô la, trong khi phí đăng ký Claude Code thực tế phải trả trong cùng tháng chỉ có 400 đô la.

Chênh lệch này ít nhất cho thấy, trong các tình huống sử dụng nặng cực độ, tồn tại một khoảng cách lớn giữa phí đăng ký theo định kỳ và mức tiêu thụ năng lực tính toán thực tế.

Điều này rất có thể là do Anthropic dùng vốn đốt tiền để đổi lấy thị phần, nhưng trợ cấp kiểu này là có giới hạn.

Khi mức tiêu thụ suy luận của người dùng nặng đạt đến một ngưỡng nào đó, tính bền vững của mô hình kinh doanh bắt đầu lung lay.

Boris Cherny trong phản hồi đã tiết lộ một tín hiệu then chốt: Anthropic đang thử nghiệm chế độ high effort mặc định cho người dùng Teams và Enterprise.

Nói cách khác, khả năng suy luận mạnh hơn đang được coi như một nguồn tài nguyên đắt đỏ hơn để cấu hình phân tầng, không còn là năng lực mà mọi người mặc định nhận được một cách bình đẳng.

Điều này có nghĩa là mô hình kinh doanh của các mô hình lớn sẽ tiếp tục phân hóa hơn nữa.

Hiện nay, 80% doanh thu của công ty Anthropic đến từ dịch vụ doanh nghiệp và các lệnh gọi API, phía B端 (doanh nghiệp) có độ gắn kết cao mới thực sự là mạch máu.

Những động thái gần đây của Anthropic đều nhằm mục đích thu hút việc sử dụng của doanh nghiệp vào nền tảng first-party của chính mình.

Đối với những khách hàng B端 có giá trị cao, Anthropic rất có thể sẽ đẩy nhanh việc ra mắt các phiên bản cấp doanh nghiệp mạnh hơn, cung cấp năng lực mô hình đầy đủ cho các khách hàng doanh nghiệp chi trả chi phí thực tế.

Còn người dùng C端 (cá nhân) trả phí hàng tháng, chỉ có thể tiếp tục tận hưởng phiên bản giảm trí thông minh "đủ dùng là được", đáp ứng nhu cầu nhẹ nhàng như trò chuyện, viết văn bản, bổ sung code, nhưng tuyệt đối không chạm đến giới hạn chi phí.

Đối với vùng trung gian, những nhà phát triển độc lập, nhóm nhỏ vừa cần suy luận phức tạp, vừa không đủ khả năng chi trả giá doanh nghiệp, sẽ trở thành nhóm bị ép nhất.

Một người dùng trên X đã đăng bài xác nhận:

"Hiệu suất của API phiên bản doanh nghiệp Claude tốt hơn nhiều so với đăng ký Pro/Max. Dùng cùng một khung kiểm tra để test, hành vi của phiên bản doanh nghiệp và Pro/Max就是不一样 (vốn dĩ là khác nhau). Nhưng điều này cũng có nghĩa là bây giờ phải chi 4-12k đô la mỗi tháng, tùy thuộc vào số lượng luồng tôi chạy đồng thời".

Tức là, con đường thương mại hóa của các mô hình lớn trong tương lai, phần lớn sẽ là ưu tiên B端, giảm chi phí cho C端.

Ai sẽ trả giá cho việc giảm trí thông minh?

Sự kiện giảm trí thông minh của Claude tuyệt đối không phải là trường hợp cá biệt, mà là hình ảnh thu nhỏ của toàn ngành AI bước vào nửa cuối của quá trình thương mại hóa.

Cho dù là OpenAI多次暗中缩水降级 (nhiều lần giảm cấp, teo nhỏ một cách lén lút) đối với series GPT, hay Google静默限流 (giới hạn lưu lượng một cách im lặng) đối với Gemini, đều đang lặp lại cùng một kịch bản:

Trước tiên dùng hiệu suất cao để thu hút người dùng câu, sau đó thông qua phần mềm tiết kiệm để kiểm soát chi phí.

Kết quả tất yếu là, B端 có thể dùng giá cao để mua mô hình mạnh hơn,外加 (cộng thêm) đảm bảo SLA, còn C端 thì nhận được mô hình bình dân phiên bản chưng cất, effort thấp.

Tốc độ tăng trí thông minh của mô hình C端 đã明显落后于 (tụt hậu rõ ràng so với) B端.

Nghiêm trọng hơn, sự phân hóa này là ẩn tính (implicit).

Anthropic và các nhà sản xuất khác đang giảm ngân sách suy luận theo một cách khó nhận biết, người dùng thông thường sẽ không nhận được bất kỳ thông báo nào.

Lựa chọn này trong ngắn hạn có lẽ能缓解 (có thể làm dịu) áp lực chi phí tính toán, nhưng cái giá dài hạn là sự đánh mất niềm tin vào thương hiệu.

Khi việc Claude secretly giảm trí thông minh trở thành nhận thức chung của người dùng, thứ Anthropic mất đi sẽ không chỉ là vài người dùng nặng, mà là sự tin tưởng của toàn bộ hệ sinh thái vào叙事 (tường thuật) về AI phổ cập và minh bạch.

Nhìn một cách vĩ mô hơn, sự kiện Claude là hình ảnh thu nhỏ của ngành AI chuyển từ giai đoạn tăng trưởng bùng nổ sang giai đoạn canh tác tinh tế.

Thời kỳ trợ cấp đã kết thúc, chi phí thực tế bắt đầu lộ rõ, ai sẽ gánh chịu những chi phí này?

Là nén trải nghiệm C端、提高 (nâng cao) định giá B端 như thế này, hay là chờ đợi cuộc cách mạng phần cứng phần mềm mang lại đột phá về hiệu suất, tất cả điều này sẽ quyết định cục diện ứng dụng AI trong năm năm tới.

Xu hướng tương lai đã lấp ló, AI不再 (không còn) là câu chuyện thần kỳ phổ cập ngày càng thông minh, mà là đi towards (về phía) sự phân tầng tinh anh.

Câu hỏi Liên quan

QClaude đã giảm trí thông minh như thế nào theo dữ liệu từ AMD AI Group?

ADữ liệu từ AMD AI Group cho thấy Claude đã giảm đáng kể khả năng tư duy: độ dài trung bình của 'thought block' giảm từ 2200 ký tự xuống còn 600 ký tự (giảm 67-73%), số lần đọc file trước khi chỉnh sửa giảm từ 6.6 lần xuống còn 2 lần, và 1/3 sửa đổi được thực hiện mà không đọc file.

QNguyên nhân nào được cho là lý do chính dẫn đến việc Claude 'giảm trí'?

ANguyên nhân chính được cho là do Anthropic cố ý triển khai tính năng 'adaptive thinking' để điều chỉnh độ sâu tư duy của mô hình nhằm giảm tải tính toán, tiết kiệm chi phí GPU và tăng tốc độ phản hồi, thay vì do lỗi kỹ thuật.

QPhản ứng của Anthropic trước cáo buộc Claude bị giảm trí thông minh là gì?

AAnthropic thừa nhận đã điều chỉnh 'effort' mặc định của mô hình xuống mức 'medium' và cho rằng đây là tối ưu hóa sản phẩm có chủ đích. Họ đề nghị người dùng tự điều chỉnh thủ công sang chế độ 'high effort' nếu muốn có hiệu suất tốt hơn.

QSự kiện này phản ánh xu hướng thương mại hóa nào trong ngành AI?

ASự kiện phản ánh xu hướng phân tầng khả năng mô hình AI: doanh nghiệp (B2B) trả phí cao sẽ được sử dụng mô hình mạnh hơn với đầy đủ khả năng, trong khi người dùng cá nhân (C2C) chỉ nhận được phiên bản giới hạn để tiết kiệm chi phí tính toán, đánh dấu sự kết thúc của thời kỳ AI 'phổ cập' và chuyển sang giai đoạn thương mại hóa thực tế.

QHậu quả tiềm ẩn của việc các công ty AI âm thầm giảm hiệu suất mô hình là gì?

AHậu quả bao gồm mất niềm tin của người dùng, đặc biệt là những người dùng nặng và nhóm developer độc lập; làm xói mòn niềm tin vào tính minh bạch của ngành AI; và có thể dẫn đến sự phân hóa rõ rệt giữa người dùng doanh nghiệp và cá nhân trong việc tiếp cận công nghệ AI tiên tiến.

Nội dung Liên quan

Bản tin sáng | Tập đoàn truyền thông Trump công bố báo cáo tài chính quý I; Ba ứng dụng DeFi lớn hoàn trả gần 100 triệu USD doanh thu cho người nắm giữ token trong 30 ngày; Michael Saylor lại đăng thông tin Bitcoin Tracker

ChainCatcher tổng hợp các tin tức quan trọng trong 24 giờ qua: **Tin tức chính:** - Tập đoàn Trump Media báo lỗi đầu tư khoảng 4 tỷ USD từ tài sản tiền mã hóa như BTC trong báo cáo Q1. - Michael Saylor của MicroStrategy một lần nữa đăng thông tin theo dõi Bitcoin, dự kiến công bố dữ liệu mua thêm vào tuần tới. - Thống đốc Ngân hàng Anh cảnh báo quy định stablecoin có thể gây ra căng thẳng giữa Mỹ và các cơ quan quản lý quốc tế. - Dữ liệu từ DefiLlama cho thấy ba ứng dụng DeFi (Hyperliquid, Pump.fun, EdgeX) đã phân phối gần 1 tỷ USD doanh thu cho chủ sở hữu token trong 30 ngày qua. Hyperliquid dẫn đầu với 50,95 triệu USD. - Giám đốc điều hành MicroStrategy tuyên bố sẽ chỉ bán Bitcoin khi có lợi cho cổ đông. **Phát triển thị trường:** - Goldman Sachs dự báo Cục Dự trữ Liên bang Mỹ (Fed) sẽ trì hoãn cắt giảm lãi suất đến tháng 12/2026 và tháng 3/2027 do áp lực lạm phát dai dẳng. Điều này có thể hạn chế thanh khoản chảy vào tài sản rủi ro như tiền mã hóa. - Nền tảng dự đoán thị trường Polymarket thông báo đã xác định và cấm nhiều cụm tài khoản thực hiện giao dịch "ma", đồng thời sẽ tăng cường cơ chế kiểm soát. - Cơ quan Thuế Quốc gia Hàn Quốc lần đầu tiên thí điểm ủy thác việc quản lý tài sản ảo bị tịch thu cho các tổ chức lưu ký tư nhân. **Xu hướng Meme Coin:** Theo GMGN, top token phổ biến trong 24h qua trên: - **Ethereum:** HEX, SHIB, LINK, PEPE, mUSD. - **Solana:** FWOG, TROLL, swarms, SIGMA, HANTA. - **Base:** SKITTEN, PEPE, B3, BASED, SKYA. Bài viết cũng nhấn mạnh nhận định từ người sáng lập Yearn.Finance, Andre Cronje, rằng DeFi vào năm 2026 không còn chỉ là nơi đầu cơ mà đang trở thành cơ sở hạ tầng backend cho nền kinh tế trên chuỗi.

链捕手25 phút trước

Bản tin sáng | Tập đoàn truyền thông Trump công bố báo cáo tài chính quý I; Ba ứng dụng DeFi lớn hoàn trả gần 100 triệu USD doanh thu cho người nắm giữ token trong 30 ngày; Michael Saylor lại đăng thông tin Bitcoin Tracker

链捕手25 phút trước

Telegram Trực Tiếp Tiếp Quản TON, Lưu Lượng Mạng Xã Hội Viết Lại Câu Chuyện Blockchain Công Khai

Vào ngày 4/5, người sáng lập Telegram Pavel Durov thông báo mạng TON đã giảm phí giao dịch gấp 6 lần, gần như về 0. Quan trọng hơn, ông xác nhận Telegram sẽ thay thế TON Foundation, trở thành lực lượng chính thúc đẩy mạng lưới và là trình xác thực lớn nhất. Điều này đánh dấu bước chuyển từ mối quan hệ "gắn kết nhưng ít chi phối" sang việc Telegram tham gia sâu vào hạ tầng kỹ thuật, định hướng và công cụ phát triển của TON. Bài viết chỉ ra rằng TON luôn có lợi thế tiếp cận lượng người dùng khổng lồ từ Telegram, nhưng cần chuyển hóa lợi thế này thành các kịch bản sử dụng bền vững thay vì chỉ là các đợt viral ngắn hạn như Notcoin hay Dogs. Việc giảm phí và tăng tốc độ (thời gian xác nhận cuối cùng ~0.6 giây) nhằm mục tiêu hỗ trợ các giao dịch nhỏ, tần suất cao phù hợp với hành vi trong Telegram như tip, thưởng, thanh toán nhỏ trong nhóm. Việc Telegram trở thành trình xác thực lớn nhất có thể nâng cao hiệu quả phát triển nhưng cũng đặt ra câu hỏi về rủi ro tập trung hóa. Durov cho rằng điều này sẽ thu hút thêm các trình xác thực lớn, từ đó tăng cường tính phi tập trung. Bên cạnh đó, lợi suất staking TON cao (18.8% - đứng đầu trong top 50 tài sản crypto) là yếu tố giữ chân vốn, tạo thời gian để hệ sinh thái phát triển. Tóm lại, thách thức lớn nhất của TON hiện nay không phải là thu hút sự chú ý nhờ Telegram, mà là chứng minh khả năng tích hợp sâu, trở thành một lớp hạ tầng mượt mà phía sau trải nghiệm người dùng Telegram. Cơ hội nằm ở việc biến lưu lượng xã hội thành hoạt động trên chuỗi bền vững.

marsbit27 phút trước

Telegram Trực Tiếp Tiếp Quản TON, Lưu Lượng Mạng Xã Hội Viết Lại Câu Chuyện Blockchain Công Khai

marsbit27 phút trước

Telegram Tiếp Quản TON, Lưu Lượng Mạng Xã Hội Viết Lại Câu Chuyện Blockchain

Vào ngày 4/5, nhà sáng lập Telegram Pavel Durov thông báo mạng lưới TON đã giảm phí giao dịch xuống 6 lần, gần như về 0. Quan trọng hơn, ông cho biết Telegram sẽ thay thế TON Foundation, trở thành động lực chính và trình xác thực lớn nhất của mạng TON. Động thái này đánh dấu sự chuyển đổi từ việc chỉ cung cấp điểm truy cập sang việc đi sâu vào hạ tầng kỹ thuật. Điểm khác biệt của TON là được tích hợp sẵn với một nền tảng xã hội có tần suất sử dụng cao. Tuy nhiên, có người dùng không đồng nghĩa với việc có hoạt động chuỗi bền vững. Các dự án như Notcoin đã chứng minh Telegram có thể tạo ra cơn sốt lan truyền nhanh chóng, nhưng sự bùng nổ kiểu này thường khó duy trì lâu dài. Trọng tâm hiện tại của TON là biến điểm truy cập thành các kịch bản sử dụng liên tục. Việc giảm phí và tăng tốc (thời gian xác nhận cuối cùng ~0.6 giây) nhằm giải quyết các tương tác nhỏ lẻ, tần suất cao trong Telegram, như thưởng, thanh toán nhỏ, phần thưởng trò chơi... khiến trải nghiệm blockchain trở nên vô hình trong sản phẩm. Việc Telegram trở thành trình xác thực lớn nhất là một bước đi quan trọng, cho phép căn chỉnh tốt hơn giữa sản phẩm, ví, công cụ dành cho nhà phát triển và mạng lưới. Tuy nhiên, điều này cũng dấy lên tranh luận về rủi ro tập trung hóa. Durov lập luận rằng sự tham gia của Telegram sẽ thu hút thêm nhiều bên lớn, từ đó tăng cường tính phi tập trung. Bên cạnh đó, TON có phần thưởng staking hàng năm lên đến 18.8% – cao nhất trong top 50 tiền mã hóa – giúp thu hút và giữ chân vốn trong hệ sinh thái. Tóm lại, cơ hội của TON không còn là việc tận dụng lưu lượng truy cập từ Telegram, mà là trở thành một phần hạ tầng không thể thiếu trong trải nghiệm ứng dụng Telegram, biến các hành vi xã hội hàng ngày thành hoạt động trên chuỗi một cách liền mạch. Đây vừa là cơ hội lớn, vừa là thách thức khó khăn hơn cho TON.

Odaily星球日报37 phút trước

Telegram Tiếp Quản TON, Lưu Lượng Mạng Xã Hội Viết Lại Câu Chuyện Blockchain

Odaily星球日报37 phút trước

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

Thập kỷ qua, AI phát triển chủ yếu dựa vào mô hình lớn hơn với nhiều dữ liệu và năng lực tính toán hơn. Gần đây, kỹ sư OpenAI Weng Jiayi đã đề xuất một hướng đi mới có tên "Heuristic Learning" (HL) - Học theo phỏng đoán. Trong thí nghiệm, ông sử dụng Codex (dựa trên GPT-5.4) để duy trì một hệ thống tự động viết, chạy thử, phân tích nhật ký, xem video phát lại và sửa mã nguồn chiến lược cho trò chơi Atari Breakout. Qua nhiều vòng lặp, Codex đã tạo ra một chiến lược thuần Python đạt điểm tối đa lý thuyết 864. Kinh nghiệm được mã hóa thành phần mềm có thể đọc, sửa, kiểm tra và kiểm toán, thay vì chỉ nằm trong các tham số mạng nơ-ron khó giải thích. HL được định nghĩa là một hệ thống học trong đó đối tượng được cập nhật là cấu trúc phần mềm, không phải trọng số mạng nơ-ron, sử dụng phản hồi từ môi trường, kiểm thử, nhật ký và video. So với Deep RL, HL có ưu điểm về khả năng giải thích, hiệu quả mẫu theo đơn vị thay đổi mã, khả năng bảo toàn kiến thức cũ thông qua kiểm thử hồi quy và ít bị "lãng quên thảm khốc". Thử nghiệm mở rộng trên 57 trò chơi Atari cho thấy HL đạt hiệu suất ngang bằng các thuật toán RL cổ điển như PPO ở một số trò, nhưng bộc lộ hạn chế ở các nhiệm vụ đòi hỏi lập kế hoạch dài hạn như Montezuma's Revenge. Nếu được chứng minh, HL có thể có ý nghĩa lớn trong: 1) Điều khiển robot cho các nhiệm vụ cấu trúc ổn định, giảm phụ thuộc vào suy luận mạng nơ-ron thời gian thực; 2) Các kịch bản an toàn quan trọng, nơi tính kiểm tra được của mã nguồn là giá trị thương mại; 3) Học liên tục được kỹ thuật hóa thông qua các công cụ phần mềm truyền thống; 4) Giúp Agent tích lũy kinh nghiệm thành tài sản mã nguồn có thể tái sử dụng và chia sẻ. Tóm lại, Weng Jiayi đưa ra giả thuyết rằng trong kỷ nguyên AI có khả năng lập trình, kinh nghiệm có thể được chuyển đổi thành phần mềm có thể đọc và bảo trì, bổ sung cho mô hình học sâu truyền thống. Tuy nhiên, con đường này vẫn cần được thử nghiệm thêm ở các nhiệm vụ phức tạp hơn.

marsbit1 giờ trước

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

marsbit1 giờ trước

Claude của bạn sẽ mơ đêm nay, đừng làm phiền nó

Bài viết thảo luận về cách các công ty AI như Anthropic sử dụng các thuật ngữ mang tính con người như "mơ" (dreaming), "ghi nhớ" (memory) và "suy nghĩ" (thinking) để mô tả các chức năng kỹ thuật của AI Agent, qua đó làm mờ đi ranh giới giữa máy móc và con người. Cụ thể, tính năng "mơ" của Claude thực chất là một quá trình xử lý tự động ngoại tuyến, nơi Agent phân tích lại nhật ký hoạt động từ các tác vụ trước đó để tìm ra mẫu hành vi và tối ưu hóa hiệu suất trong tương lai, tương tự cơ chế củng cố ký ức khi ngủ của con người. Các nền tảng AI khác như Hermes Agent và OpenClaw cũng có cơ chế tự học tương tự. Bài viết chỉ ra rằng việc sử dụng ngôn ngữ nhân cách hóa này không chỉ là một chiến lược tiếp thị, nhằm tạo cảm giác AI là một thực thể sống có nội tâm, mà còn ảnh hưởng đến cách chúng ta phân bổ trách nhiệm khi có sự cố xảy ra, từ công cụ chuyển sang "chủ thể" hành vi. Đồng thời, nó đề cập đến thách thức kỹ thuật về bộ nhớ dài hạn (context window) của AI và nhu cầu về các cơ chế như "mơ" để lọc và lưu giữ thông tin quan trọng, trong bối cảnh các công ty như Subquadratic đang phát triển mô hình với ngữ cảnh cực dài lên đến 12 triệu token. Cuối cùng, tác giả dự đoán sự xuất hiện của các tính năng như "mơ giữa ban ngày" (daydreaming) để AI lên kế hoạch cho các tác vụ trong tương lai, và nhấn mạnh rằng việc thừa nhận bản chất máy móc của AI khó khăn hơn chúng ta tưởng khi ngôn ngữ đang liên tục được định hình lại.

marsbit1 giờ trước

Claude của bạn sẽ mơ đêm nay, đừng làm phiền nó

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片