【Dẫn nhập】Xếp hạng toàn cầu từ thứ 2 rơi xuống thứ 10, mô hình mạnh nhất Claude bị tố "giảm trí", BridgeBench đã chứng minh rồi! Nhưng Anthropic không bận tâm?
Anthropic xong đời rồi?
Gần đây, giám đốc AI của AMD xác nhận Claude Code giảm trí, thẳng thắn nói "đã không thể dùng cho các nhiệm vụ phức tạp".
Bây giờ, báo cáo mới nhất từ đánh giá BridgeBench lại giáng một đòn mạnh vào Anthropic!
Số liệu gây sốc: Xếp hạng toàn cầu của Claude Opus 4.6 đã rơi thẳng đứng từ vị trí thứ 2 xuống thứ 10:
Độ chính xác giảm mạnh từ 83.3% xuống 68.3%, tỷ lệ ảo tưởng gần như tăng gấp đôi, tăng 98%.
Khoảnh khắc đó, Claude giảm trí trở nên ngu ngốc, trải nghiệm người dùng kém đi, những con số lạnh lùng kết thúc mọi nghi vấn của người dùng —
Không phải lỗi của họ, Claude Opus 4.6 thực sự đã tệ hơn!
Người dùng Claude cảm thấy bị lừa dối!
Hãy tưởng tượng, nếu bạn phụ thuộc vào mô hình này để xử lý bất kỳ nhiệm vụ quan trọng nào, và họ có thể không báo trước mà trực tiếp thay thế bằng một mô hình kém hơn nhiều.
Nhưng người dùng nghi ngờ: "Làm sao điều này có thể hợp pháp?", niềm tin bắt đầu tan vỡ, sự chế nhạo Anthropic tràn ngập, ngay cả những người ủng hộ trung thành nhất cũng bắt đầu dao động.
Nhưng ngay bên kia là sự chế nhạo khắp mạng, quân bài át chủ bài của Anthropic đã xuất hiện — một bức ảnh chụp màn hình giao diện công cụ nội bộ bị rò rỉ.
Những thứ hiển thị trong hình ảnh khiến tất cả các cuộc thảo luận về "Claude trở nên ngu ngốc" đột nhiên trở nên không quan trọng — Claude Projects đang thử nghiệm một hệ thống xây dựng ứng dụng full-stack hoàn chỉnh.
Không phải giúp bạn viết code, mà là giúp bạn tạo ra sản phẩm.
Trong khi mọi người còn đang tranh cãi về điểm số mô hình, Anthropic đã đổi bàn chơi.
Bức ảnh rò rỉ ẩn chứa điều gì?
Trước tiên hãy nói xem bức ảnh chụp màn hình đó chụp được cái gì.
Theo xác minh chéo từ nhiều nguồn tiết lộ, hình ảnh rò rỉ cho thấy một bộ "công cụ phát triển một-click" mà Claude Projects đang thử nghiệm nội bộ.
Trên giao diện liệt kê một hàng các mẫu có sẵn: chatbot AI, trò chơi tương tác nhỏ, trang landing page thương mại, bảng điều khiển dữ liệu SaaS... gần như bao phủ tất cả các nhu cầu场景 thường gặp nhất của nhà phát triển độc lập.
Nhưng mẫu chỉ là bề ngoài.
Điều thực sự khiến mọi người kinh ngạc là chuỗi năng lực full-stack đằng sau các mẫu —
Xác thực? Tick là cấu hình xong.
Cơ sở dữ liệu? Chọn loại là xây dựng xong.
Giao diện front-end? Mô tả là生成 (sinh ra).
Triển khai lên mạng? Một click hoàn tất.
Đây không phải là "AI hỗ trợ lập trình". Đây là "AI thay thế lập trình", thậm chí không cần chưng cất kỹ năng (Skill) của bạn nữa.
Để hiểu được sức nặng của câu nói này, cần nhìn rõ sự phân tầng格局 của các công cụ lập trình AI hiện tại.
- Logic của Cursor là "giúp bạn viết nhanh hơn trong IDE" — nó tối ưu tốc độ viết code, lập trình viên vẫn là nhân vật chính.
- Logic của Replit là "giúp người không biết viết code cũng có thể viết" — nó làm giảm ngưỡng vào cửa, nhưng bạn vẫn cần hiểu logic code.
- Logic của Vercel là "làm cho việc triển khai trở nên vô cảm giác" — nó giải quyết km cuối cùng, nhưng con đường phía trước bạn phải tự đi.
Chúng各自 cắt một环节 trên chuỗi phát triển phần mềm, và各自 làm đến mức cực致.
Nhưng điều Claude muốn làm hoàn toàn không cùng một chiều kích với chúng.
Cursor làm lập trình viên nhanh hơn 10 lần, Replit làm người không phải lập trình viên cũng viết code — nhưng Claude muốn làm cho bản thân việc "viết code" trở nên thừa thãi.
Cái trước là cách mạng hiệu suất, cái sau là tiêu diệt chủng loại.
Theo thông tin rò rỉ, động cơ底层 hỗ trợ hệ thống này vận hành chính là Opus 4.6 — mô hình bị cả mạng chế nhận là "giảm trí".
Mythos "không đủ mạnh" có thể là cố ý?
Phán đoán then chốt nhất, và cũng gây tranh cãi nhất có lẽ là —
Anthropic có thể根本 không quan tâm Mythos xếp thứ mấy trên bảng xếp hạng.
Nghe có vẻ như找借口 cho kẻ thua cuộc? Hãy cùng tính một笔账.
Khi chiến lược终局 của bạn là trở thành "nền tảng ứng dụng full-stack", vai trò của tầng mô hình就发生了 thay đổi根本.
Nó không cần phải là "thông minh nhất", nó chỉ cần "đủ dùng".
Yếu tố quyết định thắng thua trong cạnh tranh nền tảng从来 không nằm ở sức mạnh động cơ底层有多大, mà在于 độ dính của sinh thái上层有多深.
Windows thắng Mac không phải nhờ hệ điều hành tao nhã hơn, mà là sinh thái phần mềm phong phú hơn. Android nghiền nát Windows Phone không phải nhờ nhân内核 tiên tiến hơn, mà là nhà phát triển nhiều hơn.
Trong chiến tranh nền tảng, "tốt nhất"从来 không phải là nguyên nhân thắng, "nhiều người dùng nhất" mới là.
Ở nơi công cộng, Dario Amodei đã lặp đi lặp lại một câu: "Mã hóa sẽ chết."
Nhưng sự rò rỉ của bộ xây dựng full-stack, lần đầu tiên cho câu nói này có bằng chứng thực thể ở cấp độ sản phẩm.
Dario không nói lời tiên tri. Ông ấy nói làlộ trình đang thực hiện.
Nếu suy luận này thành lập, thì việc Mythos dẫn đầu GPT-5.4 Pro trên HLE (56.8 vs 42.7 không công cụ), nhưng bị đuổi kịp trên GPQA (94.4 vs 94.5)、bị反超 trên BrowseComp (89.3 vs 86.9) — ý nghĩa của những dữ liệu này就完全不同了.
Nó không phải là "Anthropic thua", mà là "Anthropic có chọn lọc không ch发力 ở đây nữa".
Đầu tư tài nguyên tính toán có hạn vào cuộc chạy đua vũ trang bảng xếp hạng để duy trì một nhãn "hạng nhất" hư ảo, hay nghiêng tài nguyên tính toán cho bộ xây dựng full-stack loại sản phẩm có thể trực tiếp tạo ra giá trị thương mại?
Đối với một công ty doanh thu năm 300 tỷ đô la, cần chứng minh năng lực thương mại hóa với nhà đầu tư, lựa chọn này并不 khó.
Mô hình đủ dùng就行, khóa chặt nền tảng mới là hào护城河.
Sự thật tàn khốc của cạnh tranh thương mại là: Người dùng không quan tâm điểm GPQA của bạn là 94.4 hay 94.5, người dùng quan tâm là "tôi nói một câu, App có chạy được không".
Nỗi sợ hãi sau khi thu 300 tỷ một năm
Doanh thu theo năm của Anthropic vừa突破 300 tỷ đô la, vượt qua OpenAI.
Trong 15 tháng, doanh thu theo năm của Anthropic tăng từ 1 tỷ USD lên 30 tỷ USD
Đây là một con số đủ để bất kỳ công ty khởi nghiệp nào cũng mở sâm panh.
Nhưng nếu bạn là Dario Amodei, cảm xúc lớn nhất của bạn lúc này không phải là ăn mừng, mà là sợ hãi.
Bởi vì phần lớn trong số 300 tỷ này, đến từ việc gọi API. Mà API, về bản chất là một mô hình kinh doanhcực kỳ nguy hiểm.
Tại sao? Bởi vì API意味着 khách hàng của bạn đang dùng khả năng của bạn, để xây dựng sản phẩm của chính họ.
Hôm nay họ gọi接口 của Claude làm một nền tảng dịch vụ khách hàng AI, ngày mai làm một công cụ viết lách AI, ngày kia làm một trợ lý lập trình AI.
Mỗi khách hàng thành công, đều đang xây tòa nhà của riêng họ trên nền móng của bạn. Nghe có vẻ đẹp — cho đến một ngày, một công ty mô hình khác cung cấp API rẻ hơn, đủ tốt, khách hàng của bạn sẽ di chuyển tập thể在一夜之间.
Đây就是 cơn ác mộng "mô hình hóa hàng hóa": Khi sự khác biệt ở tầng mô hình ngày càng nhỏ, định giá API就变成了一场没有赢家的价格战 (một cuộc chiến giá cả không có kẻ thắng).
OpenAI cảm nhận được nỗi sợ này, nên它疯狂做 sản phẩm C端 — ChatGPT, GPTs, trợ lý tùy chỉnh. Google cảm nhận được nỗi sợ này, nên它 nhét Gemini vào tìm kiếm, hộp thư, tài liệu và mọi sản phẩm của riêng họ.
Chúng đều đang làm cùng một việc:Trước khi mô hình trở thành giá bắp cải, hãy biến mình thành một nền tảng mà người dùng không thể rời xa.
Bộ xây dựng full-stack của Anthropic, là phiên bản tích cực nhất của cùng một logic.
Ẩn ý của nó là:
Thay vì chờ người khác dùng API của tôi xây một nền tảng trên đó, rồi chờ đến ngày mô hình giảm giá đá tôi một cái — chi bằng tự tôi xây nền tảng trước.
Bạn không cần gọi API của tôi nữa, bạn直接 trên nền tảng của tôi tạo App đi. Dữ liệu người dùng của bạn ở đây, quy trình làm việc của bạn ở đây, môi trường triển khai của bạn ở đây. Đến lúc đó, bạn muốn đổi mô hình? Được, nhưng toàn bộ nghiệp vụ của bạn都得重来 (đều phải làm lại từ đầu).
Đây không phải là đổi mới sản phẩm, đây là bản năng sinh tồn.
Doanh thu 300 tỷ chứng minh Anthropic có khả năng kiếm tiền, nhưng bức ảnh rò rỉ暴露了 nỗi lo lắng thực sự của Anthropic — chỉ biết kiếm tiền không đủ, phải làm cho người khác không thể rời xa bạn.
Kết thúc: Bầu trời sao và ảo tưởng
Hãy lùi lại một bước khỏi tường thuật thương mại, trở về điểm xuất phát của đánh giá kỹ thuật.
Mô hình lớn mạnh nhất hiện tại — bất kể Claude, GPT hay Gemini — đều ở khoảng mực nước năng lực 70%. Tốc độ leo lên của con số này trong nửa năm qua, đã chậm lại có thể nhìn thấy bằng mắt thường.
Từ 70% tiến tới 100%, không dựa vào刷榜 (cày bảng xếp hạng), không phải lấy thêm vài phần trăm điểm GPQA. Mà là dựa vào việc trở thành mộtcơ sở hạ tầng không thể thay thế — như lưới điện vậy, bạn không quan tâm nhà máy điện dùng turbine gì, bạn chỉ biết kéo đèn là sáng, bật điều hòa là mát.
Bộ xây dựng full-stack của Anthropic, lần đầu tiên cho mọi người thấy một công ty AI đang suy nghĩ nghiêm túc về con đường "cơ sở hạ tầng hóa" này.
Không còn chấp nhất với cuộc chiến hư danh "mô hình của tôi thông minh hơn bạn 0.1 điểm", mà直接 trả lời một câu hỏi bản chất hơn:Làm thế nào để một tỷ người trong vô thức, mỗi ngày đều đang dùng thứ của tôi?
Bởi vì thứ quyết định终局 của AI,从来 không phải là điểm thi của ai cao hơn. Mà là ai biến thành cái lưới điện mà tất cả mọi người都不开 (không thể tách rời) trước.
Tài liệu tham khảo:
https://x.com/cryptopunk7213/status/2043405326196867127
https://x.com/iruletheworldmo/status/2043332977136975994
https://x.com/marmaduke091/status/2043382991901147158
Bài viết này đến từ tài khoản WeChat công chúng "新智元" (Tân Trí Nguyên), biên tập: KingHZ




















