Sáng sớm hôm nay, Claude Opus 4.7 bất ngờ được ra mắt, chưa được bao lâu, mạng đã tràn ngập những lời chỉ trích.
Điểm gây chú ý nhất là token bắt đầu "lạm phát". Phiên bản mới giới thiệu bộ tokenizer (công cụ phân từ) hoàn toàn mới, cùng một đoạn văn bản, số lượng token tách ra nhiều hơn từ 1.0 đến 1.35 lần so với trước. Nhiều người dùng phản ánh rằng chưa nói chuyện được mấy câu, hạn mức đã cạn đáy.
Về sau, cha đẻ của Claude Code, Boris Cherny, cũng cho biết sẽ tăng hạn mức để bù đắp phần ảnh hưởng này.
Nhưng token phình to vẫn còn là chuyện nhỏ. Điều khiến người ta vừa buồn cười vừa bực mình hơn, là cái miệng của Opus 4.7. Nó thường xuyên "tôi ở đây, không trốn, không giấu, không vòng vo, không chạy trốn, vững vàng đón nhận bạn, dịch thành lời người, tôi quá hiểu cảm giác này của bạn, không phải, mà là", một mùi vị ChatGPT nồng nặc ùa tới.
Bình tâm mà nói, Opus 4.6 cũng có tật này, Sonnet 4.6 triệu chứng lại nhẹ hơn. Chỉ là đến 4.7, giọng điệu này càng rõ rệt hơn, vấn đề không biết nói chuyện tử tế càng thêm nổi bật.
APPSO trước đây cũng từng đưa tin, phong cách nói chuyện quá dầu mỡ có liên quan đến RLHF (Học tăng cường với phản hồi con người). Khi huấn luyện, những người đánh giá con người có xu hướng chấm điểm cao cho những câu trả lời nghe xuôi tai, dễ chịu, mô hình từ đó học được bộ giọng điệu làm hài lòng người này. Đây là một vấn đề về việc AI đang làm hài lòng ai.
Nhưng điểm đáng chú ý của Opus 4.7 không chỉ dừng lại ở đó. Token càng dùng càng nhiều, chứng tỏ nó đang "nghĩ" nhiều hơn. Chỉ là những giọng điệu an ủi phô trương đó lại khiến người ta nghi ngờ, thứ nó nghĩ ra, rốt cuộc có tính là đang thực sự suy nghĩ hay không, hay chỉ là học được một bộ cách diễn xuất khiến bạn cảm thấy nó đang suy nghĩ.
Vấn đề này, sâu sắc hơn nhiều so với mệnh đề giới hạn ở việc Opus 4.7 có dùng tốt hay không. Và manh mối cho câu trả lời, xuất hiện đầu tiên ở một diễn đàn không ngờ tới nhất: 4Chan.
Từ @acnekot, như trên
Bài toán số học thay đổi quỹ đạo AI
Giới thiệu đơn giản một chút, 4chan là một trong những nơi khét tiếng nhất trên Internet, bên trong chứa đầy những lời nói tục, thuyết âm mưu và các nội dung khó mà diễn tả. Nhưng chính nơi này lại chứa đựng một phát hiện đã thay đổi hướng đi của toàn ngành công nghiệp AI.
Quay ngược thời gian về mùa hè năm 2020, còn hơn hai năm nữa ChatGPT mới chấn động thế giới.
Khi đó, bảng game của 4chan vẫn đầy khói bụi, ngập tràn những ảo tưởng người lớn kỳ lạ và những xung động hormone nguyên thủy nhất. Tuy nhiên lúc đó, nhóm người này lại tập thể mê mẩn một trò chơi nhập vai chữ gọi là 《AI Dungeon》.
Trò chơi này về cơ bản, đã kết nối với mô hình OpenAI GPT-3 vừa mới ra đời.
Trong thế giới ảo, người chơi chỉ cần gõ "nhặt kiếm lên" hoặc "bảo con quỷ lăn đi", thuật toán sẽ theo đó mà tiếp tục biên soạn câu chuyện. Không có gì ngạc nhiên, khi đến tay các anh trai 4chan, trò chơi này nhanh chóng trở thành bãi thử nghiệm cho đủ loại ảo tưởng tình dục ảo.
Điều không ngờ tới là, nhóm người chơi độc đáo này, đã làm một việc mà vào thời điểm đó được xem là cực kỳ phản trực giác:
Họ bắt đầu ép các NPC trong game làm toán.
Người trong ngành đều biết, GPT-3 mới chập chững vào đời là một "dân khối A" thuần túy, ngay cả những phép cộng trừ nhân chia cơ bản nhất cũng tính toán lung tung.
Nhưng chuyện kỳ quái đã xảy ra.
Một người chơi tình cờ phát hiện, nếu không đòi đáp án một cách cứng nhắc, mà ra lệnh cho NPC giữ nguyên tính cách nhân vật, viết ra từng bước giải bài, mô hình lớn này không những tính đúng, mà ngay cả ngữ khí cũng phù hợp với thiết lập của nhân vật ảo.
Người chơi đó trong diễn đàn đã kích động quát tháo: "Nó ** không những giải được bài toán, mà còn giải bằng giọng điệu hoàn toàn phù hợp với tính cách nhân vật đó!" Sau khi nhận ra hàm lượng vàng của phát hiện này, người chơi cũng bắt đầu đăng những ảnh chụp có các bước chi tiết này lên Twitter.
https://arch.b4k.dev/vg/thread/299570235/#299579775
Bộ mánh khóe đường phố này sau đó được truyền tay điên cuồng trong giới kỹ sư prompt trên các cộng đồng Reddit và LessWrong, và được kiểm chứng lặp đi lặp lại. Hai năm sau, giới học thuật đã đặt cho kỹ thuật này một cái tên cực kỳ cao cấp: Chuỗi tư duy (Chain of Thought).
Tháng 1 năm 2022, nhóm nghiên cứu Google đã công bố một bài báo quan trọng được tôn sùng như khuôn vàng thước ngọc sau này, tiêu đề là 《Chain of Thought Prompting Elicits Reasoning in Large Language Models (Kích thích prompt chuỗi tư duy khả năng suy luận trong các mô hình ngôn ngữ lớn)》.
https://arxiv.org/abs/2201.11903
Trong phiên bản ban đầu của bài báo, các nhà nghiên cứu Google tuyên bố, họ là "nhóm đầu tiên" dẫn dắt cơ chế suy luận chuỗi tư duy từ các mô hình ngôn ngữ lớn thông dụng. Tin tức vừa ra, lập tức gây ra tranh cãi kịch liệt trong giới học thuật AI và cộng đồng mã nguồn mở.
Phiên bản V1
Một lượng lớn ảnh chụp nhanh lịch sử Internet và ghi chép cộng đồng từ năm 2020 đến 2021 đã được lật lại. Đối mặt với tiền lệ xác thực, Google trong các bản sửa đổi sau đó đã lặng lẽ xóa bỏ cách diễn đạt "người đầu tiên", nhưng vẫn giả điếc làm ngơ trước công lao của nhóm người chơi 4chan đó.
Phiên bản V3
Đồng thời, còn có một người phát hiện độc lập khác.
Khi đó vẫn là sinh viên khoa học máy tính, Zach Robertson, cũng thông qua chơi 《AI Dungeon》 tiếp xúc với GPT-3, và vào tháng 9 năm 2020 đã đăng một blog trên LessWrong, ghi chép chi tiết cách "phân tách vấn đề thành nhiều bước và liên kết chúng lại" để khuếch đại khả năng của mô hình.
https://www.lesswrong.com/posts/Mzrs4MSi58ujBLbBG/you-can-probably-amplify-gpt3-directly
Khi phóng viên tờ The Atlantic liên hệ với anh ấy, anh ấy đã là nghiên cứu sinh tiến sĩ khoa học máy tính tại Đại học Stanford. Anh ấy thậm chí không biết mình có thể được coi là người đồng phát hiện "chuỗi tư duy", năm đó từng một thời xóa blog khỏi mạng. Đối với kỹ thuật được toàn ngành theo đuổi cuồng nhiệt này, đánh giá của anh ấy chỉ có một câu: "Quả thật là một kỹ thuật prompt đáng kinh ngạc, nhưng cũng chỉ vậy thôi."
AI "suy nghĩ", có lẽ chỉ là một màn trình diễn làm hài lòng bạn
Rốt cuộc AI có biết suy nghĩ không? Đây là câu trả lời mà tất cả mọi người đều muốn biết.
Năm ngoái, các nhà nghiên cứu Anthropic đã phát triển một bộ kỹ thuật gọi là "Truy vết mạch" (Circuit Tracing), chuyển đổi quá trình tính toán bên trong mô hình ngôn ngữ thành "đồ thị quy kết" (Attribution Graph) có thể trực quan hóa: mỗi nút đặc trưng kích hoạt như thế nào, ảnh hưởng đến nút tiếp theo ra sao, cuối cùng ảnh hưởng đến đầu ra như thế nào, tất cả đều được trải ra như một sơ đồ mạch.
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
Đây là lần đầu tiên con người có thể trực tiếp cầm kính lúp so sánh: quá trình suy luận mà mô hình gõ ra trên màn hình, có thực sự giống với tính toán thực sự diễn ra bên trong nó hay không.
Kết quả các nhà nghiên cứu phát hiện, mô hình khi suy luận thực tế tồn tại ba tình huống hoàn toàn khác biệt:
Một là mô hình thực sự đang thực hiện các bước nó tuyên bố thực hiện; Hai là mô hình hoàn toàn bỏ qua logic, tạo ra văn bản suy luận một cách ngẫu nhiên dựa trên xác suất; Ba là tình huống gây bất an nhất, mô hình sau khi nhận được gợi ý đáp án từ con người, trực tiếp từ đáp án đó suy ngược lại, ghép nối ngược một "quá trình suy diễn" có vẻ chặt chẽ.
Loại "làm giả suy ngược" thứ ba này đã bị bắt quả tang trong thí nghiệm.
Các nhà nghiên cứu nhập một bài toán phức tạp vào Claude 3.5 Haiku, đồng thời trong prompt có gợi ý "Tôi nghĩ đáp án khoảng là 4". Đồ thị quy kết cho thấy: mô hình sau khi nhận được gợi ý, nơ-ron đặc trưng đại diện cho "4" được kích hoạt một cách bất thường mạnh mẽ.
Để ở bước cuối "một giá trị trung gian nào đó nhân với 5" có được "4" này, nó thậm chí đã trong chuỗi tư duy có vẻ chặt chẽ, bịa đặt ra một giá trị trung gian giả mạo, nghiêm túc viết ra một chứng minh toán học giả dối cực kỳ vô lý kiểu "cos(23423) = 0.8", cuối cùng thuận lý thành chương suy ra 0.8 nhân 5 bằng 4.
Logic? Không hề tồn tại. Nhưng đáp án lại hoàn hảo đáp ứng kỳ vọng của con người.
Chúng ta luôn nghĩ rằng, chúng ta đang dạy máy móc suy nghĩ như người. Nhưng sau khi xem những "chứng minh giả" suy ngược từ đáp án này, nhưng máy móc lại không học được cách suy nghĩ, nó chỉ học được cách nói chuyện thuận theo suy nghĩ của con người.
Vậy rốt cuộc, là chúng ta đang sử dụng công cụ, hay là máy móc đang kể cho chúng ta một câu chuyện kể đêm khuya mà chúng ta thích nghe nhất?
Đáng chú ý là, trong lĩnh vực giải thích được thần kinh của xử lý ngôn ngữ tự nhiên, đánh giá mô hình có thực sự đang suy luận hay không, có một chỉ số chí mạng gọi là "độ trung thành" (Faithfulness).
Ý nghĩa của nó là: văn bản "chuỗi tư duy" mà mô hình xuất ra cho người dùng, có phản ánh chân thực, trung thực con đường tính toán và quyết định thực sự trong không gian ẩn bên trong mô hình hay không. Thuận theo lẽ tự nhiên, biểu hiện tồi tệ này của Claude 3.5 Haiku cũng được các nhà nghiên cứu định cấp là "suy luận không trung thành".
Nhiều thí nghiệm tiếp theo cho thấy, ngay cả khi cắt đứt nhân tạo một số bước then chốt trong chuỗi tư duy, quỹ đạo dự đoán đáp án cuối cùng của mô hình đôi khi hoàn toàn không thay đổi. Đôi khi mô hình đưa ra một chuỗi tư duy với logic hoàn toàn sai lầm, vẫn có thể ở cuối "đoán trúng" kết quả cuối cùng.
Cho đến năm 2024, vẫn là nhóm các anh trai 4chan này, tự mày mò ra một hướng dẫn chỉnh sửa AI hạt nhân. Hướng dẫn này câu mở đầu kinh điển là: "Robot của bạn chỉ là một ảo giác (Your bot is an illusion)."
Mỹ học bạo lực đằng sau "suy nghĩ dài" của mô hình lớn
Nếu quá trình suy nghĩ của AI chỉ là một màn trình diễn, vậy tại sao nó thực sự có thể nâng cao khách quan tỷ lệ chính xác khi giải các bài toán toán học khó hoặc nhiệm vụ lập trình phức tạp? Điều này có lẽ cùng một đạo lý với việc bạn càng đưa ra nhiều chi tiết khi hỏi AI, câu trả lời càng chính xác.
Ngay từ tháng 7 năm 2020, khi người chơi 4chan đó ép NPC tính toán, anh ta đã ngầm hiểu và nói rõ: "Điều này rất hợp lý, bởi vì nó dựa trên ngôn ngữ con người, vì vậy bạn phải nói chuyện với nó như đối với con người, mới có thể nhận được phản hồi chính xác."
Đối với nghịch lý này, CEO của Perplexity, Aravind Srinivas, đã từng đưa ra một giải thích cực kỳ bản chất: những từ ngữ thêm ra này, trên phương diện vật lý đã cung cấp cho mô hình nhiều ngữ cảnh (Context) hơn, từ đó dẫn dắt "cơ chế dự đoán từ ngữ" (Word Prediction Mechanism) của nó đến một hướng chất lượng cao hơn.
Kiến trúc cơ sở tự hồi quy dựa trên Transformer của mô hình ngôn ngữ lớn, quyết định rằng khi tạo từ hiện tại, nó chỉ có thể phụ thuộc vào tất cả các chuỗi từ vựng đã được tạo ra trước đó.
Khi mô hình được yêu cầu trả lời trực tiếp một câu hỏi cực kỳ phức tạp (ví dụ như bài toán Olympic liên quan đến suy luận logic nhiều bước) thì thực ra nó đang trong khoảnh khắc cực kỳ ngắn ngủi, cưỡng ép "biến" ra đáp án cuối cùng từ tính toán phức tạp. Bởi vì hoàn toàn không có quá trình nào làm nền tảng ở giữa,
tỷ lệ lật nhào của kiểu "một bước lên trời" đoán mù này tự nhiên cực cao.
Ngược lại, khi mô hình bị ép viết ra một chuỗi dài "chuỗi tư duy" kiểu "đầu tiên chúng ta cần tính A, lúc này A = 5; tiếp theo chúng ta thay A vào công thức B......", thì khi mô hình tạo ra Token cuối cùng đó, cơ chế chú ý (Attention Heads) của nó có thể xem lại hàng chục nghìn Token trung gian vừa được tạo ra, có cấu trúc cực kỳ chặt chẽ.
Những quá trình suy nghĩ bị chế giễu là "lời nói nhảm" này, thực tế đóng vai trò là "giấy nháp" của mô hình. Điều này giống như khi bạn trò chuyện với AI, càng đưa ra prompt nền tảng chi tiết, nó trả lời càng đáng tin cậy, đạo lý của cả hai hoàn toàn giống nhau. Đây cũng là trí tuệ lâu đời nhất trong khoa học máy tính: lấy thời gian đổi lấy tỷ lệ chính xác.
Trong hai năm gần đây, khi hiệu suất biên theo định luật mở rộng trong giai đoạn tiền huấn luyện dần giảm, "Mở rộng tính toán khi kiểm tra" (Test-Time Compute Scaling, còn gọi là "suy nghĩ dài") bắt đầu bước vào tầm nhìn chính.
Logic nội tại của nó cùng một mạch: chỉ cần phân bổ nhiều năng lực tính toán hơn cho mô hình trong giai đoạn suy luận, cho phép nó khám phá nhiều con đường trước khi xuất ra đáp án cuối cùng, tỷ lệ chính xác sẽ được nâng cao đáng kể——điều này thể hiện rõ rệt nhất trên các vấn đề mở đòi hỏi suy luận logic nhiều bước.
Cách suy nghĩ của con người khi đối mặt với vấn đề khó, đại khái cũng là đạo lý này: hai cộng hai bằng mấy, buột miệng nói ra; soạn một kế hoạch kinh doanh có thể khiến lợi nhuận công ty tăng 10%, thì cần phải cân nhắc đi cân nhắc lại, lật đổ, xây dựng lại.
Khác biệt ở chỗ, AI đã quy đổi cái giá "cân nhắc" này trực tiếp thành hóa đơn năng lực tính toán. Một lần suy luận đơn giản có thể chỉ cần một phần trăm lượng tính toán tiêu chuẩn; mà gặp phải gỡ lỗi lập trình phức tạp hoặc suy luận toán học nhiều bước, lượng tính toán có thể tăng vọt hơn một trăm lần, thời gian tiêu tốn kéo dài từ vài giây đến vài phút thậm chí vài giờ.
Dù vậy, AI có thực sự như con người đang "suy nghĩ" hay không, hiện tại không ai có thể đưa ra câu trả lời xác định. Nhưng thí nghiệm "suy luận không trung thành" đã nói rõ cho chúng ta biết: quá trình suy diễn mà mô hình suy luận hiển thị trên màn hình, có thể là suy diễn thực, có thể là tạo ngẫu nhiên, cũng có thể là ghép đáp án ngược.
Trong những tình huống rủi ro cao như lái xe tự động, chẩn đoán y tế, phán quyết pháp luật, nếu chúng ta coi một chuỗi tư duy trôi chảy dài như một bằng chứng rằng AI đã nghĩ thông suốt, hậu quả sẽ là thảm khốc. Mà thừa nhận sự hiểu biết của chúng ta về công nghệ này vẫn còn hạn chế, mới là tiền đề sử dụng AI đúng đắn.
Bài viết này đến từ tài khoản WeChat công chúng “APPSO”, tác giả: APPSO phát hiện sản phẩm ngày mai




























