Mô hình lớn quét sạch mọi kỳ thi, nhưng lại càng xa rời AGI hơn: Bài báo này đã vạch trần điều gì?

marsbitXuất bản vào 2026-05-28Cập nhật gần nhất vào 2026-05-28

Tóm tắt

Nếu ai đó nói rằng AGI (Trí tuệ nhân tạo phổ quát) đã đạt được, làm sao để phân biệt thật hư? Ngành công nghiệp AI đang chạy đua hướng tới một mục tiêu không có đường kết thúc rõ ràng. Một bài báo gần đây của nhà nghiên cứu Michael Timothy Bennett đã đề xuất một thước đo mới cho AGI: không phải là khả năng bắt chước con người, mà là khả năng thích ứng và khám phá tri thức mới như một "nhà khoa học nhân tạo". Bài báo chỉ ra rằng các bài kiểm tra chuẩn cũ như bài kiểm tra Turing đã bị các mô hình lớn (large models) vượt qua, nhưng chúng ta lại càng xa rời trí thông minh phổ quát thực sự. Các mô hình hiện tại chủ yếu dựa vào "Scale-maxing" - tối đa hóa quy mô dữ liệu và tham số, lưu trữ các câu trả lời gần đúng trong trọng số mạng. Chúng thiếu khả năng chủ động thử nghiệm, hiểu biết nhân quả và cân bằng giữa khám phá (exploration) và khai thác (exploitation) trong điều kiện tài nguyên hạn chế (như năng lượng). Một AGI thực sự, theo định nghĩa mới này, cần có ba đặc điểm cốt lõi: (1) Chủ động thử nghiệm để thu thập thông tin, thay vì thụ động học từ dữ liệu có sẵn. (2) Hiểu được quan hệ nhân quả, không chỉ là tương quan. (3) Biết cách phân bổ tài nguyên tính toán một cách khôn ngoan để cân bằng giữa việc tìm kiếm thông tin mới và sử dụng kiến thức đã biết. Điều này đòi hỏi một sự chuyển dịch mô hình trong ngành AI. Tiêu chí đánh giá sẽ chuyển từ bảng xếp hạng điểm số sang các "điểm chuẩn thích ứng", nơi AI được đặt vào môi trường hoàn toàn mới để kiểm tra khả năng khám phá quy...

Nếu ai đó nói với bạn rằng, AGI (Trí tuệ nhân tạo phổ quát) đã được hiện thực hóa, bạn sẽ phán đoán như thế nào để biết họ đang nói thật hay chỉ là khoác lác?

Trong thỏa thuận bí mật được tiết lộ giữa OpenAI và Microsoft, thước đo đó là báo cáo tài chính – phát triển được một hệ thống AI tạo ra ít nhất 100 tỷ USD lợi nhuận thì được coi là AGI. Còn trong miệng của Huang Jen-Hsun, thước đo đó là thời gian – sẽ xuất hiện trong vòng năm năm; Elon Musk thậm chí còn nhiều lần đưa ra dự đoán "sẽ đạt được vào năm sau".

Các lãnh đạo ngành nói mỗi người một phách, căn nguyên không phải ở chỗ ai đang nói dối, mà là ở chỗ bản thân khái niệm AGI này, vốn dĩ không có một cái thước đo nào được công nhận chung. Như nhà nghiên cứu có tư duy độc lập Bennett trong lĩnh vực nghiên cứu AGI đã nói trong bài báo của mình, AGI đã bị sự thổi phồng và phỏng đoán khôi phục thành "Bài kiểm tra mực Rorschach" – mỗi người chỉ nhìn thấy hình ảnh trong tâm trí mình, chứ không phải sự thật khách quan; và nhà khoa học Melanie Mitchell của Viện Nghiên cứu Santa Fe cũng cho rằng, cuộc tranh luận này chỉ có thể được làm sáng tỏ thông qua nghiên cứu khoa học lâu dài. (Đính kèm địa chỉ bài báo: https://arxiv.org/pdf/2503.23923)

Đây là tình thế khó xử lố bịch nhất của ngành AI hiện tại: chúng ta đang chạy hết tốc lực để đuổi theo một mục tiêu mà ngay cả vạch đích cũng chưa được vẽ rõ ràng.

2025, Ai Đang Vẽ Lại Vạch Xuất Phát Cho AGI?

Đối mặt với khoảng trống định nghĩa này, giới học thuật bắt đầu dồn dập "lấp chỗ trống" vào năm 2025. Bengio và các học giả khác nhấn mạnh "tính đa chức năng" và "trình độ thành thạo"; DeepMind đề xuất "AGI phân tán", cố gắng phá vỡ ảo tưởng về một thực thể toàn năng đơn lẻ.

Nhưng nhà nghiên cứu Michael Timothy Bennett từ Đại học Quốc gia Úc, trong một bài báo gửi lên arXiv vào cuối tháng 3, đã đưa ra một câu trả lời đầy khiêu khích nhưng cũng trúng nhất vấn đề cốt lõi.

Ông chỉ ra rằng, các định nghĩa trước đây loanh quanh, vẫn cứ đọng lại ở việc so sánh với "một người trưởng thành có học thức". Bennett tiếp nhận định nghĩa về trí thông minh của học giả Pei Wang – coi trí thông minh là khả năng thích ứng dưới sự hạn chế của tài nguyên hữu hạn – về cơ bản đã nhảy ra khỏi khuôn khổ "giống người", và định nghĩa AGI là một "nhà khoa học nhân tạo".

Ông đề xuất, một AGI thực sự phải là một hệ thống có thể, dưới những ràng buộc thực tế như tính toán, bộ nhớ và năng lượng, thích ứng rộng rãi, hiệu quả và mang tính khoa học với các môi trường và nhiệm vụ mới, giống như một nhà khoa học con người.

Ẩn ý của câu này là: tiêu chuẩn đánh giá AGI, không nên là nó bắt chước con người giống đến mức nào, mà là khả năng "khám phá tri thức mới" của nó mạnh đến đâu.

Tại sao lại cần gấp một cái thước đo mới? Bởi vì cái thước cũ – bài kiểm tra Turing và các bài kiểm tra chuẩn mực của con người – đã bị các mô hình lớn vượt qua dễ dàng, nhưng chúng ta lại càng ngày càng xa rời trí thông minh phổ quát thực sự.

Năm 2025, nếu bạn hỏi một mô hình lớn đỉnh cao "9.11 và 9.9 cái nào lớn hơn", nó vẫn có thể trả lời bạn một cách đầy tự tin rằng 9.11 lớn hơn, bởi vì 11 lớn hơn 9. Khi giải các bài toán chứng minh bất đẳng thức toán học phức tạp, ngay cả khi mô hình lớn đoán đúng đáp án, quá trình suy luận của nó thường là sụp đổ về mặt logic.

Bennett chỉ thẳng ra căn bệnh: con đường mà các mô hình lớn hiện tại đang đi là tuyến "xấp xỉ tối đa hóa quy mô" – sử dụng dữ liệu khổng lồ và sức mạnh tính toán, lưu trước các đáp án xấp xỉ cho các nhiệm vụ khác nhau trong trọng số mạng. Một khi gặp phải vấn đề ngoài phân phối chưa từng thấy, nó lập tức lộ tẩy.

Nguy hiểm hơn nữa, mô hình lớn không có "khả năng chủ động". Nó không thể chủ động làm thí nghiệm để kiểm chứng giả thuyết, không thể tự xây dựng chuỗi nguyên nhân - kết quả, càng không thể cân bằng giữa "tiếp tục khám phá" và "tận dụng cái đã biết".

Quay lại với việc so sánh 9.11 và 9.9 – mô hình lớn không phải là không biết tính toán, mà là nó căn bản chưa xây dựng được mô hình nguyên nhân - kết quả về so sánh số. Nó chỉ đang dùng xác suất để đoán đoạn văn bản mà nó đã từng thấy và gần giống nhất.

Vực sâu ngăn cách giữa "khả năng bắt chước" và "khả năng thích ứng", chính là cốt lõi mà tiêu chuẩn AGI mới muốn đo lường.

Thang Đo Mới Của Trí Thông Minh: Tháo Rời "Nhà Khoa Học Nhân Tạo"

Bộ tiêu chuẩn này của Bennett đáng được coi trọng, bởi vì ông đã hạ cấp AGI từ một đề mục triết học mơ hồ, xuống thành một vấn đề kỹ thuật có thể định lượng được.

Theo quan điểm của ông, một AGI thực sự, mô hình hành vi của nó phải hoàn toàn thẳng hàng với mô hình nghiên cứu của các nhà khoa học con người:

Thứ nhất, từ "con rối" đến "người thí nghiệm chủ động".

AI ngày nay hoàn toàn là người học thụ động, chỉ có thể "nhìn" dữ liệu con người nhồi nhét cho nó. Nhưng nhà khoa học thì không, nếu một nhà khoa học bị nhốt trong một căn phòng lạ, anh ta tuyệt đối sẽ không đứng yên chờ thông tin, mà sẽ đi đẩy cửa, kéo tay nắm, kiểm tra cửa sổ – đó chính là "thí nghiệm chủ động". Một AGI thực sự, phải có khả năng tự lập kế hoạch thí nghiệm, thu thập thông tin then chốt thông qua tương tác chủ động.

Thứ hai, từ "biết là thế" đến "biết tại sao lại thế".

Đây là điểm yếu lớn nhất của AI hiện tại. Mô hình lớn là một "bộ học tương quan" cực đoan, nó biết "mưa" thường đi kèm với "đất ướt", nhưng không biết cái nào dẫn đến cái nào. Chỉ khi hiểu được nguyên nhân - kết quả, nó mới biết rằng khi trời quang mây tạnh nhưng mặt đất ẩm ướt, phải suy luận là xe tưới cây vừa đi qua chứ không phải sắp mưa. Không có hiểu biết về nhân quả, AI mãi mãi chỉ có thể luẩn quẩn trong phân phối dữ liệu huấn luyện, điều này hoàn toàn không liên quan đến "phổ quát".

Thứ ba, đi trên dây giữa "khám phá" và "tận dụng".

Nếu chỉ khám phá mà không tận dụng, nắm giữ nhiều kiến thức đến mấy cũng không giải quyết được vấn đề trước mắt; nếu chỉ tận dụng mà không khám phá, môi trường thay đổi là bó tay. AGI phải cân bằng động cặp mâu thuẫn này dưới sự hạn chế tài nguyên – biết mình không biết gì, và dựa vào đó để phân bổ sức mạnh tính toán.

Ngoài ra, Bennett còn thêm vào một chiều kích mang tính hiện thực sâu sắc: hạn chế năng lượng. Việc đưa "năng lượng" vào định nghĩa, có nghĩa là ông đã vạch ra một đường ranh giới dưới cùng: trí thông minh thực sự không phải là sở hữu tài nguyên vô hạn, mà là thích ứng một cách thanh lịch dưới tài nguyên hữu hạn. Một AI cần tiêu thụ một nhà máy điện hạt nhân mới giải quyết được vấn đề mới, chỉ là một chiếc máy tính đắt tiền, không phải AGI.

Thiết Lập Lại Lộ Trình Đến AGI: Tạm Biệt Scaling Law Đơn Nhất

Dựa trên khuôn khổ trên, Bennett tháo rời các phương pháp siêu việt hiện tại để xây dựng hệ thống thông minh thành ba loại:

Scale-maxing (Tối đa hóa quy mô): Con đường chủ đạo hiện nay của mô hình lớn, đổ dồn tham số, dữ liệu và sức mạnh tính toán. Nhưng điểm nghẽn đã lộ rõ: hiệu suất mẫu và năng lượng cực kỳ thấp.

Simp-maxing (Tối đa hóa sự đơn giản): Theo đuổi cấu trúc mô hình cực kỳ đơn giản, tôn sùng dao cạo Occam. Nhưng sự đơn giản là thuộc tính của hình thức chứ không phải thuộc tính của chức năng – "đơn giản nhất" dưới các máy Turing khác nhau có thể hoàn toàn khác nhau, khiến nó khó thoát khỏi cái bẫy chủ quan.

W-maxing (Tối đa hóa việc làm yếu đi ràng buộc): Làm yếu đi các ràng buộc chức năng nhiều nhất có thể, để hệ thống tự tìm ra giải pháp tối ưu. Thí nghiệm cho thấy, chỉ riêng W-maxing đã có thể đạt được mức cải thiện tỷ lệ khái quát hóa 110%-500% trên các nhiệm vụ cụ thể, nhưng nó cần tìm kiếm trong không gian vô hạn các hình thái phần cứng, độ khó tối ưu hóa cực cao.

Kết luận của Bennett vô cùng rõ ràng: Mặc dù Scale-maxing hiện đang chiếm ưu thế tuyệt đối, nhưng AGI tuyệt đối không phải là thứ có thể đạt được chỉ bằng mỹ học bạo lực của một con đường duy nhất, nó tất yếu phải là sự hòa trộn của nhiều phương pháp siêu việt.

Nếu định nghĩa "nhà khoa học nhân tạo" được chấp nhận rộng rãi, ngành AI sẽ đón nhận một sự dịch chuyển mô hình ở tầng sâu.

Tiêu chuẩn đánh giá sẽ thay đổi triệt để. Chúng ta không còn cần xem mô hình lớn trên bảng xếp hạng thi cử của con người lại vượt bao nhiêu điểm nữa, mà là thiết lập một bộ "chuẩn mực thích ứng": ném AI vào một môi trường vật lý chưa từng thấy, xem nó có thể phát hiện quy luật trong số lần tương tác hạn chế hay không; đưa cho nó một trò chơi mới, xem nó có thể hiểu luật chơi nhanh hơn con người hay không; thậm chí để nó giải quyết các vấn đề khoa học thực tế, xem nó có thể tự đề xuất giả thuyết và thiết kế thí nghiệm kiểm chứng hay không. Cốt lõi không còn là "bạn biết bao nhiêu", mà là "bạn có thể khám phá ra bao nhiêu".

Lộ trình kỹ thuật cũng sẽ chuyển hướng theo đó. Scaling Law thuần túy sẽ sớm chạm trần, bởi vì dữ liệu tiếp nhận thụ động không thể nuôi dưỡng tính nhân quả. Tìm kiếm và xấp xỉ, tối đa hóa quy mô và làm yếu đi ràng buộc – việc đạt được AGI tất yếu phải là sự hòa trộn của nhiều công cụ và phương pháp siêu việt, chứ không phải là phần mở rộng của một con đường duy nhất.

Bài báo của Bennett quan trọng, không phải vì ông đưa ra câu trả lời cuối cùng cho AGI, mà vì ông đã lau sạch một góc của tấm gương mờ ảo mang tên "trí thông minh". Ông để chúng ta thấy rằng, việc hiện thực hóa AGI không phải là sự lặp lại tuyến tính của mô hình lớn, mà là một lần thiết lập lại lộ trình.

AGI rốt cuộc nên như thế nào? Câu trả lời không nằm ở những cuộc đối thoại ngày càng giống người, mà nằm ở những khả năng có thể chủ động truy hỏi "tại sao", và tự tay đi kiểm chứng câu trả lời. Khi AI thực sự bước ra khỏi màn sương mù của "Bài kiểm tra mực Rorschach", nó sẽ không còn chỉ là bắt chước hình dáng của con người, mà sẽ sở hữu tinh thần của một nhà khoa học. (Bài viết này được đăng tải lần đầu trên ứng dụng Titan Media, tác giả | Silicon Valley Tech News, biên tập | Zhao Hongyu)

Câu hỏi Liên quan

QTheo bài viết, khái niệm AGI (Trí tuệ nhân tạo phổ quát) hiện đang gặp vấn đề gì lớn nhất?

ABài viết chỉ ra rằng khái niệm AGI hiện tại đang thiếu một định nghĩa thống nhất và khách quan. Nó giống như một 'bài kiểm tra Rorschach', mỗi người (hoặc tổ chức) lại hình dung và đặt ra những tiêu chí khác nhau, như khả năng sinh lợi nhuận, dự đoán thời gian hay sự giống con người. Điều này tạo ra nghịch lý: ngành công nghiệp AI đang chạy đua hướng tới một mục tiêu mà không có 'vạch đích' rõ ràng.

QNhà nghiên cứu Bennett đề xuất tiêu chuẩn mới nào để đánh giá AGI?

ABennett đề xuất định nghĩa AGI như một 'nhà khoa học nhân tạo'. Tiêu chuẩn cốt lõi không phải là mô phỏng con người giỏi đến đâu, mà là khả năng 'khám phá tri thức mới' của hệ thống. Một AGI thực sự phải có khả năng thích ứng rộng, hiệu quả và mang tính khoa học trước những môi trường và nhiệm vụ mới, trong những ràng buộc thực tế về tính toán, bộ nhớ và năng lượng.

QBài viết phân tích ba điểm yếu chính nào của các mô hình lớn (LLM) hiện tại so với tiêu chuẩn AGI mới?

ABa điểm yếu chính được phân tích là: 1. Thiếu 'năng lực chủ động': LLM là người học thụ động, không thể tự lên kế hoạch thí nghiệm hoặc tương tác chủ động để thu thập thông tin như một nhà khoa học. 2. Thiếu hiểu biết nhân quả: LLM chủ yếu học các tương quan từ dữ liệu, không xây dựng được các mô hình quan hệ nhân quả thực sự, dẫn đến việc dễ mắc lỗi khi gặp vấn đề ngoài phân phối dữ liệu huấn luyện. 3. Không thể cân bằng 'khám phá' và 'khai thác': AGI cần biết phân bổ tài nguyên tính toán để cân bằng giữa việc tìm hiểu cái mới và sử dụng cái đã biết, điều mà LLM hiện tại không làm được.

QBennett phân loại những 'siêu phương pháp' (meta-methods) nào để xây dựng hệ thống thông minh?

ABennett phân loại ba siêu phương pháp chính: 1. Scale-maxing (Tối đa hóa quy mô): Phương pháp chủ đạo hiện nay, tập trung vào việc mở rộng quy mô tham số, dữ liệu và năng lượng tính toán. 2. Simp-maxing (Tối đa hóa sự đơn giản): Tìm kiếm cấu trúc mô hình cực kỳ đơn giản, tuân theo nguyên lý dao cạo Occam, nhưng dễ rơi vào bẫy chủ quan. 3. W-maxing (Tối đa hóa sự nới lỏng ràng buộc): Làm suy yếu các ràng buộc chức năng để hệ thống tự tìm ra giải pháp tối ưu. Phương pháp này có thể cải thiện đáng kể tỷ lệ khái quát hóa nhưng rất khó tối ưu.

QNếu định nghĩa 'nhà khoa học nhân tạo' được chấp nhận, ngành AI sẽ thay đổi như thế nào theo bài viết?

ANgành AI sẽ trải qua một sự thay đổi mô hình sâu sắc: 1. Tiêu chuẩn đánh giá thay đổi: Thay vì xếp hạng trên các bài kiểm tra của con người, sẽ cần xây dựng các 'điểm chuẩn thích ứng', đưa AI vào môi trường/vấn đề hoàn toàn mới để đánh giá khả năng khám phá quy luật và giải quyết vấn đề. Trọng tâm chuyển từ 'bạn biết bao nhiêu' sang 'bạn có thể khám phá ra bao nhiêu'. 2. Lộ trình công nghệ thay đổi: Quy luật mở rộng thuần túy (Scaling Law) sẽ sớm chạm trần. Việc đạt được AGI sẽ đòi hỏi sự kết hợp của nhiều phương pháp (như tìm kiếm và xấp xỉ, tối đa hóa quy mô và nới lỏng ràng buộc) chứ không phải là sự kéo dài của một con đường duy nhất.

Nội dung Liên quan

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

Bản tóm tắt sự kiện Web3 đáng chú ý tháng 6: Thị trường tiền mã hóa tháng 6 tập trung vào các yếu tố chính: dữ liệu kinh tế vĩ mô của Mỹ (như CPI, phi nông nghiệp), quyết định lãi suất từ Cục Dự trữ Liên bang Mỹ (FOMC), Ngân hàng Trung ương Châu Âu và Ngân hàng Nhật Bản, tiếp tục ảnh hưởng đến kỳ vọng thanh khoản và tâm lý thị trường. Một số dự án như SUI, ENA sẽ có đợt mở khóa token, cần lưu ý rủi ro tiềm ẩn. Về tin tức sản phẩm, Coinbase dự kiến ra mắt hợp đồng tương lai chỉ số chứng khoán, trong khi CME Group lên kế hoạch cho hợp đồng tương lai chỉ số tiền mã hóa Nasdaq. Tình trạng thanh lý dự án vẫn tiếp diễn, với các dịch vụ như trình duyệt Bitcoin Ordinals (Ord.io) ngừng hoạt động, người dùng cần chú ý đến việc rút và di chuyển tài sản. Các sự kiện công nghệ và truyền thống đáng chú ý khác bao gồm World Cup, Hội nghị Nhà phát triển Toàn cầu của Apple (WWDC26), SpaceX lên sàn chứng khoán, và thượng hội IPO của công ty robot Unitree. Tóm lại, tháng 6 hứa hẹn tiếp tục là giai đoạn thị trường tìm kiếm phương hướng mới dưới tác động của kỳ vọng thanh khoản, biến động chính sách và sự luân chuyển trong hệ sinh thái.

marsbit47 phút trước

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

marsbit47 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

Tuần cuối tháng 5, hai sự kiện AI liền kề đã phơi bày hai cách tiếp cận khác biệt của các gã khổng lồ công nghệ Trung Quốc. Alibaba tập trung vào tích hợp và thương mại hóa AI. Họ kết nối ứng dụng Qwen với Taobao, cho phép mua sắm và sử dụng các tính năng AI như thử đồ, so giá. Tổ chức được tái cấu trúc để tập trung vào AI, với động lực rõ ràng từ thị trường vốn. Doanh thu bên ngoài của Alibaba Cloud tăng 40%, cho thấy chiến lược "lắp AI vào quầy thu ngân" đang tạo ra dòng tiền. Tuy nhiên, cách tiếp cận thực dụng này có thể đi kèm rủi ro nếu có sự chênh lệch lớn về năng lực mô hình nền trong tương lai. Ngược lại, ByteDance theo đuổi giới hạn công nghệ thông qua bộ phận Seed. Họ đạt được thành tích đỉnh cao với mô hình tạo video Seedance 2.0 và đầu tư mạnh vào nghiên cứu cơ bản, thu hút nhân tài với các mục tiêu thuần túy học thuật. Ngân sách vốn (capex) của ByteDance được báo cáo là tăng vọt, lên tới 4700 tỷ NDT vào năm 2026, được tài trợ chủ yếu từ lợi nhuận. Lợi thế lớn của họ là không bị áp lực thị trường công khai, cho phép tập trung vào nghiên cứu dài hạn. Bài viết chỉ ra rằng sự khác biệt chiến lược này không chỉ là triết lý, mà chủ yếu bị chi phối bởi việc công ty có niêm yết hay không. Các công ty đại chúng như Alibaba chịu áp lực phải thể hiện kết quả tài chính ngắn hạn, dẫn đến chiến lược "bán AI". Các công ty chưa niêm yết như ByteDance có "sự xa xỉ" để "làm AI" và tập trung vào đột phá công nghệ. Tương lai của con đường nghiên cứu dài hạn tại ByteDance có thể được kiểm chứng nếu công ty này tiến hành IPO.

marsbit55 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

marsbit55 phút trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

Biên tập viên: Khi AI Agent ngày càng rẻ và dễ gọi, phát triển phần mềm đang bước vào giai đoạn mới. Vấn đề không còn là có thể chạy nhiều Agent hơn hay không, mà là liệu con người có đủ sự chú ý để quản lý, đánh giá và hợp nhất đầu ra của chúng hay không. Bài viết giới thiệu khái niệm "thuế điều phối". Chi phí khởi chạy Agent rất thấp, chỉ cần một Prompt hoặc một cú nhấp chuột. Nhưng các bước tiếp theo mới thực sự đắt đỏ: kiểm tra kết quả, hiểu tác động đến kiến trúc hệ thống, xử lý xung đột giữa các Agent, và quyết định mã nào được đưa vào nhánh chính. Những công việc này không thể song song hóa đơn giản, mà vẫn phải quay về một tài nguyên tuần tự duy nhất: khả năng phán đoán của con người. Tác giả ví nhà phát triển như "GIL" trong hệ thống AI Agent - khóa luồng đơn hạn chế thông lượng cuối cùng của hệ thống đồng thời. Nhiều Agent có thể chạy cùng lúc, nhưng một khi bước vào giai đoạn đánh giá kiến trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển. Do đó, càng nhiều Agent không nhất thiết có nghĩa là sản lượng cao hơn, mà có thể chỉ làm cho hàng đợi công việc chờ xem xét dài hơn, khiến nhà phát triển mệt mỏi vì chuyển đổi ngữ cảnh liên tục. Điều dễ bị bỏ qua trong cơn sốt công cụ lập trình AI hiện nay là cảm giác hiệu quả không phải lúc nào cũng đồng nghĩa với năng suất thực. Một bảng điều khiển đầy Agent đang chạy tạo ra ảo giác "năng suất cao", nhưng nếu nhà phát triển không thực sự hiểu, xem xét và tích hợp các thay đổi, hệ thống cuối cùng tích lũy có thể là nợ kỹ thuật và nợ nhận thức. Vì vậy, bài viết thảo luận về "cách thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong thời đại Agent, năng lực then chốt không chỉ là biết đặt câu hỏi và phân công nhiệm vụ, mà là biết nhiệm vụ nào có thể giao cho máy móc xử lý song song, nhiệm vụ nào phải dành cho con người đánh giá; khi nào nên xem xét hàng loạt, khi nào nên dừng điều phối để tập trung lại vào một vấn đề cốt lõi. AI đang mở rộng khả năng xử lý đồng thời trong sản xuất phần mềm, nhưng sự chú ý của con người vẫn là tài nguyên khan hiếm và không thể nhân bản nhất trong hệ thống. Một quy trình làm việc với Agent thực sự trưởng thành không phải là ném mọi nhiệm vụ cho máy móc, mà là thiết kế kiến trúc sự chú ý của chính mình một cách cẩn thận, giống như thiết kế một hệ thống sản xuất.

marsbit2 giờ trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

marsbit2 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit8 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit8 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片