Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

marsbitXuất bản vào 2026-05-11Cập nhật gần nhất vào 2026-05-11

Tóm tắt

Thập kỷ qua, AI phát triển chủ yếu dựa vào mô hình lớn hơn với nhiều dữ liệu và năng lực tính toán hơn. Gần đây, kỹ sư OpenAI Weng Jiayi đã đề xuất một hướng đi mới có tên "Heuristic Learning" (HL) - Học theo phỏng đoán. Trong thí nghiệm, ông sử dụng Codex (dựa trên GPT-5.4) để duy trì một hệ thống tự động viết, chạy thử, phân tích nhật ký, xem video phát lại và sửa mã nguồn chiến lược cho trò chơi Atari Breakout. Qua nhiều vòng lặp, Codex đã tạo ra một chiến lược thuần Python đạt điểm tối đa lý thuyết 864. Kinh nghiệm được mã hóa thành phần mềm có thể đọc, sửa, kiểm tra và kiểm toán, thay vì chỉ nằm trong các tham số mạng nơ-ron khó giải thích. HL được định nghĩa là một hệ thống học trong đó đối tượng được cập nhật là cấu trúc phần mềm, không phải trọng số mạng nơ-ron, sử dụng phản hồi từ môi trường, kiểm thử, nhật ký và video. So với Deep RL, HL có ưu điểm về khả năng giải thích, hiệu quả mẫu theo đơn vị thay đổi mã, khả năng bảo toàn kiến thức cũ thông qua kiểm thử hồi quy và ít bị "lãng quên thảm khốc". Thử nghiệm mở rộng trên 57 trò chơi Atari cho thấy HL đạt hiệu suất ngang bằng các thuật toán RL cổ điển như PPO ở một số trò, nhưng bộc lộ hạn chế ở các nhiệm vụ đòi hỏi lập kế hoạch dài hạn như Montezuma's Revenge. Nếu được chứng minh, HL có thể có ý nghĩa lớn trong: 1) Điều khiển robot cho các nhiệm vụ cấu trúc ổn định, giảm phụ thuộc vào suy luận mạng nơ-ron thời gian thực; 2) Các kịch bản an toàn quan trọng, nơi tính kiểm tra được của mã nguồn là giá trị thương mại...

Thập kỷ qua, việc AI trở nên mạnh mẽ hơn chủ yếu dựa vào một con đường: đổ nhiều dữ liệu và sức mạnh tính toán hơn vào các mô hình lớn hơn, để kinh nghiệm lắng đọng trong các tham số mạng nơ-ron. Con đường này đã tạo ra bước nhảy vọt của mô hình lớn sau ChatGPT, và cũng để lại một bài toán khó: mô hình ngày càng mạnh, nhưng lý do tại sao nó thành công, tại sao thất bại, nhiều khi vẫn khó giải thích và sửa chữa.

Thí nghiệm gần đây của kỹ sư OpenAI Weng Jiayi đã đề xuất một khả năng khác: trong môi trường có mục tiêu rõ ràng, có thể chạy và vòng phản hồi khép kín, AI không chỉ có thể trở nên mạnh hơn thông qua việc huấn luyện mô hình, mà còn có thể trở nên mạnh hơn thông qua việc 'tự sửa code'.

Ngày 8 tháng 5 năm 2026, Weng Jiayi đã hệ thống viết ra nhóm thí nghiệm này trên blog cá nhân 'Learning Beyond Gradients', đồng thời công khai kho lưu trữ code, nhật ký thí nghiệm CSV và bản ghi lại video. Anh ấy lâu nay tập trung vào cơ sở hạ tầng học tăng cường và hậu huấn luyện, tham gia vào lần ra mắt ban đầu của ChatGPT, và đảm nhiệm các công việc liên quan trong các dự án GPT-4, GPT-4 Turbo, GPT-4o, o-series, GPT-5; trước khi gia nhập OpenAI, anh tốt nghiệp đại học khoa Máy tính Đại học Thanh Hoa, thạc sĩ học tại Đại học Carnegie Mellon, cũng là tác giả chính của thư viện học tăng cường mã nguồn mở Tianshou và công cụ môi trường song song hiệu suất cao EnvPool.

Hình ảnh được tạo bởi AI

Anh ấy để Codex liên tục viết code chiến lược, chạy môi trường, đọc nhật ký, xem bản ghi lại, xác định vị trí thất bại, sau đó sửa code, bổ sung kiểm thử, tiếp tục đánh giá. Sau nhiều vòng lặp lại, Codex 'nuôi dưỡng' ra một bộ chiến lược thủ tục thuần Python: đạt điểm lý thuyết tối đa 864 trong Atari Breakout, trong các môi trường mô phỏng điều khiển robot như MuJoCo Ant và HalfCheetah, cũng chạy ra điểm số gần bằng với các thuật toán học tăng cường sâu thông thường.

Điểm thực sự quan trọng của nhóm thí nghiệm này, là một vấn đề cốt lõi: Khi coding agent đủ mạnh, việc học có nhất thiết phải xảy ra trong trọng số mạng nơ-ron không?

Trong bộ thí nghiệm này, kinh nghiệm được viết vào code, kiểm thử, nhật ký và bản ghi lại, trở thành một hệ thống phần mềm có thể đọc, sửa, xem xét và kiểm toán. Nếu hướng đi này tiếp tục thành lập, bước tiếp theo của Agentic AI có thể không chỉ là huấn luyện mô hình lớn hơn, mà còn là để mô hình tham gia duy trì một hệ thống kỹ thuật liên tục tiến hóa.

01 Vòng khép kín kỹ thuật từ 387 điểm đến điểm tối đa

Weng Jiayi viết trong blog, điểm xuất phát của thí nghiệm này thực ra là một nhu cầu kỹ thuật. Trong thời gian rảnh anh duy trì EnvPool, cần một cách rẻ hơn 'mỗi lần chạy một mạng nơ-ron' để kiểm tra môi trường trò chơi có chạy bình thường không, vì đưa mạng nơ-ron vào CI quá đắt. Vấn đề ban đầu là: Có thể viết ra các quy tắc heuristic rẻ, có thể tái hiện, rõ ràng mạnh hơn chiến lược ngẫu nhiên, để đưa môi trường đến trạng thái giàu thông tin không?

Anh ấy dùng Codex (mô hình cơ bản là gpt-5.4) thử viết một phiên bản hoàn toàn dựa trên quy tắc. Lời nhắc đầu tiên rất trực tiếp: 'Viết một chiến lược có thể giải quyết Breakout.' Kết quả không lý tưởng. Điểm thấp bản thân không cung cấp bất kỳ thông tin nào, ví dụ ngữ nghĩa hành động có thể sai, phát hiện trạng thái có thể sai, quy trình đánh giá có thể sai, cấu trúc chiến lược bản thân cũng có thể quá yếu.

Sau đó Weng Jiayi thay đổi hình thức nhiệm vụ. Anh không yêu cầu Codex trực tiếp giao ra một policy.py, mà yêu cầu nó duy trì toàn bộ một vòng lặp: dò tìm hành động và quan sát, viết bộ phát hiện trạng thái, viết chiến lược, chạy toàn bộ episode, ghi lại trials.jsonl và summary.csv, tạo video hoặc đường cong, kiểm tra mẫu thất bại, sửa chiến lược, đơn giản hóa code, chạy hồi quy.

Bản ghi thí nghiệm Breakout ghi lại quá trình này rất rõ ràng. Vòng đầu Codex xác nhận không gian hành động và hình dạng quan sát, từ khung hình RGB nhận diện màu sắc của bóng, ván chắn và viên gạch, sau đó dùng nhãn hình ảnh quét RAM 128 byte của Atari. Baseline ban đầu chỉ có 99 điểm. Sau khi thêm logic lệch đường hầm, điểm số tăng lên 387.

387 điểm là một điểm cao cục bộ dễ khiến người ta đánh giá sai. Chiến lược đã có thể ổn định đỡ bóng, nhưng đường bóng bị mắc kẹt vào vòng lặp tuần hoàn: không mất mạng, cũng không đánh trúng viên gạch mới, điểm số bị kẹt. Nếu là người viết code, có thể sẽ tiếp tục điều chỉnh 'độ chính xác đỡ bóng'. Codex xem video và vài chục bước gần đây, định vị vấn đề ở đường bóng thiếu nhiễu loạn.

Hình: Cảnh trò chơi Atari Breakout. Người chơi điều khiển ván chắn ở dưới để đánh trả lại quả bóng nhỏ, đập vỡ từng tầng tường gạch màu ở phía trên. Codex đã đạt điểm lý thuyết tối đa 864 trong trò chơi này.

Sau đó Codex thêm một cơ chế 'phá vỡ vòng lặp': nếu lâu không có phần thưởng, thì định kỳ thêm một lượng lệch cho dự đoán điểm rơi, đưa bóng ra khỏi vòng lặp cục bộ. Điểm số nhảy từ 387 lên 507. Khi tiếp tục lặp lại lại xuất hiện vấn đề mới: đối với bóng thấp nhanh, đánh chặn thông thường sẽ khiến ván chắn 'vượt dẫn quá mức' mà trôi đi. Codex thêm tham số fast_low_ball_lead_steps=3, điểm số từ 507 nhảy lên 839. Cuối cùng sự cải thiện từ 839 lên 864 giống như đang duy trì một hệ thống đã trở nên phức tạp: thử deadband, lệch phát bóng, lệch kẹt, thiên vị cân bằng viên gạch, số bước nhìn trước; nhiều hướng không có hiệu quả, sửa đổi hữu ích cuối cùng là điều kiện giai đoạn sau, 'sau khi đập xong bức tường gạch đầu tiên, chỉ kích hoạt lệch kẹt khi bóng cách xa ván chắn, khi bóng gần thì từ từ giải phóng'.

Cấu hình RAM mặc định cuối cùng cho ra đầu ra ổn định 864 / 864 / 864 điểm trên ba vòng episode, đạt đến giới hạn lý thuyết của Breakout. Codex sau đó lại di chuyển cùng một bộ điều khiển hình học đó sang phiên bản đầu vào thuần hình ảnh — không đọc RAM, chỉ dựa vào phân đoạn RGB để nhận diện ván chắn, bóng và cân bằng viên gạch. Phiên bản hình ảnh lần chạy đầu tiên ra 310 điểm, chạy tiếp ra 428 điểm, sau lần episode thứ bảy đạt 864 điểm, tương ứng 14504 bước môi trường chiến lược cục bộ.

Hình: Đường cong hiệu suất mẫu của Codex trên Breakout. Đường xanh là phiên bản đọc trực tiếp bộ nhớ trò chơi (RAM), đường đỏ là phiên bản chỉ xem màn hình (Vision). Phiên bản RAM trải qua nhiều bước nhảy 99 → 387 → 507 → 839 → 864, cuối cùng lần đầu đạt điểm tối đa ở episode thứ 81, tích lũy 1.5 triệu bước môi trường; Phiên bản Vision do là cấu trúc trưởng thành được di chuyển từ phiên bản RAM, chỉ dùng 7 episode, khoảng 1.45 vạn bước môi trường đã đạt 864 điểm.

Weng Jiayi đặc biệt nhắc nhở, điều này không nên được hiểu là 'đầu vào hình ảnh từ con số không chỉ dùng 14.5K bước đạt điểm tối đa'. Quy trình thực tế là Codex trước tiên trong phiên bản RAM phát hiện bộ điều khiển hình học, phá vỡ vòng lặp và giải phóng lệch giai đoạn sau, cấu trúc ổn định sau đó mới chuyển lớp đọc trạng thái từ RAM sang RGB. 14.5K là ngân sách di chuyển của phiên bản hình ảnh.

02 Định nghĩa của Heuristic Learning

Đặt tên cho 'chiến lược phần mềm' không ngừng tiến hóa này, khó hơn viết phiên bản chiến lược đầu tiên. Weng Jiayi cuối cùng đặt tên quá trình này là Heuristic Learning (HL, Học heuristic), và đối tượng được duy trì ra đặt tên là Heuristic System (HS, Hệ thống heuristic).

Theo định nghĩa của anh trong blog, HL được cấu thành từ code chương trình, giống như học tăng cường sâu phổ biến hiện nay, nó có một vòng lặp trạng thái, hành động, phản hồi, cập nhật. Khác biệt là, đối tượng được cập nhật là cấu trúc phần mềm, không phải tham số mạng nơ-ron; phản hồi của nó được coding agent tiêu hóa, có thể đến từ phần thưởng môi trường, trường hợp kiểm thử, nhật ký, video, bản ghi lại hoặc phản hồi con người; cập nhật của nó không sử dụng lan truyền ngược, mà là coding agent trực tiếp chỉnh sửa chiến lược, bộ phát hiện trạng thái, kiểm thử, cấu hình hoặc bộ nhớ.

Cần bổ sung, 'dùng chương trình thay vì mạng nơ-ron làm chiến lược' không phải khái niệm do Weng Jiayi sáng tạo ra đầu tiên. Giới học thuật đã thảo luận nhiều năm về học tăng cường theo chương trình (Programmatic RL): khuôn khổ PROPEL do Đại học Rice và Caltech đề xuất năm 2019, nghiên cứu phương pháp học tăng cường biểu diễn chiến lược như các chương trình ngắn trong ngôn ngữ ký hiệu; công trình LEAPS năm 2021 tiến thêm học không gian nhúng chương trình, kết hợp chiến lược chương trình khả vi với huấn luyện RL; HPRL tại ICML 2023 đề xuất học tăng cường theo chương trình phân tầng, để meta-policy kết hợp nhiều chương trình; khuôn khổ LLM-GS năm 2024 từ Đại học Quốc gia Đài Loan và Microsoft dùng khả năng lập trình và lập luận thường thức của LLM để hướng dẫn tìm kiếm chiến lược RL theo chương trình.

Đồng thuận của các nghiên cứu này là: so với chiến lược thần kinh, chiến lược theo chương trình có khả năng giải thích tốt hơn, khả năng xác minh hình thức hóa tốt hơn, và khả năng tổng quát hóa cho các cảnh chưa thấy.

Đóng góp thực chất lần này của Weng Jiayi, nằm ở việc coi coding agent là kênh kỹ thuật để duy trì hệ thống heuristic. Trước đây làm RL theo chương trình, hoặc dựa vào ngôn ngữ chuyên dụng lĩnh vực thiết kế thủ công, hoặc dựa vào thuật toán tìm kiếm trong không gian chương trình bị hạn chế; Weng Jiayi thì dựa vào Codex đưa code, nhật ký, kiểm thử, bản ghi lại video, điều chỉnh tham số đều vào cùng một quy trình công việc của agent, khiến chi phí lặp lại chiến lược chương trình bị hạ thấp một lần. Nói cách khác, anh đang lập luận một con đường kỹ thuật mới: khi coding agent đủ mạnh, những chiến lược heuristic trước đây bị chê 'chi phí duy trì quá cao' có thể trở nên hợp lý trở lại.

Weng Jiayi đưa ra một bảng so sánh trong blog, nói rõ sự khác biệt giữa HL và Deep RL: về hình thức chiến lược, cái trước là code gồm quy tắc, máy trạng thái, bộ điều khiển, điều khiển dự đoán mô hình (MPC), hành động vĩ mô, cái sau là tham số mạng nơ-ron; về hình thức trạng thái, cái trước là biến hiển thị, bộ phát hiện và bộ nhớ đệm, cái sau là vector quan sát mạng có thể đọc; về hình thức phản hồi, cái trước coi kiểm thử, nhật ký, bản ghi lại đều là tín hiệu hiệu quả, cái sau chủ yếu dựa vào hàm phần thưởng cố định; về hình thức bộ nhớ, cái trước có thể lưu trữ hiển thị thử nghiệm, tóm tắt, nguyên nhân thất bại và diff phiên bản, cái sau trong thuật toán on-policy cơ bản không có, trong thuật toán off-policy dựa vào replay buffer.

Bộ so sánh này chứng minh HL có một số thuộc tính về mặt kỹ thuật: chiến lược có thể giải thích, có thể dịch thành ngôn ngữ tự nhiên; hiệu suất mẫu tính bằng đơn vị 'một lần sửa code hiệu quả', không phải cập nhật gradient chậm; khả năng cũ có thể trở thành kiểm thử hồi quy, bản ghi lại hạt giống cố định hoặc trường hợp vàng; sự quá khớp với hạt giống huấn luyện hoặc lỗ hổng kiểm thử, có thể được ràng buộc thông qua đơn giản hóa, kiểm tra hồi quy và đánh giá đa hạt giống; khả năng cũ không nhất thiết chỉ tồn tại trong trọng số, cũng có thể tồn tại trong tập quy tắc và kiểm thử, phần này hồi đáp vấn đề quên thảm khốc mà mạng nơ-ron lâu nay chưa giải quyết tốt.

03 Xác minh hàng loạt trên Atari57: Ranh giới và điểm yếu

Nếu chỉ nhìn Breakout, câu chuyện dễ bị đơn giản hóa thành 'AI viết ra một chiến lược hoàn hảo'. Nhưng Weng Jiayi không dừng ở Breakout, anh lại mở rộng hàng loạt quy trình công việc Codex này đến Atari57, chạy 57 trò chơi, hai chế độ quan sát, ba lần lặp lại, tổng cộng 342 đường tìm kiếm 'không người trông coi'.

Thiết kế thí nghiệm khá khắt khe. Mỗi trò chơi lần lượt được kiểm thử bằng hai cách nhập liệu: một là đọc trực tiếp bộ nhớ trò chơi, một là chỉ xem màn hình, mỗi cách lặp lại độc lập ba lần. Như vậy tổng cộng tạo ra 342 đường thí nghiệm 'không người trông coi': mỗi Codex agent nhận cùng một mẫu nhắc, tự mình mò mẫm hành động, tự viết code, tự chạy thí nghiệm, tự ghi lại kết quả, không có ai ở bên cạnh đưa gợi ý. Điều kiện ràng buộc được viết rất chặt, không cho phép huấn luyện mạng nơ-ron, không cho phép đọc mã nguồn trò chơi, không được sử dụng bất kỳ thông tin ẩn nào, tất cả số bước dùng để gỡ lỗi và thử sai đều phải tính vào tổng chi phí. Đây là để tránh Codex dùng bất kỳ cách nào 'nhìn lén đáp án' để gian lận.

Khi đo lường kết quả thường sử dụng một chỉ số gọi là HNS (Human-Normalized Score, Đi số chuẩn hóa theo con người) — đơn giản nói là chuẩn hóa điểm số mỗi trò chơi theo 'mức trung bình của người chơi = 1', thuận tiện so sánh ngang giữa các trò chơi khác nhau.

Hình: So sánh hiệu suất mẫu trên toàn bộ Atari57. Trục ngang là số bước môi trường (thang logarit), trục dọc là HNS (Đi số chuẩn hóa theo con người, 1.0 biểu thị đạt mức trung bình người chơi). Phiên bản nhập liệu màn hình của Codex (đường đỏ) hiệu quả rõ ràng dẫn đầu so với đường cơ sở PPO (đường chấm xanh/xám) ở giai đoạn đầu, đến 9.7 triệu bước đạt 0.81, gần với mức của PPO ở khoảng 10 triệu bước; Phiên bản nhập liệu bộ nhớ của Codex (đường tím) thì hội tụ ở 0.59.

Theo tiêu chuẩn này, hiệu quả của Codex ở giai đoạn đầu khá sáng. Chỉ tiêu thụ 1 triệu bước môi trường, trung vị HNS của Codex dùng đầu vào hình ảnh đã đạt 0.32, dùng đầu vào bộ nhớ đạt 0.26, rõ ràng cao hơn mức của các thuật toán học tăng cường kinh điển như PPO cùng kỳ. Đến 9.7 triệu bước, phiên bản hình ảnh của Codex đạt 0.81, đã gần với mức khoảng 0.88 đến 0.92 của PPO ở 10 triệu bước. Nếu cho phép chọn cách nhập liệu mà Codex thể hiện tốt hơn cho mỗi trò chơi để tổng hợp, trung vị HNS của Codex là 0.83, OpenAI Baselines PPO2 là 0.80, CleanRL EnvPool PPO là 0.98 — cơ bản hòa ngang.

Nhưng chính Weng Jiayi rất tỉnh táo vạch một ranh giới: đây chỉ là so sánh hiệu quả tương tác môi trường, không tính chi phí đọc nhật ký, viết code, xem video của Codex vào. 'Chạy nhanh' không bằng 'tổng chi phí thấp', cái sau hiện tại vẫn là một hộp đen.

Đáng quan tâm hơn là, biểu hiện của Codex trên 57 trò chơi không đồng đều. Trong các trò chơi có cấu trúc hình học rõ ràng như Breakout, Boxing, Krull, chiến lược heuristic và học tăng cường sâu đều có thể vượt rõ ràng mức con người; trong các trò chơi có quy tắc rõ ràng như Asterix, Jamesbond, Tennis, chiến lược heuristic thậm chí mạnh hơn; nhưng trong các trò chơi nhịp độ nhanh, mẫu phức tạp như Atlantis, VideoPinball, RoadRunner, StarGunner, PPO vẫn áp đảo.

Phản ví dụ mang tính cảnh báo nhất là Montezuma’s Revenge. Đây là 'xương sống' nổi tiếng trong lĩnh vực học tăng cường, nhân vật chính cần tìm chìa khóa, tránh kẻ địch, mở cửa trong mê cung phức tạp, tín hiệu phần thưởng cực kỳ thưa thớt, là vấn đề 'lập kế hoạch dài hạn + khôi phục sau thất bại' kinh điển. Codex trên trò chơi này thực sự đạt 400 điểm, nhưng mở file chiến lược nó tạo ra sẽ thấy, đó không phải là một 'chiến lược' thực sự, mà là một chuỗi 86 chuỗi hành động được mã hóa cứng, tương ứng 1769 bước môi trường: giống như học thuộc một tuyến đường cố định, hơn là học được đi mê cung. Weng Jiayi đặc biệt đề cập: 'Đây là một trường hợp ranh giới, không nên được hiểu là chiến lược Montezuma tổng quát.'

Montezuma phơi bày giới hạn biểu đạt của Heuristic Learning. Chiến lược chương trình thông thường bản chất là logic phản ứng 'thấy trạng thái gì thì làm hành động đó', khó xử lý các nhiệm vụ cần thứ tự hành động nghiêm ngặt, cần tiếp tục kế hoạch từ trạng thái trung gian, cần lập kế hoạch tầm nhìn dài. Loại nhiệm vụ này cần không chỉ nhiều if-else hơn, mà là cấu trúc chương trình gần hơn với 'tổ hợp hành động vĩ mô + trạng thái tìm kiếm có thể khôi phục + bộ nhớ dài hạn'. Nó nói với chúng ta một điều: cho dù coding agent có mạnh thế nào, một số vấn đề không phải code thông thường có thể chứa được.

04 Một khi mẫu hình thành lập, ý nghĩa công nghiệp ở đâu?

Kéo góc nhìn trở lại công nghiệp. Nếu con đường Heuristic Learning này thực sự thành lập, 'tức coding agent có thể ổn định duy trì ra chiến lược theo chương trình vượt quy tắc thủ công, gần với đường cơ sở RL', ý nghĩa thực tế của nó ở đâu?

Điểm rơi đầu tiên là điều khiển robot, đặc biệt là các cảnh có cấu trúc tương đối ổn định. Viễn cảnh Weng Jiayi đưa ra trong blog là phân công theo tầng HL cấp khớp, HL cấp chi, HL cân bằng toàn thân, HL cấp nhiệm vụ. Tầng thấp xử lý an toàn và điều khiển độ trễ thấp, tầng giữa xử lý dáng đi và tiếp xúc, tầng cao xử lý nhiệm vụ và bộ nhớ dài hạn; coding agent không cần 'hiểu đi bộ', nó giống như một kênh cập nhật cắm vào hệ thống, đưa video thất bại, luồng cảm biến, kết quả mô phỏng trở lại hệ thống, sau đó viết lại phản hồi thành code, tham số, quy tắc bảo vệ và bộ nhớ.

Các cảnh như AGV kho, robot tuần tra, cánh tay robot nhà máy, phân loại tiêu chuẩn hóa, cấu trúc môi trường tương đối cố định, ranh giới an toàn rõ ràng — nếu chiến lược điều khiển cốt lõi có thể cố định hóa thành code nhẹ, mỗi bước hành động của robot không cần chạy một mạng chiến lược lớn, phụ thuộc của phía triển khai vào thẻ suy luận GPU công suất cao sẽ giảm, nhiều tải hơn giao cho bộ điều khiển truyền thống và logic chương trình cục bộ.

Điều này không có nghĩa robot không cần GPU, nhận thức, định vị, lập bản đồ, hiểu ngữ nghĩa vẫn phải dựa vào mạng nơ-ron; thay đổi là vai trò của GPU, từ 'mỗi giây đốt sức mạnh tính toán cho quyết định hành động đầu cuối' thành 'phát huy tác dụng định kỳ trong nhận thức, mô phỏng ngoại tuyến, sinh chiến lược, phân tích ngoại lệ'.

Điểm rơi thứ hai là khả năng kiểm toán của các cảnh an toàn trọng yếu. Vấn đề kỹ thuật hóc búa nhất của chiến lược thần kinh là khi xảy ra sự cố không thể định vị. Một cánh tay robot đột nhiên thất bại ở một góc độ nào đó, một chiếc xe đánh giá sai trong một cảnh biên nào đó, một robot y tế hành động bất thường dưới một tư thế hiếm gặp, kỹ sư không có cách nào trả lời 'trọng số nào dẫn đến lỗi này', cuối cùng chỉ có thể bổ sung dữ liệu, huấn luyện lại, kiểm thử hồi quy, sau đó cá cược mô hình mới không đưa vào vấn đề mới.

Nếu chiến lược tồn tại dưới dạng code, biến trạng thái, nhánh điều kiện, nhật ký thất bại và kiểm thử hồi quy đều là có thể thấy; một hành động nguy hiểm nào đó có thể bị cấm mã hóa cứng, một corner case có thể viết thành kiểm thử, một chuyển trạng thái lỗi có thể được sửa riêng biệt. Điều này không làm hệ thống tự nhiên an toàn hơn, nhưng làm vấn đề an toàn lần đầu tiên có thể vào quy trình kỹ thuật phần mềm bình thường — có thể được đánh giá code, có thể bị CI chặn, có thể được SRE trực ứng phó. Trong các lĩnh vực cần giám sát và phân chia trách nhiệm như lái xe tự động, cánh tay robot công nghiệp, robot y tế, khả năng kiểm toán này bản thân đã là giá trị thương mại.

Điểm rơi thứ ba là kỹ thuật hóa học liên tục và học trực tuyến. Weng Jiayi trong blog coi điều này làm luận chủ xuyên suốt toàn bài. Quên thảm khốc của mạng nơ-ron là vấn đề cấu trúc: học cái mới, khả năng cũ bị trôi đi. HL cũng sẽ quên, nhưng hình thức mang tính kỹ thuật hơn: một quy tắc mới sửa một mẫu thất bại nhưng phá vỡ cảnh cũ; một bộ nhớ mới liên tục dẫn agent đến hướng sai; một phạm vi kiểm thử quá hẹp, chiến lược học cách lợi dụng nó; một bản vá sửa giao diện chung, đường gọi cũ lặng lẽ mất hiệu lực.

Những vấn đề này không tự động biến mất, nhưng chúng đều là vấn đề mà kỹ thuật phần mềm đã xử lý mấy chục năm, có chuỗi công cụ sẵn — kiểm thử hồi quy, diff phiên bản, bản ghi lại hạt giống cố định, golden trace, hướng thất bại được ghi lại hiển thị.

Một HS lành mạnh phải đồng thời có hai thao tác: hấp thụ phản hồi mới, nén lịch sử bản vá; HS chỉ tăng không giảm cuối cùng sẽ trở thành một 'cục bùn code' không ai dám động. Nói cách khác, HL chuyển vấn đề toán học 'làm thế nào cập nhật tham số', thành vấn đề kỹ thuật 'làm thế nào duy trì một hệ thống phần mềm không ngừng hấp thụ phản hồi'.

Cái sau chưa chắc dễ hơn, nhưng gần hơn với ranh giới năng lực sẵn có của con người.

Điểm rơi thứ tư là lắng đọng năng lực của sản phẩm Agent. Điều sản phẩm Agent hiện tại thiếu nhất là gọi công cụ ổn định, liên kết thực thi đáng tin cậy, kinh nghiệm thất bại có thể tái sử dụng và bản ghi nhiệm vụ có thể kiểm toán. Nếu logic của HL thành lập, bộ nhớ của Agent trong quá trình thực thi sẽ lắng đọng thành tài sản code có thể tái sử dụng xuyên phiên, xuyên người dùng, xuyên nhiệm vụ. Nó có thể kết nối trực tiếp với quy trình DevOps sẵn có, cũng có nghĩa Agent của các công ty, nhóm khác nhau có thể chia sẻ heuristic, nhưng không cần chia sẻ mô hình, đây là điều phương án mạng nơ-ron không làm được.

Tuy nhiên, cần nhấn mạnh là: Bốn điểm rơi trên đều phụ thuộc vào việc con đường HL được xác minh thêm trên các nhiệm vụ phức tạp hơn. Breakout và Ant là môi trường tương đối sạch, robot thực đối mặt với thay đổi ma sát mặt đất, thay đổi ánh sáng, độ trễ cơ cấu chấp hành, nhiễu cảm biến, những điều này chưa được đánh giá hệ thống trong tài liệu công khai. Phản ví dụ Montezuma đã chỉ ra, nhiệm vụ tầm nhìn dài cần hình thức chương trình vượt quá if-else thông thường. Viễn cảnh này cuối cùng có thể đi xa đến đâu, còn phải xem thí nghiệm giai đoạn tiếp theo.

05 Nợ kỹ thuật chuyển từ trọng số sang code

Phán đoán Weng Jiayi đưa ra trong blog rất kìm chế. Anh viết, HL không thể hoàn thành tất cả việc mạng nơ-ron có thể làm, nó bị giới hạn bởi nội dung code có thể biểu đạt, đặc biệt trong nhận thức phức tạp và tổng quát hóa tầm nhìn dài. Với nhận thức hiện nay, anh không thể tưởng tượng một agent dùng code Python thuần, không dựa vào bất kỳ mạng nơ-ron nào để giải quyết ImageNet. Vấn đề đáng thảo luận thực sự, là làm thế nào kết hợp mạng nơ-ron và HL cùng xử lý Online Learning và Continual Learning.

Sự phân công anh đưa ra mượn ngôn ngữ System 1 / System 2: mạng nơ-ron nông chuyên biệt đảm nhiệm một phần của System 1, phụ trách nhận thức nhanh, phân loại và ước tính trạng thái vật thể; HL cũng đảm nhiệm một phần của System 1, phụ trách xử lý dữ liệu tươi mới, quy tắc, kiểm thử, bản ghi lại, bộ nhớ, ranh giới an toàn và khôi phục cục bộ; LLM agent đảm nhiệm System 2, cung cấp phản hồi cho HL, cải thiện dữ liệu, và định kỳ trích xuất thông tin từ dữ liệu HL sinh ra để cập nhật bản thân.

Nếu như học sâu mười năm qua chứng minh 'kinh nghiệm có thể được nén vào trọng số', thì giả thuyết Weng Jiayi lần này đề xuất là một đề mệnh lệnh khác: trong thời đại coding agent, kinh nghiệm có lẽ có thể trở lại thành phần mềm có thể đọc, sửa, kiểm thử.

Bài viết này đến từ tài khoản WeChat công chúng 'Tencent Technology', tác giả: Xiaojing, biên tập: Xu Qingyang

Câu hỏi Liên quan

QNgười kỹ sư OpenAI nào đã đề xuất giả thuyết về một mô hình mới cho AI có tính chất Tác nhân (Agentic AI) thông qua các thử nghiệm của mình?

AKỹ sư OpenAI là Weng Jiayi (翁家翌) đã đề xuất giả thuyết về một mô hình mới cho Agentic AI thông qua thử nghiệm 'Learning Beyond Gradients'.

QHeuristic Learning (HL) khác với Deep Reinforcement Learning (Deep RL) chủ yếu ở điểm nào?

AHeuristic Learning (HL) khác với Deep RL chủ yếu ở chỗ: HL cập nhật cấu trúc phần mềm (như mã code, quy tắc, bộ kiểm tra) dựa trên phản hồi, trong khi Deep RL cập nhật trọng số thần kinh của mạng nơ-ron thông qua lan truyền ngược. HL cho phép chiến lược dễ giải thích, có thể kiểm tra và có khả năng ghi nhớ kinh nghiệm dưới dạng tài sản phần mềm.

QTrong thử nghiệm Atari Breakout, Codex đã làm gì để vượt qua điểm số bị kẹt ở mức 387?

AĐể vượt qua điểm số bị kẹt ở 387 trong Atari Breakout, Codex đã phân tích video và nhận ra quỹ đạo bóng bị mắc kẹt trong một vòng lặp tuần hoàn. Nó sau đó đã thêm một cơ chế 'phá vỡ vòng lặp' bằng cách định kỳ thêm một độ lệch vào dự đoán điểm rơi của bóng, giúp đưa bóng ra khỏi chu kỳ cục bộ và tăng điểm số lên 507.

QTheo bài viết, những lĩnh vực ứng dụng tiềm năng nào của Heuristic Learning được đề cập?

ABài viết đề cập bốn lĩnh vực ứng dụng tiềm năng chính của Heuristic Learning: 1) Điều khiển robot trong môi trường có cấu trúc ổn định, 2) Các hệ thống an toàn quan trọng cần khả năng kiểm tra (như ô tô tự lái, cánh tay robot công nghiệp), 3) Học liên tục và học trực tuyến có thể kỹ thuật hóa, 4) Giúp các sản phẩm Agent tích lũy và tái sử dụng năng lực dưới dạng tài sản code.

QThử nghiệm trên trò chơi Montezuma's Revenge đã tiết lộ hạn chế nào của Heuristic Learning?

AThử nghiệm trên Montezuma's Revenge tiết lộ hạn chế về khả năng biểu đạt của Heuristic Learning. Codex chỉ tạo ra một chuỗi hành động được mã hóa cứng để đạt điểm số nhất định, chứ không học được một chiến lược tổng quát để giải quyết các nhiệm vụ đòi hỏi lập kế hoạch dài hạn, trạng thái có thể phục hồi và tìm kiếm có cấu trúc phức tạp. Điều này cho thấy các logic phản ứng dạng if-else thông thường là không đủ cho một số vấn đề.

Nội dung Liên quan

Thu hút vốn toàn cầu, châu Á đang bước vào một 'siêu chu kỳ' mới

Từ góc nhìn của các nhà đầu tư, châu Á đang nổi lên như điểm đến tiếp theo cho sự tăng trưởng của thị trường chứng khoán toàn cầu. Làn sóng AI đang thúc đẩy mạnh mẽ các thị trường như Hàn Quốc và định hình lại động lực cơ bản của chu kỳ công nghiệp châu Á: chuyển từ bất động sản truyền thống sang đầu tư vào cơ sở hạ tầng AI, an ninh năng lượng, quốc phòng và khả năng phục hồi chuỗi cung ứng. Morgan Stanley dự báo quy mô đầu tư cố định của châu Á sẽ tăng từ khoảng 11 nghìn tỷ USD năm 2025 lên 16 nghìn tỷ USD vào năm 2030. AI, với tư cách là một cuộc đua vốn, đang thúc đẩy nhu cầu lớn về chip, máy chủ, trung tâm dữ liệu và hệ thống điện. Châu Á, đặc biệt là Trung Quốc, Hàn Quốc và Nhật Bản, nằm ở trung tâm của chuỗi cung ứng phần cứng này. Trung Quốc được kỳ vọng sẽ tăng tỷ lệ tự cung cấp chip AI lên 86% vào năm 2030. Bên cạnh AI, câu chuyện xuất khẩu của Trung Quốc đang mở rộng từ "ba món mới" (xe điện, pin, quang điện) sang robot, đặc biệt là robot công nghiệp và robot hình người, với vị thế sản xuất tương tự ngành xe điện những năm trước. Đồng thời, đầu tư vào an ninh năng lượng và chi tiêu quốc phòng cũng đang cung cấp các động lực tăng trưởng bổ sung cho khu vực. Tuy nhiên, chu kỳ "siêu tăng trưởng" này đi kèm với rủi ro: áp lực dư cung tiềm ẩn, biến động tỷ suất lợi nhuận, hạn chế công nghệ, tác động đến việc làm và bất ổn địa chính trị có thể ảnh hưởng đến triển vọng.

marsbit31 phút trước

Thu hút vốn toàn cầu, châu Á đang bước vào một 'siêu chu kỳ' mới

marsbit31 phút trước

38.000 Ứng Dụng Phơi Bày, 2.000+ Ứng Dụng Rò Rỉ, Lập Trình AI Biến 'Mạng Nội Bộ' Thành Mạng Công Cộng

Theo nghiên cứu của công ty an ninh mạng RedAccess, các công cụ lập trình AI (vibe coding) như Lovable, Replit, Base44 và Netlify đang gây ra rò rỉ dữ liệu nghiêm trọng. Khoảng 38.000 ứng dụng tạo ra từ các nền tảng này có thể truy cập công khai, trong đó ước tính 2.000 ứng dụng đang lộ thông tin nhạy cảm như hồ sơ y tế, dữ liệu tài chính, chiến lược nội bộ của doanh nghiệp, thậm chí cả quyền quản trị hệ thống. Nguyên nhân chính đến từ việc cài đặt mặc định của nhiều nền tảng là công khai (public) và người dùng thiếu nhận thức an ninh. Các "công dân lập trình viên" có thể dễ dàng tạo và triển khai ứng dụng vào môi trường sản xuất mà không trải qua quy trình kiểm tra bảo mật truyền thống. Các lỗ hổng này dễ dàng bị phát hiện qua công cụ tìm kiếm. Dù một số nền tảng phản bác rằng trách nhiệm thuộc về người dùng trong việc cấu hình bảo mật, sự cố này vẫn cho thấy mối nguy hiểm tiềm ẩn khi AI tự động tạo mã mà thiếu hiểu biết sâu về bối cảnh và kiến trúc bảo mật tổng thể, dẫn đến việc hàng loạt dữ liệu nội bộ doanh nghiệp bị biến thành tài sản công khai trên mạng.

marsbit34 phút trước

38.000 Ứng Dụng Phơi Bày, 2.000+ Ứng Dụng Rò Rỉ, Lập Trình AI Biến 'Mạng Nội Bộ' Thành Mạng Công Cộng

marsbit34 phút trước

Cuộc 'tạo giàu nội bộ' lớn nhất của OpenAI: 600 người rút tổng cộng 6,6 tỷ USD, 75 người nhận trọn số tiền tối đa 30 triệu

OpenAI đã tạo ra đợt làm giàu lớn nhất nội bộ trong lịch sử công nghệ: hơn 600 nhân viên hiện tại và cựu nhân viên đã bán cổ phần để thu về 6,6 tỷ USD, trong đó khoảng 75 người bán tối đa hạn mức 30 triệu USD. Hạn mức bán ban đầu là 10 triệu USD đã được tăng gấp ba do nhu cầu đầu tư bên ngoài. Giao dịch được định giá ở mức 500 tỷ USD. Chủ tịch kiêm đồng sáng lập Greg Brockman xác nhận trong phiên tòa rằng cổ phần của ông có giá trị khoảng 300 tỷ USD. Tổng cộng, nhân viên nắm giữ khoảng 26% cổ phần OpenAI. Theo phân tích, 165 nhân viên nắm giữ cổ phần trị giá trung bình khoảng 1 tỷ USD mỗi người. Với vòng gọi vốn gần đây ở mức định giá 852 tỷ USD và doanh thu hàng tháng đạt 2 tỷ USD, OpenAI đang hướng tới IPO vào cuối năm 2026 với mục tiêu định giá có thể lên tới 1 nghìn tỷ USD.

marsbit1 giờ trước

Cuộc 'tạo giàu nội bộ' lớn nhất của OpenAI: 600 người rút tổng cộng 6,6 tỷ USD, 75 người nhận trọn số tiền tối đa 30 triệu

marsbit1 giờ trước

Thị trường trái phiếu Nhật Bản sẽ 'lên chuỗi' toàn diện

Bài báo thảo luận về việc số hóa trái phiếu chính phủ Nhật Bản (JGBs) bằng công nghệ blockchain, cụ thể là trên mạng Canton Network. JGBs là tài sản thế chấp quan trọng bậc nhất ở châu Á, với giá trị lưu thông hơn 9 nghìn tỷ USD. Tuy nhiên, hệ thống thế chấp truyền thống hoạt động chậm, giới hạn trong giờ hành chính ở Tokyo, gây tắc nghẽn thanh khoản. Việc chuyển JGB lên chuỗi, thông qua một dự án thử nghiệm của JSCC, Mizuho, Nomura và Digital Asset, nhằm mục tiêu cho phép thanh toán nguyên tử (atomic settlement) 24/7, tức thì và xuyên biên giới. Động lực chính là sự cấp thiết khi Mỹ đã tiên phong với trái phiếu kho bạc được token hóa (DTCC, Broadridge, JPMorgan), đe dọa vị thế của JGB nếu không hiện đại hóa. Mạng Canton được lựa chọn vì kiến trúc bảo mật và tuân thủ pháp lý phù hợp, cho phép các bên chỉ xem dữ liệu được ủy quyền. Việc thanh toán thế chấp "xuyên suốt" như vậy có thể ngăn chặn vòng xoáy bán tháo trong khủng hoảng, giảm rủi ro và giải phóng hàng trăm tỷ USD vốn bị đóng băng. Sự hội tụ của các trái phiếu chính phủ lớn (Mỹ, Nhật, châu Âu) trên Canton có thể biến nó thành một cơ sở hạ tầng tài chính toàn cầu mới, giống như SWIFT. Bài báo nhận định đây là một cuộc cách mạng về hiệu quả, nâng cấp cơ sở hạ tầng nhưng vẫn do các định chế tài chính truyền thống nắm giữ.

marsbit1 giờ trước

Thị trường trái phiếu Nhật Bản sẽ 'lên chuỗi' toàn diện

marsbit1 giờ trước

Báo cáo gọi vốn tuần | Có 14 sự kiện gọi vốn công khai, Kalshi hoàn thành vòng tài trợ mới 1 tỷ USD với định giá 22 tỷ USD, Coatue Management dẫn đầu

**Báo cáo Tài chính Tuần: 14 Sự kiện Gọi vốn Công khai, Tổng giá trị hơn 1 tỷ USD** Theo thống kê không đầy đủ của PANews, tuần trước (4-10/5) ghi nhận **14 thỏa thuận đầu tư** trong lĩnh vực blockchain toàn cầu với **tổng vốn huy động được công bố hơn 1 tỷ USD**. Đáng chú ý nhất là vòng gọi vốn 1 tỷ USD của nền tảng thị trường dự đoán **Kalshi**, định giá công ty lên tới 22 tỷ USD, do Coatue Management dẫn đầu. **Phân bổ theo lĩnh vực:** * **DeFi (4 vụ):** OnRe (bảo hiểm tái tục trên chuỗi) huy động 5 triệu USD; Saturn Credit (giao thức tín dụng hỗ trợ Bitcoin) huy động 2 triệu USD; Ekiden (nền tảng giao dịch blockchain) huy động 2 triệu USD; Centrifuge nhận đầu tư chiến lược "7 con số" từ Coinbase. * **Cơ sở hạ tầng & Công cụ (4 vụ):** OpenTrade huy động 17 triệu USD để mở rộng cơ sở hạ tầng cho sản phẩm yield stablecoin; Balcony (nền tảng RWA) huy động 12.7 triệu USD; Antier Solutions huy động 3 triệu USD; Coinbase đầu tư chiến lược vào Kemet Trading. * **Thị trường Dự đoán (3 vụ):** Ngoài Kalshi, Elastics (nền tảng AI) huy động 2 triệu USD; Sportix (cơ sở hạ tầng thể thao AI) huy động 3.2 triệu USD. * **Tài chính Tập trung (CeFi) (1 vụ):** Stockcoin.ai (nền tảng giao dịch AI) hoàn thành vòng seed do Amber Group dẫn đầu. * **Ứng dụng Web3 Khác (2 vụ):** SC Ventures (thuộc Standard Chartered) đầu tư chiến lược vào nhà tạo lập thị trường GSR; Capital B (công ty dự trữ Bitcoin) huy động 1.1 triệu Euro. **Hoạt động của Quỹ Đầu tư:** * **Haun Ventures** (của Katie Haun) đã huy động thành công 1 tỷ USD cho quỹ mới, tập trung vào crypto, AI và tài sản thay thế. * **Multi Investment** (Thụy Sĩ) huy động ~616 triệu USD để tăng cường đầu tư vào fintech, blockchain và Web3. * **Global Millennial Capital** hoàn thành huy động 100 triệu USD cho quỹ tập trung vào cơ hội trước IPO, chú trọng AI và DeFi. Tóm lại, tuần qua chứng kiến dòng vốn mạnh mẽ đổ vào các lĩnh vực then chốt như cơ sở hạ tầng tài chính phi tập trung (RWA, yield), thị trường dự đoán và AI, với sự tham gia của nhiều tổ chức tài chính lớn truyền thống và quỹ đầu tư mạo hiểm.

marsbit1 giờ trước

Báo cáo gọi vốn tuần | Có 14 sự kiện gọi vốn công khai, Kalshi hoàn thành vòng tài trợ mới 1 tỷ USD với định giá 22 tỷ USD, Coatue Management dẫn đầu

marsbit1 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

GROK AI là gì

Grok AI: Cách mạng hóa Công nghệ Đối thoại trong Kỷ nguyên Web3 Giới thiệu Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, Grok AI nổi bật như một dự án đáng chú ý kết nối các lĩnh vực công nghệ tiên tiến và tương tác người dùng. Được phát triển bởi xAI, một công ty do doanh nhân nổi tiếng Elon Musk dẫn dắt, Grok AI nhằm định nghĩa lại cách chúng ta tương tác với trí tuệ nhân tạo. Khi phong trào Web3 tiếp tục phát triển mạnh mẽ, Grok AI hướng tới việc tận dụng sức mạnh của AI đối thoại để trả lời các câu hỏi phức tạp, mang đến cho người dùng một trải nghiệm không chỉ thông tin mà còn giải trí. Grok AI là gì? Grok AI là một chatbot AI đối thoại tinh vi được thiết kế để tương tác với người dùng một cách linh hoạt. Khác với nhiều hệ thống AI truyền thống, Grok AI chấp nhận một loạt các câu hỏi rộng hơn, bao gồm những câu hỏi thường được coi là không phù hợp hoặc ngoài các phản hồi tiêu chuẩn. Các mục tiêu cốt lõi của dự án bao gồm: Lập luận đáng tin cậy: Grok AI nhấn mạnh lập luận theo lẽ thường để cung cấp các câu trả lời hợp lý dựa trên sự hiểu biết về ngữ cảnh. Giám sát có thể mở rộng: Việc tích hợp công cụ hỗ trợ đảm bảo rằng các tương tác của người dùng được theo dõi và tối ưu hóa về chất lượng. Xác minh chính thức: An toàn là điều tối quan trọng; Grok AI tích hợp các phương pháp xác minh chính thức để nâng cao độ tin cậy của các đầu ra của nó. Hiểu biết về ngữ cảnh dài: Mô hình AI xuất sắc trong việc giữ lại và nhớ lại lịch sử cuộc trò chuyện dài, tạo điều kiện cho các cuộc thảo luận có ý nghĩa và nhận thức về ngữ cảnh. Khả năng chống lại các cuộc tấn công: Bằng cách tập trung vào việc cải thiện khả năng phòng thủ chống lại các đầu vào bị thao túng hoặc độc hại, Grok AI nhằm duy trì tính toàn vẹn của các tương tác của người dùng. Nói tóm lại, Grok AI không chỉ là một thiết bị truy xuất thông tin; nó là một đối tác đối thoại hấp dẫn khuyến khích cuộc trò chuyện năng động. Người sáng tạo Grok AI Bộ óc đứng sau Grok AI không ai khác chính là Elon Musk, một cá nhân gắn liền với sự đổi mới trong nhiều lĩnh vực, bao gồm ô tô, du hành vũ trụ và công nghệ. Dưới sự bảo trợ của xAI, một công ty tập trung vào việc phát triển công nghệ AI theo những cách có lợi, tầm nhìn của Musk nhằm định hình lại cách hiểu về các tương tác AI. Sự lãnh đạo và tinh thần nền tảng bị ảnh hưởng sâu sắc bởi cam kết của Musk trong việc thúc đẩy các ranh giới công nghệ. Các nhà đầu tư của Grok AI Mặc dù các chi tiết cụ thể về các nhà đầu tư hỗ trợ Grok AI vẫn còn hạn chế, nhưng đã được công nhận công khai rằng xAI, vườn ươm của dự án, được thành lập và hỗ trợ chủ yếu bởi chính Elon Musk. Các dự án và tài sản trước đây của Musk cung cấp một nền tảng vững chắc, tăng cường thêm độ tin cậy và tiềm năng phát triển của Grok AI. Tuy nhiên, tính đến thời điểm hiện tại, thông tin về các quỹ đầu tư hoặc tổ chức bổ sung hỗ trợ Grok AI vẫn chưa dễ dàng tiếp cận, đánh dấu một lĩnh vực có thể khám phá trong tương lai. Grok AI hoạt động như thế nào? Cơ chế hoạt động của Grok AI sáng tạo không kém gì khung khái niệm của nó. Dự án tích hợp một số công nghệ tiên tiến giúp tạo ra các chức năng độc đáo của nó: Hạ tầng mạnh mẽ: Grok AI được xây dựng bằng Kubernetes cho việc điều phối container, Rust cho hiệu suất và an toàn, và JAX cho tính toán số hiệu suất cao. Bộ ba này đảm bảo rằng chatbot hoạt động hiệu quả, mở rộng hiệu quả và phục vụ người dùng kịp thời. Truy cập kiến thức theo thời gian thực: Một trong những tính năng nổi bật của Grok AI là khả năng truy cập dữ liệu theo thời gian thực thông qua nền tảng X—trước đây được biết đến với tên gọi Twitter. Khả năng này cho phép AI truy cập thông tin mới nhất, giúp nó cung cấp các câu trả lời và khuyến nghị kịp thời mà các mô hình AI khác có thể bỏ lỡ. Hai chế độ tương tác: Grok AI cung cấp cho người dùng sự lựa chọn giữa “Chế độ Vui” và “Chế độ Thông thường.” Chế độ Vui cho phép một phong cách tương tác vui tươi và hài hước hơn, trong khi Chế độ Thông thường tập trung vào việc cung cấp các câu trả lời chính xác và đúng đắn. Sự linh hoạt này đảm bảo một trải nghiệm được cá nhân hóa phù hợp với sở thích của từng người dùng. Nói tóm lại, Grok AI kết hợp hiệu suất với sự tương tác, tạo ra một trải nghiệm vừa phong phú vừa giải trí. Thời gian phát triển của Grok AI Hành trình của Grok AI được đánh dấu bởi các cột mốc quan trọng phản ánh các giai đoạn phát triển và triển khai của nó: Phát triển ban đầu: Giai đoạn nền tảng của Grok AI diễn ra trong khoảng hai tháng, trong đó việc đào tạo và tinh chỉnh ban đầu của mô hình được thực hiện. Phát hành Beta Grok-2: Trong một bước tiến quan trọng, beta Grok-2 đã được công bố. Phiên bản này giới thiệu hai phiên bản của chatbot—Grok-2 và Grok-2 mini—mỗi phiên bản đều có khả năng trò chuyện, lập trình và lập luận. Truy cập công khai: Sau khi phát triển beta, Grok AI đã trở thành có sẵn cho người dùng nền tảng X. Những người có tài khoản được xác minh bằng số điện thoại và hoạt động ít nhất bảy ngày có thể truy cập phiên bản giới hạn, giúp công nghệ có sẵn cho một đối tượng rộng lớn hơn. Thời gian này tóm tắt sự phát triển có hệ thống của Grok AI từ lúc khởi đầu đến khi công khai, nhấn mạnh cam kết của nó đối với việc cải tiến liên tục và tương tác người dùng. Các tính năng chính của Grok AI Grok AI bao gồm một số tính năng chính góp phần vào bản sắc đổi mới của nó: Tích hợp kiến thức theo thời gian thực: Truy cập thông tin hiện tại và liên quan phân biệt Grok AI với nhiều mô hình tĩnh, cho phép một trải nghiệm người dùng hấp dẫn và chính xác. Phong cách tương tác đa dạng: Bằng cách cung cấp các chế độ tương tác khác nhau, Grok AI phục vụ cho sở thích đa dạng của người dùng, khuyến khích sự sáng tạo và cá nhân hóa trong việc trò chuyện với AI. Cơ sở công nghệ tiên tiến: Việc sử dụng Kubernetes, Rust và JAX cung cấp cho dự án một khung vững chắc để đảm bảo độ tin cậy và hiệu suất tối ưu. Xem xét về đạo đức trong đối thoại: Việc bao gồm chức năng tạo hình ảnh thể hiện tinh thần đổi mới của dự án. Tuy nhiên, nó cũng đặt ra các vấn đề đạo đức liên quan đến bản quyền và việc thể hiện tôn trọng các nhân vật dễ nhận biết—một cuộc thảo luận đang diễn ra trong cộng đồng AI. Kết luận Như một thực thể tiên phong trong lĩnh vực AI đối thoại, Grok AI khái quát tiềm năng cho những trải nghiệm người dùng chuyển đổi trong kỷ nguyên số. Được phát triển bởi xAI và được thúc đẩy bởi cách tiếp cận tầm nhìn của Elon Musk, Grok AI tích hợp kiến thức theo thời gian thực với khả năng tương tác tiên tiến. Nó cố gắng mở rộng ranh giới của những gì trí tuệ nhân tạo có thể đạt được trong khi vẫn giữ trọng tâm vào các vấn đề đạo đức và an toàn cho người dùng. Grok AI không chỉ thể hiện sự tiến bộ công nghệ mà còn thể hiện một mô hình đối thoại mới trong bối cảnh Web3, hứa hẹn sẽ thu hút người dùng bằng cả kiến thức sâu sắc và sự tương tác vui tươi. Khi dự án tiếp tục phát triển, nó đứng như một minh chứng cho những gì giao thoa giữa công nghệ, sáng tạo và tương tác giống như con người có thể đạt được.

Tổng lượt xem 574Xuất bản vào 2024.12.26Cập nhật vào 2024.12.26

ERC AI là gì

Euruka Tech: Tổng Quan về $erc ai và Những Tham Vọng trong Web3 Giới thiệu Trong bối cảnh công nghệ blockchain và ứng dụng phi tập trung đang phát triển nhanh chóng, các dự án mới thường xuyên xuất hiện, mỗi dự án đều có những mục tiêu và phương pháp độc đáo. Một trong những dự án đó là Euruka Tech, hoạt động trong lĩnh vực tiền điện tử và Web3 rộng lớn. Mục tiêu chính của Euruka Tech, đặc biệt là token $erc ai của nó, là cung cấp các giải pháp sáng tạo nhằm khai thác những khả năng đang phát triển của công nghệ phi tập trung. Bài viết này nhằm cung cấp một cái nhìn tổng quan về Euruka Tech, khám phá các mục tiêu, chức năng, danh tính của người sáng lập, các nhà đầu tư tiềm năng và tầm quan trọng của nó trong bối cảnh rộng lớn hơn của Web3. Euruka Tech, $erc ai là gì? Euruka Tech được mô tả như một dự án tận dụng các công cụ và chức năng mà môi trường Web3 cung cấp, tập trung vào việc tích hợp trí tuệ nhân tạo trong các hoạt động của nó. Mặc dù các chi tiết cụ thể về khung của dự án vẫn còn mơ hồ, nhưng nó được thiết kế để nâng cao sự tham gia của người dùng và tự động hóa các quy trình trong không gian tiền điện tử. Dự án nhằm tạo ra một hệ sinh thái phi tập trung không chỉ tạo điều kiện cho các giao dịch mà còn tích hợp các chức năng dự đoán thông qua trí tuệ nhân tạo, do đó tên gọi của token, $erc ai. Mục tiêu là cung cấp một nền tảng trực quan giúp tạo ra các tương tác thông minh hơn và xử lý giao dịch hiệu quả hơn trong lĩnh vực Web3 đang phát triển. Ai là Người Sáng Lập Euruka Tech, $erc ai? Hiện tại, thông tin về người sáng lập hoặc đội ngũ sáng lập đứng sau Euruka Tech vẫn chưa được xác định và có phần mờ mịt. Sự thiếu hụt dữ liệu này gây ra lo ngại, vì kiến thức về nền tảng của đội ngũ thường rất quan trọng để thiết lập độ tin cậy trong lĩnh vực blockchain. Do đó, chúng tôi đã phân loại thông tin này là không rõ cho đến khi có các chi tiết cụ thể được công bố trong lĩnh vực công cộng. Ai là Các Nhà Đầu Tư của Euruka Tech, $erc ai? Tương tự, việc xác định các nhà đầu tư hoặc tổ chức hỗ trợ cho dự án Euruka Tech không được cung cấp dễ dàng qua các nghiên cứu hiện có. Một khía cạnh quan trọng đối với các bên liên quan tiềm năng hoặc người dùng đang xem xét tham gia vào Euruka Tech là sự đảm bảo đến từ các quan hệ đối tác tài chính đã được thiết lập hoặc sự hỗ trợ từ các công ty đầu tư uy tín. Thiếu thông tin về các mối quan hệ đầu tư, rất khó để rút ra những kết luận toàn diện về sự an toàn tài chính hoặc độ bền vững của dự án. Theo thông tin đã tìm thấy, phần này cũng đang ở trạng thái không rõ. Euruka Tech, $erc ai hoạt động như thế nào? Mặc dù thiếu các thông số kỹ thuật chi tiết cho Euruka Tech, nhưng điều quan trọng là phải xem xét những tham vọng đổi mới của nó. Dự án tìm cách tận dụng sức mạnh tính toán của trí tuệ nhân tạo để tự động hóa và nâng cao trải nghiệm người dùng trong môi trường tiền điện tử. Bằng cách tích hợp AI với công nghệ blockchain, Euruka Tech nhằm cung cấp các tính năng như giao dịch tự động, đánh giá rủi ro và giao diện người dùng cá nhân hóa. Bản chất đổi mới của Euruka Tech nằm ở mục tiêu tạo ra một kết nối liền mạch giữa người dùng và những khả năng rộng lớn mà các mạng phi tập trung mang lại. Thông qua việc sử dụng các thuật toán học máy và AI, nó nhằm giảm thiểu những thách thức mà người dùng lần đầu gặp phải và tinh giản trải nghiệm giao dịch trong khuôn khổ Web3. Sự cộng sinh giữa AI và blockchain nhấn mạnh tầm quan trọng của token $erc ai, đứng như một cầu nối giữa các giao diện người dùng truyền thống và các khả năng tiên tiến của công nghệ phi tập trung. Thời Gian của Euruka Tech, $erc ai Thật không may, do thông tin hạn chế hiện có về Euruka Tech, chúng tôi không thể trình bày một thời gian biểu chi tiết về các phát triển chính hoặc cột mốc trong hành trình của dự án. Thời gian biểu này, thường rất quý giá trong việc vạch ra sự tiến triển của một dự án và hiểu được quỹ đạo phát triển của nó, hiện không có sẵn. Khi thông tin về các sự kiện đáng chú ý, quan hệ đối tác hoặc các bổ sung chức năng trở nên rõ ràng, các cập nhật chắc chắn sẽ nâng cao sự hiện diện của Euruka Tech trong lĩnh vực tiền điện tử. Làm rõ về Các Dự Án “Eureka” Khác Điều đáng lưu ý là nhiều dự án và công ty chia sẻ một tên gọi tương tự với “Eureka.” Nghiên cứu đã xác định các sáng kiến như một đại lý AI từ NVIDIA Research, tập trung vào việc dạy robot thực hiện các nhiệm vụ phức tạp bằng các phương pháp sinh tạo, cũng như Eureka Labs và Eureka AI, cải thiện trải nghiệm người dùng trong giáo dục và phân tích dịch vụ khách hàng, tương ứng. Tuy nhiên, những dự án này là khác biệt với Euruka Tech và không nên bị nhầm lẫn với các mục tiêu hoặc chức năng của nó. Kết luận Euruka Tech, cùng với token $erc ai của nó, đại diện cho một người chơi hứa hẹn nhưng hiện tại còn mờ mịt trong bối cảnh Web3. Trong khi chi tiết về người sáng lập và các nhà đầu tư vẫn chưa được công bố, tham vọng cốt lõi của việc kết hợp trí tuệ nhân tạo với công nghệ blockchain vẫn là một điểm thu hút sự chú ý. Các phương pháp độc đáo của dự án trong việc thúc đẩy sự tham gia của người dùng thông qua tự động hóa tiên tiến có thể giúp nó nổi bật khi hệ sinh thái Web3 tiến triển. Khi thị trường tiền điện tử tiếp tục phát triển, các bên liên quan nên theo dõi chặt chẽ những tiến bộ xung quanh Euruka Tech, vì sự phát triển của các đổi mới đã được ghi chép, các quan hệ đối tác hoặc một lộ trình rõ ràng có thể mang lại những cơ hội đáng kể trong tương lai gần. Hiện tại, chúng tôi đang chờ đợi những hiểu biết sâu sắc hơn có thể tiết lộ tiềm năng của Euruka Tech và vị trí của nó trong bối cảnh cạnh tranh của tiền điện tử.

Tổng lượt xem 572Xuất bản vào 2025.01.02Cập nhật vào 2025.01.02

DUOLINGO AI là gì

DUOLINGO AI: Tích hợp Học ngôn ngữ với Web3 và Đổi mới AI Trong một kỷ nguyên mà công nghệ định hình lại giáo dục, việc tích hợp trí tuệ nhân tạo (AI) và các mạng blockchain báo hiệu một biên giới mới cho việc học ngôn ngữ. Giới thiệu DUOLINGO AI và đồng tiền điện tử liên quan của nó, $DUOLINGO AI. Dự án này mong muốn kết hợp sức mạnh giáo dục của các nền tảng học ngôn ngữ hàng đầu với những lợi ích của công nghệ Web3 phi tập trung. Bài viết này đi sâu vào các khía cạnh chính của DUOLINGO AI, khám phá các mục tiêu, khung công nghệ, sự phát triển lịch sử và tiềm năng tương lai trong khi duy trì sự rõ ràng giữa tài nguyên giáo dục gốc và sáng kiến tiền điện tử độc lập này. Tổng quan về DUOLINGO AI Cốt lõi của DUOLINGO AI là thiết lập một môi trường phi tập trung nơi người học có thể kiếm được phần thưởng mã hóa cho việc đạt được các cột mốc giáo dục trong khả năng ngôn ngữ. Bằng cách áp dụng hợp đồng thông minh, dự án nhằm tự động hóa các quy trình xác minh kỹ năng và phân bổ token, tuân thủ các nguyên tắc Web3 nhấn mạnh tính minh bạch và quyền sở hữu của người dùng. Mô hình này khác biệt so với các phương pháp truyền thống trong việc tiếp cận ngôn ngữ bằng cách dựa nhiều vào cấu trúc quản trị do cộng đồng điều hành, cho phép những người nắm giữ token đề xuất cải tiến nội dung khóa học và phân phối phần thưởng. Một số mục tiêu đáng chú ý của DUOLINGO AI bao gồm: Học tập gamified: Dự án tích hợp các thành tựu blockchain và token không thể thay thế (NFT) để đại diện cho các cấp độ thành thạo ngôn ngữ, thúc đẩy động lực thông qua các phần thưởng kỹ thuật số hấp dẫn. Tạo nội dung phi tập trung: Nó mở ra cơ hội cho các nhà giáo dục và những người yêu thích ngôn ngữ đóng góp khóa học của họ, tạo điều kiện cho một mô hình chia sẻ doanh thu có lợi cho tất cả các bên đóng góp. Cá nhân hóa dựa trên AI: Bằng cách sử dụng các mô hình học máy tiên tiến, DUOLINGO AI cá nhân hóa các bài học để thích ứng với tiến trình học tập của từng cá nhân, tương tự như các tính năng thích ứng có trong các nền tảng đã được thiết lập. Người sáng lập dự án và Quản trị Tính đến tháng 4 năm 2025, đội ngũ đứng sau $DUOLINGO AI vẫn giữ bí danh, một thực tiễn phổ biến trong lĩnh vực tiền điện tử phi tập trung. Sự ẩn danh này nhằm thúc đẩy sự phát triển tập thể và sự tham gia của các bên liên quan thay vì tập trung vào các nhà phát triển cá nhân. Hợp đồng thông minh được triển khai trên blockchain Solana ghi chú địa chỉ ví của nhà phát triển, điều này thể hiện cam kết về tính minh bạch liên quan đến các giao dịch mặc dù danh tính của các nhà sáng lập vẫn chưa được biết đến. Theo lộ trình của nó, DUOLINGO AI dự định phát triển thành một Tổ chức Tự trị Phi tập trung (DAO). Cấu trúc quản trị này cho phép những người nắm giữ token bỏ phiếu về các vấn đề quan trọng như triển khai tính năng và phân bổ ngân quỹ. Mô hình này phù hợp với tinh thần trao quyền cho cộng đồng có trong nhiều ứng dụng phi tập trung, nhấn mạnh tầm quan trọng của việc ra quyết định tập thể. Nhà đầu tư và Đối tác chiến lược Hiện tại, không có nhà đầu tư tổ chức hoặc nhà đầu tư mạo hiểm nào được xác định công khai liên quan đến $DUOLINGO AI. Thay vào đó, tính thanh khoản của dự án chủ yếu đến từ các sàn giao dịch phi tập trung (DEX), đánh dấu một sự tương phản rõ rệt với các chiến lược tài trợ của các công ty công nghệ giáo dục truyền thống. Mô hình cơ sở này cho thấy một cách tiếp cận do cộng đồng điều hành, phản ánh cam kết của dự án đối với sự phi tập trung. Trong tài liệu trắng của mình, DUOLINGO AI đề cập đến việc hình thành các hợp tác với các “nền tảng giáo dục blockchain” không xác định nhằm làm phong phú thêm các khóa học của mình. Mặc dù các đối tác cụ thể vẫn chưa được công bố, những nỗ lực hợp tác này gợi ý về một chiến lược kết hợp đổi mới blockchain với các sáng kiến giáo dục, mở rộng quyền truy cập và sự tham gia của người dùng qua nhiều con đường học tập khác nhau. Kiến trúc công nghệ Tích hợp AI DUOLINGO AI tích hợp hai thành phần chính dựa trên AI để nâng cao các đề xuất giáo dục của mình: Công cụ học tập thích ứng: Công cụ tinh vi này học từ các tương tác của người dùng, tương tự như các mô hình độc quyền từ các nền tảng giáo dục lớn. Nó điều chỉnh độ khó của bài học một cách linh hoạt để giải quyết các thách thức cụ thể của người học, củng cố các lĩnh vực yếu thông qua các bài tập có mục tiêu. Đại lý hội thoại: Bằng cách sử dụng chatbot được hỗ trợ bởi GPT-4, DUOLINGO AI cung cấp một nền tảng cho người dùng tham gia vào các cuộc hội thoại mô phỏng, thúc đẩy một trải nghiệm học ngôn ngữ tương tác và thực tiễn hơn. Hạ tầng Blockchain Được xây dựng trên blockchain Solana, $DUOLINGO AI sử dụng một khung công nghệ toàn diện bao gồm: Hợp đồng thông minh xác minh kỹ năng: Tính năng này tự động trao token cho người dùng đã vượt qua các bài kiểm tra thành thạo, củng cố cấu trúc khuyến khích cho các kết quả học tập thực sự. Huy hiệu NFT: Những token kỹ thuật số này biểu thị các cột mốc khác nhau mà người học đạt được, chẳng hạn như hoàn thành một phần của khóa học hoặc thành thạo các kỹ năng cụ thể, cho phép họ giao dịch hoặc trưng bày thành tích của mình một cách kỹ thuật số. Quản trị DAO: Các thành viên cộng đồng nắm giữ token có thể tham gia vào quản trị bằng cách bỏ phiếu về các đề xuất chính, tạo điều kiện cho một văn hóa tham gia khuyến khích đổi mới trong các đề xuất khóa học và tính năng của nền tảng. Dòng thời gian lịch sử 2022–2023: Khái niệm Công việc chuẩn bị cho DUOLINGO AI bắt đầu với việc tạo ra một tài liệu trắng, nêu bật sự phối hợp giữa những tiến bộ AI trong học ngôn ngữ và tiềm năng phi tập trung của công nghệ blockchain. 2024: Ra mắt Beta Một phiên bản beta giới hạn giới thiệu các đề xuất trong các ngôn ngữ phổ biến, thưởng cho người dùng sớm bằng các phần thưởng token như một phần của chiến lược tham gia cộng đồng của dự án. 2025: Chuyển đổi DAO Vào tháng 4, một lần ra mắt mainnet đầy đủ diễn ra với sự lưu thông của các token, thúc đẩy các cuộc thảo luận trong cộng đồng về khả năng mở rộng sang các ngôn ngữ châu Á và các phát triển khóa học khác. Thách thức và Hướng đi tương lai Khó khăn kỹ thuật Mặc dù có những mục tiêu tham vọng, DUOLINGO AI phải đối mặt với những thách thức đáng kể. Khả năng mở rộng vẫn là một mối quan tâm liên tục, đặc biệt là trong việc cân bằng chi phí liên quan đến xử lý AI và duy trì một mạng lưới phi tập trung phản hồi. Ngoài ra, việc đảm bảo chất lượng tạo nội dung và quản lý trong bối cảnh cung cấp phi tập trung đặt ra những phức tạp trong việc duy trì tiêu chuẩn giáo dục. Cơ hội chiến lược Nhìn về phía trước, DUOLINGO AI có tiềm năng tận dụng các quan hệ đối tác cấp chứng chỉ vi mô với các tổ chức học thuật, cung cấp các xác nhận kỹ năng ngôn ngữ được xác minh bằng blockchain. Hơn nữa, việc mở rộng chuỗi chéo có thể cho phép dự án tiếp cận các cơ sở người dùng rộng hơn và các hệ sinh thái blockchain bổ sung, nâng cao khả năng tương tác và phạm vi tiếp cận của nó. Kết luận DUOLINGO AI đại diện cho một sự kết hợp đổi mới giữa trí tuệ nhân tạo và công nghệ blockchain, cung cấp một lựa chọn tập trung vào cộng đồng thay thế cho các hệ thống học ngôn ngữ truyền thống. Mặc dù sự phát triển bí danh và mô hình kinh tế mới nổi của nó mang lại một số rủi ro, cam kết của dự án đối với học tập gamified, giáo dục cá nhân hóa và quản trị phi tập trung mở ra một con đường phía trước cho công nghệ giáo dục trong lĩnh vực Web3. Khi AI tiếp tục phát triển và hệ sinh thái blockchain tiến hóa, các sáng kiến như DUOLINGO AI có thể định hình lại cách người dùng tương tác với giáo dục ngôn ngữ, trao quyền cho cộng đồng và thưởng cho sự tham gia thông qua các cơ chế học tập đổi mới.

Tổng lượt xem 602Xuất bản vào 2025.04.11Cập nhật vào 2025.04.11

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của AI (AI) được trình bày dưới đây.

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

Tóm tắt

01

Vòng khép kín kỹ thuật từ 387 điểm đến điểm tối đa

02

Định nghĩa của Heuristic Learning

03

Xác minh hàng loạt trên Atari57: Ranh giới và điểm yếu

04

Một khi mẫu hình thành lập, ý nghĩa công nghiệp ở đâu?

05

Nợ kỹ thuật chuyển từ trọng số sang code

Câu hỏi Liên quan

Nội dung Liên quan

Thu hút vốn toàn cầu, châu Á đang bước vào một 'siêu chu kỳ' mới

38.000 Ứng Dụng Phơi Bày, 2.000+ Ứng Dụng Rò Rỉ, Lập Trình AI Biến 'Mạng Nội Bộ' Thành Mạng Công Cộng

Cuộc 'tạo giàu nội bộ' lớn nhất của OpenAI: 600 người rút tổng cộng 6,6 tỷ USD, 75 người nhận trọn số tiền tối đa 30 triệu

Thị trường trái phiếu Nhật Bản sẽ 'lên chuỗi' toàn diện

Báo cáo gọi vốn tuần | Có 14 sự kiện gọi vốn công khai, Kalshi hoàn thành vòng tài trợ mới 1 tỷ USD với định giá 22 tỷ USD, Coatue Management dẫn đầu

Giao dịch

Bài viết Nổi bật

GROK AI là gì

ERC AI là gì

DUOLINGO AI là gì

Thảo luận

Danh mục Phổ biến

Thẻ Nổi bật