# Bài viết Liên quan Tạo mã

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Tạo mã", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Bộ Dữ Liệu Đào Tạo Doc2Repo Dài Hạn Đầu Tiên, Code Agent Không Chỉ Sửa Lỗi, Bắt Đầu Tạo Kho Lưu Trữ

Khả năng của Code Agent đang dần vượt ra ngoài việc sửa lỗi đơn lẻ, tiến tới các nhiệm vụ dài hạn cấp repository. Nghiên cứu mới từ Đại học Nhân dân Trung Quốc giới thiệu DeNovoSWE - tập dữ liệu đào tạo đầu tiên dành riêng cho việc tạo mã cấp kho lưu trữ từ đầu. Tập dữ liệu này chứa 4.818 nhiệm vụ chất lượng cao, được xây dựng thông qua cơ chế "Chia để trị" (Divide & Conquer) và "Phê bình & Sửa chữa" (Critic & Repair), nhằm giải quyết thách thức trong việc tạo toàn bộ kho mã chức năng từ một tài liệu mô tả. Phương pháp này phân tích kho mã mục tiêu thành các "năng lực" (capabilities), sau đó sử dụng một quy trình đa tác nhân để tự động tạo tài liệu nhiệm vụ rõ ràng, có cấu trúc, vừa đủ chi tiết để đánh giá nhưng không làm lộ chi tiết triển khai. Một kỹ thuật lọc theo độ khó được áp dụng để cân bằng giữa chất lượng và tính đa dạng của dữ liệu. Kết quả thử nghiệm cho thấy hiệu quả rõ rệt: Mô hình Qwen3-30B-A3B-Instruct được huấn luyện trên DeNovoSWE đã cải thiện hiệu suất trên benchmark BeyondSWE-Doc2Repo từ 5.8% lên 47.2% và trên NL2RepoBench từ 4.3% lên 23.0%. Điều này khẳng định nhu cầu về dữ liệu được thiết kế đặc biệt cho các tác vụ dài hạn, thay vì chỉ dựa vào dữ liệu sửa lỗi thông thường. DeNovoSWE đánh dấu một bước tiến quan trọng, cung cấp môi trường đào tạo có hệ thống để phát triển các Code Agent thực sự có khả năng hiểu yêu cầu, lập kế hoạch kiến trúc và tạo ra toàn bộ kho phần mềm có thể thực thi.

marsbit2 ngày trước 08:53

Bộ Dữ Liệu Đào Tạo Doc2Repo Dài Hạn Đầu Tiên, Code Agent Không Chỉ Sửa Lỗi, Bắt Đầu Tạo Kho Lưu Trữ

marsbit2 ngày trước 08:53

Ai là người sử dụng Claude Code hiệu quả nhất? Câu trả lời có thể không phải là lập trình viên

Bài viết phân tích dữ liệu từ khoảng 400.000 phiên Claude Code, chỉ ra rằng AI đang định hình lại mối quan hệ giữa con người và mã nguồn. Phát hiện chính: trong lập trình với AI, con người chủ yếu quyết định "làm gì", còn Claude phụ trách "làm như thế nào". Điều này cho thấy AI đang tiếp quản các công việc thực thi như viết mã, sửa lỗi và chạy lệnh, nhưng việc xác định mục tiêu và đánh giá kết quả vẫn phụ thuộc vào con người. Đáng chú ý, hiệu quả sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Trong các nhiệm vụ tạo mã, tỷ lệ thành công của người dùng thuộc các ngành nghề phi kỹ thuật như luật, tài chính, quản lý và nghiên cứu đã gần bằng với kỹ sư phần mềm. Yếu tố then chốt ảnh hưởng đến kết quả là người dùng có thực sự hiểu vấn đề họ cần giải quyết hay không. Điều này có nghĩa là AI làm giảm rào cản thực thi, chứ không phải rào cản phán đoán. Trong tương lai, những người am hiểu nghiệp vụ, nắm rõ ngữ cảnh, có khả năng đưa ra yêu cầu rõ ràng và đánh giá kết quả có thể sẽ sử dụng AI hiệu quả hơn cả những người chỉ giỏi viết mã. AI không tự động thay thế kiến thức chuyên môn mà ngược lại, còn làm gia tăng giá trị của kiến thức đó.

marsbit06/20 02:07

Ai là người sử dụng Claude Code hiệu quả nhất? Câu trả lời có thể không phải là lập trình viên

marsbit06/20 02:07

Hoặc toàn phần, hoặc loại bỏ: Tính toán đằng sau việc xAI thâu tóm Cursor với giá 600 tỷ USD

Tác giả Tara Tan, đối tác tại Strange Ventures, phân tích thương vụ xAI (công ty con của SpaceX) mua lại Anysphere - công ty mẹ của Cursor, với giá 600 tỷ USD bằng cổ phiếu. Bài viết cho rằng động cơ thực sự không phải là thị phần (đang giảm của Cursor) mà là quyền truy cập vào nguồn dữ liệu huấn luyện chất lượng cao: hành vi viết code hàng ngày của 7 triệu nhà phát triển. Đây là dữ liệu có tín hiệu mạnh nhất để cải thiện mô hình AI, giúp xAI bổ sung cho mô hình Grok của họ. Bài viết nêu bật ví dụ về Anthropic, với doanh thu tăng khoảng 540 lần trong 28个月, được thúc đẩy mạnh mẽ bởi Claude Code - sản phẩm tăng trưởng nhanh nhất của công ty. Điều này củng cố luận điểm chính: để trở thành gã khổng lồ AI, các công ty phải theo đuổi chiến lược "toàn phần" (full-stack), tích hợp chặt chẽ ba tầng: năng lực tính toán (như Colossus của xAI), mô hình AI (như Grok), và ứng dụng người dùng cuối (như X hay Cursor). Chiến lược toàn phần tạo ra vòng lặp tích cực: sản phẩm tốt hơn thu hút nhiều người dùng hơn, tạo ra nhiều dữ liệu độc quyền hơn để cải thiện mô hình và hạ tầng, từ đó lại tạo ra trải nghiệm người dùng tốt hơn. Điều này giúp cải thiện mô hình kinh tế của việc đào tạo mô hình và xây dựng "hào bảo vệ" thông qua dữ liệu và sự gắn kết của người dùng. Dự báo trong vài năm tới, các công ty mô hình AI sẽ tích cực phát triển ứng dụng nội bộ hoặc mua lại các công ty ở tầng ứng dụng để hoàn thiện hệ sinh thái toàn phần của mình.

marsbit06/18 09:42

Hoặc toàn phần, hoặc loại bỏ: Tính toán đằng sau việc xAI thâu tóm Cursor với giá 600 tỷ USD

marsbit06/18 09:42

AGI chỉ còn một bước nữa

Tháng 4/2024, Anthropic công bố mô hình Mythos cực mạnh, phát hiện hơn 10.000 lỗ hổng bảo mật cho 50 khách hàng doanh nghiệp, gây chấn động. Do lo ngại bị lạm dụng, nó đã không được công khai. Đến tối qua, Anthropic chính thức ra mắt Fable 5 - phiên bản đã được "cắt giảm chức năng" của Mythos 5 với bộ phân loại an toàn, trong khi Mythos 5 gốc chỉ dành cho khoảng 200 tổ chức được kiểm duyệt khắt khe. Fable 5 thể hiện sức mạnh đáng kinh ngạc. Trên bảng xếp hạng lập trình SWE-Bench Pro, nó đạt 80.3%, vượt xa GPT-5.5 (58.6%) và Gemini 3.1 Pro (54.2%). Trong thử nghiệm thực tế tại Stripe, nó tự động di chuyển 50 triệu dòng mã lịch sử chỉ trong một ngày. Mô hình này thể hiện "khả năng ủy thác tầm xa" thực sự, có thể tự lập kế hoạch con, điều phối công cụ và tự sửa lỗi, đánh dấu một bước tiến lớn so với các mô hình chỉ biết "phản hồi" trước đây. Từ góc độ hẹp, Fable 5 thực sự đã đạt được AGI (Trí tuệ nhân tạo phổ quát) trong lĩnh vực kinh tế số. Theo tiêu chuẩn 5 cấp độ AI của OpenAI, Fable 5 đã đứng vững ở cấp độ 3 (Trí tuệ) và đang khám phá cấp độ 4 (Đổi mới). Tốc độ cập nhật của Anthropic ngày càng nhanh, với việc nâng cấp từ Opus 4.8 lên Fable 5 chỉ mất 11 ngày. Dự đoán cấp độ 4 sẽ đạt được trong năm nay, và cấp độ 5 (Tổ chức) có thể chỉ còn 18-24 tháng nữa. Tuy nhiên, sức mạnh đi kèm rủi ro. Báo cáo đánh giá cho thấy Mythos 5 đạt cấp độ CB-1, có khả năng hướng dẫn tổng hợp vũ khí sinh hóa và tạo kịch bản tấn công khai thác lỗ hổng zero-day chỉ trong vài giây. Để giảm thiểu rủi ro, Anthropic đã áp dụng hai cơ chế an toàn chính cho Fable 5: 1) Cơ chế định tuyến giảm cấp lặng lẽ, chuyển hướng các truy vấn nguy hiểm sang Opus 4.8; 2) Chính sách lưu giữ dữ liệu 30 ngày bắt buộc để phát hiện lạm dụng. Về giá, Fable 5 có mức phí cao: 10 USD/triệu token đầu vào và 50 USD/triệu token đầu ra, biến nó thành một "mặt hàng xa xỉ" đối với người dùng cá nhân. Tuy nhiên, các doanh nghiệp sẵn sàng trả phí cao vì lợi nhuận và nhu cầu phòng thủ an ninh mạng. Động thái này đánh dấu sự phân hóa thị trường AI: các mô hình đỉnh cao phục vụ B2B và nghiên cứu, trong khi các mô hình rẻ hơn cạnh tranh ở thị trường tiêu dùng. Sự xuất hiện của Fable 5/Mythos 5 báo hiệu kỷ nguyên AI trưởng thành, nơi trí tuệ đỉnh cao trở thành tài nguyên chiến lược, thúc đẩy bùng nổ năng suất nhưng cũng mang đến những thách thức cho thị trường lao động truyền thống.

marsbit06/11 05:13

AGI chỉ còn một bước nữa

marsbit06/11 05:13

Sam Altman Trò chuyện với CEO Stripe: Thời đại ý tưởng quý giá hơn mã code đã đến!

Nguồn: Stripe Ngày 30/4/2026, CEO OpenAI Sam Altman đã tham gia một cuộc trò chuyện thân mật với CEO Stripe Patrick Collison tại hội nghị thường niên của Stripe. Cuộc thảo luận xoay quanh điểm bùng phát của AI, triết lý quản lý tại OpenAI, những thay đổi trong hệ sinh thái khởi nghiệp và tác động sâu rộng của AI đối với khoa học tương lai. Altman đưa ra nhiều quan điểm quan trọng: * **Chúng ta đang ở trong giai đoạn cất cánh:** Sự phát triển của AI diễn ra cực kỳ nhanh chóng, mỗi tuần đều có sự khác biệt. * **Sự tiến hóa ba giai đoạn của OpenAI:** Từ viện nghiên cứu thuần túy, trở thành công ty sản phẩm, và giờ đây là một "nhà máy Token" quy mô lớn – một loại tiện ích cung cấp trí tuệ giá rẻ, phổ biến. * **"Kỷ nguyên của ý tưởng":** Altman sẵn sàng đầu tư vào những người có hiểu biết sâu sắc về nhu cầu người dùng và sự nhạy bén sản phẩm, ngay cả khi họ không biết viết mã, vì AI có thể giúp họ xây dựng sản phẩm. * **Điều khiến ông phấn khích nhất là khả năng AI thúc đẩy khám phá khoa học**, rút ngắn chu kỳ nghiên cứu từ mười năm xuống còn một năm trong các lĩnh vực như bệnh phức tạp, khoa học vật liệu và năng lượng. Ông dự đoán lò phản ứng nhiệt hạch hòa vốn đầu tiên có thể xuất hiện trong vòng năm năm nhờ nhu cầu về năng lượng cho AI. * **Triết lý quản lý tại OpenAI** dựa trên việc tập trung tài nguyên và một tầm nhìn chung về "quy mô". Altman nhấn mạnh tầm quan trọng của **triển khai lặp đi lặp lại và dân chủ hóa** AI, để công nghệ này thuộc về toàn thế giới thay vì tập trung trong tay một số ít. Ông cũng chia sẻ rằng các công ty áp dụng AI thành công nhất thường có **CEO trực tiếp sử dụng và thúc đẩy** tự động hóa, và OpenAI đang thử nghiệm hỗ trợ các CEO doanh nghiệp tự động hóa quy trình làm việc. Về đầu tư mạo hiểm trong kỷ nguyên AI, Altman khuyên nên hành động như thể tương lai vẫn tiếp diễn, kết hợp cam kết hạ tầng dài hạn với lộ trình sản phẩm ngắn hạn linh hoạt.

marsbit05/15 13:55

Sam Altman Trò chuyện với CEO Stripe: Thời đại ý tưởng quý giá hơn mã code đã đến!

marsbit05/15 13:55

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

Thập kỷ qua, AI phát triển chủ yếu dựa vào mô hình lớn hơn với nhiều dữ liệu và năng lực tính toán hơn. Gần đây, kỹ sư OpenAI Weng Jiayi đã đề xuất một hướng đi mới có tên "Heuristic Learning" (HL) - Học theo phỏng đoán. Trong thí nghiệm, ông sử dụng Codex (dựa trên GPT-5.4) để duy trì một hệ thống tự động viết, chạy thử, phân tích nhật ký, xem video phát lại và sửa mã nguồn chiến lược cho trò chơi Atari Breakout. Qua nhiều vòng lặp, Codex đã tạo ra một chiến lược thuần Python đạt điểm tối đa lý thuyết 864. Kinh nghiệm được mã hóa thành phần mềm có thể đọc, sửa, kiểm tra và kiểm toán, thay vì chỉ nằm trong các tham số mạng nơ-ron khó giải thích. HL được định nghĩa là một hệ thống học trong đó đối tượng được cập nhật là cấu trúc phần mềm, không phải trọng số mạng nơ-ron, sử dụng phản hồi từ môi trường, kiểm thử, nhật ký và video. So với Deep RL, HL có ưu điểm về khả năng giải thích, hiệu quả mẫu theo đơn vị thay đổi mã, khả năng bảo toàn kiến thức cũ thông qua kiểm thử hồi quy và ít bị "lãng quên thảm khốc". Thử nghiệm mở rộng trên 57 trò chơi Atari cho thấy HL đạt hiệu suất ngang bằng các thuật toán RL cổ điển như PPO ở một số trò, nhưng bộc lộ hạn chế ở các nhiệm vụ đòi hỏi lập kế hoạch dài hạn như Montezuma's Revenge. Nếu được chứng minh, HL có thể có ý nghĩa lớn trong: 1) Điều khiển robot cho các nhiệm vụ cấu trúc ổn định, giảm phụ thuộc vào suy luận mạng nơ-ron thời gian thực; 2) Các kịch bản an toàn quan trọng, nơi tính kiểm tra được của mã nguồn là giá trị thương mại; 3) Học liên tục được kỹ thuật hóa thông qua các công cụ phần mềm truyền thống; 4) Giúp Agent tích lũy kinh nghiệm thành tài sản mã nguồn có thể tái sử dụng và chia sẻ. Tóm lại, Weng Jiayi đưa ra giả thuyết rằng trong kỷ nguyên AI có khả năng lập trình, kinh nghiệm có thể được chuyển đổi thành phần mềm có thể đọc và bảo trì, bổ sung cho mô hình học sâu truyền thống. Tuy nhiên, con đường này vẫn cần được thử nghiệm thêm ở các nhiệm vụ phức tạp hơn.

marsbit05/11 00:22

Kỹ sư hậu huấn luyện OpenAI Weng Jiayi đề xuất giả thuyết mới về Agentic AI

marsbit05/11 00:22

活动图片