Biên tập: Ngọc Bảo
Đây là một cuộc phỏng vấn khác kéo dài 40 phút với Peter Steinberger, tác giả của ClawdBot/OpenClaw, do Peter Yang chủ trì.
Peter là người sáng lập PSPDFKit, có gần 20 năm kinh nghiệm phát triển iOS. Năm 2021, sau khi công ty được Insight Partners đầu tư chiến lược 100 triệu euro, ông chọn "nghỉ hưu". Hiện tại, dự án Clawdbot (nay đã đổi tên thành OpenClaw) của ông đang gây bão. Clawbot là trợ lý AI có thể trò chuyện với bạn qua WhatsApp, Telegram, iMessage, và kết nối phía sau với mọi ứng dụng trên máy tính của bạn.
Peter mô tả Clawbot như thế này:
“Nó giống như một người bạn sống trong máy tính của bạn, hơi kỳ quặc nhưng thông minh đến đáng sợ.
Trong cuộc phỏng vấn này, ông chia sẻ nhiều quan điểm thú vị: tại sao các hệ thống điều phối tác nhân thông minh (Agent) phức tạp là "máy tạo slop", tại sao "để AI chạy 24 giờ" là chỉ số phù phiếm, và tại sao ngôn ngữ lập trình không còn quan trọng nữa.
Nguyên mẫu một giờ, 300 nghìn dòng mã
Peter Yang hỏi ông Clawbot thực chất là gì, và tại sao logo lại là một con tôm hùm.
Peter Steinberger không trả lời trực tiếp câu hỏi về con tôm hùm, mà kể một câu chuyện. Sau khi "nghỉ hưu" trở lại, ông dồn toàn bộ tâm sức vào lập trình theo cảm tính (vibe coding) — kiểu làm việc mà để các tác nhân AI viết code giúp bạn. Vấn đề là, tác nhân có thể chạy nửa giờ, hoặc dừng lại sau hai phút để hỏi bạn. Bạn đi ăn cơm về và thấy nó đã bị kẹt từ lâu, rất phiền.
Ông muốn một thứ gì đó có thể kiểm tra trạng thái máy tính mọi lúc trên điện thoại. Nhưng ông không làm, vì ông nghĩ điều này quá hiển nhiên, các công ty lớn chắc chắn sẽ làm.
“Đợi đến tháng 11 năm ngoái vẫn chưa thấy ai làm, tôi nghĩ thôi, để tôi làm.
Phiên bản đầu tiên cực kỳ đơn giản: kết nối WhatsApp với Claude Code. Gửi một tin nhắn, nó gọi AI và gửi kết quả về. Chỉ mất một giờ để dựng.
Rồi nó "sống dậy". Bây giờ Clawbot có khoảng 300 nghìn dòng mã, hỗ trợ hầu hết các nền tảng nhắn tin chính.
“Tôi nghĩ đây là hướng đi của tương lai. Mỗi người sẽ có một AI siêu mạnh, đi theo bạn suốt cuộc đời.
Ông nói, "Một khi bạn cho AI quyền truy cập vào máy tính của bạn, về cơ bản nó có thể làm bất cứ điều gì bạn có thể làm."
Buổi sáng đó ở Ma Rốc
Peter Yang nói, bây giờ bạn không cần ngồi trước máy tính để giám sát nó nữa, chỉ cần ra lệnh cho nó thôi.
Peter Steinberger gật đầu, nhưng ông muốn kể một câu chuyện khác.
Có lần ông ở Ma Rốc dự sinh nhật bạn, và nhận ra mình liên tục dùng Clawbot. Hỏi đường, tìm nhà hàng đề xuất, đó là chuyện nhỏ. Điều thực sự khiến ông ngạc nhiên là vào buổi sáng hôm đó: ai đó trên Twitter đã đăng một tweet nói rằng thư viện mã nguồn mở của ông có lỗi.
“Tôi chụp ảnh tweet, gửi lên WhatsApp.
AI đọc hiểu nội dung tweet, hiểu đó là báo cáo lỗi. Nó checkout kho lưu trữ Git tương ứng, sửa lỗi, commit code, rồi trả lời người đó trên Twitter nói đã sửa xong.
“Lúc đó tôi nghĩ, điều này thực sự khả thi sao?
Lần khác còn thần kỳ hơn. Ông đang đi trên phố, lười đánh máy, nên gửi một tin nhắn thoại. Vấn đề là, ông chưa hề viết hỗ trợ tin nhắn thoại cho Clawbot.
“Tôi thấy nó hiện 'đang nhập', nghĩ thế là tiêu rồi. Kết quả là nó trả lời tôi bình thường.
Sau đó ông hỏi AI đã làm thế nào. AI nói: Tôi nhận được một tệp nhưng không có phần mở rộng, nên tôi xem phần đầu tệp, phát hiện là định dạng Ogg Opus. Trên máy bạn có ffmpeg, tôi dùng nó để chuyển đổi thành WAV. Rồi tôi tìm whisper.cpp, nhưng bạn chưa cài, nhưng tôi tìm thấy khóa API OpenAI của bạn, nên dùng curl gửi audio đi phiên âm.
Peter Yang nghe xong nói: Những thứ này thực sự rất có phương pháp, mặc dù hơi đáng sợ.
"Mạnh hơn nhiều so với ChatGPT bản web, nó giống như ChatGPT được tháo bỏ xiềng xích. Nhiều người không nhận ra, những công cụ như Claude Code không chỉ giỏi lập trình, chúng rất có phương pháp với bất kỳ vấn đề nào.
Đội quân công cụ dòng lệnh (CLI)
Peter Yang hỏi ông những công cụ tự động hóa đó được xây dựng như thế nào, là tự viết hay để AI viết.
Peter Steinberger cười.
Mấy tháng nay ông liên tục mở rộng "đội quân CLI" của mình. Tác nhân thông minh giỏi nhất việc gì? Gọi các công cụ dòng lệnh, vì dữ liệu huấn luyện toàn là cái đó.
Ông xây một CLI truy cập toàn bộ dịch vụ Google, bao gồm Places API. Xây một cái chuyên tìm meme và GIF, để AI trả lời tin nhắn có thể gửi meme. Ông thậm chí còn làm một công cụ trực quan hóa âm thanh, muốn để AI "trải nghiệm" âm nhạc.
“Tôi còn hack vào API của nền tảng giao đồ ăn local, giờ AI có thể báo cho tôi biết đồ ăn còn bao lâu thì đến. Còn một cái reverse API của Eight Sleep, có thể điều chỉnh nhiệt độ giường của tôi.
[Chú thích: Eight Sleep là một loại nệm thông minh, có thể điều chỉnh nhiệt độ mặt giường, chính thức không mở API.]
Peter Yang hỏi lại: Tất cả những thứ này là ông bảo AI xây giúp?
“Điều thú vị nhất là, trước đây tôi làm phát triển hệ sinh thái Apple tại PSPDFKit 20 năm, Swift, Objective-C, rất chuyên sâu. Nhưng sau khi trở lại, tôi quyết định đổi sang một sân chơi khác, vì tôi chán ngấy việc Apple cái gì cũng quản, và làm app Mac đối tượng quá hẹp.
Vấn đề là, chuyển từ một tech stack thành thạo sang một cái khác, quá trình rất đau đớn. Bạn hiểu tất cả khái niệm, nhưng không biết cú pháp. Prop là gì? Mảng chia tách thế nào? Mỗi vấn đề nhỏ đều phải tra, bạn cảm thấy mình như một thằng ngốc.
“Rồi có AI, tất cả những thứ này biến mất. Tư duy hệ thống, khả năng kiến trúc, gu thẩm mỹ, đánh giá về dependency, những thứ đó mới thực sự có giá trị, và giờ có thể dễ dàng di chuyển sang bất kỳ lĩnh vực nào.
Ông dừng lại một chút:
"Đột nhiên tôi cảm thấy mình có thể xây bất cứ thứ gì. Ngôn ngữ không quan trọng nữa, quan trọng là tư duy kỹ thuật của tôi.
Kiểm soát thế giới thực
Peter Steinberger bắt đầu trình diễn thiết lập của mình. Danh sách quyền hạn ông cấp cho AI thật đáng kinh ngạc:
Email, lịch, tất cả tệp tin, đèn Philips Hue, loa Sonos. Ông có thể để AI đánh thức mình vào buổi sáng, từ từ tăng âm lượng. AI còn có thể truy cập camera an ninh của ông.
“Có lần tôi bảo nó theo dõi xem có người lạ không. Sáng hôm sau nó báo: 'Peter, có người.' Tôi xem lại录像, nó chụp ảnh màn hình cái ghế sofa cả đêm, vì chất lượng camera kém, cái sofa trông giống như đang có người ngồi.
Tại căn hộ ở Vienna, AI còn có thể điều khiển hệ thống smart home KNX.
“Nó thực sự có thể khóa tôi ở ngoài cửa.
Peter Yang hỏi: Những thứ này được kết nối thế nào?
“Chỉ là nói chuyện trực tiếp với nó. Những thứ này rất có phương pháp, nó sẽ tự tìm API, tự Google, tự tìm khóa trong hệ thống của bạn.
Người dùng chơi còn điên rồ hơn:
- Có người bảo nó mua sắm trực tuyến trên Tesco
- Có người bảo nó đặt hàng trên Amazon
- Có người để nó tự động trả lời tất cả tin nhắn
- Có người kéo nó vào group chat gia đình như một "thành viên gia đình"
“Tôi bảo nó giúp tôi check in trên trang web British Airways. Đây đúng là bài kiểm tra Turing, thao tác trình duyệt trên website hãng hàng không, cái giao diện đó phản nhân loại thế nào bạn biết đấy.
Lần đầu mất gần 20 phút, vì cả hệ thống còn thô sơ. AI cần tìm hộ chiếu trong Dropbox của ông, trích xuất thông tin, điền biểu mẫu, vượt qua xác minh CAPTCHA.
"Bây giờ chỉ mất vài phút. Nó có thể nhấn nút xác minh 'Tôi là người', vì nó đang điều khiển một trình duyệt thực, hành vi không khác gì con người.
80% App sẽ biến mất
Peter Yang hỏi: Đối với người dùng phổ thông vừa tải về, có cách dùng nhập môn an toàn nào?
Peter Steinberger nói con đường của mỗi người đều khác nhau. Có người cài xong lập tức dùng nó để viết iOS app, có người lập tức đi quản lý Cloudflare. Có người dùng tuần đầu tự dùng, tuần thứ hai cài cho gia đình, tuần thứ ba bắt đầu làm bản doanh nghiệp cho công ty.
“Sau khi tôi cài cho một người bạn không chuyên kỹ thuật, anh ta bắt đầu gửi pull request cho tôi. Cả đời anh ta chưa từng gửi pull request.
Nhưng điều ông thực sự muốn nói là bức tranh lớn hơn:
“Nếu bạn nghĩ kỹ, thứ này có thể sẽ thay thế 80% app trên điện thoại của bạn.
Tại sao còn phải dùng MyFitnessPal để ghi chép ăn uống?
“Tôi có một trợ lý có nguồn lực vô hạn, nó đã biết tôi đã quyết định sai lầm tại KFC. Tôi gửi một bức ảnh, nó sẽ lưu vào cơ sở dữ liệu, tính toán calo, nhắc tôi nên đi gym rồi.
Tại sao còn phải dùng app để cài đặt nhiệt độ Eight Sleep? AI có quyền API, trực tiếp điều chỉnh giúp bạn. Tại sao còn phải dùng app ghi chú công việc? AI nhớ giúp bạn. Tại sao còn phải dùng app check in chuyến bay? AI làm giúp bạn. Tại sao còn phải dùng app mua sắm? AI có thể đề xuất, đặt hàng, theo dõi.
“Sẽ có cả một lớp app dần dần biến mất, bởi vì nếu chúng có API, thì chỉ là dịch vụ mà AI của bạn sẽ gọi mà thôi.
Ông dự đoán năm 2026 sẽ là năm nhiều người bắt đầu khám phá trợ lý AI cá nhân, và các công ty lớn cũng sẽ tham gia thị trường.
"Clawbot chưa chắc là kẻ chiến thắng cuối cùng, nhưng hướng đi này là đúng.
Chỉ Cần Nói Chuyện Với Nó (Just Talk to It)
Chủ đề chuyển sang phương pháp luận lập trình AI. Peter Yang nói ông đã viết một bài rất hot tên "Just Talk to It", muốn nghe ông triển khai thêm.
Quan điểm cốt lõi của Peter Steinberger là: Đừng rơi vào "bẫy tác nhân" (agentic trap).
“Tôi thấy trên Twitter quá nhiều người phát hiện tác nhân rất mạnh, rồi muốn nó mạnh hơn nữa, rồi rơi vào hố thỏ. Họ xây các công cụ phức tạp để tăng tốc workflow, kết quả chỉ là đang xây công cụ, không xây thứ gì thực sự có giá trị.
Bản thân ông cũng từng rơi vào. Đầu tiên ông mất hai tháng xây đường hầm VPN, chỉ để truy cập terminal trên điện thoại. Làm quá tốt, có lần đi ăn với bạn trong nhà hàng, ông suốt buổi vibe coding trên điện thoại thay vì tham gia trò chuyện.
"Tôi buộc phải dừng lại, chủ yếu là vì sức khỏe tinh thần.
Thị trấn Slop (Slop Town)
Gần đây ông thấy bực mình với một hệ thống điều phối tên là Gastown.
“Một bộ điều phối (orchestrator) siêu phức tạp, chạy đồng thời mười mấy hai mươi tác nhân, chúng giao tiếp với nhau, phân công. Có người quan sát (watcher), có giám thị (overseer), có thị trưởng (mayor), có pcats (có lẽ chỉ 'dân thường' hoặc 'mèo cưng' các vai cho có), tôi còn không biết có gì nữa.
Peter Yang: Khoan, còn có thị trưởng?
“Ừ, trong dự án Gastown có một thị trưởng. Tôi gọi dự án này là 'Thị trấn Rác' (Slop Town).
Rồi còn chế độ RALPH (một chế độ vòng lặp nhiệm vụ đơn 'dùng xong vứt', chỉ việc giao cho AI một nhiệm vụ nhỏ, làm xong vứt bỏ tất cả ký ức ngữ cảnh, reset về 0, rồi lặp vô hạn)......
“Đây đúng là cỗ máy đốt Token tối thượng. Bạn để nó chạy cả đêm, sáng hôm sau nhận được là rác rưởi tối thượng (slop).
Cốt lõi vấn đề là: Những tác nhân này chưa có gu thẩm mỹ. Chúng thông minh đến đáng sợ ở một số mặt, nhưng nếu bạn không hướng dẫn chúng, không nói cho chúng biết bạn muốn gì, thì kết quả đầu ra sẽ là rác.
“Tôi không biết người khác làm việc thế nào, nhưng khi tôi bắt đầu một dự án, tôi chỉ có một ý tưởng mơ hồ. Trong quá trình xây dựng, chơi đùa, cảm nhận, tầm nhìn của tôi dần rõ ràng. Tôi thử một số thứ, vài cái không được, rồi ý tưởng của tôi tiến hóa thành hình thái cuối cùng. Prompt tiếp theo của tôi phụ thuộc vào trạng thái hiện tại mà tôi thấy, cảm nhận, suy nghĩ.
Nếu bạn cố gắng viết tất cả vào đặc tả yêu cầu từ đầu, bạn đã bỏ lỡ vòng lặp con người-máy tính này.
“Tôi không biết làm thế nào có thể tạo ra thứ tốt mà không có sự tham gia của cảm nhận, của gu thẩm mỹ.
Có người trên Twitter khoe một app ghi chú "được tạo hoàn toàn bằng RALPH". Peter trả lời: Ừ, trông giống như RALPH tạo thật, không ai bình thường lại thiết kế như thế này.
Peter Yang tổng kết: Nhiều người để AI chạy 24 giờ không phải để làm app, mà để chứng minh họ có thể để AI chạy 24 giờ.
"Nó giống như một cuộc thi so kích thước không có vật tham chiếu. Tôi cũng từng để vòng lặp chạy 26 giờ, lúc đó rất đắc ý. Nhưng đây là chỉ số phù phiếm, vô nghĩa. Có thể xây mọi thứ không có nghĩa bạn nên xây mọi thứ, cũng không có nghĩa nó sẽ tốt.
Chế độ Kế hoạch (Plan Mode) là một Cách Chắp vá (Hack)
Peter Yang hỏi ông quản lý ngữ cảnh thế nào. Cuộc trò chuyện dài AI sẽ bối rối, có cần nén hoặc tóm tắt thủ công không?
Peter Steinberger nói đây là "vấn đề của mô hình cũ".
“Claude Code vẫn có vấn đề này, nhưng Codex tốt hơn nhiều. Trên giấy có lẽ chỉ nhiều hơn 30% ngữ cảnh, nhưng cảm giác như gấp 2-3 lần. Tôi nghĩ liên quan đến cơ chế suy nghĩ nội bộ. Giờ đa số chức năng tôi phát triển đều có thể hoàn thành trong một cửa sổ ngữ cảnh, thảo luận và xây dựng diễn ra đồng thời.
Ông không dùng worktrees, vì đó là "sự phức tạp không cần thiết". Ông đơn giản checkout nhiều kho lưu trữ: clawbot-1, clawbot-2, clawbot-3, clawbot-4, clawbot-5. Cái nào rảnh thì dùng, làm xong kiểm thử, đẩy lên nhánh chính (main), đồng bộ.
“Hơi giống một nhà máy, nếu tất cả đều bận. Nhưng nếu bạn chỉ mở một cái, thời gian chờ quá lâu, không vào được trạng thái flow.
Peter Yang nói điều này giống game chiến thuật thời gian thực, bạn có một đội tấn công, phải quản lý và giám sát họ.
Về chế độ kế hoạch, Peter Steinberger có một quan điểm gây tranh cãi:
“Chế độ kế hoạch là giải pháp chắp vá mà Anthropic buộc phải thêm, vì mô hình quá bốc đồng, vừa vào đã lao đi viết code. Nếu bạn dùng mô hình mới nhất, như GPT 5.2, bạn chỉ cần trò chuyện với nó. 'Tôi muốn xây chức năng này, nên như thế này thế kia, tôi thích phong cách thiết kế này, đưa tôi vài phương án, chúng ta nói chuyện trước.' Rồi nó sẽ đề xuất, các bạn thảo luận, đạt được đồng thuận rồi mới动手.
Ông không đánh máy, ông nói chuyện.
"Phần lớn thời gian tôi nói chuyện với nó.
Phát triển dẫn dắt bởi Discord
Peter Yang hỏi quy trình phát triển tính năng mới của ông là gì. Khám phá vấn đề trước? Lập kế hoạch trước?
Peter Steinberger nói ông đã làm một việc "có lẽ là điên rồ nhất tôi từng làm": Ông kết nối Clawbot cá nhân của mình vào một máy chủ Discord công khai, để mọi người đều có thể trò chuyện với AI cá nhân của ông, mang theo ký ức cá nhân của ông, ở nơi công cộng.
“Dự án này khó có thể dùng lời để miêu tả. Giống sự kết hợp giữa Jarvis (trợ lý AI trong Iron Man) và phim Her. Mỗi người tôi demo trực tiếp đều cực kỳ phấn khích, nhưng đăng ảnh kèm chữ trên Twitter thì không nổi. Nên tôi nghĩ, thôi để mọi người tự trải nghiệm.
Người dùng trong Discord hỏi câu hỏi, báo lỗi, đề xuất yêu cầu. Quy trình phát triển hiện tại của ông là: chụp ảnh cuộc trò chuyện trên Discord, kéo vào terminal, nói với AI "chúng ta nói về cái này".
“Tôi lười đánh máy. Có người hỏi 'các bạn có hỗ trợ cái này cái kia không', tôi để AI đọc code rồi viết một mục FAQ.
Ông còn viết một con bot crawl, ít nhất mỗi ngày một lần quét kênh help của Discord, để AI tóm tắt các điểm đau lớn nhất, rồi họ sửa.
Không MCP, không điều phối phức tạp
Peter Yang hỏi: Ông có dùng những thứ hào nhoáng không? Đa tác nhân, kỹ năng phức tạp, MCP (Giao thức Ngữ cảnh Mô hình) các thứ?
“Kỹ năng của tôi phần lớn là kỹ năng sống: ghi chép ăn uống, mua đồ ăn, đại loại thế. Về lập trình thì ít, vì không cần. Tôi không dùng MCP, không dùng bất kỳ thứ nào trong số đó.
Ông không tin vào hệ thống điều phối phức tạp.
“Tôi ở trong vòng lặp, tôi có thể tạo ra sản phẩm cảm thấy tốt hơn. Có lẽ có phương pháp nhanh hơn, nhưng tôi đã nhanh đến mức nút thắt cổ chai không nằm ở AI nữa, chủ yếu bị giới hạn bởi tốc độ suy nghĩ của chính tôi, thi thoảng bị giới hạn bởi thời gian chờ Codex.
Đồng sáng lập PSPDFKit trước đây của ông, một luật sư cũ, giờ cũng đang gửi PR (pull request) cho ông.
“AI khiến người không có nền tảng kỹ thuật cũng có thể xây dựng thứ, điều này thật kỳ diệu. Tôi biết có người phản đối, nói những code này không hoàn hảo. Nhưng tôi coi pull request như prompt request (yêu cầu prompt), chúng truyền tải ý định. Hầu hết mọi người không có cùng sự hiểu biết hệ thống, không thể hướng dẫn mô hình đến kết quả tối ưu. Nên tôi thà nhận lấy ý định, tự mình làm, hoặc viết lại dựa trên PR của họ.
Ông sẽ đánh dấu họ là đồng tác giả (co-author), nhưng hiếm khi merge code của người khác trực tiếp.
Tìm con đường của riêng bạn
Peter Yang tổng kết: Vậy điểm cốt lõi là, đừng dùng máy tạo slop, giữ con người trong vòng lặp, vì bộ não và gu thẩm mỹ của con người là không thể thay thế.
Peter Steinberger bổ sung một câu:
“Hoặc nói cách khác, hãy tìm con đường của riêng bạn. Nhiều người hỏi tôi 'ông làm thế nào', câu trả lời là: Bạn phải tự mình khám phá. Học những thứ này cần thời gian, cần phạm sai lầm của riêng mình. Điều này giống như học bất cứ thứ gì, chỉ có điều lĩnh vực này thay đổi cực kỳ nhanh.
Clawdbot có thể tìm thấy trên clawd.bot và GitHub. Clad có chữ W, C-L-A-W-D-B-O-T, giống càng tôm hùm.
(Chú thích: ClawdBot đã đổi tên thành OpenClaw
Peter Yang nói ông cũng phải thử rồi. Không muốn ngồi trước máy tính trò chuyện với AI, muốn ở ngoài đang dẫn con có thể ra lệnh cho nó bất cứ lúc nào.
"Tôi nghĩ bạn sẽ thích nó." Peter Steinberger nói.
Quan điểm cốt lõi của Peter Steinberger có thể tóm tắt thành hai câu:
- AI đã đủ mạnh để thay thế 80% app trên điện thoại của bạn
- Nhưng nếu không có gu thẩm mỹ và phán đoán của con người trong vòng lặp, đầu ra sẽ là rác
Hai câu này thoạt nhìn có vẻ mâu thuẫn, nhưng thực ra đều hướng đến cùng một kết luận: AI là đòn bẩy, không phải vật thay thế. Nó khuếch đại những thứ vốn có của bạn: tư duy hệ thống, khả năng kiến trúc, trực giác về sản phẩm tốt. Nếu bạn không có những thứ đó, có thêm bao nhiêu tác nhân chạy song song 24 giờ cũng chỉ là sản xuất hàng loạt slop mà thôi.
Thực tiễn của chính ông là minh chứng tốt nhất: một lập trình viên iOS kỳ cựu 20 năm, trong vài tháng đã dùng TypeScript xây một dự án 300 nghìn dòng mã, dựa không phải vào việc học cú pháp ngôn ngữ mới, mà là những thứ không phụ thuộc ngôn ngữ kia.
“Ngôn ngữ lập trình không quan trọng nữa, quan trọng là tư duy kỹ thuật của tôi.”


















