Biên tập viên ghi chú: Bài viết này là tổng kết 8 năm của một doanh nhân tiên phong trong lĩnh vực AI generative. Vào năm 2018 khi GPT chưa xuất hiện, ông đã sáng lập Rosebud AI, xoay quanh mục tiêu "biến sáng tạo trở nên đơn giản như chơi game", liên tục cho ra mắt nhiều công cụ sáng tạo AI bao gồm TokkingHeads. Trong giai đoạn năng lực mô hình còn non trẻ, những sản phẩm này thông qua thiết kế quy trình và tương tác đã khuếch đại trải nghiệm "tạm được nhưng dùng tốt", hoàn thành tăng trưởng người dùng ban đầu và xác thực sản phẩm.
Trải nghiệm này gần như bao trùm toàn bộ chu kỳ phát triển của AI generative từ "truyền thông tổng hợp" đến cơ sở hạ tầng năng lực phổ thông: từ thử nghiệm khám phá CycleGAN, StyleGAN đến GPT-4 mở ra biên giới của tạo mã và sáng tạo tương tác, tiến bộ công nghệ không ngừng viết lại logic sản phẩm và nhịp độ khởi nghiệp. Con đường của tác giả cũng phản ánh một thay đổi cấu trúc rõ ràng hơn - khi mô hình trở thành biến số, điểm phân chia thực sự không chỉ là bản thân công nghệ, mà là cách xây dựng sản phẩm, phân phối và thương mại hóa xung quanh nó.
Sau khi rời vị trí CEO và gia nhập a16z, tác giả sẽ chuyển hướng đầu tư vào stack mô hình tiên phong và cơ sở hạ tầng liên quan. Nhưng quan trọng hơn con đường cá nhân, kinh nghiệm 8 năm này chỉ ra một xu hướng đang định hình: giai đoạn đầu của AI generative (chứng minh những gì có thể làm) đang kết thúc, tiếp theo là cuộc cạnh tranh chu kỳ dài hơn, sẽ xoay quanh việc năng lực được tổ chức, được sản phẩm hóa như thế nào, và cuối cùng bước vào thế giới thực.
Dưới đây là nguyên văn:
Tôi đã gia nhập a16z, đảm nhận vị trí đối tác, tập trung vào đầu tư cơ sở hạ tầng và định hướng AI. Đồng thời, sau 8 năm điều hành Rosebud AI, tôi cũng sẽ rời vị trí CEO.
Dưới đây là một số hồi tưởng và suy ngẫm của tôi về 8 năm này. Đối với những người vẫn đang xây dựng ở tuyến đầu, tôi mang lòng kính trọng lớn. Một lần phát hành mô hình, có thể nuốt chửng lộ trình sản phẩm ban đầu của bạn, cũng có thể đẩy nó lên sớm hàng năm trời. Thiết kế, sản phẩm, kỹ thuật - hình thái của những chức năng này, so với 3 tháng trước đã thay đổi, chưa nói đến so với 8 năm trước. Tốc độ tiến bộ công nghệ, khiến thời đại này trở thành thời khắc khởi nghiệp phấn khích nhất, đồng thời cũng thách thức nhất.
Tại a16z, tôi sẽ tập trung quan tâm vào stack mô hình tiên phong (frontier model stack): bao gồm bản thân mô hình, và cơ sở hạ tầng cùng công cụ phát triển xây dựng xung quanh mô hình. Tôi cảm thấy phấn khích trước sự tiến hóa nhanh chóng của năng lực mô hình - ngày càng nhiều tiến bộ được thúc đẩy bởi chính AI. Đồng thời, tôi cũng lạc quan về những đột phá mà AI mang lại trong lĩnh vực toán học và khoa học. Ngoài ra, do 8 năm qua không ngừng xây dựng công cụ sáng tạo AI, tôi luôn mang niềm hứng thú đặc biệt với hướng đi này.
Trước đó, tôi cũng đã tham gia đầu tư một số vòng hạt giống với tư cách nhà đầu tư thiên thần, bao gồm @fal, @periodiclabs, @SakanaAILabs và @ExaAILabs. Tiếp theo, tôi rất mong chờ có thể dồn toàn bộ tinh lực để hỗ trợ những nhà sáng lập đang xây dựng stack công nghệ này.
2018: Trước khi GPT xuất hiện, đặt cược vào AI generative.
Làm một công ty khởi nghiệp trong lĩnh vực AI generative, 8 năm là một khoảng thời gian khá dài.
Tôi bắt đầu từ cuối năm 2018, đó gần như vẫn là một "thời kỳ thượng cổ", khi lĩnh vực này còn được gọi là "truyền thông tổng hợp (synthetic media)". Tôi đang mày mò với CycleGAN và StyleGAN, những nội dung chúng tạo ra vừa kỳ dị vừa mê hoặc, khiến tôi tin rằng: một ngày nào đó, sáng tạo sẽ trở nên nhẹ nhàng tự nhiên như chế độ xây dựng trong game (cái tên "rosebud" này cũng chính đến từ The Sims).
Sáng tạo trong trạng thái lý tưởng nhất nên là một trò chơi. Và những tia sáng sớm nhất của AI generative, khiến tôi tin rằng, trải nghiệm "sáng tạo như chơi" này có thể mở rộng đến nhiều hình thức sáng tạo hơn. Tôi bắt đầu mơ tưởng, AI generative sẽ định hình lại trò chơi điện tử như thế nào (ví dụ như đoạn video CycleGAN tôi đã train dựa trên cảnh của 《Myst》 vào năm 2018).
Thoắt cái 8 năm trôi qua, giờ đây chúng ta đã có thể tạo video, game thậm chí âm nhạc chỉ bằng một câu nhắc. Tương lai từng tưởng tượng đó, cuối cùng đã đến - và đây mới chỉ là khởi đầu.
Nhìn lại, lý do tôi có thể hình thành niềm tin mạnh mẽ như vậy ở giai đoạn sớm như thế, có lẽ vì cuộc đời tôi luôn ở giao điểm của công nghệ và nghệ thuật: một bên là nền tảng tiến sĩ toán học và học sâu, một bên là đam mê nghệ thuật với khiêu vũ và âm nhạc. Khởi nghiệp AI generative đòi hỏi phải có cả hai: nền tảng công nghệ giúp tôi nhìn thấy thứ sắp đến, khuynh hướng nghệ thuật khiến tôi nóng lòng muốn xây dựng nó.
Hành trình khởi nghiệp luôn dài hơn và khó khăn hơn tưởng tượng. Tìm một việc mà bạn gần như tin tưởng một cách phi lý trí, mới có thể tối đa hóa xác suất kiên trì.
2018—2023: Dùng "tạm được nhưng dùng tốt" để chinh phục người dùng
Ảnh chụp giao diện ứng dụng iOS thứ ba Tokkingheads. Cốt lõi của AI generative giai đoạn đầu là thiết kế quy trình đơn giản và chủ động đón nhận cảm giác thô ráp của sản phẩm
Suốt chặng đường này, chúng tôi đã phát hành rất nhiều sản phẩm, mục đích là mài giũa trực giác về năng lực mô hình tiên phong, và học cách đóng gói nó thành trải nghiệm phép thuật có thể che lấp những khiếm khuyết ban đầu. Giai đoạn đó tôi ngộ ra: khi đầu ra mô hình còn xa mới hoàn hảo, bạn có thể thiết kế trải nghiệm tiêu dùng đại chúng cho phép người dùng lặp lại nhanh, phản hồi nhanh. Người dùng kén chọn, nhưng không mong manh - dùng thứ tạm được nhưng dùng tốt là đủ chinh phục họ.
Đến ứng dụng di động thứ ba, chúng tôi đã tích lũy đủ nhận thức, để Tokkingheads đạt được lan truyền virus tăng trưởng tự nhiên, vượt 2 triệu người dùng trong vài tuần. Bài học then chốt tiếp theo theo sau: với tư cách nhà sáng lập, bạn phải rõ ràng hình thái sản phẩm nào có thể khiến bản thân duy trì động lực lâu dài. Tokkingheads đáng lẽ có thể đi theo con đường爆款刷屏 (bùng nổ màn hình), nhưng tôi không chắc đó có phải là mảnh đất đúng đắn để phát triển phép thuật sáng tạo này thành sản phẩm hoàn chỉnh hơn không, mà sản phẩm hoàn chỉnh hơn đó, mới là thứ tôi thực sự muốn.
Thế là chúng tôi tiếp tục lặp lại. Chúng tôi đã làm ảnh kho tạo bằng AI, nghệ thuật AI đi kèm NFT (vâng...... tôi đã ngây thơ nghĩ chất lượng tác phẩm mới là then chốt, kết quả phát hiện kỹ năng thực sự quan trọng là đầu cơ thổi phồng), và công cụ tạo tài nguyên game AI. Mỗi sản phẩm đều dạy tôi vài thứ cụ thể: người dùng sẵn sàng trả tiền cho cái gì, mô hình đang cải thiện nhanh thế nào. Kẹt giữa những dự án này, còn có một đại dịch toàn cầu, và sự kiện rút tiền hàng loạt ở Silicon Valley Bank và First Republic Bank - những điều nhắc tôi học cách biết ơn. Có thể tiếp tục xây dựng, bản thân nó đã là một đặc quyền.
2023: Tạo mã trưởng thành
Tạo mã cuối cùng đã đủ tốt, thời cơ chín muồi, có thể tạo công cụ game cho nhà sáng tạo không chuyên kỹ thuật. Sau khi GPT-4 phát hành, tương lai đó trở nên cụ thể cảm nhận được. Tháng 3/2023, tôi đã chia sẻ với đội ngũ một bản ghi nhớ, và dùng nguyên mẫu dưới đây ghép nên phiên bản đầu tiên của tính năng chuyển văn bản thành game của Rosebud.
Ảnh chụp tweet ngày 23 tháng 3 năm 2023. Tôi sử dụng GPT-4 học Three.js, kết hợp AI generative của Rosebud tạo skybox,演示原型早期通过文字召唤3D场景的原型 (trình diễn nguyên mẫu早期召唤场景3D bằng văn bản)
Đầu năm 2023, bản ghi nhớ nội bộ tác giả viết cho đội ngũ, ghi lại nhận định sản phẩm sau đột phá năng lực tạo mã. Cốt lõi nhận định của thư nội bộ này là: AI đang ở trong một cửa sổ then chốt sẽ quyết định hàng chục năm tới, và hai năm tiếp theo sẽ trở thành giai đoạn cạnh tranh cao độ, nhịp độ nhanh, cường độ cao, đào thải rõ ràng. Công ty sẽ dồn toàn lực vào "chạy nước rút" này, chỉ phù hợp cho những người có động lực nội tại mạnh mẽ, sẵn sàng chịu áp lực cao và đầu tư lâu dài tham gia - bởi vì đây không chỉ là một trải nghiệm công việc, mà còn là một cơ hội lịch sử có thể thay đổi quỹ đạo nghề nghiệp cá nhân.
2026 và xa hơn: Bạn có thể xây những thứ phòng thí nghiệm không muốn làm?
Hình: Video演示 - tác giả thông qua nhắc từ xây dựng game mô phỏng thành phố 3D trên trình duyệt
Làm game, cần đồng thời vận dụng trực giác sáng tạo và năng lực kỹ thuật. AI generative là chìa khóa biến bản thân sáng tạo game thành một trò chơi - bất kỳ tiến bộ mô hình nào về hình ảnh, video, mô hình thế giới hay mã, đều sẽ được hấp thụ chuyển hóa ngay lập tức. Mô hình kinh doanh của game cũng có khả năng lớn nhất nằm ngoài tầm nhìn của phòng thí nghiệm tiên phong: con đường biến hiện cốt lõi vẫn là người chơi trả phí, mà việc thiết lập hệ thống phân phối phía người chơi, đối với phòng thí nghiệm đang lao đi hết tốc lực hướng tới AGI, dường như là một nhiệm vụ phụ quá vòng vo. Đối với nhà sáng lập, lựa chọn xây dựng cái gì, mãi mãi là một cuộc chơi liên tục tìm kiếm không gian bên ngoài con đường then chốt của phòng thí nghiệm.
Rosebud đang lên đà. Chúng tôi đã tích lũy hữu cơ một cộng đồng nhà sáng tạo quy mô lớn, hoạt động cao. Tôi sẽ nhớ những cuộc trò chuyện phiếm với nhà sáng tạo trên Discord, và những ngày xử lý mail hỗ trợ người dùng (một người dùng sẵn sàng phàn nàn, nhất định thực sự quan tâm đến sản phẩm của bạn). Trọng tâm giai đoạn tiếp theo là mở rộng quy mô phân phối phía người chơi, vì vậy giờ là thời điểm tốt để trao gậy tiếp sức cho đồng đội đã sát cánh cùng chiến đấu.
Chúc mừng @glazworks接任 Rosebud CEO mới! Anh ấy hiếm có地兼备天赋机器学习与产品审美 (hiếm có地兼备 tài năng học máy và thẩm mỹ sản phẩm).
Martin Casado và đội ngũ a16z đã đồng hành suốt quá trình trưởng thành của Rosebud. Tôi và Martin đã có một cuộc đối thoại then chốt, thảo luận liệu JavaScript có phải là stack công nghệ đúng đắn cho game của Rosebud không - chọn Unity hay Roblox có lẽ hot hơn, nhưng tốc độ cải thiện tạo mã của JavaScript nhanh hơn nhiều, vì khả năng tiếp cận dữ liệu huấn luyện cao hơn. Đội ngũ này theo đuổi chân lý, sẵn sàng đặt cược vào những canh bạc có thể mang lại nhiều người xây dựng hơn. Đây là con đường đi đến tương lai lý tưởng: chúng ta phải xây dựng, chúng ta phải đổi mới.
Mong chờ được tiếp tục làm việc cùng mọi người từ phía bên kia chiếc bàn. Tin nhắn riêng luôn mở.














