Bạn vẫn còn ấn tượng với việc tạo ảnh từ văn bản chỉ ở mức Nano Banana sao?
Nhưng này, thời đại đã thay đổi rồi.
@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067
@0115hippo https://x.com/0115hippo/status/2044722124611539160
Đầu tháng 4, trên nền tảng đánh giá LM Arena xuất hiện ba mô hình ảnh ẩn danh, mã hiệu lần lượt là maskingtape-alpha, packingtape-alpha, gaffertape-alpha. Vài giờ sau chúng biến mất.
OpenAI chính thức vẫn chưa công bố mô hình này, nhưng dựa vào siêu dữ liệu trả về từ API và bản ghi kiểm tra từ phía người dùng, nó đã có một cái tên được chấp nhận rộng rãi: GPT Image 2.
Ảnh chụp màn hình không thể dùng làm bằng chứng nữa
Vài năm qua, một trong những điểm yếu rõ ràng nhất của mô hình tạo ảnh AI là chữ trong ảnh. Thời DALL-E 3, bạn bảo nó viết "Hello" trong ảnh, kết quả có thể là "Hellp" thậm chí "Hl10", các chữ cái nghiêng ngả như say rượu. GPT Image 1 đã tốt hơn nhiều, có thể xử lý các nhãn tiếng Anh đơn giản. Đến GPT Image 1.5, tỷ lệ hiển thị chính xác chữ tiếng Anh của nó đã gần 95%, nhưng vẫn có khiếm khuyết rõ ràng với các hệ thống chữ không phải Latinh như tiếng Trung, Nhật, Hàn.
Và các ảnh mẫu bị rò rỉ của GPT Image 2 đã thay đổi ấn tượng này.
@MrLarus https://x.com/MrLarus/status/2044824800909054181
@akokoi1 https://x.com/akokoi1/status/2044789531615056175
Chữ trong ảnh, là gì ra nấy. Chữ Trung rõ ràng, hình chữ chính xác, nét chữ hoàn chỉnh. Có người thử tạo một bức ảnh kiểu chứng minh thư, họ tên, địa chỉ, số giấy tờ đều được hiển thị chính xác, bố cục chỉn chu, nhìn sơ qua giống ảnh chụp tài liệu thật.
Đây là một tin tốt. Sự tiến bộ trong hiển thị chữ có nghĩa là việc tạo biểu đồ thông tin, poster, bao bì sản phẩm, biểu đồ có bố cục phức tạp đều trở nên đáng tin cậy hơn.
Nhưng đồng xu nào cũng có hai mặt. Một mô hình có thể tạo ra ảnh kiểu giấy tờ giả giống thật, hiển thị chính xác ảnh chụp màn hình giao diện người dùng, tự nhiên cũng khiến việc "ảnh chụp màn hình có thể làm bằng chứng" ngày càng trở nên đáng ngờ.
So sánh mà xem, đây cũng là điểm khác biệt cốt lõi giữa dòng GPT Image và các mô hình khác. Midjourney đến nay vẫn chưa có tiến triển gì trong hiển thị chữ, dòng Stable Diffusion cũng là vấn đề cũ. Theo kết quả kiểm tra Arena bị rò rỉ, GPT Image 2 vượt trội Midjourney trên cả bốn chiều: hiển thị chữ, tuân theo chỉ dẫn, cảm giác chân thực của ảnh chụp và kiến thức thế giới, ưu thế của Midjourney chủ yếu chỉ còn lại ở kiểm soát phong cách nghệ thuật và mỹ học.
Nó có thực sự biết thế giới này trông như thế nào không
Người kiểm tra yêu cầu mô hình tạo một trang định giá sản phẩm GPT-8 giả tưởng, kết quả cho ra bức ảnh có bố cục đúng là phong cách trang web chính thức của OpenAI, vị trí nút bấm và phông chữ được chọn giống như chụp từ giao diện thật, logic phân cấp của bảng giá cũng đúng.
GPT Image 2 có thể tạo ra hình ảnh cực kỳ giống với giao diện phần mềm thực tế, bao gồm cửa sổ trình duyệt, giao diện ứng dụng di động, biểu đồ trực quan hóa dữ liệu, độ trung thực là thế hệ sản phẩm trước không thể so sánh được.
@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067
@levelsio https://x.com/levelsio/status/2040333489476681758
Điều này sẽ mang lại một số công dụng thực tế rất thú vị. Khi thiết kế làm nguyên mẫu sản phẩm, không cần mở Figma vẽ một đống khung trước, trực tiếp dùng mô tả bằng chữ cho giao diện muốn có, kết quả cho ra ngay một bức ảnh tham khảo có thể dùng để thảo luận với team. Khi làm Deck cho nhà đầu tư, không cần đợi kỹ sư viết code đã có thể展示 một "ảnh chụp màn hình sản phẩm". Khi viết tài liệu, giao diện mẫu dùng để minh họa có thể được tạo trực tiếp, không cần đối mặt với trang trắng nghĩ xem chụp ảnh từ đâu.
@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
Việc tạo ảnh, đã không chỉ là "tạo ảnh" nữa
OpenAI đã thông báo DALL-E 2 và DALL-E 3 sẽ chính thức ngừng dịch vụ vào ngày 12 tháng 5 năm 2026. DALL-E 3 của Azure OpenAI đã nghỉ hưu sớm vào tháng 2.
DALL-E là nơi lần đầu tiên nhiều người tiếp xúc với tạo ảnh AI, từ những tác phẩm mờ nhạt thời kỳ đầu đến nay, mới chỉ vài năm ngắn ngủi.
Đồng thời, Google, vừa mới xác lập vị thế ngành đầu năm 2026 nhờ Nano Banana Pro, có lẽ sẽ cảm thấy áp lực. Báo cáo kiểm tra ban đầu cho thấy, GPT Image 2 đồng thời vượt trội Nano Banana Pro trên cả ba chiều: cảm giác chân thực, hiển thị chữ và kiến thức thế giới, kiểu thắng cả ba như này không phổ biến.
Đối với người sáng tạo, cảm nhận rất phức tạp. Họa sĩ minh họa, nhà thiết kế đồ họa, nhiếp ảnh gia, đây không phải là lần đầu đối mặt với chủ đề này. Kể từ khi GPT Image 1 ra mắt, số lượng vị trí thiết kế đồ họa tự do đã giảm khoảng 18%. AI trong một số trường hợp thực sự thay thế quyết định "tôi cần thuê một người làm việc này", nhưng nó cũng đang tạo ra cách làm việc mới, khiến một người có thể làm được nhiều việc hơn.
Tốc độ tiến hóa của mô hình tạo ảnh, đã không còn cho con người quá nhiều thời gian thích ứng. GPT Image 1 từ lúc ra mắt đến 1.5, chỉ vài tháng. Từ 1.5 lên 2, cũng chỉ khoảng nửa năm. Mỗi thế hệ đều giải quyết điểm yếu cốt lõi của thế hệ trước, đồng thời mở ra khả năng mới.
GPT Image 2 hiện vẫn đang trong giai đoạn thử nghiệm A/B, một số người dùng ChatGPT ngẫu nhiên đã có quyền truy cập. Khung thời gian ra mắt chính thức, dự đoán phổ biến là quanh thời điểm DALL-E nghỉ hưu vào tháng 5. Muốn trải nghiệm trước, hiện có thể thử vận may trên nền tảng đánh giá LM Arena.
Địa chỉ thử nghiệm: https://arena.ai
Theo phản hồi cộng đồng và ưu thế đã biết của mô hình này, các mẫu prompt sau đây có thể tối đa hóa tỷ lệ thành công của bạn:
Prompt giao diện/ảnh chụp màn hình: Một ảnh chụp màn hình ứng dụng ngân hàng di động chân thực như ảnh chụp, hiển thị rõ ràng lịch sử giao dịch, trong đó ngày tháng, số tiền và tên cửa hàng có thể phân biệt rõ ràng. Màn hình iPhone 16, cầm điện thoại tự nhiên, nền quán cà phê.
Prompt nhãn sản phẩm: Một ảnh chụp sản phẩm chai bia thủ công chân thực như ảnh chụp, chi tiết nhãn rõ ràng, hiển thị tên nhà máy bia "Oakridge Brewing Co.", nồng độ cồn 6.8%, logo núi và bảng thành phần. Ánh sáng trong studio, nền trắng.
Prompt biển hiệu: Một bức ảnh cảnh đường phố trong ngõ hẻm Tokyo ban đêm, có thể thấy nhiều biển hiệu đèn neon song ngữ Nhật-Anh, bao gồm biển hiệu tiệm mì ramen có chữ "Ichiban Ramen — Est. 1987", biển hiệu quán bar karaoke và các biển quảng cáo phát sáng khác. Vỉa hè trơn trượt sau mưa in bóng ánh đèn.
Prompt kiến thức giao diện/thế giới: Một ảnh chụp màn hình YouTube chân thực như ảnh chụp,展示了一段名为"如何在 2026 年组装电脑"的视频 (展示了一个 video có tên "Cách lắp ráp máy tính năm 2026"), video này có 2.3 triệu lượt xem, kèm theo phần bình luận chân thực, video đề xuất trên thanh bên và thông tin kênh. Góc nhìn trình duyệt desktop.
Prompt kích hoạt màn hình rộng: Đây là một bức ảnh màn ảnh rộng như trong phim, chụp bề ngoài cửa hàng IKEA vào lúc hoàng hôn,展示发光的宜家招牌 (展示 biển hiệu IKEA phát sáng), bãi đậu xe có ô tô chân thực, và người mua sắm ra vào. Ánh sáng giờ vàng, định dạng 16:9.
Nguồn ảnh và tham khảo chưa ghi chú: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
Bài viết từ tài khoản công chúng WeChat "APPSO", tác giả: 发现明日产品的 (Phát Hiện Sản Phẩm Ngày Mai)






















