Mô hình tạo ảnh rò rỉ còn hot hơn cả Nano Banana, ảnh chụp màn hình không còn là bằng chứng nữa | Kèm prompt

marsbitXuất bản vào 2026-04-19Cập nhật gần nhất vào 2026-04-19

Tóm tắt

Bài viết thảo luận về sự xuất hiện của mô hình tạo ảnh AI mới có tên gọi là GPT Image 2, được cho là của OpenAI phát triển, dựa trên các mẫu thử nghiệm rò rỉ từ nền tảng LM Arena. Mô hình này được đánh giá là vượt trội so với các đối thủ như Nano Banana Pro của Google và Midjourney, đặc biệt ở khả năng hiển thị văn bản chính xác (bao gồm cả chữ Hán, Nhật, Hàn), tạo giao diện người dùng (UI) chân thực, và tuân thủ chỉ dẫn. GPT Image 2 có thể tạo ra các hình ảnh giống như ảnh chụp màn hình thật, chẳng hạn như giao diện ứng dụng ngân hàng, trang định giá sản phẩm, thậm chí là giấy tờ tùy thân, khiến cho việc sử dụng ảnh chụp màn hình làm bằng chứng trở nên khó tin cậy hơn. Mô hình này hứa hẹn mang lại nhiều ứng dụng thực tế cho thiết kế, tài liệu và trình bày ý tưởng. Dự kiến, GPT Image 2 sẽ được chính thức ra mắt vào khoảng tháng 5/2026, thay thế cho DALL-E 2 và DALL-E 3. Bài viết cũng cung cấp một số gợi ý (prompt) để tận dụng tối đa khả năng của mô hình này trong việc tạo ảnh.

Bạn vẫn còn ấn tượng với việc tạo ảnh từ văn bản chỉ ở mức Nano Banana sao?

Nhưng này, thời đại đã thay đổi rồi.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Đầu tháng 4, trên nền tảng đánh giá LM Arena xuất hiện ba mô hình ảnh ẩn danh, mã hiệu lần lượt là maskingtape-alpha, packingtape-alpha, gaffertape-alpha. Vài giờ sau chúng biến mất.

OpenAI chính thức vẫn chưa công bố mô hình này, nhưng dựa vào siêu dữ liệu trả về từ API và bản ghi kiểm tra từ phía người dùng, nó đã có một cái tên được chấp nhận rộng rãi: GPT Image 2.

Ảnh chụp màn hình không thể dùng làm bằng chứng nữa

Vài năm qua, một trong những điểm yếu rõ ràng nhất của mô hình tạo ảnh AI là chữ trong ảnh. Thời DALL-E 3, bạn bảo nó viết "Hello" trong ảnh, kết quả có thể là "Hellp" thậm chí "Hl10", các chữ cái nghiêng ngả như say rượu. GPT Image 1 đã tốt hơn nhiều, có thể xử lý các nhãn tiếng Anh đơn giản. Đến GPT Image 1.5, tỷ lệ hiển thị chính xác chữ tiếng Anh của nó đã gần 95%, nhưng vẫn có khiếm khuyết rõ ràng với các hệ thống chữ không phải Latinh như tiếng Trung, Nhật, Hàn.

Và các ảnh mẫu bị rò rỉ của GPT Image 2 đã thay đổi ấn tượng này.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Chữ trong ảnh, là gì ra nấy. Chữ Trung rõ ràng, hình chữ chính xác, nét chữ hoàn chỉnh. Có người thử tạo một bức ảnh kiểu chứng minh thư, họ tên, địa chỉ, số giấy tờ đều được hiển thị chính xác, bố cục chỉn chu, nhìn sơ qua giống ảnh chụp tài liệu thật.

Đây là một tin tốt. Sự tiến bộ trong hiển thị chữ có nghĩa là việc tạo biểu đồ thông tin, poster, bao bì sản phẩm, biểu đồ có bố cục phức tạp đều trở nên đáng tin cậy hơn.

Nhưng đồng xu nào cũng có hai mặt. Một mô hình có thể tạo ra ảnh kiểu giấy tờ giả giống thật, hiển thị chính xác ảnh chụp màn hình giao diện người dùng, tự nhiên cũng khiến việc "ảnh chụp màn hình có thể làm bằng chứng" ngày càng trở nên đáng ngờ.

So sánh mà xem, đây cũng là điểm khác biệt cốt lõi giữa dòng GPT Image và các mô hình khác. Midjourney đến nay vẫn chưa có tiến triển gì trong hiển thị chữ, dòng Stable Diffusion cũng là vấn đề cũ. Theo kết quả kiểm tra Arena bị rò rỉ, GPT Image 2 vượt trội Midjourney trên cả bốn chiều: hiển thị chữ, tuân theo chỉ dẫn, cảm giác chân thực của ảnh chụp và kiến thức thế giới, ưu thế của Midjourney chủ yếu chỉ còn lại ở kiểm soát phong cách nghệ thuật và mỹ học.

Nó có thực sự biết thế giới này trông như thế nào không

Người kiểm tra yêu cầu mô hình tạo một trang định giá sản phẩm GPT-8 giả tưởng, kết quả cho ra bức ảnh có bố cục đúng là phong cách trang web chính thức của OpenAI, vị trí nút bấm và phông chữ được chọn giống như chụp từ giao diện thật, logic phân cấp của bảng giá cũng đúng.

GPT Image 2 có thể tạo ra hình ảnh cực kỳ giống với giao diện phần mềm thực tế, bao gồm cửa sổ trình duyệt, giao diện ứng dụng di động, biểu đồ trực quan hóa dữ liệu, độ trung thực là thế hệ sản phẩm trước không thể so sánh được.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Điều này sẽ mang lại một số công dụng thực tế rất thú vị. Khi thiết kế làm nguyên mẫu sản phẩm, không cần mở Figma vẽ một đống khung trước, trực tiếp dùng mô tả bằng chữ cho giao diện muốn có, kết quả cho ra ngay một bức ảnh tham khảo có thể dùng để thảo luận với team. Khi làm Deck cho nhà đầu tư, không cần đợi kỹ sư viết code đã có thể展示 một "ảnh chụp màn hình sản phẩm". Khi viết tài liệu, giao diện mẫu dùng để minh họa có thể được tạo trực tiếp, không cần đối mặt với trang trắng nghĩ xem chụp ảnh từ đâu.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Việc tạo ảnh, đã không chỉ là "tạo ảnh" nữa

OpenAI đã thông báo DALL-E 2 và DALL-E 3 sẽ chính thức ngừng dịch vụ vào ngày 12 tháng 5 năm 2026. DALL-E 3 của Azure OpenAI đã nghỉ hưu sớm vào tháng 2.

DALL-E là nơi lần đầu tiên nhiều người tiếp xúc với tạo ảnh AI, từ những tác phẩm mờ nhạt thời kỳ đầu đến nay, mới chỉ vài năm ngắn ngủi.

Đồng thời, Google, vừa mới xác lập vị thế ngành đầu năm 2026 nhờ Nano Banana Pro, có lẽ sẽ cảm thấy áp lực. Báo cáo kiểm tra ban đầu cho thấy, GPT Image 2 đồng thời vượt trội Nano Banana Pro trên cả ba chiều: cảm giác chân thực, hiển thị chữ và kiến thức thế giới, kiểu thắng cả ba như này không phổ biến.

Đối với người sáng tạo, cảm nhận rất phức tạp. Họa sĩ minh họa, nhà thiết kế đồ họa, nhiếp ảnh gia, đây không phải là lần đầu đối mặt với chủ đề này. Kể từ khi GPT Image 1 ra mắt, số lượng vị trí thiết kế đồ họa tự do đã giảm khoảng 18%. AI trong một số trường hợp thực sự thay thế quyết định "tôi cần thuê một người làm việc này", nhưng nó cũng đang tạo ra cách làm việc mới, khiến một người có thể làm được nhiều việc hơn.

Tốc độ tiến hóa của mô hình tạo ảnh, đã không còn cho con người quá nhiều thời gian thích ứng. GPT Image 1 từ lúc ra mắt đến 1.5, chỉ vài tháng. Từ 1.5 lên 2, cũng chỉ khoảng nửa năm. Mỗi thế hệ đều giải quyết điểm yếu cốt lõi của thế hệ trước, đồng thời mở ra khả năng mới.

GPT Image 2 hiện vẫn đang trong giai đoạn thử nghiệm A/B, một số người dùng ChatGPT ngẫu nhiên đã có quyền truy cập. Khung thời gian ra mắt chính thức, dự đoán phổ biến là quanh thời điểm DALL-E nghỉ hưu vào tháng 5. Muốn trải nghiệm trước, hiện có thể thử vận may trên nền tảng đánh giá LM Arena.

Địa chỉ thử nghiệm: https://arena.ai

Theo phản hồi cộng đồng và ưu thế đã biết của mô hình này, các mẫu prompt sau đây có thể tối đa hóa tỷ lệ thành công của bạn:

Prompt giao diện/ảnh chụp màn hình: Một ảnh chụp màn hình ứng dụng ngân hàng di động chân thực như ảnh chụp, hiển thị rõ ràng lịch sử giao dịch, trong đó ngày tháng, số tiền và tên cửa hàng có thể phân biệt rõ ràng. Màn hình iPhone 16, cầm điện thoại tự nhiên, nền quán cà phê.

Prompt nhãn sản phẩm: Một ảnh chụp sản phẩm chai bia thủ công chân thực như ảnh chụp, chi tiết nhãn rõ ràng, hiển thị tên nhà máy bia "Oakridge Brewing Co.", nồng độ cồn 6.8%, logo núi và bảng thành phần. Ánh sáng trong studio, nền trắng.

Prompt biển hiệu: Một bức ảnh cảnh đường phố trong ngõ hẻm Tokyo ban đêm, có thể thấy nhiều biển hiệu đèn neon song ngữ Nhật-Anh, bao gồm biển hiệu tiệm mì ramen có chữ "Ichiban Ramen — Est. 1987", biển hiệu quán bar karaoke và các biển quảng cáo phát sáng khác. Vỉa hè trơn trượt sau mưa in bóng ánh đèn.

Prompt kiến thức giao diện/thế giới: Một ảnh chụp màn hình YouTube chân thực như ảnh chụp,展示了一段名为"如何在 2026 年组装电脑"的视频 (展示了一个 video có tên "Cách lắp ráp máy tính năm 2026"), video này có 2.3 triệu lượt xem, kèm theo phần bình luận chân thực, video đề xuất trên thanh bên và thông tin kênh. Góc nhìn trình duyệt desktop.

Prompt kích hoạt màn hình rộng: Đây là một bức ảnh màn ảnh rộng như trong phim, chụp bề ngoài cửa hàng IKEA vào lúc hoàng hôn,展示发光的宜家招牌 (展示 biển hiệu IKEA phát sáng), bãi đậu xe có ô tô chân thực, và người mua sắm ra vào. Ánh sáng giờ vàng, định dạng 16:9.

Nguồn ảnh và tham khảo chưa ghi chú: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Bài viết từ tài khoản công chúng WeChat "APPSO", tác giả: 发现明日产品的 (Phát Hiện Sản Phẩm Ngày Mai)

Câu hỏi Liên quan

QMô hình GPT Image 2 đã được phát triển như thế nào và tại sao nó được coi là một bước tiến lớn so với các mô hình trước đó?

AGPT Image 2 xuất hiện dưới dạng rò rỉ từ nền tảng LM Arena với ba mô hình ẩn danh: maskingtape-alpha, packingtape-alpha và gaffertape-alpha. Nó được coi là một bước tiến lớn vì khả năng hiển thị văn bản chính xác, bao gồm cả chữ Latin và không Latin (như tiếng Trung, Nhật, Hàn), độ trung thực cao trong giao diện người dùng và kiến thức thế giới vượt trội so với các mô hình như DALL-E 3, Midjourney hay Nano Banana Pro.

QTại sao bài viết nói rằng 'ảnh chụp màn hình không còn là bằng chứng đáng tin cậy' sau khi GPT Image 2 xuất hiện?

AVì GPT Image 2 có thể tạo ra hình ảnh giả mạo chất lượng cao, như giấy tờ tùy thân, giao diện ứng dụng hoặc ảnh chụp màn hình phần mềm với văn bản chính xác và bố cục chân thực. Điều này làm cho việc phân biệt giữa ảnh thật và ảnh do AI tạo ra trở nên khó khăn, làm giảm độ tin cậy của ảnh chụp màn hình như bằng chứng.

QGPT Image 2 vượt trội hơn các mô hình sinh ảnh khác như Midjourney và Nano Banana Pro ở những khía cạnh nào?

AGPT Image 2 vượt trội trong bốn khía cạnh: hiển thị văn bản chính xác, tuân thủ chỉ dẫn, độ trung thực của ảnh chụp và kiến thức thế giới. Trong khi Midjourney vẫn mạnh về phong cách nghệ thuật, GPT Image 2 cho kết quả tổng thể tốt hơn, đặc biệt trong việc tạo giao diện người dùng và văn bản phức tạp.

QLàm thế nào để trải nghiệm GPT Image 2 trước khi nó được chính thức ra mắt?

AHiện tại, một số người dùng ChatGPT đã có quyền truy cập ngẫu nhiên thông qua kiểm tra A/B. Bạn cũng có thể thử vận may trên nền tảng đánh giá LM Arena tại địa chỉ https://arena.ai để trải nghiệm mô hình này.

QNhững gợi ý (prompt) nào được đề xuất để tận dụng tối đa khả năng của GPT Image 2?

ACác gợi ý hiệu quả bao gồm: tạo ảnh chụp màn hình giao diện người dùng chân thực (ví dụ: ứng dụng ngân hàng), nhãn sản phẩm chi tiết (ví dụ: chai bia), biển hiệu đa ngôn ngữ, ảnh chụp giao diện phần mềm (ví dụ: YouTube) và ảnh wide-screen mang phong cách điện ảnh (ví dụ: cửa hàng Ikea).

Nội dung Liên quan

DeFi Lại Bị Đánh Cắp 292 Triệu USD, Liệu Aave Còn An Toàn?

Ngày 19/4, giao thức Kelp DAO đã hứng chịu một vụ tấn công bảo mật nghiêm trọng, với thiệt hại ước tính lên tới 292 triệu USD. Vụ việc xảy ra khi hợp đồng bridge rsETH dựa trên LayerZero của giao thức này bị khai thác, dẫn đến việc 116.500 rsETH bị đánh cắp. Theo phân tích, nguyên nhân gốc rễ được xác định là do "khóa private key trên chain nguồn bị xâm phạm". Hacker sau đó đã sử dụng số tài sản đánh cắp làm tài sản thế chấp trên các giao thức cho vay như Aave, Compound và Euler để vay ra hơn 236 triệu USD WETH, chủ yếu tập trung trên Aave với khoản nợ 196 triệu USD. Aave đã nhanh chóng đóng băng thị trường rsETH trên các phiên bản V3 và V4 để ngăn chặn thiệt hại thêm và thông báo sẽ khám phá các biện pháp bù đắp nếu phát sinh nợ xấu. Mặc dù quỹ an ninh Umbrella của Aave có khoảng 50 triệu USD để xử lý các khoản lỗ tiềm ẩn, quy mô nợ xấu cuối cùng vẫn chưa được xác định rõ. Sự kiện này một lần nữa làm dấy lên lo ngại về tính bảo mật trong không gian DeFi, ngay cả với các giao thức hàng đầu như Aave cũng có thể bị ảnh hưởng gián tiếp. Người dùng được khuyến cáo nên quản lý danh mục đầu tư một cách thận trọng.

Odaily星球日报4 giờ trước

DeFi Lại Bị Đánh Cắp 292 Triệu USD, Liệu Aave Còn An Toàn?

Odaily星球日报4 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua BANANA

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Banana Gun (BANANA) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Banana Gun (BANANA) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Banana Gun (BANANA) của BạnSau khi mua Banana Gun (BANANA), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Banana Gun (BANANA)Giao dịch Banana Gun (BANANA) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 119Xuất bản vào 2024.12.11Cập nhật vào 2025.03.21

Làm thế nào để Mua BANANA

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của BANANA (BANANA) được trình bày dưới đây.

活动图片