Mô hình tạo ảnh rò rỉ còn hot hơn cả Nano Banana, ảnh chụp màn hình không còn là bằng chứng nữa | Kèm prompt

marsbitDipublikasikan tanggal 2026-04-19Terakhir diperbarui pada 2026-04-19

Abstrak

Bài viết thảo luận về sự xuất hiện của mô hình tạo ảnh AI mới có tên gọi là GPT Image 2, được cho là của OpenAI phát triển, dựa trên các mẫu thử nghiệm rò rỉ từ nền tảng LM Arena. Mô hình này được đánh giá là vượt trội so với các đối thủ như Nano Banana Pro của Google và Midjourney, đặc biệt ở khả năng hiển thị văn bản chính xác (bao gồm cả chữ Hán, Nhật, Hàn), tạo giao diện người dùng (UI) chân thực, và tuân thủ chỉ dẫn. GPT Image 2 có thể tạo ra các hình ảnh giống như ảnh chụp màn hình thật, chẳng hạn như giao diện ứng dụng ngân hàng, trang định giá sản phẩm, thậm chí là giấy tờ tùy thân, khiến cho việc sử dụng ảnh chụp màn hình làm bằng chứng trở nên khó tin cậy hơn. Mô hình này hứa hẹn mang lại nhiều ứng dụng thực tế cho thiết kế, tài liệu và trình bày ý tưởng. Dự kiến, GPT Image 2 sẽ được chính thức ra mắt vào khoảng tháng 5/2026, thay thế cho DALL-E 2 và DALL-E 3. Bài viết cũng cung cấp một số gợi ý (prompt) để tận dụng tối đa khả năng của mô hình này trong việc tạo ảnh.

Bạn vẫn còn ấn tượng với việc tạo ảnh từ văn bản chỉ ở mức Nano Banana sao?

Nhưng này, thời đại đã thay đổi rồi.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Đầu tháng 4, trên nền tảng đánh giá LM Arena xuất hiện ba mô hình ảnh ẩn danh, mã hiệu lần lượt là maskingtape-alpha, packingtape-alpha, gaffertape-alpha. Vài giờ sau chúng biến mất.

OpenAI chính thức vẫn chưa công bố mô hình này, nhưng dựa vào siêu dữ liệu trả về từ API và bản ghi kiểm tra từ phía người dùng, nó đã có một cái tên được chấp nhận rộng rãi: GPT Image 2.

Ảnh chụp màn hình không thể dùng làm bằng chứng nữa

Vài năm qua, một trong những điểm yếu rõ ràng nhất của mô hình tạo ảnh AI là chữ trong ảnh. Thời DALL-E 3, bạn bảo nó viết "Hello" trong ảnh, kết quả có thể là "Hellp" thậm chí "Hl10", các chữ cái nghiêng ngả như say rượu. GPT Image 1 đã tốt hơn nhiều, có thể xử lý các nhãn tiếng Anh đơn giản. Đến GPT Image 1.5, tỷ lệ hiển thị chính xác chữ tiếng Anh của nó đã gần 95%, nhưng vẫn có khiếm khuyết rõ ràng với các hệ thống chữ không phải Latinh như tiếng Trung, Nhật, Hàn.

Và các ảnh mẫu bị rò rỉ của GPT Image 2 đã thay đổi ấn tượng này.

@MrLarus https://x.com/MrLarus/status/2044824800909054181

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Chữ trong ảnh, là gì ra nấy. Chữ Trung rõ ràng, hình chữ chính xác, nét chữ hoàn chỉnh. Có người thử tạo một bức ảnh kiểu chứng minh thư, họ tên, địa chỉ, số giấy tờ đều được hiển thị chính xác, bố cục chỉn chu, nhìn sơ qua giống ảnh chụp tài liệu thật.

Đây là một tin tốt. Sự tiến bộ trong hiển thị chữ có nghĩa là việc tạo biểu đồ thông tin, poster, bao bì sản phẩm, biểu đồ có bố cục phức tạp đều trở nên đáng tin cậy hơn.

Nhưng đồng xu nào cũng có hai mặt. Một mô hình có thể tạo ra ảnh kiểu giấy tờ giả giống thật, hiển thị chính xác ảnh chụp màn hình giao diện người dùng, tự nhiên cũng khiến việc "ảnh chụp màn hình có thể làm bằng chứng" ngày càng trở nên đáng ngờ.

So sánh mà xem, đây cũng là điểm khác biệt cốt lõi giữa dòng GPT Image và các mô hình khác. Midjourney đến nay vẫn chưa có tiến triển gì trong hiển thị chữ, dòng Stable Diffusion cũng là vấn đề cũ. Theo kết quả kiểm tra Arena bị rò rỉ, GPT Image 2 vượt trội Midjourney trên cả bốn chiều: hiển thị chữ, tuân theo chỉ dẫn, cảm giác chân thực của ảnh chụp và kiến thức thế giới, ưu thế của Midjourney chủ yếu chỉ còn lại ở kiểm soát phong cách nghệ thuật và mỹ học.

Nó có thực sự biết thế giới này trông như thế nào không

Người kiểm tra yêu cầu mô hình tạo một trang định giá sản phẩm GPT-8 giả tưởng, kết quả cho ra bức ảnh có bố cục đúng là phong cách trang web chính thức của OpenAI, vị trí nút bấm và phông chữ được chọn giống như chụp từ giao diện thật, logic phân cấp của bảng giá cũng đúng.

GPT Image 2 có thể tạo ra hình ảnh cực kỳ giống với giao diện phần mềm thực tế, bao gồm cửa sổ trình duyệt, giao diện ứng dụng di động, biểu đồ trực quan hóa dữ liệu, độ trung thực là thế hệ sản phẩm trước không thể so sánh được.

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758

Điều này sẽ mang lại một số công dụng thực tế rất thú vị. Khi thiết kế làm nguyên mẫu sản phẩm, không cần mở Figma vẽ một đống khung trước, trực tiếp dùng mô tả bằng chữ cho giao diện muốn có, kết quả cho ra ngay một bức ảnh tham khảo có thể dùng để thảo luận với team. Khi làm Deck cho nhà đầu tư, không cần đợi kỹ sư viết code đã có thể展示 một "ảnh chụp màn hình sản phẩm". Khi viết tài liệu, giao diện mẫu dùng để minh họa có thể được tạo trực tiếp, không cần đối mặt với trang trắng nghĩ xem chụp ảnh từ đâu.

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Việc tạo ảnh, đã không chỉ là "tạo ảnh" nữa

OpenAI đã thông báo DALL-E 2 và DALL-E 3 sẽ chính thức ngừng dịch vụ vào ngày 12 tháng 5 năm 2026. DALL-E 3 của Azure OpenAI đã nghỉ hưu sớm vào tháng 2.

DALL-E là nơi lần đầu tiên nhiều người tiếp xúc với tạo ảnh AI, từ những tác phẩm mờ nhạt thời kỳ đầu đến nay, mới chỉ vài năm ngắn ngủi.

Đồng thời, Google, vừa mới xác lập vị thế ngành đầu năm 2026 nhờ Nano Banana Pro, có lẽ sẽ cảm thấy áp lực. Báo cáo kiểm tra ban đầu cho thấy, GPT Image 2 đồng thời vượt trội Nano Banana Pro trên cả ba chiều: cảm giác chân thực, hiển thị chữ và kiến thức thế giới, kiểu thắng cả ba như này không phổ biến.

Đối với người sáng tạo, cảm nhận rất phức tạp. Họa sĩ minh họa, nhà thiết kế đồ họa, nhiếp ảnh gia, đây không phải là lần đầu đối mặt với chủ đề này. Kể từ khi GPT Image 1 ra mắt, số lượng vị trí thiết kế đồ họa tự do đã giảm khoảng 18%. AI trong một số trường hợp thực sự thay thế quyết định "tôi cần thuê một người làm việc này", nhưng nó cũng đang tạo ra cách làm việc mới, khiến một người có thể làm được nhiều việc hơn.

Tốc độ tiến hóa của mô hình tạo ảnh, đã không còn cho con người quá nhiều thời gian thích ứng. GPT Image 1 từ lúc ra mắt đến 1.5, chỉ vài tháng. Từ 1.5 lên 2, cũng chỉ khoảng nửa năm. Mỗi thế hệ đều giải quyết điểm yếu cốt lõi của thế hệ trước, đồng thời mở ra khả năng mới.

GPT Image 2 hiện vẫn đang trong giai đoạn thử nghiệm A/B, một số người dùng ChatGPT ngẫu nhiên đã có quyền truy cập. Khung thời gian ra mắt chính thức, dự đoán phổ biến là quanh thời điểm DALL-E nghỉ hưu vào tháng 5. Muốn trải nghiệm trước, hiện có thể thử vận may trên nền tảng đánh giá LM Arena.

Địa chỉ thử nghiệm: https://arena.ai

Theo phản hồi cộng đồng và ưu thế đã biết của mô hình này, các mẫu prompt sau đây có thể tối đa hóa tỷ lệ thành công của bạn:

Prompt giao diện/ảnh chụp màn hình: Một ảnh chụp màn hình ứng dụng ngân hàng di động chân thực như ảnh chụp, hiển thị rõ ràng lịch sử giao dịch, trong đó ngày tháng, số tiền và tên cửa hàng có thể phân biệt rõ ràng. Màn hình iPhone 16, cầm điện thoại tự nhiên, nền quán cà phê.

Prompt nhãn sản phẩm: Một ảnh chụp sản phẩm chai bia thủ công chân thực như ảnh chụp, chi tiết nhãn rõ ràng, hiển thị tên nhà máy bia "Oakridge Brewing Co.", nồng độ cồn 6.8%, logo núi và bảng thành phần. Ánh sáng trong studio, nền trắng.

Prompt biển hiệu: Một bức ảnh cảnh đường phố trong ngõ hẻm Tokyo ban đêm, có thể thấy nhiều biển hiệu đèn neon song ngữ Nhật-Anh, bao gồm biển hiệu tiệm mì ramen có chữ "Ichiban Ramen — Est. 1987", biển hiệu quán bar karaoke và các biển quảng cáo phát sáng khác. Vỉa hè trơn trượt sau mưa in bóng ánh đèn.

Prompt kiến thức giao diện/thế giới: Một ảnh chụp màn hình YouTube chân thực như ảnh chụp,展示了一段名为"如何在 2026 年组装电脑"的视频 (展示了一个 video có tên "Cách lắp ráp máy tính năm 2026"), video này có 2.3 triệu lượt xem, kèm theo phần bình luận chân thực, video đề xuất trên thanh bên và thông tin kênh. Góc nhìn trình duyệt desktop.

Prompt kích hoạt màn hình rộng: Đây là một bức ảnh màn ảnh rộng như trong phim, chụp bề ngoài cửa hàng IKEA vào lúc hoàng hôn,展示发光的宜家招牌 (展示 biển hiệu IKEA phát sáng), bãi đậu xe có ô tô chân thực, và người mua sắm ra vào. Ánh sáng giờ vàng, định dạng 16:9.

Nguồn ảnh và tham khảo chưa ghi chú: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Bài viết từ tài khoản công chúng WeChat "APPSO", tác giả: 发现明日产品的 (Phát Hiện Sản Phẩm Ngày Mai)

Kripto yang Sedang Tren

Pertanyaan Terkait

QMô hình GPT Image 2 đã được phát triển như thế nào và tại sao nó được coi là một bước tiến lớn so với các mô hình trước đó?

AGPT Image 2 xuất hiện dưới dạng rò rỉ từ nền tảng LM Arena với ba mô hình ẩn danh: maskingtape-alpha, packingtape-alpha và gaffertape-alpha. Nó được coi là một bước tiến lớn vì khả năng hiển thị văn bản chính xác, bao gồm cả chữ Latin và không Latin (như tiếng Trung, Nhật, Hàn), độ trung thực cao trong giao diện người dùng và kiến thức thế giới vượt trội so với các mô hình như DALL-E 3, Midjourney hay Nano Banana Pro.

QTại sao bài viết nói rằng 'ảnh chụp màn hình không còn là bằng chứng đáng tin cậy' sau khi GPT Image 2 xuất hiện?

AVì GPT Image 2 có thể tạo ra hình ảnh giả mạo chất lượng cao, như giấy tờ tùy thân, giao diện ứng dụng hoặc ảnh chụp màn hình phần mềm với văn bản chính xác và bố cục chân thực. Điều này làm cho việc phân biệt giữa ảnh thật và ảnh do AI tạo ra trở nên khó khăn, làm giảm độ tin cậy của ảnh chụp màn hình như bằng chứng.

QGPT Image 2 vượt trội hơn các mô hình sinh ảnh khác như Midjourney và Nano Banana Pro ở những khía cạnh nào?

AGPT Image 2 vượt trội trong bốn khía cạnh: hiển thị văn bản chính xác, tuân thủ chỉ dẫn, độ trung thực của ảnh chụp và kiến thức thế giới. Trong khi Midjourney vẫn mạnh về phong cách nghệ thuật, GPT Image 2 cho kết quả tổng thể tốt hơn, đặc biệt trong việc tạo giao diện người dùng và văn bản phức tạp.

QLàm thế nào để trải nghiệm GPT Image 2 trước khi nó được chính thức ra mắt?

AHiện tại, một số người dùng ChatGPT đã có quyền truy cập ngẫu nhiên thông qua kiểm tra A/B. Bạn cũng có thể thử vận may trên nền tảng đánh giá LM Arena tại địa chỉ https://arena.ai để trải nghiệm mô hình này.

QNhững gợi ý (prompt) nào được đề xuất để tận dụng tối đa khả năng của GPT Image 2?

ACác gợi ý hiệu quả bao gồm: tạo ảnh chụp màn hình giao diện người dùng chân thực (ví dụ: ứng dụng ngân hàng), nhãn sản phẩm chi tiết (ví dụ: chai bia), biển hiệu đa ngôn ngữ, ảnh chụp giao diện phần mềm (ví dụ: YouTube) và ảnh wide-screen mang phong cách điện ảnh (ví dụ: cửa hàng Ikea).

Bacaan Terkait

Korea Selatan Bergerak Mengatur Transfer Crypto Lintas Batas di Bawah Kerangka Kerja Baru

Pemerintah Korea Selatan berencana memasukkan perusahaan fintech ke dalam kerangka kerja perizinan baru untuk transfer aset virtual lintas batas, yang dijadwalkan berlaku pada Desember. Peraturan ini mewajibkan perusahaan yang melakukan transfer lintas batas menggunakan aset kripto untuk mendaftar di Kementerian Ekonomi dan Keuangan serta melaporkan transaksinya melalui sistem pelaporan devisa. Kerangka regulasi ini dibuat untuk membawa transfer lintas batas berbasis kripto ke dalam pengawasan formal, menyusul temuan bahwa banyak transfer aset digital beroperasi di luar sistem pengawasan devisa dan berpotensi digunakan untuk pencucian uang serta kejahatan. Aturan VASP (Virtual Asset Service Provider) yang ada saat ini terutama membatasi akses ke bursa kripto seperti Upbit dan Bithumb. Namun, regulator berencana memperluas cakupan entitas yang memenuhi syarat untuk mencakup pelaku non-tradisional, seperti perusahaan fintech, jika mereka dapat melakukan transfer tersebut secara efisien. Otoritas masih menganalisis proses perizinan dan kepatuhan bagi calon pelamar. Kementerian dan Bank of Korea terus berkolaborasi dengan pemangku kepentingan industri untuk menyelesaikan aturan implementasi sebelum peluncuran di Desember. Perkembangan ini sejalan dengan upaya Korea Selatan memperkuat pengawasan aset digital, termasuk aturan baru untuk sekuritisasi token yang dijadwalkan terbit pada Juli.

TheNewsCrypto1j yang lalu

Korea Selatan Bergerak Mengatur Transfer Crypto Lintas Batas di Bawah Kerangka Kerja Baru

TheNewsCrypto1j yang lalu

「Saham Konsep Nvidia」Wawancara dengan Co-Founder CoreWeave: Permintaan AI Terus Meningkat Setiap Hari

Wawancara dengan para eksekutif CoreWeave, penyedia cloud khusus AI, menggarisbawahi bahwa permintaan akan komputasi AI terus meningkat dan berkembang setiap hari, mendorong perubahan besar dalam infrastruktur. Fokus tidak lagi hanya pada ketersediaan GPU, tetapi meluas ke tantangan kompleks seperti daya untuk pusat data, CPU, penyimpanan, dan pasokan komponen. CoreWeave, yang melayani klien utama seperti OpenAI dan Microsoft, melihat pergeseran struktural dalam beban kerja AI. Dengan munculnya AI agen dan model penalaran, pentingnya CPU dan penyimpanan semakin meningkat. Perusahaan merancang ulang pusat datanya untuk mengakomodasi lebih banyak CPU (seperti Vera CPU dari Nvidia) dan penyimpanan di samping server GPU generasi mendatang (seperti Vera Rubin). Para eksekutif menekankan bahwa model bisnis mereka sepenuhnya didorong oleh kontrak dan permintaan pelanggan. Mereka bersaing berdasarkan rekam jejak eksekusi yang terbukti, kemampuan teknikal, dan kemampuan menyediakan kinerja serta efisiensi biaya per token terbaik. Saat ini, hambatan utama bukanlah GPU, melainkan ketersediaan "powered shells" (bangunan pusat data yang siap daya) dan komponen di dalamnya. Mereka juga menjelaskan bahwa biaya komponen seperti HBM (memori bandwidth tinggi) diteruskan kepada pelanggan melalui kontrak yang sudah ditetapkan sebelumnya, sehingga melindungi margin CoreWeave. Untuk generasi hardware baru seperti server Vera Rubin, pola deployment diperkirakan akan meningkat signifikan sekitar tahun 2027, mengikuti pola pendahulunya, platform Blackwell.

marsbit2j yang lalu

「Saham Konsep Nvidia」Wawancara dengan Co-Founder CoreWeave: Permintaan AI Terus Meningkat Setiap Hari

marsbit2j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli BANANA

Selamat datang di HTX.com! Kami telah membuat pembelian Banana Gun (BANANA) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Banana Gun (BANANA) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Banana Gun (BANANA) AndaSetelah melakukan pembelian, simpan Banana Gun (BANANA) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Banana Gun (BANANA)Lakukan trading Banana Gun (BANANA) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

165 Total TayanganDipublikasikan pada 2024.12.11Diperbarui pada 2026.06.02

Cara Membeli BANANA

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga BANANA (BANANA) disajikan di bawah ini.

活动图片