苹果用AI重新发明了图像压缩：同样画质，文件只要三分之一

marsbit发布于2026-05-30更新于2026-05-30

文章摘要

2025年2月，JPEG AI作为首个端到端学习型图像编码国际标准发布，标志着AI开始重写图像压缩的规则。然而，传统压缩技术优化的是PSNR等数学指标，而非人眼感知，导致压缩后图像可能出现边缘模糊、文字变形等问题。苹果团队近期提出的感知图像编解码器PICO，旨在直接针对人眼视觉体验进行优化。它通过三项关键技术解决核心难题：1. 采用“一次性上下文模型”，在保持编码精度的同时大幅提升速度；2. 引入TextFidelityLoss，专门保护图像中文字的清晰度，减少形变；3. 设计TilingArtifactLoss，有效消除图像分块处理产生的色块边界。大规模人类主观评测显示，在达到相同视觉质量时，PICO生成的文件大小仅为AV1、VVC、JPEG AI等标准的30%-43%，对比其他学习型感知编解码器也能节省20%-40%的码率。在iPhone 17 Pro Max上，编码一张1200万像素照片仅需230毫秒，具备实用速度。尽管PICO在处理卡通等高度规则化图像时效率不如传统编码器，但其成功将“感知压缩”从学术远景变为可在移动设备上运行的工程现实，代表了图像压缩从优化数学指标向优化人眼感知的重要转折。

一张图能压多小?

2025 年 2 月,国际图像专家组(JPEG)宣布了一件被行业低调庆祝的事:JPEG AI,这项历时多年、被寄予厚望的第一个端到端学习型图像编码国际标准,正式发布。

消息传开,不少研究者在社交媒体上转发,配上「AI 终于进了标准」的评论。

JPEG 标准诞生于 1992 年,三十多年来一直是人类数字图像的一门基础语言。而现在,人工智能开始接手重写这门语言的语法。

然而,庆祝背后有一个微妙的现实:即便是 JPEG AI,距离真正的「感知压缩」,仍有相当距离。

工程师们知道,传统衡量压缩质量的指标峰值信噪比(PSNR)其实和人眼看到的「好不好看」关系并不大。一张图在 PSNR 上得了高分,人看了却可能觉得平平无奇;而另一张 PSNR 偏低的图,人却觉得细节丰富、质感真实。优化数学指标,和优化人眼感知,是两件完全不同的事。

几十年来,从 JPEG 到 VVC,再到 JPEG AI,几乎所有编解码器的设计逻辑,都还是在数学指标的框架里兜圈子。感知压缩(直接针对人眼体验来优化)一直像是学术论文里的远景目标,而非可以装进手机的工程现实。

就在这个节骨眼上,苹果的一支工程师团队悄悄发了一篇论文,给出了他们的答案,代号:PICO。

论文标题:What Matters in Practical Learned Image Compression

论文地址:https://arxiv.org/pdf/2605.05148

为什么「看起来更好」比「数字更高」难得多?

理解 PICO 之前,先要理解图像压缩到底在做什么。

把一张照片存成文件,本质上是一道「忘记什么、记住什么」的取舍题。存储空间有限,就必须扔掉一部分信息,同时让看的人尽量察觉不到。不同的编解码器,遵循不同的「扔法」。

JPEG、AV1、VVC 等传统编解码器都是工程师手工设计的规则系统。它们把图像切块、变换、量化、熵编码,每一步都是数十年积累的人工经验。这类系统可以在 PSNR 这样的数学指标上表现极好,但它们的设计本质上是面向「减少像素误差」,而非「减少人眼不适感」。

问题在于,人眼并不是像素误差计。人眼对纹理、对文字、对细节的敏感程度,远比数学公式复杂。当你把一张街景照片压缩得很小,PSNR 可能依然体面,但你会看到建筑边缘模糊、路牌文字变形 —— 而这些,恰恰是人眼最先察觉的东西。

学习型编解码器的出现,理论上打开了一扇新门:神经网络可以直接针对人的感知进行端到端训练,而不是针对数学公式。但在 PICO 之前,已有的感知型学习编解码器,要么速度慢得无法实用,要么缺乏跨设备兼容性,要么无法灵活控制码率,根本装不进一款消费级产品。

三个核心问题,三种解法

PICO 的全称是 Perceptual Image Codec(感知图像编解码器)。这个名字直接点明了它的目标:让人眼满意。

研究团队系统探索了数百万种模型配置,并引入了几项关键技术创新。

第一个问题:熵编码慢,怎么办?

图像压缩里有一个难题:为了压得更小,编解码器需要用「熵模型」来精确估计每个像素的信息量。最精确的方法叫自回归编码:每压缩一个像素,都要先看看周围已压缩的像素,依次预测。这就像厨师每放一块食材,都要回头看看锅里的状态,才能决定下一步。精确,但极慢。

PICO 的解法是「一次性上下文模型」(One-shot Context Model):把熵编码里最关键的「尺度参数」单独拆出来,在一次前向传播中全部算完,不再需要来回等待;而其余参数可以并行计算,保留了自回归的精度,却绕开了它的速度瓶颈。结果是:去掉这个模块,模型性能下降 10.28%;加上它,速度几乎不受影响。

第二个问题:感知训练会产生幻觉,怎么办?

用 GAN(对抗神经网络)训练出来的图像往往「看起来很真实」,但可能是编造出来的真实 —— 头发丝变成了不存在的花纹,平滑表面多出了虚假纹理。更麻烦的是,人眼对文字极度敏感,哪怕一个字母变形一点点,就会立刻察觉。

PICO 针对文字专门设计了 TextFidelityLoss:用一个现成的文字检测器自动找出图中的文字区域,在这些区域强制施加严格的像素保真约束,同时压制 GAN 在文字区域的「发挥空间」。实验显示,加上这项损失函数后,文字区域的绝对误差降低了整整一半。

第三个问题:图像分块处理会留下色块边界,怎么办?

为了在手机芯片上快速运行,PICO 把图像切成一块块 504×504 像素的瓦片,分别处理再拼回去。但 GAN 在训练时倾向于忽略低频色彩,导致相邻瓦片之间常出现可见的色差,类似于修图时「没有拼好」的感觉。研究团队专门引入了 TilingArtifactLoss,一种多分辨率的 L1 损失,强制模型在多个空间频率上保持色彩一致。这项措施让瓦片边界的误差也下降了一半以上。

实验结果

苹果团队没有只靠基准评测指标说话。他们委托第三方平台 Mabyduck,组织了一次大规模的人类主观评测。

评测采用盲测两两对比的方式:610 位经过筛选的评测者(需通过色盲检测和压缩伪影辨别测试),对同一张图在不同编解码器下的重建结果进行配对比较,最终汇总为 Bayesian ELO 分数。共收集了 74,925 次配对比较结果。

最终数字说明了一切:在相同视觉质量下,PICO 的文件体积只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一 —— 换言之,存同样的图,它需要的比特数只有这些标准的 30%-43%。对比目前最强的学习型感知编解码器(HiFiC、MRIC 等),PICO 也节省了 20%-40% 的文件大小。

速度方面,在 iPhone 17 Pro Max 上,PICO 编码一张 12MP 的照片仅需 230 毫秒,解码只需 150 毫秒。而大多数顶级 ML 编解码器在 NVIDIA V100 服务器显卡上运行,都比这个慢。

值得注意的是,论文还专门记录了一个「反例」:在 PSNR 这个传统指标上,PICO 表现平平,甚至不如 DCVC-RT 和 VVC。这恰好印证了团队的基本判断:优化感知质量和优化数学指标,本质上是两个方向,鱼与熊掌不可兼得。

一个时代节点,而非终点

PICO 当然也有局限性。论文坦承,对于卡通、示意图等高度规则化的合成图像,PICO 的压缩效率不如传统编解码器,因为这类内容天然适合规则驱动的自回归建模,而非感知生成。

但这些局限并不掩盖这项工作的意义所在。

过去三十年,图像压缩的技术进步,几乎都发生在「让数字更好看」的赛道上。从 JPEG 到 HEVC,再到 VVC,工程师一代代优化的是 PSNR、SSIM 这类指标。而人眼的感知,始终是个被绕开的「难题」。

PICO 是第一次有人系统地把这道难题正面拆解:从架构搜索、损失函数设计,到大规模人类主观评测,并最终装进了一款可以在手机上实时运行的编解码器。

当你下一次用苹果设备分享一张照片,也许不会感受到任何不同。但或许在那个安静的压缩过程里,一套针对人眼感知量身打造的算法,正在决定哪些信息值得留下,哪些可以悄悄遗忘。

团队:从 WaveOne 到苹果

这篇论文的通讯作者是 Oren Rippel,苹果研究员,压缩领域的老面孔。

他的名字最早大规模出现,是在 2017 年。彼时他还在初创公司 WaveOne,发表了一篇名为「实时自适应图像压缩」的论文,用神经网络打败了当时所有主流编解码器,同时维持实时运行速度。那篇论文在学界引发了不小的波澜,也奠定了 Rippel 在学习型压缩领域的地位。

之后,同一批核心人员在 WaveOne 继续深耕,推出了面向视频压缩的 ELF-VC,在 UVG 视频测试集上相比 H.264 实现了 44% 的码率节省,同时运行速度比同类 ML 编解码器快五倍以上。

WaveOne 的这支团队后来整体加入苹果。而这次的 PICO,是他们带着苹果的算力和平台资源,在图像感知压缩上交出的第一份系统性答卷。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:压缩即智能

你可能也喜欢

Ondo Finance上涨14%，实体买入6100万美元ONDO – 后续是否还有上涨空间？

过去24小时内，Ondo Finance（ONDO）成为前100名加密货币中表现最佳的资产，涨幅超过14%。这一上涨主要由鲸鱼积累、永续合约交易量激增以及资产代币化叙事推动资本流入所致。数据显示，ONDO永续合约日交易量增长四倍，达到1.55亿美元，而现货DEX交易量保持平稳。同时，链上记录显示有实体从CoinBase Prime托管钱包分批转移了价值约6100万美元的ONDO，表明机构和大型投资者正在买入。从技术分析看，ONDO已于7月15日突破日线图上的三角整理形态，目前可能在0.34美元处形成更高的低点，但需日收盘价站稳0.40美元以上才能确认。MACD指标转绿，RSI位于64.71，均显示买方占优。上方关键阻力位在0.40美元、0.44美元及三角形态上沿0.48美元。若多头能借助大量买入势头突破这些阻力，上涨趋势有望延续；否则价格可能回落至0.34美元或0.30美元的起始支撑位。

ambcrypto23分钟前

Ondo Finance上涨14%，实体买入6100万美元ONDO – 后续是否还有上涨空间？

ambcrypto23分钟前

Zcash价格预测——Ironwood升级能否维持ZEC 37%的涨势？

Zcash（ZEC）自7月初Ironwood（NU6.3）升级在测试网部署以来，已上涨近37%。该升级旨在通过引入新的屏蔽池和验证机制，增强对Zcash屏蔽供应完整性的信心，是主网上线前的最后测试阶段。与此同时，此次升级也标志着长期运行的zcashd参考节点将逐步被基于Rust的新架构取代，这是Zcash历史上最重要的基础设施过渡之一。价格方面，ZEC在冲高后进入盘整，目前交易于546美元附近。日线RSI约为58，显示看涨动能犹存但已放缓。关键阻力位在560美元，突破后可能上探600美元；下方首要支撑在500美元区域，守住则维持当前上行结构。

ambcrypto49分钟前

ambcrypto49分钟前

BitMine增持7,430枚ETH，耗资8600万美元回购股票——原因何在？

Bitmine上周大幅放缓了增持以太坊（ETH）的步伐，仅购买了7,430 ETH，这是自5月以来的最低周购买量。此举是为了优先考虑股东回报。相比之下，公司花费了约1300万美元购买新ETH，但却投入了约8600万美元，以每股平均15.62美元的价格回购了550万股普通股。公司董事长托马斯·“汤姆”·李表示，他们视回购股份为对股东价值的增值。目前，Bitmine的国库持有约577.7万枚ETH，占ETH总流通供应量的4.8%，已接近其长期目标——持有5%的ETH。自2025年6月推出ETH国库策略以来，公司在短短12个月内已接近达成此里程碑。此外，Bitmine已通过其机构级验证器平台MAVAN质押了约492万枚ETH，占其持有量的85%。按当前2.67%的质押收益率估算，公司预计年质押收入可达2.47亿美元，若全部ETH被质押，收入可能增至约2.9亿美元。与此同时，ETH价格在过去一周上涨了7.44%，截至发稿时报1,929.35美元。文章末尾也提及了另一家公司Strategy在比特币策略上承受压力，但其仍持有大量比特币作为对比。

ambcrypto1小时前

ambcrypto1小时前

942万散户抢购长鑫科技，谁中签了？

长鑫科技IPO打新结果公布，网上散户中签率约为0.4714%，创下科创板新高。此次打新共有约942.88万户散户参与，网上最终发行38.51亿股，中签号码约770万个。网下285家机构获配21.73亿股，配售比例约0.1756%。其中，泰康资管获配最多，公募基金中易方达、南方基金和工银瑞信位列前三。私募方面，幻方量化创始人梁文锋旗下产品合计获配约1.75亿元，若公司市值达到3万亿元，其有望获利约7.3亿元。市场对长鑫科技的估值普遍在万亿元以上，华西证券给出了2万亿至3万亿元的估值区间。公司预计将于7月27日上市，但近期全球科技股回调可能对其股价表现产生影响。

marsbit1小时前

marsbit1小时前

USCR加密货币稳定在0.0022美元：这个Meme币能否扭转第二季度的亏损？

USCR加密货币（一种追踪美国官方加密储备动态的迷因币）在跌至0.0022美元的两个月低点后，显现出尝试复苏的迹象。该币价格在5月曾从0.0022美元暴涨超65%至0.0036美元，但在6月大幅回落，季度跌幅达37%。目前价格在5月低点附近趋稳，并试图突破短期关键移动平均线。若成功突破，可能上看0.0028美元（斐波那契50%回撤位），甚至挑战5月高点0.0036美元，这意味着潜在涨幅为30%-60%。然而，其价格情绪与美国比特币战略储备的进展紧密相关。5月的暴涨源于美国建立BTC储备的预期概率从22%升至36%以上，且有超过21名议员提出相关法案。但目前该法案在委员会阶段停滞，立法日程缩短，Polymarket预测2027年前成立该储备的概率仅为18%，降至年度低点，这压制了USCR的反弹前景。尽管美国加密储备的正式法律框架前景不明，但USCR持有者基础依然稳固，据CoinMarketCap数据，2026年仅从5.4万小幅减少至4.8万。最终，除非BTC储备法案取得积极进展，否则USCR的复苏可能难以实现或中途停滞。

ambcrypto2小时前

ambcrypto2小时前

交易

现货

苹果用AI重新发明了图像压缩：同样画质，文件只要三分之一

文章摘要

为什么「看起来更好」比「数字更高」难得多?

三个核心问题,三种解法

第一个问题:熵编码慢,怎么办?

第二个问题:感知训练会产生幻觉,怎么办?

第三个问题:图像分块处理会留下色块边界,怎么办?

实验结果

一个时代节点,而非终点

团队:从 WaveOne 到苹果

热门币种推荐

相关问答

你可能也喜欢

Ondo Finance上涨14%，实体买入6100万美元ONDO – 后续是否还有上涨空间？

Zcash价格预测——Ironwood升级能否维持ZEC 37%的涨势？

BitMine增持7,430枚ETH，耗资8600万美元回购股票——原因何在？

942万散户抢购长鑫科技，谁中签了？

USCR加密货币稳定在0.0022美元：这个Meme币能否扭转第二季度的亏损？

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签