当前位置：首页 > 元宇宙 > AI

苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

来源：责编：时间：2025-09-30 10:16:19 208观看

导读 9 月 27 日消息，苹果正在研发一款名为 Manzano 的新图像模型，旨在同时具备图像理解与图像生成两大能力。不过目前 Manzano 尚未正式发布，也没有演示 Demo，只有一篇作者绝大多数都是华人的预印本论文（包括已经跳槽

9 月 27 日消息，苹果正在研发一款名为 Manzano 的新图像模型，旨在同时具备图像理解与图像生成两大能力。

不过目前 Manzano 尚未正式发布，也没有演示 Demo，只有一篇作者绝大多数都是华人的预印本论文（包括已经跳槽到 Meta 的庞若鸣），还展示了部分低分辨率图像样例，涵盖较复杂的提示场景。

苹果表示，这一双重功能长期以来是技术难点，使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。

苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比，结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation（注：原代号 Nano Banana）。

苹果指出，大多数开源模型在图像处理上存在取舍：要么擅长图像分析，要么擅长图像生成，而商业系统通常能兼顾。尤其在涉及大量文本的任务（如文档阅读、图表解读）时，现有模型表现不佳。问题根源在于图像处理方式：连续数据流更适合理解，而离散符号则更适合生成，多数模型为这两类任务分配不同工具，易引发冲突。

为此，Manzano 采用了混合图像分词器。其共享编码器可输出两类标记：连续标记（用于图像理解，以浮点数形式表达）和离散标记（用于图像生成，按固定类别划分）。由于二者源自同一编码器，因此其任务冲突显著减少。

Manzano 的整体架构包括三部分：混合分词器、统一语言模型，以及独立的图像解码器。苹果为解码器构建了三个版本，参数规模分别为 9 亿、17.5 亿和 35.2 亿，支持 256 像素至 2048 像素分辨率。

训练过程分为三个阶段，使用 23 亿对图像-文本样本（来自公开和内部数据），以及 10 亿对文本-图像样本，总计处理 1.6 万亿标记。部分训练数据来自合成生成，如 DALL-E3 和 ShareGPT-4o。

在内部测试中，Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异，尤其在图表和文档分析等文字密集型任务中，300 亿参数版本成绩突出。扩展测试显示，模型性能随规模提升而持续改善，例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

苹果还将统一模型与专业化系统对比，差距仅为个位数分值：在 30 亿参数版本中，差距不到 1 分。在图像生成测试中，Manzano 亦接近前列，可执行复杂指令、风格迁移、图像叠加与深度估计等任务。

苹果认为，Manzano 是现有模型的有力替代方案，其模块化设计可支持各部分独立更新，并借鉴不同研究领域的训练方法，有潜力推动未来多模态 AI 的发展。

不过，目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架，苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展，但是否能减少对外部模型的依赖，还需未来版本进一步验证。

本文链接：http://www.28at.com/showinfo-45-28181-0.html苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：著名机器人专家警告：投资人形机器人初创企业是浪费资金

下一篇：不造机器人只做系统，Meta 的野心是成为“机器人界的安卓”

标签：

热门焦点

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙的表现形式大多以游戏为起点，并逐渐整合互联网、数字化娱乐、社交网络等功能，长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
中文在线的“元宇宙”故事，资本听腻了？

被誉为“元宇宙”龙头之一的中文在线，这下尴尬了。2022年1月11日，中国移动通信联合会元宇宙产业委员会揭牌，接纳涉足“元宇宙”的8家上市公司，包括中青宝、天下秀
有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

你还不知道元宇宙？没关系。看看微软、Meta、英伟达的雄心壮志，便可领略元宇宙的辽阔。1月18日，微软宣布将以687亿美元收购动视暴雪，这是有史以来互联网领域最大的
完美世界被元宇宙“拒之门外”

春节期间，游戏是消磨时间最好的方式，完美世界的《幻塔》作为选择的首要目标，倒不是因为它的吸引力有多大，纯粹是广大网友的吐槽。继《原神》之后，进击元宇宙的游戏
韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

韩国投资公司(KIC)CEO Seoungho Jin预计，该公司在旧金山的办事处今年将扩招人手，探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

上周，外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项，暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中，Meta Reali
餐桌上怎么变出元宇宙？

作者：星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙，看起来风马牛不相及，但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初，全球最大
大厂打造元宇宙平台的业务重心是什么？

知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告，其中提出互联网大厂各自独立布局元宇宙平台。事实上，在2021年的最后一个季度，包括Meta、英伟达、
电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

元宇宙听起来像不像是科幻小说中出现的术语？事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙，它能够模

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

中文在线的“元宇宙”故事，资本听腻了？

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

完美世界被元宇宙“拒之门外”

韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

餐桌上怎么变出元宇宙？

大厂打造元宇宙平台的业务重心是什么？

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

最新推荐

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

在元宇宙卖酸奶，这波联动燃爆了！

10亿基金，李彦宏呼唤下一个AI独角兽

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

音乐NFT平台里的下一匹黑马是谁？

为什么元宇宙将永远改变体育和你的生活？

猜你喜欢

热门推荐

相关资讯