当前位置:首页 > 元宇宙 > AI

苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

来源: 责编: 时间:2025-09-30 10:16:19 110观看
导读 9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽

9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。JVC28资讯网——每日最新资讯28at.com

不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。JVC28资讯网——每日最新资讯28at.com

JVC28资讯网——每日最新资讯28at.com

苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。JVC28资讯网——每日最新资讯28at.com

苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(注:原代号 Nano Banana)。JVC28资讯网——每日最新资讯28at.com

JVC28资讯网——每日最新资讯28at.com

苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。JVC28资讯网——每日最新资讯28at.com

为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。JVC28资讯网——每日最新资讯28at.com

JVC28资讯网——每日最新资讯28at.com

Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。JVC28资讯网——每日最新资讯28at.com

训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。JVC28资讯网——每日最新资讯28at.com

在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。JVC28资讯网——每日最新资讯28at.com

JVC28资讯网——每日最新资讯28at.com

苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。JVC28资讯网——每日最新资讯28at.com

苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。JVC28资讯网——每日最新资讯28at.com

不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。JVC28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-28181-0.html苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 著名机器人专家警告:投资人形机器人初创企业是浪费资金

下一篇: 不造机器人只做系统,Meta 的野心是成为“机器人界的安卓”

标签:
  • 热门焦点
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 元宇宙将会如何塑造未来的工作方式?

    科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词,但事实上,在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • DAO登上了历史舞台,但是主流准备好采用DAO了吗?

    Block-807DAO要么是定义虚拟未来、无领导组织的革命性概念,要么是充满存在主义和自我毁灭挑战的反乌托邦结构,取决于你在与谁交谈。近几个月来, DAO已经从Crypto
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
Top