当前位置:首页 > 元宇宙 > AI

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

来源: 责编: 时间:2025-04-24 14:45:58 209观看
导读 4 月 22 日消息,最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemi

4 月 22 日消息,最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。Hmr28资讯网——每日最新资讯28at.com

注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型,仅隔 4 天时间,谷歌便通过免费 Web 应用向全球用户开放。Hmr28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro 不仅能提取 PDF 文档中的文本内容,还能理解其视觉布局,包括图表、表格和整体排版。Hmr28资讯网——每日最新资讯28at.com

谷歌在开发者文档中表示,该模型具备“原生视觉”(Native Vision)能力,支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB),同时拥有 100 万 token 的超大上下文窗口,未来计划扩展至 200 万 token。Hmr28资讯网——每日最新资讯28at.com

AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 特别赞扬了 Gemini 2.5 Pro 在 PDF 视觉引用上的表现。Hmr28资讯网——每日最新资讯28at.com

Filimonov 指出,传统的文本分割方法会切断用户与原文的视觉联系,导致无法直观验证信息的来源。甚至在 ChatGPT 中,点击引用也只能下载 PDF,迫使用户自行判断模型是否“幻觉”,这严重损害了用户信任。Hmr28资讯网——每日最新资讯28at.com

过去,引用文档内容往往只能高亮大段无关文本,精准度极低。Gemini 2.5 彻底改变这一现状,它不仅能将提取的文本片段映射回原始 PDF 的确切位置,还能以前所未有的精度锁定特定句子、表格单元甚至图像。Hmr28资讯网——每日最新资讯28at.com

这种技术突破为用户提供了直观的视觉反馈,例如在询问房屋费率变化时,系统能直接高亮文档中相关数据(如 15.4% 的费率变化),并标注来源依据。Hmr28资讯网——每日最新资讯28at.com

这种清晰度和交互性是现有工具无法企及的。Gemini 2.5 不仅优化了现有流程,更开启了全新的文档交互模式。Hmr28资讯网——每日最新资讯28at.com

Hmr28资讯网——每日最新资讯28at.com

相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅领先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展现出惊人的空间理解能力。Hmr28资讯网——每日最新资讯28at.com

提供商模型IOU简评Gemini2.5 Pro0.804非常优秀Gemini2.5 Flash0.614有时表现不错Gemini2.0 Flash0.395OpenAIgpt-4o0.223OpenAIgpt-4.10.268OpenAIgpt-4.1-mini0.253Claude3.7 Sonnet0.210

Gemini 2.5 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据,同时明确标注每个数据的来源位置,解决下游决策中因数据来源不明而产生的信任障碍。Hmr28资讯网——每日最新资讯28at.com

Hmr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12558-0.html力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI时代浏览器大战:Chrome命运悬而未决,OpenAI欲收入囊中?

下一篇: 智能软体仿生观赏鱼“金鳞”亮相,在水族馆、公园有望“以假乱真”

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 江西将探索成立元宇宙联盟,韩国将加强对NFT和元宇宙的监管

    《元宇宙新鲜事》有:江西将探索成立元宇宙联盟,支持南昌规划建设元宇宙试验区;韩国金融监督局将加强对NFT和元宇宙的监管;任天堂社长表示暂时不打算加入元宇宙。【
  • 上海虹口成立10亿元元宇宙基金,香港首只元宇宙ETF拟上市

    区块链日报17日讯 今日《元宇宙新鲜事》有:上海虹口将成立总额约10亿元的元宇宙产业基金;香港市场首只元宇宙主题ETF拟于2月21日上市;元宇宙平台Roblox出现违禁游
  • Meta正在研发元宇宙语音助手;广东省462家企业申请元宇宙商标

    今日《元宇宙新鲜事》有:扎克伯格透露正在为元宇宙研发语音助手;完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
Top