当前位置:首页 > 科技  > 互联网

智谱AI开源GLM-4.5V视觉推理模型,41项多模态基准测试获SOTA性能

来源: 责编: 时间:2025-08-13 16:02:48 68观看
导读智谱AI近期震撼发布了其最新一代的视觉推理模型GLM-4.5V,并慷慨地选择将此模型在GitHub、Hugging Face及魔搭社区上以MIT开源协议进行共享,此举不仅展现了其对技术开放的承诺,也为商业应用提供了无限可能。GLM-4.5V,作为

智谱AI近期震撼发布了其最新一代的视觉推理模型GLM-4.5V,并慷慨地选择将此模型在GitHub、Hugging Face及魔搭社区上以MIT开源协议进行共享,此举不仅展现了其对技术开放的承诺,也为商业应用提供了无限可能。EUV28资讯网——每日最新资讯28at.com

GLM-4.5V,作为一个拥有庞大参数的VLM(视觉-语言模型),其总参数高达1,060亿,激活参数亦有120亿。该模型是在智谱AI的旗舰文本模型GLM-4.5-Air的基础上精心打造,并继承了GLM-4.1V-Thinking的技术精髓。值得注意的是,GLM-4.5V在41项公开的多模态基准测试中,均取得了同级别开源模型中的顶尖表现。EUV28资讯网——每日最新资讯28at.com

EUV28资讯网——每日最新资讯28at.com

技术层面,GLM-4.5V由三大核心组件构成:视觉编码器、MLP适配器以及语言解码器。通过引入创新的三维旋转位置编码(3D-RoPE),模型对三维空间关系的理解及推理能力得到了显著提升。它能够处理包含64K tokens的多模态长上下文输入,并利用三维卷积技术,显著优化了视频处理效率。这一设计让GLM-4.5V不仅能处理静态图像,还能深入解析视频内容,对高分辨率及极端宽高比的图像同样展现出强大的处理能力和稳定性。EUV28资讯网——每日最新资讯28at.com

为了全面增强GLM-4.5V的多模态能力,智谱AI在模型训练的每个阶段都实施了精细的优化策略。预训练阶段,模型在庞大的图文交错多模态语料及长上下文内容的滋养下,建立了对复杂图文和视频内容的坚实基础。随后,在监督微调阶段,通过引入“思维链”格式的显式训练样本,进一步加深了模型的因果推理和多模态理解能力。最终,在强化学习阶段,借助多领域奖励系统,结合可验证奖励强化学习(RLVR)与人类反馈强化学习(RLHF),模型在STEM问题、多模态定位及智能体任务等多个领域均实现了显著提升。EUV28资讯网——每日最新资讯28at.com

GLM-4.5V的实际表现同样令人瞩目。在图像推理方面,它能够进行复杂的场景解析和多图综合判断。例如,它能根据用户的自然语言指令,准确识别图像中的目标物体,并标注出精确的位置坐标。更令人惊叹的是,它还能通过分析图像中的微小线索,如植被类型、气候痕迹及建筑风格,推断出照片的拍摄地点及大致地理位置,这一能力甚至超越了许多专业工具。EUV28资讯网——每日最新资讯28at.com

EUV28资讯网——每日最新资讯28at.com

在复杂文档理解领域,GLM-4.5V同样展现出了卓越的能力。它能够处理包含大量图表的长文本,同步理解文字与图像信息,从而准确地进行内容总结、翻译及图表信息提取,有效避免了传统方法中可能出现的错误传递问题。针对前端开发及用户界面交互任务,GLM-4.5V还提供了“前端复刻”功能,通过分析网页截图或交互视频,能够生成相应的HTML、CSS及Javascript代码,完美复刻网页的布局、样式及交互逻辑。EUV28资讯网——每日最新资讯28at.com

GLM-4.5V的GUI Agent能力同样值得称道,它能够识别和处理电子屏幕画面,执行对话问答、图标定位等任务,为开发桌面环境智能体应用奠定了坚实基础。智谱AI还同步开源了一款桌面助手应用,该应用能够实时捕获屏幕信息,依托GLM-4.5V处理多种视觉推理任务,涵盖代码辅助、视频内容分析、游戏解答及文档解读等多个领域。EUV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-177082-0.html智谱AI开源GLM-4.5V视觉推理模型,41项多模态基准测试获SOTA性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: vivo Vision真机图曝光,对标苹果Vision Pro,即将发布引期待

下一篇: 全球首条无FMM技术8.6代AMOLED产线在合肥封顶,总投资550亿

标签:
  • 热门焦点
  • 俄罗斯:将审查iPhone等外国公司设备 保数据安全

    iPhone和特斯拉都属于在各自领域领头羊的品牌,推出的产品也也都是数一数二的,但对于一些国家而言,它们的产品可靠性和安全性还是在限制范围内。近日,俄罗斯联邦通信、信息技术
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 谷歌KDD'23工作:如何提升推荐系统Ranking模型训练稳定性

    谷歌在KDD 2023发表了一篇工作,探索了推荐系统ranking模型的训练稳定性问题,分析了造成训练稳定性存在问题的潜在原因,以及现有的一些提升模型稳定性方法的不足,并提出了一种新
  • JavaScript学习 -AES加密算法

    引言在当今数字化时代,前端应用程序扮演着重要角色,用户的敏感数据经常在前端进行加密和解密操作。然而,这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • OPPO K11样张首曝:千元机影像“卷”得真不错!

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
Top