当前位置:首页 > 元宇宙 > AI

SciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼

来源: 责编: 时间:2025-07-04 12:16:43 150观看
导读一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。SciArena由耶

一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。x3M28资讯网——每日最新资讯28at.com

SciArena由耶鲁大学、纽约大学以及艾伦人工智能研究所的专家携手打造,它专注于系统性地评测专有和开源LLM在科学文献处理方面的表现,这一领域此前缺乏系统的评估工具。x3M28资讯网——每日最新资讯28at.com

该平台采用了不同于传统基准测试的方法,效仿Chatbot Arena的模式,引入了真实研究人员的直接评估。用户在提交科学问题后,会收到两个由模型生成并附有相关引用的详细答案,然后用户根据判断选择更优的答案。这些引用的文献均通过专门的ScholarQA检索流程获取。x3M28资讯网——每日最新资讯28at.com

SciArena已积累了来自自然科学、工程学、生命科学和社会科学四大领域102位研究人员的超过13,000份评估数据,涵盖概念阐述、文献检索等多个维度。x3M28资讯网——每日最新资讯28at.com

在当前的排名中,OpenAI的o3模型独占鳌头,领先于Claude-4-Opus和Gemini-2.5-Pro。而在开源模型领域,Deepseek-R1-0528表现突出,甚至超越了部分专有系统。研究团队特别指出,o3在自然科学和工程科学领域的表现尤为亮眼。研究人员还发现,用户在评估时更注重引用与陈述的匹配度,而非单纯引用数量。答案长度等因素对SciArena的影响相对较小,与Chatbot Arena或Search Arena等平台有所不同。x3M28资讯网——每日最新资讯28at.com

尽管取得了显著进展,但自动化评估仍面临挑战。为此,团队还推出了一项名为SciArena-eval的新基准测试,旨在测试语言模型判断其他模型答案的能力。然而,即便是表现最佳的模型,也只有约65%的时间与人类偏好一致,这反映出当前LLM在科学领域的评估系统尚存局限。x3M28资讯网——每日最新资讯28at.com

SciArena平台现已向公众开放,其代码、数据及SciArena-eval基准测试均以开源形式提供,旨在助力开发更符合研究人员在科学信息任务中需求的模型。x3M28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02荣耀Magic V5:超薄旗舰新标杆,AI交互重塑大折叠体验它的低温与常温性能差异大约在33.4%,也符合我们对于超薄大折叠的性能释放预期,同时即便是有着如此严格的温控策略,MagicV5的性能表现也依然要明显高于那些使用老平台的竞争对手。Magic V5不只是开创…07-02京东JoyInside携AI潮玩来袭,携手十余家机器人品牌打造智能生态07-02点击查看更多 +全站最新宇宙信使:揭秘玻璃陨石的奥秘与魅力宇宙信使:揭秘玻璃陨石的奥秘与魅力2025上半年机票均价740元,暑运旺季来临价格上扬至839元2025上半年机票均价740元,暑运旺季来临价格上扬至839元美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道马斯克旗下xAI Grok 4曝光,百亿融资助力“重塑知识库”计划马斯克旗下xAI Grok 4曝光,百亿融资助力“重塑知识库”计划丰田汽车上调零部件采购价,力保6万家供应商稳定运营丰田汽车上调零部件采购价,力保6万家供应商稳定运营热门内容
  • 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
  • 马斯克宣布Grok 4大模型即将面世,或专为编程打造
  • 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
  • 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
  • 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
  • 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
  • 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
  • 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起

本文链接:http://www.28at.com/showinfo-45-14354-0.htmlSciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: MIT新研究:AI写作工具使用或致大脑活跃度下滑

下一篇: 谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 上海虹口成立10亿元元宇宙基金,香港首只元宇宙ETF拟上市

    区块链日报17日讯 今日《元宇宙新鲜事》有:上海虹口将成立总额约10亿元的元宇宙产业基金;香港市场首只元宇宙主题ETF拟于2月21日上市;元宇宙平台Roblox出现违禁游
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

    当Stefan Prodanovic在13岁时开始尝试平面设计,与一位从事编程工作的学校朋友共同创作数字游戏时,他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
  • 美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

    今天,Billboard宣布与流行的NFT头像集World of Women(WoW)建立新的伙伴关系,向NFT生态系统又迈进了一步。在这次合作中,WoW的创建者Yam Karkai将帮助这个音乐行业巨
Top