当前位置:首页 > 元宇宙 > AI

OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

来源: 责编: 时间:2025-05-15 09:51:35 154观看
导读 5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来

5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。TEl28资讯网——每日最新资讯28at.com

TEl28资讯网——每日最新资讯28at.com

与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。TEl28资讯网——每日最新资讯28at.com

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。TEl28资讯网——每日最新资讯28at.com

此外,HealthBench采用了多轮对话测试,而不是简单的答题或选择题模式。注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。TEl28资讯网——每日最新资讯28at.com

参考资料:TEl28资讯网——每日最新资讯28at.com

《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》TEl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12849-0.htmlOpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 扩展 ChatGPT AI 深度研究连接器,集成微软 OneDrive 和 SharePoint

下一篇: 昆仑万维宣布开源 Matrix-Game 大模型:工业界首个开源的 10B+ 空间智能大模型,支持《我的世界》

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    今日热点:传腾讯已推出全新XR业务;摩托罗拉与Verizon合作打造5G XR颈戴式计算组件;小米AR购物导航专利获授权;VR一体机Simula One放弃众筹并开放直接预订;VR游戏《
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • “我没搞懂元宇宙,但一天能赚9w块”

    作者:郑宇轩最近几个月,“元宇宙”爆火,除了 Facebook 改名为 Meta 高调进军元宇宙外, BAT 为代表的大厂纷纷着手“元宇宙”新业务。刹那之间,元宇宙成为新风口,除了
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top