当前位置:首页 > 元宇宙 > AI

OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

来源: 责编: 时间:2024-11-04 07:21:05 139观看
导读 10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。AI 领域中的一个开放性难题是如何训练模型

10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。IvZ28资讯网——每日最新资讯28at.com

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。IvZ28资讯网——每日最新资讯28at.com

IvZ28资讯网——每日最新资讯28at.com

OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:IvZ28资讯网——每日最新资讯28at.com

高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。IvZ28资讯网——每日最新资讯28at.com

多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。IvZ28资讯网——每日最新资讯28at.com

前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。IvZ28资讯网——每日最新资讯28at.com

高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。IvZ28资讯网——每日最新资讯28at.com

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。IvZ28资讯网——每日最新资讯28at.com

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。IvZ28资讯网——每日最新资讯28at.com

附有关地址:IvZ28资讯网——每日最新资讯28at.com

开源链接:https://github.com/openai/simple-evals/IvZ28资讯网——每日最新资讯28at.com

论文:https://cdn.openai.com/papers/simpleqa.pdfIvZ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9377-0.htmlOpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 扎克伯格押注 AI:Meta 正推动美国政府使用其 Llama 模型

下一篇: 全球首个开源 AI 标准发布,微软、谷歌、亚马逊、Meta、英特尔、三星等巨头制定

标签:
  • 热门焦点
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 米哈游推出元宇宙品牌;VR/AR老牌企业当红齐天完成B轮+融资

    今日热点:苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成;VR/AR老牌企业当红齐天完成B轮+融资;米哈游推出元宇宙品牌HoYoverse;国产VR射击游戏《Contra
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
Top