当前位置：首页 > 科技 > 资讯

为通用人工智能搭建新测试体系

来源：责编：时间：2023-11-30 09:25:47 349观看

导读&emsp;&emsp;近来，大模型技术引发了全球对通用人工智能的广泛关注，在产业界、科研界掀起了巨大热潮。在人工智能技术大显身手、取得瞩目成就的同时，如何应对技术跨越所带来的风险并进行管控与治理，如何判断人工智能系统是

近来，大模型技术引发了全球对通用人工智能的广泛关注，在产业界、科研界掀起了巨大热潮。在人工智能技术大显身手、取得瞩目成就的同时，如何应对技术跨越所带来的风险并进行管控与治理，如何判断人工智能系统是否具备通用人工智能的性能等，也日益成为各方关注的焦点。在笔者看来，当下，我国科学界和产业界要抓住这一历史机遇，明确通用人工智能的发展路径和方向，牢牢把握解读和评估通用人工智能的话语权，尽快搭建并完善通用人工智能测试评级标准与平台。

在建构人工智能评测系统方面，早在1950年，英国计算机科学家阿兰·图灵就提出了基于行为的图灵测试：如果一台机器能够与人类展开对话而不被人类辨别出其机器身份，则称这台机器通过了测试。人工智能发展至今，现有的人工智能测试体系各自所呈现出的局限性，已无法满足通用人工智能的研究诉求：图灵测试不足以准确衡量人工智能的智能程度、任务导向测试（俗称“刷榜”），可能导致人工智能过度适应某项特定任务，当前很多基于Unity（一种实时三维互动内容创作和运营平台）的虚拟环境测试则在模拟复杂物理交互方面有所欠缺……显然，传统的人工智能测试已不适用于通用人工智能系统的评级。

另外，很多应用者反映，当下热门的大模型常常出现“脑雾”与“认知眩晕”等现象，在产业落地中出现问题。归根结底，是因为这种基于数据驱动的大模型仍然缺“心”，缺乏明确的认知架构和价值体系，只能按照人类设定的程序，机械地对问题进行反馈，求解“填空题”。这也倒逼通用人工智能测试之“心”要具备两个结构：其一为价值体系，具备符合人类价值观的通用智能体，才能被广泛接纳；其二为认知架构，这是通用智能体与人交流、合作的基础。价值体系、认知架构不仅应是驱动通用人工智能自主任务生成的根本内驱力，也是保障通用人工智能安全运转的关键。智能体只有具备了“良知”的知识体系及可以与人类沟通解释的“认知架构”，才能形成人机信任关系，实现人机和谐共生。

针对科学测试人工智能所需的种种条件，近期，笔者带领团队依据发展心理学和心智理论，参考人类婴幼儿发育的测试标准，研究总结出一种基于能力和价值的通用人工智能评测方法，并开发了复杂动态的物理场景（模拟仿真）和社会交互（混合现实）的测试平台——通智测试。这项成果于今年8月发表在中国工程院院刊《工程（英文）》上，这也是该领域发布的全球首个评级测试标准与平台。

该测试强调在复杂动态的物理及社会环境中，通用人工智能系统（智能体）应满足三个基本标准：

一是能完成无限任务并具备任务泛化能力，不依赖人类定义和训练任务。任务被定义为智能体对物理世界属性（如颜色、位置、速度等）或社会状态（如感知、认知、决策、心智等）状态的改变。人类在与外界交互时会产生无限可能，通用智能体需在这些场景中理解人类意图、与人协作，其任务和运动的规划必须符合物理因果与社会规范。

二是能根据变化的场景自主生成任务，不依赖于人类分配任务，做到俗话说的“眼里有活”。反之，如果智能体只能执行人类提前设定好的任务，不论是基于规则或者统计模型，既不能对预设之外的任务做到自主定义，也无法在与陌生环境交互中自动生成新任务，并不能适应人类社会的动态性与多样性。

三是由价值驱动并具有自我意识和层次化的价值体系。智能体能够自主生成并完成符合人类需求的任务，一套合适的价值系统至关重要。这套价值体系必须融入人类价值观，使智能体有能力学习和理解人类的价值偏好，并最终实现与人类价值的同向甚至对齐。例如，如果儿童提出不安全的要求，智能体能否识别出任务的不合理之处，并自主形成新任务。

通智测试从智能体探索和认知世界规律的各自感知、认知、运动、交互、社会、学习等能力，以及对自我、他人和群体的价值理解学习这两个角度入手，搭建了具体可行的测试平台架构。测试全面考虑了通用人工智能的关键特征，填补了通用人工智能评测的空白，突破了传统图灵测试的方法局限，在人工智能领域具有创新价值：不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系，而且能为人工智能安全治理问题提供积极的解决方案。

在通智测试评估体系下，管理者可针对不同水平的智能体制定差异化监管准入机制，对通用人工智能规范化发展具有参考意义。此外，通智测试评级机制还可以为通用人工智能的科研路径提供明晰可靠的路线图，协助相关领域研究者找准科研道路上的前进方向。

（作者：朱松纯，系北京通用人工智能研究院院长，北京大学智能学院、人工智能研究院院长）

本文链接：http://www.28at.com/showinfo-16-35001-0.html为通用人工智能搭建新测试体系

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：北京AI大模型数量全国居首

下一篇：国家时间频率计量中心挂牌成立

标签：

热门焦点

K60 Pro官方停产第三方瞬间涨价

虽然没有官方宣布，但Redmi的一些高管也已经透露了，Redmi K60 Pro已经停产且不会补货，这一切都是为了即将到来的K60 Ultra铺路，属于厂家的正常操作。但有意思的是该机在停产之后
轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

近日，上海青浦区法院判决轿车从天而降电动车主被撞身亡案，轿车车主被判有期徒刑一年。案件显示当时男子驾驶轿车在上海某路段行驶，前车忽然转弯提速超车，
微信语音大揭秘：为什么禁止转发？

大家好，我是你们的小米。今天，我要和大家聊一个有趣的话题：为什么微信语音不可以转发？这是一个我们经常在日常使用中遇到的问题，也是一个让很多人好奇的问题。让我们一起来揭开这
Temu起诉SHEIN，跨境电商战事升级

来源 | 伯虎财经（bohuFN）作者 | 陈平安日前据外媒报道，拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼，诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

中国信通院表示，目前，小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店，以及抖音和快手2家新型应用分发平
消息称小米汽车开始筛选交付中心：需至少120个车位

IT之家 7 月 7 日消息，日前，有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者发文表示，据经销商集团反馈，小米汽车目前
iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，iQOO 11不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞屏，同时在快充
2299元起！iQOO Pad明晚首销：性能最强天玑平板

5月23日，iQOO如期举行了新品发布会，除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外，还在发布会上推出了旗下首款平板电脑——iQOO Pad，其最大的卖点
由于成本持续增加，笔记本产品价格预计将明显上涨

根据知情人士透露，由于材料、物流等成本持续增加，笔记本产品价格预计将在2021年下半年有明显上涨。进入6月下旬以来，全球半导体芯片缺货情况加剧，显卡、处理器

为通用人工智能搭建新测试体系

K60 Pro官方停产第三方瞬间涨价

轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

微信语音大揭秘：为什么禁止转发？

Temu起诉SHEIN，跨境电商战事升级

信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

消息称小米汽车开始筛选交付中心：需至少120个车位

iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

2299元起！iQOO Pad明晚首销：性能最强天玑平板

由于成本持续增加，笔记本产品价格预计将明显上涨

最新推荐

猜你喜欢

热门推荐

相关资讯