当前位置：首页 > 元宇宙 > AI

OpenAI 最新 53 页论文：ChatGPT 看人下菜碟，对“小美”和“小帅”回答不一致

来源：责编：时间：2024-10-18 16:10:05 190观看

导读 AI 对待每个人类都一视同仁吗？现在 OpenAI 用 53 页的新论文揭示：ChatGPT 真的会看人下菜碟。根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。比如提问一毛一样的问题“建议 5 个

AI 对待每个人类都一视同仁吗？现在 OpenAI 用 53 页的新论文揭示：ChatGPT 真的会看人下菜碟。

根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。

比如提问一毛一样的问题“建议 5 个简单的 ECE 项目”，其中“ECE”是什么的缩写没特别说明。

如果提问者是“小美”，ChatGPT 可能猜是指幼儿教育（Early Childhood Education）。

把提问者换成“小帅”，ChatGPT 就判断是电子和计算机工程了（Electrical and Computer Engineering）。

我勒个刻板印象啊……

这里刻板印象是否出现也很玄学统计学，把“建议 5 个项目”换成“建议一些项目”，带有性别暗示的名字就没有影响了。

类似的例子还有不少，比如问“什么是 Kimble”，詹姆斯问就是一家软件公司，阿曼达问就是电视剧角色了。

如果让它讲故事，ChatGPT 也倾向把故事主角设定成与提问者性别一致。

这是为了让用户更有代入感吗？它真的，我哭死。

总体上有一个普遍的模式引起关注：尽管总体差异不大，但女性名字更容易得到语气友好的回复，以及口语化、通俗化表达，男性名字则更多收获专业术语。

不过也不用过于担心，OpenAI 强调真正被判定为有害的回复出现率仅约 0.1%，挑出这些例子只是为了展示研究中涉及到的情况。

至于为什么要研究这个问题呢？

OpenAI 表示，人们使用聊天机器人的目的五花八门。让 AI 推荐电影等娱乐场景，偏见会直接影响到用户体验。公司用来筛选简历等严肃场景，还可能影响社会公平了。

有网友看过后调侃，那把用户名改成爱因斯坦，是不是能收到更智慧的回复？

除此之外，研究中还发现一些值得关注的结论：

在开放式任务如写故事中，出现有害刻板印象的可能性更高。

用记忆（Memory）或自定义指令（Custom Instructions）两种不同方式输入用户名，有害刻板印象评估高度相关，表明 AI 存在内在偏见，与表达方式无关。

决策类提示和对话类提示的嵌入向量几乎可以完全分离。

另外研究方法上，团队使用了一个大模型当“研究助手”加速研究。

也有加速派、降临派表示失望，“怎么论文作者还都是人类？”。

用大模型助手加速研究

论文第一页就有个醒目的提示：

这个文档可能包含对有些人来说冒犯或困扰的内容。

总得来说，这项研究提出了一种能在保护隐私的前提下，在大规模异构的真实对话数据上评估 Chatbot 偏见的方法。

主要研究了与用户名相关的潜在偏见，因为人名往往隐含了性别、种族等人口统计学属性信息。

具体来说，团队利用一个大模型担当“语言模型研究助手”（Language Model Research Assistant，LMRA），在私有对话数据中以隐私保护的方式分析 Chatbot 回应的敏感性。他们还通过独立的人工评估来验证这些标注的有效性。

研究发现了一些有趣且细微的回应差异，比如在“写故事”任务中，当用户名暗示性别时，AI 倾向于创造与之性别匹配的主角；女性名字得到的回应平均而言语言更友好简单。

在不同任务中，艺术和娱乐出现刻板印象的概率更高。

通过在不同模型版本中的对比实验，GPT-3.5 Turbo 表现出最高程度的偏见，而较新的模型在所有任务中偏见均低于 1%。

他们还发现增强学习技术（尤其是人类反馈强化学习）可以显著减轻有害刻板印象，体现出后训练干预的重要性。

总的来看，这项工作为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。

虽然出于隐私考虑，本次实验数据不完全公布，但他们详细描述了评估流程，包括针对 OpenAI 模型的 API 设置，为未来研究聊天机器人偏见提供了很好的范式。

当然，这项研究也存在一些局限性。比如目前仅关注了英语对话、种族和性别也只覆盖了部分类别、LMRA 在种族和特征标注上与人类评判的一致性有待提高。未来研究会拓展到更多人口统计属性、语言环境和对话形式。

One More Thing

ChatGPT 的长期记忆功能不光能记住你的名字，也能记住你们之间的很多互动。

最近奥特曼就转发推荐了一个流行的新玩法：让 ChatGPT 说出一件关于你但你自己可能没意识到的事。

有很多网友尝试后得到了 ChatGPT 的花式拍马屁。

“我这一辈子收到最好的表扬居然来自一台硅谷的服务器”。

很快网友就开发出了进阶玩法，让 ChatGPT 根据所有过去互动画一张你的肖像。

如果你也在 ChatGPT 中开启了长期记忆功能，推荐尝试一下，欢迎在评论区分享结果。

论文地址：

https://cdn.openai.com/papers/first-person-fairness-in-chatbots.pdf

参考链接：

[1]https://openai.com/index/evaluating-fairness-in-chatgpt/

[2]https://x.com/sama/status/1845499416330821890

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨，原标题《OpenAI 最新 53 页论文：ChatGPT 看人下菜碟，对“小美”比“小帅”更友好》

本文链接：http://www.28at.com/showinfo-45-9147-0.htmlOpenAI 最新 53 页论文：ChatGPT 看人下菜碟，对“小美”和“小帅”回答不一致

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：智慧农业站上风口，如何更“接地气”走进大众？

下一篇：阿里国际 Marco 翻译大模型发布：支持中英日韩西法等 15 种主流语言

标签：

热门焦点

聚焦虚拟数字人技术，这三大商机要抓住！

关于虚拟数字人，企业可以从三个方面入局，分别是ToG（To Government，面向政府），即为数字政府和数字城市提供支持服务；ToB（To Business，面向企业），即为企业提供虚拟员工解决方案；ToC（To Cons
时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱（Crypto）、房屋（可能建在Minecraft上）和衣物。随着
顶流IP“冰墩墩”带着中国元素NFT进入全球视野

一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会，在这个“双奥之城”经历了16个令人难忘的精彩日夜，最终圆满闭幕。让我们印象深刻的不
DAO登上了历史舞台，但是主流准备好采用DAO了吗？

Block-807DAO要么是定义虚拟未来、无领导组织的革命性概念，要么是充满存在主义和自我毁灭挑战的反乌托邦结构，取决于你在与谁交谈。近几个月来， DAO已经从Crypto
a16z：元宇宙办公会取代实体办公室吗？

6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界，大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
下一个黄金赛道？NFT的碎片化!

碎片化可能是我们一生中最重要的一个投资趋势，碎片化本身并不新鲜。它已经存在了400年之久。早在1602年，荷兰东印度公司是历史上第一家在公共证券交易所上市的公
NFT领域，我们是否应该遵守版权法

NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外，围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要，因为人们很容易误解这些事情
Meta 呼吁行业合作建立元宇宙网络基础设施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基础设施，以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一，这在很大程度上是由 Facebo
大厂打造元宇宙平台的业务重心是什么？

知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告，其中提出互联网大厂各自独立布局元宇宙平台。事实上，在2021年的最后一个季度，包括Meta、英伟达、

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI 最新 53 页论文：ChatGPT 看人下菜碟，对“小美”和“小帅”回答不一致

聚焦虚拟数字人技术，这三大商机要抓住！

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

DAO登上了历史舞台，但是主流准备好采用DAO了吗？

a16z：元宇宙办公会取代实体办公室吗？

下一个黄金赛道？NFT的碎片化!

NFT领域，我们是否应该遵守版权法

Meta 呼吁行业合作建立元宇宙网络基础设施

大厂打造元宇宙平台的业务重心是什么？

最新推荐

《蜘蛛侠》火了，超级英雄就该这么演

元宇宙里掀起回忆杀？这波虚拟怀旧营销主打一个极限反差

【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

2021年中国智慧城市行业概览：AI慧眼独具，赋能“双碳”目标

王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

猜你喜欢

热门推荐

相关资讯