当前位置:首页 > 科技  > 资讯

瞭望 | 人工智能的“数据瓶颈”

来源: 责编: 时间:2024-04-11 09:01:10 286观看
导读  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强  在全球范围内,数据存量的增长速度远远低于数

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强1Q428资讯网——每日最新资讯28at.com

  在全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽1Q428资讯网——每日最新资讯28at.com

  中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高1Q428资讯网——每日最新资讯28at.com

  文 |《瞭望》新闻周刊记者 郭方达1Q428资讯网——每日最新资讯28at.com

  在阿西莫夫经典科幻小说《最后的问题》当中,两个喝得醉醺醺的“程序猿”向人工智能询问了这样一个问题:“怎样使宇宙的总熵大幅降低?”1Q428资讯网——每日最新资讯28at.com

  “数据不足,无法作答。”人工智能未能在第一时间解答这个问题。尽管在小说的最后,这个仿若翻版ChatGPT的人工智能在时间的尽头交出了答卷,但贯穿整个宇宙生命的过程中,它始终都在做一件事:收集数据。1Q428资讯网——每日最新资讯28at.com

  数据,是人工智能赖以发展的核心资源。小说的情节固然戏剧化,但其内容却与发展生成式人工智能的现实矛盾不谋而合。1Q428资讯网——每日最新资讯28at.com

  当前,“百模大战”如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量中文语料的短缺以及部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。1Q428资讯网——每日最新资讯28at.com

1Q428资讯网——每日最新资讯28at.com

中国科学院自动化研究所人形机器人攻关团队研制的谱系化人形机器人(2024年1月31日摄)   金立旺摄/本刊1Q428资讯网——每日最新资讯28at.com

  数据海洋的“圈地运动”1Q428资讯网——每日最新资讯28at.com

  海滨港口、城市霓虹、幼犬互动……近日,由美国人工智能文生视频大模型Sora生成的数个视频迅速吸引了世界目光。与“文生图”不同,Sora发布的视频长达60秒,具有丰富的运动变化,其中物品相互之间的作用关系、物理规律的刻画都达到了近乎以假乱真的地步。从物体互动到光影斑驳,屏幕上像素点的变换令人击节叹赏。1Q428资讯网——每日最新资讯28at.com

  像Sora这样的生成式人工智能并不是“无中生有”。不同于以往为人们所熟悉的判别式人工智能,生成式人工智能本质上是一种建立在大模型和预训练基础上的运用海量数据所生成的“模拟器”。1Q428资讯网——每日最新资讯28at.com

  海国图智研究院院长、暨南大学教授陈定定认为,快速涌现人工智能成果高度依赖于大量、多样化的数据。华大集团首席执行官尹烨说,发展人工智能,拼的不仅是“象牙塔尖”的算法更新,更是来源于开放性市场庞大的数据积累。1Q428资讯网——每日最新资讯28at.com

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。简单来说,在同等条件下,喂的数据越多,人工智能就越强。1Q428资讯网——每日最新资讯28at.com

  有数据显示,从GPT到GPT2再到GPT3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT3比以前同类型的语言模型参数量增加了十倍以上。1Q428资讯网——每日最新资讯28at.com

  作为数字之海的基本构成要素,海量、优质的数据争夺已经成为国家和企业间的无声战场。OpenAI旗下产品的使用条款就明确提及,企业将保留交互数据的使用权。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。1Q428资讯网——每日最新资讯28at.com

  AI“肥料”不足1Q428资讯网——每日最新资讯28at.com

  如果说数据是人工智能成长的“肥料”,那么人类或许将很快面临“无肥可施”的境地。1Q428资讯网——每日最新资讯28at.com

  清华大学公共管理学院教授梁正在接受采访时提到,全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。1Q428资讯网——每日最新资讯28at.com

  优质中文语料的大面积缺失,让AI学会说好中文成为一件难事。业内人士介绍,全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。1Q428资讯网——每日最新资讯28at.com

  一项研究显示,1900~2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。1Q428资讯网——每日最新资讯28at.com

  业内人士表示,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。1Q428资讯网——每日最新资讯28at.com

  例如,在医疗数据方面,由于历史和习惯等复杂原因,医疗机构之间存在严重的“数据孤岛”问题。《全民健康信息化调查报告》的数据显示,2021年,我国的三级医院平均只有不到20%的医疗机构采用了医疗大数据应用,二级医院更低,不足5%。1Q428资讯网——每日最新资讯28at.com

  清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国数据质量比较低也是一个问题。中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。1Q428资讯网——每日最新资讯28at.com

  数实融合解“数据瓶颈”1Q428资讯网——每日最新资讯28at.com

  对于生成式人工智能来说,其核心技术特性是概率计算+标注训练。依赖大量的高质量标注数据,它才能够有效地学习并做出正确的预测和决策。1Q428资讯网——每日最新资讯28at.com

  在2024年全国两会上,有代表委员建议建立数据合规的监管机制和评估办法,加强数据安全和知识产权的保护措施,加快高质量中文数据集的开发与利用。1Q428资讯网——每日最新资讯28at.com

  面对可能出现的“数据荒”,梁正认为,除了此前数字化建设中已有的结构化数据资源,还有大量以语音、视频、工艺参数、操作记录等形式构成的非结构化产业数据尚可开发。此外,由计算机模拟或算法生成的带有注释的合成数据也可用于大模型训练之中,进一步提高数据质量和数量、降低数据采集和处理的成本。1Q428资讯网——每日最新资讯28at.com

  不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5(虚幻引擎5)大量生成了合成数据作为训练集。1Q428资讯网——每日最新资讯28at.com

  3月23日,国内首个千亿参数多模态金融大模型“财跃F1金融大模型”在2024全球开发者先锋大会(GDC)上首发。随着国内大模型在垂直领域加速落地,各类精细化的产业数据,又将成为新一轮的“金矿”。1Q428资讯网——每日最新资讯28at.com

  “挑战在于产业数据生态的构建”,深圳开鸿数字产业发展有限公司首席执行官王成录等专家认为,“必须克服各人自扫门前雪的单兵作战思维。”1Q428资讯网——每日最新资讯28at.com

  “海量工业数据由于缺乏采集而逸散。”一位从事制造行业多年的企业家表示,我国产业数据采集存在现实软肋,加强产业数据自有化,推动行业间形成数据平台,是走向垂类人工智能的必经之路。1Q428资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-82701-0.html瞭望 | 人工智能的“数据瓶颈”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 上千项科技成果亮相首届晋江科洽会

下一篇: LG电子加薪5.2%,应届大学毕业生起薪高达5200万韩元

标签:
  • 热门焦点
  • K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    Redmi的后性能时代战略发布会今天下午如期举办,在本次发布会上,Redmi公布了多项关于和联发科的深度合作,以及新机K60 Ultra在软件和硬件方面的特性,例如:“K60 至尊版,双芯旗舰
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

    2023年5月23日晚,iQOO Neo8系列正式发布。其中,Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场,限时售价3099元起;价位段最强性能手机iQOO Neo8同期上市
  • 电博会上海尔智家模拟500平大平层,还原生活空间沉浸式体验

    电博会为了更好地让参展观众真正感受到智能家居的绝妙之处,海尔智家的程传岭先生同样介绍了展会上海尔智家的模拟500平大平层,还原生活空间沉浸式体验。程传
  • 利用职权私自解除被封帐号 Meta开除20多名员工

    11月18日消息,据外媒援引知情人士表示,过去一年时间内,Facebook母公司Meta解雇或处罚了20多名员工以及合同工,指控这些人通过内部系统以不当方式重置用户帐号,其
Top