当前位置:首页 > 科技  > 资讯

40亿数据灌注国内首个古籍处理与研究开源智能工具

来源: 责编: 时间:2024-01-08 09:14:11 324观看
导读  “秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”这是近日上线的“荀子”古籍大语言模型(以下简称“荀子”)以“金陵”为题,生成的一首古诗。  记者了解到,“荀子”

  “秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”这是近日上线的“荀子”古籍大语言模型(以下简称“荀子”)以“金陵”为题,生成的一首古诗。kL028资讯网——每日最新资讯28at.com

  记者了解到,“荀子”是国内首个专门应用于古籍处理与研究的开源智能工具,由南京农业大学王东波教授研究团队联合古联(北京)数字传媒科技有限公司发布。它依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”,基于40亿字的大型混合语料数据生成。kL028资讯网——每日最新资讯28at.com

  “数据是大模型的基础。”王东波介绍,在“荀子”的研发过程中,研究团队在人工智能通用模型的基础上,灌注了繁简体《四库全书》等20亿字的古代汉语语料和文化领域的20亿字的现代汉语语料,使“荀子”具有古籍智能标引、古籍信息抽取、诗歌生成、古籍高质量翻译、阅读理解等功能。kL028资讯网——每日最新资讯28at.com

  “对于汉语言研究者来说,他们还可以利用‘荀子’完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等工作。”王东波举例,如果要研究《史记·陈涉世家》的人物关系,就可以用“荀子”识别这篇文章中的人物名称和关系名词,再用知识图谱的方式呈现人物关系图谱,从而提高检索、查询、研究的效率。kL028资讯网——每日最新资讯28at.com

  王东波介绍,此次发布的“荀子”大模型中的基座模型,还可以让用户根据自己的需求对“荀子”进行微调,帮助用户开展更有针对性的研究。kL028资讯网——每日最新资讯28at.com

  “荀子”是怎么做到化繁为简、通读古今的?“核心是‘算力充足’并且‘饱读诗书’。”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及研究团队长期积累的精加工语料库。kL028资讯网——每日最新资讯28at.com

  “模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据是最为关键的。”王东波表示,研究团队自2013年起,一直专注于人工精标注数据的工作。kL028资讯网——每日最新资讯28at.com

  “比如要训练大模型自动标注《岳阳楼记》中的形容词,首先需要人工标注这篇文章中的形容词。在积累了大量的人工标注后,再让机器进行学习。”王东波说,这项“坐冷板凳”的基础标注工作,他们一做就是10年。kL028资讯网——每日最新资讯28at.com

  “我们期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴。”王东波表示,研究团队希望能让更多人接触古籍、品读古籍、传播古籍,让“故纸堆”重新焕发活力,推动中华优秀传统文化创造性转化、创新性发展,赓续中华文脉。kL028资讯网——每日最新资讯28at.com

  王东波介绍,“荀子”除了能让人们更顺畅地阅读古籍内容,推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可应用于人工智能写作、人工智能教学、数字文娱等领域。(记者 金凤)kL028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-57730-0.html40亿数据灌注国内首个古籍处理与研究开源智能工具

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 17部门联合部署“数据要素×”三年行动计划

下一篇: 领军企业推动数字技术快速发展

标签:
  • 热门焦点
  • 红魔电竞平板评测:大屏幕硬实力

    前言:三年的疫情因为要上网课的原因激活了平板市场,如今网课的时代已经过去,大家的生活都恢复到了正轨,这也就意味着,真正考验平板电脑生存的环境来了。也就是面对着这种残酷的
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 10天营收超1亿美元,《星铁》比《原神》差在哪?

    来源:伯虎财经作者:陈平安即便你没玩过《原神》,你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天,有粉丝因为索尼在PS平台上线《原神》,怒而
  • OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    据此前官方宣布,OPPO将于7月25日也就是今天下午14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖
  • 最薄的14英寸游戏笔记本电脑 Alienware X14已可以购买

    2022年1月份在国际消费电子展(CES2022)上首次亮相的Alienware新品——Alienware X14现在已经可以购买了,这款笔记本电脑被誉为世界上最薄的 14 英寸游戏笔
  • Meta盲目扩张致超万人被裁,重金押注元宇宙而前景未明

    图片来源:图虫创意日前,Meta创始人兼CEO 马克·扎克伯发布公开信,宣布Meta计划裁员超11000人,占其员工总数13%。他公开承认了自己的预判失误:“不仅
Top