当前位置:首页 > 科技  > 软件

浅析数据工程

来源: 责编: 时间:2023-08-09 23:04:02 189观看
导读目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,尽管大模型的涌现带来人们的更多关注,但人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加

目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,尽管大模型的涌现带来人们的更多关注,但人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加持下能够在激烈的竞争中占据有利位置。tNV28资讯网——每日最新资讯28at.com

数据,数据

数据是新一代技术革命下的生产要素,掌握了生产要素与生产要素的加工方式就是掌握了数字经济下的价值密码,这已经是业界的基本共识。tNV28资讯网——每日最新资讯28at.com

企业想要更好地管理数据并利用数据,就必须了解数据在现代企业中的产生源头、组织形态等。企业数字化转型一般分为三个阶段:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

从数据产生到数据价值落地的过程中,数据的信息密度越来越高,其中蕴含的知识也越来越丰富。通过分析企业数据全流程,企业可以抓住重点环节,因地制宜制定落地规划,数据 全流程分析是每个企业在进行数据工程落地的前提。tNV28资讯网——每日最新资讯28at.com

数据工程

从软件开发出现到软件开发逐步规模化的过程中, IT 从业者 们一点点积累下关于需求、设计、实现、测试、运维等方面的工作最佳实践。数据在企业内部流转会经历多个阶段,而每个阶段之间还存在着各种各样的问题。tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

数据工程则是帮助企业高效地挖掘数据价值,持续地赋能业务增长, 加速数据到资产的升华过程的最佳实践。tNV28资讯网——每日最新资讯28at.com

数据工程包含了需求、设计、构建、测试、维护演进等阶段,涵盖了项目管理、开发过程管理、工程工具与方 法、构建管理、质量管理, 是一套为了应对规模化生产和使用数据、为业务提供数据支撑, 最终产生价值的体系。tNV28资讯网——每日最新资讯28at.com

  • 数据工程是一套体系
  • 数据工程是用来加速数据到价值过程的规模化最佳实践
  • 数据工程是软件工程的一部分
  • 数据工程不是传统软件工程在数据领域的简单重现

对于企业来说,数据工程包括三个战略环节:数据愿景对齐、数据工程落地实施、数据持续运营。tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

愿景对齐的第一步是通过定义、统一业务价值度量框架来识别业务价值场景。探索出的业务价值场景需要包含场景的背景、价值点、 所涉及的用户、需要什么样的能力、用户旅程、所涉及的实体、风险等信息。tNV28资讯网——每日最新资讯28at.com

落地过程就如同孕育新生命一般,其中数据梳理规 划蓝图,数据架构设计规划骨架,数据模型设计构成器官,数据接入则赋予信息感知能力,数据处理构成中枢 大脑, 测试、安全部分负责为新生儿提供保护, 每个步骤相互依赖, 缺一不可,通过数据梳理、数据架构设计、数据接入、数据处理、数据测试、数据安全和能力复用与保障七个步骤来实现数据工程落地。tNV28资讯网——每日最新资讯28at.com

数据运营的目的是要形成企业看数据、用数据、将数据作为沟通语言和工具的“数 据文化”,数据只有容易被发现,才有产生价值的可能性。tNV28资讯网——每日最新资讯28at.com

数据工程人员的能力模型

数据工程的落地,归根结底还是需要由人来完成。构建企业自身的人员能力培养机制、 搭建企业人员数据能力提升通道是数据工程能力持续迭代的重要保障。tNV28资讯网——每日最新资讯28at.com

数据工程师能力模型如下:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

数据产品经理的能力模型如下:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

数据分析师的能力模型如下:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

数据工程是数字经济下确保数据价值转化的重要保障,是加速数据转化为价值的重要手段,需要应对未来数字经济的大趋势。为了处理数据领域的各种新问题, 各种新技术、新概念逐渐涌现, 现代数据仓库、数据湖、湖仓一体、分布式数据架构、机器学习、数据云原生等逐一登上舞台。tNV28资讯网——每日最新资讯28at.com

数据工程的工具图谱

数据工程是咨询公司Thoughtworks 给出的概念, 但仍然是新瓶装旧酒, 个人可以认为,可以映射成传统意义上的数据治理。对于数据治理而言,已经有相对成熟的体系, 下面是数据治理的工具全景图:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

特别地, 对AI计算的能力支撑工具图谱而言,如下图所示:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

大模型与数据工程

人工智能发展的突破得益于高质量数据的发展,数据是大模型竞争的关键要素之一,大模型的训练需要高质量、大规模、多样性的数据集,而优质中文数据集是稀缺的。行业数据的价值很高,具有优质数据和一定大模型能力的公司或通过行业大模型赋能业务。tNV28资讯网——每日最新资讯28at.com

未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集, 清洗, 标注等成本。在模型相对固定的前提下,通过提升数据的质量和数量可以提升整个模型的训练效果。以数据为中心的AI工作流如下图所示:tNV28资讯网——每日最新资讯28at.com

图片图片tNV28资讯网——每日最新资讯28at.com

从 GPT- 1 到 LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、 Common Crawl 和其他数据集。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过 去数年中, 多模态大模性参数量及数据量持续提升。例如, 2022 年 Stability AI 发布的 Stable Diffusion 数据集包含 58.4 亿图文对/图像,是 2021 年 OpenAI 发布的 DALL-E 数据集的 23 倍。tNV28资讯网——每日最新资讯28at.com

国内各行业数据资源丰富,2021-2026 年数据量规模 CAGR 高于全球,数据主要来源于政 府/传媒/服务/零售等行业。据 IDC ,2021-2026 年中国数据量规模将由 18.51ZB 增长至 56.16ZB ,CAGR 达到 24.9%,高于全球平均 CAGR。尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。tNV28资讯网——每日最新资讯28at.com

百度“文心”大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据 和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模 型特有的训练数据主要来自微信公众号,微信搜索等优质数据。华为“盘古”大模型的训练数据公开数据外, 还有 B 端行业数据加持,包括气象, 矿山, 铁路等行业数据。商汤 “日日新”模型的训练数据中包括了自行生成的 Omni Objects 3D 多模态数据集。tNV28资讯网——每日最新资讯28at.com

因此,在这个大模型的时代, 企业的数据工程中要融入面向大模型的数据架构,在数据产生时完成自行标注,同时辅之以数据服务商提供的数据,将大模型作为默认选项形成自己的领域模型。tNV28资讯网——每日最新资讯28at.com

拭目以待!tNV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-5203-0.html浅析数据工程

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DDD 必备架构--六边形架构

下一篇: 电脑软件:分享五款高效的电脑宝藏软件,值得收藏!

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • JavaScript 混淆及反混淆代码工具

    JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 如何通过Python线程池实现异步编程?

    如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 10天营收超1亿美元,《星铁》比《原神》差在哪?

    10天营收超1亿美元,《星铁》比《原神》差在哪?

    来源:伯虎财经作者:陈平安即便你没玩过《原神》,你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天,有粉丝因为索尼在PS平台上线《原神》,怒而
  • 当家的盒马,加速谋生

    当家的盒马,加速谋生

    来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马,开始加速谋生了。据盒马官微消息,盒马计划今年开放生鲜供应链,将其生鲜商品送往食堂。目前,盒马在上海已经与
  • 华为Mate60标准版细节曝光:经典星环相机模组回归

    华为Mate60标准版细节曝光:经典星环相机模组回归

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • Android 14发布:首批适配机型公布

    Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top