当前位置:首页 > 科技  > 软件

浅析数据工程

来源: 责编: 时间:2023-08-09 23:04:02 464观看
导读目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,尽管大模型的涌现带来人们的更多关注,但人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加

目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,尽管大模型的涌现带来人们的更多关注,但人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加持下能够在激烈的竞争中占据有利位置。fOX28资讯网——每日最新资讯28at.com

数据,数据

数据是新一代技术革命下的生产要素,掌握了生产要素与生产要素的加工方式就是掌握了数字经济下的价值密码,这已经是业界的基本共识。fOX28资讯网——每日最新资讯28at.com

企业想要更好地管理数据并利用数据,就必须了解数据在现代企业中的产生源头、组织形态等。企业数字化转型一般分为三个阶段:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

从数据产生到数据价值落地的过程中,数据的信息密度越来越高,其中蕴含的知识也越来越丰富。通过分析企业数据全流程,企业可以抓住重点环节,因地制宜制定落地规划,数据 全流程分析是每个企业在进行数据工程落地的前提。fOX28资讯网——每日最新资讯28at.com

数据工程

从软件开发出现到软件开发逐步规模化的过程中, IT 从业者 们一点点积累下关于需求、设计、实现、测试、运维等方面的工作最佳实践。数据在企业内部流转会经历多个阶段,而每个阶段之间还存在着各种各样的问题。fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

数据工程则是帮助企业高效地挖掘数据价值,持续地赋能业务增长, 加速数据到资产的升华过程的最佳实践。fOX28资讯网——每日最新资讯28at.com

数据工程包含了需求、设计、构建、测试、维护演进等阶段,涵盖了项目管理、开发过程管理、工程工具与方 法、构建管理、质量管理, 是一套为了应对规模化生产和使用数据、为业务提供数据支撑, 最终产生价值的体系。fOX28资讯网——每日最新资讯28at.com

  • 数据工程是一套体系
  • 数据工程是用来加速数据到价值过程的规模化最佳实践
  • 数据工程是软件工程的一部分
  • 数据工程不是传统软件工程在数据领域的简单重现

对于企业来说,数据工程包括三个战略环节:数据愿景对齐、数据工程落地实施、数据持续运营。fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

愿景对齐的第一步是通过定义、统一业务价值度量框架来识别业务价值场景。探索出的业务价值场景需要包含场景的背景、价值点、 所涉及的用户、需要什么样的能力、用户旅程、所涉及的实体、风险等信息。fOX28资讯网——每日最新资讯28at.com

落地过程就如同孕育新生命一般,其中数据梳理规 划蓝图,数据架构设计规划骨架,数据模型设计构成器官,数据接入则赋予信息感知能力,数据处理构成中枢 大脑, 测试、安全部分负责为新生儿提供保护, 每个步骤相互依赖, 缺一不可,通过数据梳理、数据架构设计、数据接入、数据处理、数据测试、数据安全和能力复用与保障七个步骤来实现数据工程落地。fOX28资讯网——每日最新资讯28at.com

数据运营的目的是要形成企业看数据、用数据、将数据作为沟通语言和工具的“数 据文化”,数据只有容易被发现,才有产生价值的可能性。fOX28资讯网——每日最新资讯28at.com

数据工程人员的能力模型

数据工程的落地,归根结底还是需要由人来完成。构建企业自身的人员能力培养机制、 搭建企业人员数据能力提升通道是数据工程能力持续迭代的重要保障。fOX28资讯网——每日最新资讯28at.com

数据工程师能力模型如下:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

数据产品经理的能力模型如下:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

数据分析师的能力模型如下:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

数据工程是数字经济下确保数据价值转化的重要保障,是加速数据转化为价值的重要手段,需要应对未来数字经济的大趋势。为了处理数据领域的各种新问题, 各种新技术、新概念逐渐涌现, 现代数据仓库、数据湖、湖仓一体、分布式数据架构、机器学习、数据云原生等逐一登上舞台。fOX28资讯网——每日最新资讯28at.com

数据工程的工具图谱

数据工程是咨询公司Thoughtworks 给出的概念, 但仍然是新瓶装旧酒, 个人可以认为,可以映射成传统意义上的数据治理。对于数据治理而言,已经有相对成熟的体系, 下面是数据治理的工具全景图:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

特别地, 对AI计算的能力支撑工具图谱而言,如下图所示:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

大模型与数据工程

人工智能发展的突破得益于高质量数据的发展,数据是大模型竞争的关键要素之一,大模型的训练需要高质量、大规模、多样性的数据集,而优质中文数据集是稀缺的。行业数据的价值很高,具有优质数据和一定大模型能力的公司或通过行业大模型赋能业务。fOX28资讯网——每日最新资讯28at.com

未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集, 清洗, 标注等成本。在模型相对固定的前提下,通过提升数据的质量和数量可以提升整个模型的训练效果。以数据为中心的AI工作流如下图所示:fOX28资讯网——每日最新资讯28at.com

图片图片fOX28资讯网——每日最新资讯28at.com

从 GPT- 1 到 LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、 Common Crawl 和其他数据集。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过 去数年中, 多模态大模性参数量及数据量持续提升。例如, 2022 年 Stability AI 发布的 Stable Diffusion 数据集包含 58.4 亿图文对/图像,是 2021 年 OpenAI 发布的 DALL-E 数据集的 23 倍。fOX28资讯网——每日最新资讯28at.com

国内各行业数据资源丰富,2021-2026 年数据量规模 CAGR 高于全球,数据主要来源于政 府/传媒/服务/零售等行业。据 IDC ,2021-2026 年中国数据量规模将由 18.51ZB 增长至 56.16ZB ,CAGR 达到 24.9%,高于全球平均 CAGR。尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。fOX28资讯网——每日最新资讯28at.com

百度“文心”大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据 和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模 型特有的训练数据主要来自微信公众号,微信搜索等优质数据。华为“盘古”大模型的训练数据公开数据外, 还有 B 端行业数据加持,包括气象, 矿山, 铁路等行业数据。商汤 “日日新”模型的训练数据中包括了自行生成的 Omni Objects 3D 多模态数据集。fOX28资讯网——每日最新资讯28at.com

因此,在这个大模型的时代, 企业的数据工程中要融入面向大模型的数据架构,在数据产生时完成自行标注,同时辅之以数据服务商提供的数据,将大模型作为默认选项形成自己的领域模型。fOX28资讯网——每日最新资讯28at.com

拭目以待!fOX28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-5203-0.html浅析数据工程

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DDD 必备架构--六边形架构

下一篇: 电脑软件:分享五款高效的电脑宝藏软件,值得收藏!

标签:
  • 热门焦点
  • MIX Fold3包装盒泄露 新机本月登场

    小米的全新折叠屏旗舰MIX Fold3将于本月发布,近日该机的真机包装盒在网上泄露。从图上来看,新的MIX Fold3包装盒在外观设计方面延续了之前的方案,变化不大,这也是目前小米旗舰
  • 天猫精灵Sound Pro体验:智能音箱没有音质?来听听我的

    这几年除了手机作为智能生活终端最主要的核心之外,第二个可以成为中心点的产品是什么?——是智能音箱。 手机在执行命令的时候有两种操作方式,手和智能语音助手,而智能音箱只
  • 2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 不容错过的MSBuild技巧,必备用法详解和实践指南

    一、MSBuild简介MSBuild是一种基于XML的构建引擎,用于在.NET Framework和.NET Core应用程序中自动化构建过程。它是Visual Studio的构建引擎,可在命令行或其他构建工具中使用
  • Java NIO内存映射文件:提高文件读写效率的优秀实践!

    Java的NIO库提供了内存映射文件的支持,它可以将文件映射到内存中,从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 华为Mate60标准版细节曝光:经典星环相机模组回归

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
Top