

每隔几年,数据行业就会制造一场对于自身劳能源危境的征询。2010 年代,是自助 BI 的兴起:"如果业务用户不错我方构建面貌板,分析师会奈何?"
2020 年代初,是现代数据栈:"如果任何东说念主皆不错点击三下就启动一个管说念,数据工程师会奈何?"
这两种对话产生的杂音远多于料理决策,因为潜在的问题被诞妄地构建了。问题从来不是这些扮装会存活吗? 问题耐久是这些扮装会造成什么?
AI 的对话正在衔命雷同的模式,但赌注更高、声量更大。LinkedIn 上充满了自信的量度:数据工程师将在三年内被淘汰,AI 会写总共的 SQL,或者一个提醒工程师就能完成总共这个词分析团队的职责。
另一边,雷同自信的安抚:数据东说念主是安全的,因为 AI 无法剖析业务陡立文,基本面不会更正,或者学 dbt 就好了。
两个阵营皆看错了起先。问题不是数据扮装是否存活。问题是这些扮装将料理什么问题以及为谁料理。 阿谁问题的谜底即是矜重对待 AI 的组织中数据团队现实上应该是什么样的谜底。
谜底不是更少或更多的数据扮装,而是不同的扮装。围绕一个根柢不同的数据破费者来策画。
步调路为什么,咱们需要回到基本面。
1、面前语境下什么是数据扮装
忘掉职位称号。分析师、工程师、科学家、架构师等等。问问每个数据扮装有什么共同点。
每个数据扮装的存在皆是为了料理团结个问题的某个版块:
……将正确的信息,以正确的表情,在正确的时辰,传递给正确的破费者,以破费者不错信任并据此行径的方式。
这句话包含四个变量:信息、表情、破费者、信任。一个数据扮装由它主步调有哪些变量,以及为哪个破费者职业来界说。

数据工程师领有表情:管说念、模式、调换、使数据可打听和可靠的基础步地。
分析师领有信息:解释、查询、被问的问题。
数据科学家领有臆想:从噪声中索取信号,构建能量度原始数据无法径直揭示的模子。
数据架构师领有结构:使总共其他扮装成为可能的系统策画。
总共这些扮装在历史上皆有一个不问可知的假定,即破费者是一个东说念主类。一个大约容忍混沌性、提议后续问题、期骗机构学问并使用判断力来填补数据明确表述中空缺的的东说念主类。
这个假定现在是诞妄的。或者更确凿地说,它是不完好的。
2、什么更正了:AI 破费者的到来
AI 代理不是被迫恭候问题的 AI 助手,而是采选行径、调用器用、查询数据和作念出决策的自主系统。这些实体正在成为企业数据的活跃破费者。
这不是畴前气象。这是刻下气象,况兼正在加快。
被指派监控库存的代理将自主查询库存水平。料理客户换取的代理将在莫得东说念主类指示的情况下拉取 CRM 数据。生成财务提要的代理将径直调用数据仓库,解释它发现的内容,并据此采选行径。
这些代理不会浏览面貌板并应用判断力。它们发出查询、袭取恶果,然后以机器速率、大鸿沟地无间前进,莫得东说念主类分析师提供的解释缓冲。
这在数据奇迹的历史上创造了一个史无先例的问题。
一个遭受名为 flag_A 列的东说念主类分析师不错问它是什么好奇。一个遭受 flag_A 的 AI 代理将臆想它的含义并自信地无间前进,不管对错。
东说念主类对数据的混沌容忍度、暂停、质疑和考证的才能,在自主系统中不存在。代理不会因为数据令东说念主困惑而减速速率。 它会无间,使用它可用的任何陡立文,生成看起来巨擘的输出,不管输入是否连贯。
这更正了数据基础步地必须提供的东西。也更正了数据扮装必须作念的事情。数据栈是为职业东说念主类破费者而构建的。
数据团队现在必须重建它,或至少扩展它,以职业 AI 破费者。这两类破费者简直莫得共同点。
3、新疆域:代理期间正在创造的扮装
以下不是会出现在 LinkedIn 上的职位称号列表。其中一些还是存在于先进的数据组织中。一些正在以不同的称号被创建。
它们分享一个共同的发源:它们的存在是因为 AI 数据破费者有着东说念主类破费者从未提议过的要求。

3.1 陡立文工程师
这是数据奇迹中最要紧的新扮装,一年前在更粗俗的市集结简直不存在。
陡立文工程师的职责是策画和构建为 AI 代理提供正确启动所需信息的系统:不单是是数据本人,还有围绕它的含义。
这个列代表什么?
已知的例外是什么?
在这个领域中,"客户"的业务界说是什么,与"潜在客户"比较?
代理当该从这里的空值与那儿的空值臆想出什么?
文档是为大约阅读、解释和应用判断力的东说念主类编写的。而陡立文工程将机器可读的含义镶嵌数据基础步地本人(在协议中、在元数据中、在本色中、在语义层中),以便破费数据的代理取得正确使用该数据所需的解释支架。
所需的手段很不寻常:对 AI 系统怎样处理信息的深切了解,勾通对业务领域的严格剖析,勾通矜重建模含义的才能。 它处于数据架构、学问工程和融会科学的交织处。
3.2 数据产物司理
这个扮装存在于数据栈和业务的范围上,跟着组织从原始数据集转向托管数据产物,它正在结构上变得愈加要紧。
数据产物不是一个附带面貌板的数据集。它是一个冲破的、托管的数据基础步地单位,具有
明确的协议(它欢喜委派什么),
米兰体育官方网站质料保证(它督察什么标准),
语义界说(它的字段矜重、一致地意味着什么),
界说的破费者(它为谁职业和为什么决策),
以及总共权(谁负责它)。
料理这是一个产物料理问题。数据产物司理领稀有据产物的人命周期:剖析破费者需求(东说念主类和代理),尊龙凯时官网进入网页界说产物欢喜什么,与工程师团结构建和吝啬它,确保协议得到校服,并在产物不再职业于其目的时退役它。
这种学科鉴戒自软件产物料理,但领域彻底不同。软件产物职业于用户体验。数据产物职业于决策,这意味着质料标准、协议策画和失败模式皆不同。
跟着 AI 代理越来越多地自主取舍和破费数据产物:通过目次发现它们、评估它们的协议、决定是否信任它们,插足数据产物的产物念念维径直成为 AI 驱动职责流得手与否的要津。
3.3 语义架构师
语义层争论(业务逻辑存在于栈中的什么位置)还是握续了十年。代理期间料理了它,或者至少使猛烈联系豪阔明晰,甚至于组织不可再推迟谜底。

业务逻辑必须存在于一个巨擘的、一致的、机器可读的场所。不在惟有 BI 开垦者才能打听的 BI 器用中。不在编码了一个团队对"收入"解释的调换剧本中。不在分析师的脑海中。在一个 AI 代理不错到达、查询和信任的场所。
语义架构师策画并吝啬这一层。他们负责业务界说在总共系统和总共破费者之间的一致性。他们决定"活跃客户"在营销数据产物、财务数据产物和面向代理的 API 心仪味着雷同的事情。
他们策画本色,即实体和联系的矜重结构,赋予数据语义连贯性。当两个领域以不同方式界说团结主意时——他们老是这么作念——他们负责料理冲突。
这个扮装在主意上并不清新。学问工程师和本色学家在学术界和专科企业环境中还是存在了几十年。清新的是企业的遑急性。
3.4 AI 数据质料工程师
数据质料工程一直存在。清新的是要紧的失败模式的性质。
当东说念主类破费数据时,质料问题常常是可见的。一个看到目的通宵之间跳升 400% 的分析师会问是不是出了什么问题。一个遭受与上周数字矛盾的发扬的业务用户会要求观看。东说念主类破费者提供了一层健全性搜检,这层搜检正因为灵验而是不可见的。
AI 代理不提供这少量。还莫得。一个袭取到数据质料失败的代理,比如模式变更、预期值处的空值、或者使目的推广的相通行,将使用它收到的任何内容无间前进,可能在职何东说念主防范到之前,通过总共这个词自动化职责流级联传播该失败。
AI 数据质料工程师恰是为此而策画。他们的职责不单是是考证数据是否适宜预期的范围和模式(那是基本的门槛)。他们的职责是为机器破费者策画质料框架:自动检测代理无法自我矫正的失败、使欢喜机器可读的质料协议,以及在退化通过代理职责流传播之前拿获它的可不雅测性系统。
3.5 代理职责流架构师
跟着组织部署 AI 代理来实践数据密集型任务,需要有东说念主策画这些代理操作的职责流。这不是传统道理上的数据工程扮装。它更像是自主过程的系统策画扮装。
代理职责流架构师回应以下问题:
这个职责流中的哪些决接应该由代理自主作念出,哪些需要东说念主类审查?
现代理遭受它无法解释的数据时会发生什么?
代理操作怎样被纪录、审计和可逆?
在团结数据上操作的多个代理怎样息争以幸免冲突?
现代理在职责流半途失败时,回退策略是什么?
这些问题不是大大皆现存扮装被策画来回应的。数据工程师专注于管说念。ML 工程师专注于模子。数据架构师专注于系统策画。代理职责流架构师领有这些领域之间的空间(自主数据过程的操作逻辑),这是一个信得过新的策画问题。
3.6 AI 治理民众
治理不是清新事。清新的是治理必须治理什么。
传统的数据治理主若是对于打听:谁能在什么要求下看到什么,有什么审计追踪。这仍然很要紧。但代理 AI 引入了一层打听戒指无法料理的治理:对针对数据作念出的自动化决策的治理。
当 AI 代理对数据采选行径(对客户进行分类、标识来去、生成推选)时,该行径即是一个决策。在好多行业和国法统带区,决策有问责要求:谁作念出了这个决策,基于什么,使用什么数据,受什么审查?一个无法回应这些问题的自动化代理即是一个治理背负。
代理期间的 AI 治理民众负责确保使用企业数据的 AI 系统作念出的决策是可审计的、可解释的和合规的。他们在法律和监管要求、数据架构和 AI 系统策画的交织处职责。这个扮装需要技能涵养(足以剖析代理怎样破费数据)和计谋涵养(足以知说念监管现实要求什么)的勾通。
这不是一个软性扮装。跟着 AI 监管的熟悉——它照实在熟悉(各国法统带区进度不同但标的一致)——无法评释其对 AI 驱动的数据过程的治理的组织靠近果然的法律和声誉风险。
4、正在被~~淘汰~~重新界说的扮装
数据奇迹中的每个扮装并莫得被替代。大大皆正在被提高——如果从事这些扮装的东说念主安静前进的话。

数据工程师正在成为代理数据基础步地的系统架构师。管说念布线——将数据从 A 可靠地移动到 B 的任务——正在越来越多地被自动化。保留住来并升值的是架构:策画职业 AI 破费者的系统,构建使代理可破费的数据产物成为可能的元数据和协议基础步地,以及料理一个现在同期职业东说念主类和机器破费者的栈的复杂性。
数据分析师正在成为决策智能民众。拉取数据和构建标准发扬的大量职责正在被自动化。保留住来的是分析师原始职责中最高价值的部分:剖析现实上需要作念出什么决策,策画作念好这些决策的框架,评估 AI 生成的分析是否正确且得到了顺应的陡立文化,以及在业务问题和数据系统之间进行翻译。
数据科学家正在分化。一个分支走向 ML 工程:模子在坐蓐中的运营化和吝啬,跟着 AI 系统的激增,这变得越来越复杂。另一个分支走向不错被称为决策科学:应用统计和因果念念维来评估 AI 驱动的决策是否现实已毕了它们策画的主张。
共同的干线:每个扮装中的大量职责正在被自动化。 不可减少的东说念主类职责(判断力、陡立文、架构念念维、问责)正在扩展。扮装莫得被淘汰,而是在朝上重新分拨。
5、新数据扮装的现实道理
这张舆图的现实道理不是组织需要立即雇用六个新的职位称号。大大皆这些功能领先将由现存团队成员中那些有广度和修业欲去扩展到这些领域的东说念主来承担。
这张舆图对组织策画的启示:
以破费者来念念考。
传统数据团队围绕它坐蓐的东西来组织:管说念、发扬、模子。职业代理型组织的数据团队需要围绕谁破费其输出来组织,并坚韧到 AI 代理现在是一等破费者,其需求与任何业务用户一样果然和尖刻。
在 AI 层之前投资语义层。
每向一个语义不连贯的数据环境添加一个新的 AI 破费者,皆会成倍加多那种不连贯的本钱。从 AI 驱动的数据职责流中取得最大价值的组织是那些首先作念了基础职责的:一致的业务界说、托管的数据产物、随数据一齐传递的协议。AI 层会复合它底下的任何东西,这不错说应该是先建筑底下的问题再在上头添加更多东西的最令东说念主信托的论据。
为数据产物创建明确的总共权。
在大大皆数据组织中,数据集有总共者。具有明确协议、质料保证、语义界说和破费者联系的数据产物莫得。数据产物司理扮装的存在即是为了填补这个空缺。莫得它,随时辰吝啬数据产物的法式默许莫得包摄,数据产物会退化为数据集。
为决策构建治理。
大大皆组织现存的治理框架被策画来戒指谁能看到数据。它们不是被策画来审计用什么数据作念了什么决策,或者确保这些决策是可解释和合规的。这是代理期间将败露的结构性缺口,败露的代价将与组织的运营有几许启动在 AI 驱动的数据决策上成正比。
6、新的组织架构图
现代数据团队是为职业分析师和业务用户而构建的。在阿谁全国中,天花板是一个治理精采、可打听、高质料的数据环境。好的数据进,好的知悉出。
代理数据团队是为同期职业东说念主类和机器而构建的。在阿谁全国中,天花板是一个含义被料理、协议被校服、决策可审计的环境,AI 代理不错在其中以多年来最佳的东说念主类分析师所赢得的同等信任度来操作。
这是一个实质上更高的标准。得志这些标准的扮装现在正在被创造——偶而用新的头衔尊龙凯时官网进入网页,更多时候是现存扮装的无形扩展——简直老是相对于其要紧性插足不及。