模型之外,数据为王:Meta天价收购揭示AI新战场

蓝鲸财经
18 Jul

文|数据猿

“当模型军备竞赛陷入瓶颈,数据成为巨头争夺的下一个高地。

近日,Meta以148亿美元收购AI初创公司Scale AI的49%股份,这一交易将创下私营公司融资交易的历史新纪录。Scale AI是一家快速崛起的数据标注公司,拥有50多万遍布世界各地的员工,从事数据标注工作。这一重磅新闻释放了一个信号:数据在AI竞赛中的战略地位越发凸显——当模型军备竞赛陷入瓶颈,数据成为巨头争夺的下一个高地。

在这场由数据驱动、大模型实现、算力支撑的智能革命里,市场上几乎所有人都在攒模型、买算力,数据逐渐成为了这个“大三角”最薄弱的一环。

AI时代,一道悄然树立的“硅幕”

作家尤瓦尔·赫拉利指出,随着人工智能的快速发展,一道“硅幕”正在落下。这道“硅幕”不仅是企业之间,在企业内部同样显著。

☆数据割裂与治理缺位:恶性循环的根源

过去十年数字化系统的膨胀埋下隐患:业务、系统、部门间形成数据孤岛。其根源在于支撑工具链的深度割裂——数据采集、存储、处理、分析、建模、应用等环节采用互不联通的不同工具。这种割裂制造了人为“断点”,导致数据流动受阻、价值难以整合:看似各环节工具“完整”,却因无法协同而失效。

工具链的断裂必然引发数据治理缺位。一方面源于战略轻视(在很多企业数据治理被视为“成本部门”的脏活累活);另一方面受制于能力不足——将散碎数据转化为标准化的“数据资产”面临取数、治数、用数三重挑战。治理“失能”不仅使数据无法支撑动态业务,更会导致治理结果与业务脱节。

企业由此陷入 “高投入、低产出” 困局,加深决策层疑虑,最终形成恶性循环:数据链路断裂->价值损耗->AI决策失效->治理投入削减。打破循环不能仅靠意识觉醒,需要找到病根对症下药。

☆千头万绪一根针:数用一体是破局关键

数据治理问题根源在于传统的 “建用分离” 模式,致业务与数据系统 “两张皮”,如果不从底层颠覆这个运行模式,数据治理工作将是缘木求鱼。

产业界急需一场深层变革。数睿数据提出的“数用一体化” 方法论,提供了一条崭新路径。其核心理念是打破工具壁垒,将数据采集等全流程置于统一连贯平台,并实现深度工具融合,使得数据从源头可治理、复用,从而支撑高效自动化建模。这一全新模式从根源上突破了业务与数据“两张皮”的困境,将数据价值直接嵌入到业务流程中,穿越“硅幕”,实现从数据支撑应用,应用支撑业务创新的跨越。

“数用一体化”的理念引人注目,但关键在于能否落地。数睿数据近期发布了smardaten2.0平台,致力于将软件工程、数据工程与AI工程化融为一体。smardaten2.0平台的问世,也将“数用一体化”推向了新的高度。我们就以此为出发点,探察“数用一体化”与产业会产生怎样的化学反应。

AI解锁医疗数据的深层价值

自从OpenAI推出GPT-4,整个世界就进入到大模型时刻。大模型的到来深刻改变了数据生态,同时也深度塑造了AI的产业化进程。

在此背景下,数睿数据率先踏入无代码领域的大模型时代。其标志性成果是融入生成式AI能力的smardaten 2.0平台。该平台基于全域实时数据,通过“低代码+AI”驱动技术民主化,实现业务敏捷响应,并在应用生成、意图识别与命令执行、深度知识检索等方面实现能力跃升。

1.数据治理智能化:从“人工追数”到“AI主动管数”

smardaten 2.0依托 “专家知识库+AI双引擎”,推动数据治理从低效人工模式转向智能化,加速数据资产标准化:

·AI语义映射替代人工比对:某市卫健委想通过全民健康信息平台,为市民提供更加完善的公共服务。但平台涉及几十家医院,存在数据标准不一、数据集成统一复杂等挑战。数睿数据借助60+医疗数据模型知识库,自动识别同义表述并映射标准字段。如市卫健委45家医院 “血糖指标” 的11种说法,AI将单家医院标准化时间从3个月缩至8小时,技术门槛降70%;

·主动规则引擎适配标准迭代:将治理规则与业务场景绑定,医疗ICD编码更新时,AI自动扫描并批量更新,某三甲医院应对 “长新冠” 编码更新,时间从14天缩至40分钟,无需人工操作;

·NLP解析释放非结构化数据价值:通过自然语言处理将病历文本转为结构化数据,某区域医疗数据利用率从30%提至85%,为AI辅助诊断提供支持。

可以看到,数据治理智能化带来了效率的极大提升,并大幅降低了人工操作的环节。但必须说明的是,数据治理智能化的价值并非是为了替代人,而是让治理转为业务支撑,实现 “治理-分析-决策” 一步到位。

2.主动治理:从“消防员”到“领航员”

“数用一体化”的另一重要优势是实现了数据的主动治理。很多企业数字治理采用的是事后补救,被动治理为主的模式。在瞬息万变的数字时代,这样的模式很显然是存在巨大隐患的。

继续以卫健委为例,面对医疗数据的高敏感性和频繁更新的规范(如ICD-11编码),smardaten 2.0将治理规则直接嵌入业务场景(如门急诊、住院),利用语义引擎自动化执行转换规则。当标准更新时,系统能自动同步,确保历史数据无需繁琐重映射。实现数据的主动治理标志着从“消防员”到“领航员”的治理范式转变,实现了源头管控和全生命周期的自动化合规。

3.自然语言构建:公民开发的现实图景

2.0时代,数睿数据打造了深度思考引擎的“4+3”应用构建框架、Build Copilot以及Copilot Studio三大核心功能。“4+3”框架基于应用、页面、卡片、组件的软件4层颗粒度,以及数据、样式、逻辑的功能性3元素,对软件进行系统性解构,使AI能快速构建。Copilot智能体则提供智能搭建支持,涵盖需求分析、上下文理解、文档处理、知识库检索、对话流建设等能力,并支持组装式开发与扩展。

例如”智能问数“,用户仅需输入自然语言问题,系统即可自动识别意图,精准定位相关数据资产,并实时生成分析结果(图表/报表)。用户可在对话框中对结果进行交互式调整与优化。所有分析成果均支持一键插入大屏、文档或应用页面,实现高效复用。

“我需要一套MES生产管理系统,包含销售管理、工种管理、计划管理和分析大屏。” 10分钟后,系统自动生成了包含表单、数据分析模型的原型方案和可视化大屏。整个流程中只需要自然语言即可实现。

smardaten2.0展示了惊人的效率提升,在某些场景下,数据驱动AI的应用构建效率最高可提升10倍。更加重要的是,迈入2.0时代,数睿数据那个公民开发应用的梦想,开始照进了现实。

让“沉睡”的金融数据流动,化“数据孤岛”为“数据赋能”

我们再以一个银行的合作案例作为切口,窥探“数用一体化”在金融行业的实战情况。

该行曾深陷 “建用分离” 困境:12套异构系统形成数据孤岛,“企业客户” 在不同系统中被称为 “对公账户主体”“合作单位”“授信对象” 等,字段歧义导致数据无法互通;同时,原有CRM功能简陋,厂商响应业务需求需2个月,远跟不上大宗商品业务的迭代速度。

在smardaten2.0上,破局路径彻底颠覆了传统“先集中再治理”的模式:

☆AI驱动的“边治理边联通”

smardaten2.0依托金融知识库与AI语义引擎,对分散数据实施 “动态标准化”。AI能快速识别12套系统的异构字段关联,48小时就完成了传统3周才能搞定的跨系统数据映射,自动生成统一的 “企业客户” 数据资产目录。

更重要的是,治理规则和业务场景深度绑定:比如在 “跨境贷款审批” 时,平台预设了征信、纳税证明等校验规则,AI实时扫描数据,若发现贷款申请缺 “海关进出口数据”,会自动补全并标准化,让数据在流动中完成80%的标准化,打破了治理和应用脱节的问题。

☆数据直接“生长”出应用

治理后的标准化数据并非静态存于仓库,而是应用构建的 “活素材”。当业务人员提出 “对公客户分层管理模块(含资质评分、业务往来分析、风险预警大屏)” 需求时,平台基于治理后的客户数据,自动调用相关模型和算法,1小时内就能生成应用原型,全程无需技术人员,业务人员用自然语言指令即可完成。

更关键的是 “应用反哺治理” 闭环,当业务新增 “绿色信贷客户” 标签,平台自动识别补充 “企业环保认证”“碳排放数据” 等字段,AI实时从环保局、碳交易所抓取并标准化数据,同步更新到客户分层模型。“治理支撑应用迭代、应用驱动治理深化” 的循环,让该行CRM响应周期从2个月缩至72小时,客户数据调用效率提升90%,充分体现了 “数用一体” 核心价值 —— 数据是应用中持续进化的 “活性要素”,非 “治理完再搬运” 的静态资产 。

基于一体化平台,该行此前“沉睡”的数据,经汇总统一治理后,开始在系统与应用间高效“流动”,驱动数据分析与新业务构建,成为其从“数据孤岛”向“数据赋能”跃迁的战略支点。

数据护城河决定AI时代胜负

数睿数据是国内最早一批将AI技术与数据分析、软件开发结合的科技公司之一,它的发展历程是两次AI浪潮叠加向前的一个缩影。从smardaten2.0上,除了技术的升级之外,我们还看到了一个“以数据为中心的人工智能”模式,正在成型。可以看到,当前很多大模型公司最大的发展问题不在模型身上,而是来自数据生态的结构性塌陷。

如果把视角放置在数据与AI的整个产业中,数睿数据带来了三个重要变化。

1、从“单点优化”到“全链条协同”,加速了数据决策的效率。由于数据被动态激活,以数据为核心的决策成为现实,企业得以从“事后报表”升级为“实时决策”,从“人工分析”进化为“AI协同”,最终实现数据价值指数级释放;

2、重构了数据治理的内生驱动力,使数据治理从 “成本中心” 转向 “价值中心”;

3、形成三位一体的数智体系,确立“数据即资产、应用即组装、AI即业务搭档”的融合生态。

随着大模型技术的快速、持续发展,赛道将会变得越来越拥挤,市场正在迎来重新洗牌的局面。正如我们开头所讲的Scale AI,其创始人说:“大型语言模型(LLM)竞争中的护城河在哪里,我认为数据是少数几个可以产生可持续壁垒的领域之一。”

Meta的天价收购并非孤例,它昭示着一个新时代的开启:在模型军备竞赛之外,一场围绕高质量数据获取与高效治理 的“暗战”已然打响。能否穿透“硅幕”,构建强大的数据护城河,将直接决定企业乃至国家在AI时代的竞争力。处理好数据与大模型的关系,不仅是赢得竞赛的秘钥,更是拥抱智能未来的基石。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10