来源:钛媒体
近期一则美国限制中国访问数据的消息引发关注。
5月18日消息,美国国立卫生研究院(NIH)近期已明确禁止中国访问人类基因组、疾病研究等数据库及关联数据。同时,美国SEER、TCGA、GTEx、GDC等多个公共数据库已对中国限制访问。
这一措施与2024年2月美国政府第14117号《关于防止受关注国家获取美国人数据》行政命令有关,该规定限制中国等“受关注国家”获取美国人的个人数据。
美国NIH的这一举措,让中国企业和研究机构体会到全球数据流动面临的限制,同时也让我们更清醒地认识到,数据资源对于中国科技进步与创新发展的关键意义。
国家数据局近期首次向地方数据管理部门印发《数字中国建设2025年行动方案》,要求到2025年底,数字中国建设取得重要进展,数字经济核心产业增加值占国内生产总值(GDP)比重超过10%,数据要素市场建设稳步推进,算力规模超过300EFLOPS。同时,国家数据局还表示,国家将继续加大财政资金投入,支持地方、行业建设一批基础性、公益性、长远性数据基础设施项目;用好超长期特别国债资金,加快构建国家数据基础设施架构;面向“十五五”,加快研制国家数据基础设施规划。
实际上,作为全球首个将数据纳入生产要素的国家,中国已初步构建起门类齐全的数据产业链。
数据显示,2024年中国年度数据生产总量达41.06泽字节,同比增长25%。截至目前,中国数据领域相关企业超19万家,数据产业规模超2万亿元。按照20%以上的年均增长率测算,2030年中国数据产业规模将达7.5万亿元。
5月17日举行的2025数据安全发展大会上,国家数据局党组书记、局长刘烈宏表示,中国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大,因此要维护数据安全,保护个人信息和商业秘密,促进数据高效流通使用,赋能实体经济。当前中国正谋划构建横向联通、纵向贯通、协调有力的数据基础设施体系,到2029年要基本建成国家数据基础设施主体结构。
大会期间,安恒信息(688023.SH)CTO刘博对钛媒体AGI表示,数据安全对于AI技术发展至关重要。精确数据可以在很多垂直模型当中应用,否则会产生“幻觉”,尤其企业构建垂直领域AI智能体当中,需要使用很多私有化数据进行应用。
刘博强调,无论是业务软件开发、数字化转型、大数据,还是企业竞争力和创新能力,AI 的确给中国带来了新一波新机遇,解决企业实际业务问题。AI时代下,所有应用都值得再做一遍,各个行业都将迎来新一轮产业升级。
AI数据既要保护也要价值利用
当前,数据已经超越了传统生产要素,成为驱动AI技术突破与产业变革的核心动力,也是推动数字中国建设和加快数字经济发展的新型核心生产要素。而高质量数据集不仅是AI模型性能跃升的基石,更重塑从技术研发到商业落地的全产业链条。
“在数字经济时代,数据就像‘工业血液’石油一样,是每个企业生存发展不可或缺的生产资料。”国家发展改革委价格监测中心副主任王建冬曾表示,近年来,中国数据要素市场发展进入快车道,但同时也面临统筹力度不足、市场发育不充分、跨境数据流通不畅等挑战。
据悉,数据要素是指在商品或服务生产并获得利益过程中投入的数据资源,主要为根据特定生产需求收集、整理、加工形成的信息、数据集以及数据产品。
为了保障数据要素规模化流动,AI产业链加速构建大模型数据集,主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集的规模大、多样性强、行业垂直属性强等特点,进行针对性的技术研发和适配。
北京大学计算机教授黄铁军表示,文本类数据包括文献、图书、论文、研究报告等数据,大部分已经用在大模型技术当中,未来还是需要更多图像、视频等非文本数据,成为大模型学习的重要来源之一。
因此,关注数据安全保护的同时,我们更要关注数据的价值,有助于推动中国 AI 技术能力不断提升。
根据中国电子信息产业发展研究院发布的《高质量数据集发展报告》显示,2024年,中国开发或应用AI的企业数量同比增长36%;全国地市级以上的地方公共数据开放平台数量增长7.5%,开放数据量增长7.1%,高质量数据集数量同比增长27.4%。同时,去年利用AI大模型的数据技术企业数量增长57.21%,数据应用企业增长37.14%。
报告指出,综合国家、地方政府发布的高质量数据集,目前涉及生态环保污染领域应用服务数据集较丰富;工业制造、生物医疗、农业、政务数据服务等行业的数据集数量处于中等水平;能源光伏、金融法律、交通物流、教育、气象遥感等行业数据集数量分列其后,行业在数据集的构建和开放方面持续推进。
赛迪研究院副院长刘文强表示,中国AI大模型的参数现在已达到几千亿级别,推进全国7个数据标注基地建设,构建医疗、工业、教育等领域335个高质量数据集,标注总规模达到了1.7万亿TB(太字节),支撑了121个国产大模型的研发。据悉,中国数据标注产业产值超过80亿元。
刘文强指出,目前从调研来看,数据汇聚和共享方面,数据存量小,产量低,数据集效果有待进一步提升。同时,数据供给和质量方面,数据的质量良莠不齐,缺乏主流高价值数据引领。而且,数据挖掘和利用方面存在算法偏见,加剧数据遗失,亟待建设高质量数据,把数据要素价值挖掘出来。
如今,随着AI时代到来,大数据变得至关重要。数据既要保护,又要被利用,如何利用AI数据产生真实价值,帮助企业实现降本增效,对于国内从业者来说是一道必答题。
阿里云智能集团副总裁安筱鹏表示,今天对自动驾驶的数据采集、数据清洗、数据标注、数据挖掘、流程训练、模型评测,已经从传统手动清洗、人工标注、人工挖掘,升级到基于AI大模型的自动化标注、挖掘,使得自动驾驶算法迭代从4个月缩短到7天,效率提升数(很多)倍。
安筱鹏认为,AI大模型是数据要素释放价值的最短路径。在基础大模型上做行业数据训练后,企业各种数据开发方式得到了巨大提升,使得应用构建流程简化效率提升70%,业务上线速度提升50%,数据分析周期缩短60%。
“我们可以看到,基于人的规则代码,演进到大模型生成代码;物理世界规律,到模型算法,再把算法代码和代码再去规划,从而形成了物理世界、数字世界和大模型智能世界。”安筱鹏强调,如今,数据服务的主体,已经从服务人转到服务AI。AI时代已经到来,人机交互的底层逻辑发生巨大变化,企业需要重新定义人机交互体验、重新定义流量入口,重新定义客户需求、市场、流程和新的业务系统。
对于AI大模型来说,数据规模将持续增长。
统计显示,2023年,中国的数据产量约占全球数据总产量的23%,位居世界第一,预计2025年中国数据总产量将达48.6ZB,约占全球的1/3。同时,2025年,全球数据交易规模有望增长到1445亿美元,到2030年则有望达到3011亿美元(约合人民币2.2万亿元)。
中国科学院院士徐涛在《数据赋能生命健康产业》演讲中指出,生命健康大数据作为重要的战略资源,具有复杂性和敏感性,因此需要建立全周期的安全体系。他提到,通过区块链加密、隐私计算等先进技术,可以实现生物样本数据的合规流通,预计为药企降低30%的研发成本。
中国工程院院士沈昌祥则提出了“可信计算3.0”解决方案。他强调,在数字经济时代,需要重构安全防线,我国自主研发的可信计算产品链已经覆盖了芯片、系统、应用全环节。通过构建主动免疫防护体系,能够有效抵御新型网络攻击。
数据规模暴增,AI下半场是智能体
“DeepSeek让政务服务企业迎来了一波新机遇,不需要买算力就能用AI大模型。”一位行业人士对钛媒体AGI表示,目前浙江省内很多场景都在使用基于DeepSeek和私有化数据的专用模型。
例如,中国开源AI模型DeepSeek可以准确辨识病症。浙江省中医院目前已经在妇产科、儿科、血液内科等多个科室的医疗场景进行试用AI医护助手。
安恒信息董事长范渊在会上表示,智能体与动态数据安全结合是一个必然,我们很快会进入到“智能体影响决策”的环境中,因为AI比人更懂数据,AI比人更懂业务,AI比人更懂行为。
“在传统的数据安全阶段,我们依然有很多问题没有得到解决。而今天,我们面临着大规模、高通量、快速率、更加开放的流通过程中,势必要求我们的动态安全,从静态保护到动态保护,从边界安全到内生融合安全,由封闭环境保护转向开放环境。”范渊称。
范渊强调,AI 的下半场一定是智能体,而智能体是大模型到场景应用的必然演进。因此,AI智能体正在从“条件自主”,不断演进到“完全自主”,让AI智能体成为安全工作者的伙伴,具备自主学习、深度进化能力,能与安全工作者共同定义问题,参与复杂决策,甚至给出创造性的方案, 能应对所有工作场景。
刘博进一步补充称,AI发展到现在,已不仅是一个“大模型”,而是需要混合智能体、MCP等技术和工具。大模型只是赋予用户思考和信息整合的能力,不能完全替代软件,而是需要通过智能体、MCP等方式提供给客户,让企业在不同场景中调用对应工具,从而大大提升企业工作效率。
早在2023年,安恒信息推出“恒脑・安全垂域大模型”,并在多个场景中成功应用。今年5月上旬,恒脑升级至3.0版本,成为国内首个安全AI智能体。据介绍,依托恒脑,安恒信息已经完成了500多个共创智能体,覆盖数十个场景,并且快速和现有产品进行了能力集成。
谈及具身智能安全,刘博表示,物理世界的安全非常重要,需要保证无人机、智能机器人等产品不被入侵,对于网络安全挑战更大,一旦入侵、操控就会让设备失控。因此,我们需要提供软件的安全系统保证具身智能操作系统、嵌入式系统、自身软件的数据安全、网络安全保护。
2025数据安全发展大会上,温州市、重庆市、武汉市、西安市、宁波市、青岛市等25家城市代表共同签订数据要素合作“百城行动”城市联盟,三十多家数据企业在现场集中签约,共同建设数据要素产业新生态。落地数源安全合规检测中心、温州瓯越数安实验室等6个高能级平台和实验室。
然而,当前中国仍然面临数据存量小,产量低、数据集质量良莠不齐,缺乏主流高价值数据引领、数据利用效率低等问题,需要做好数据源头管控,确保数据来源的可靠性、完整性,加强数据隐私和安全保障,推动数据安全评估能力建设。
刘烈宏在演讲中提出了三点意见:一是持续推进数据基础制度改革创新,加强数据要素综合试验区建设。二是加快健全数据流通利用基础设施,依托可信数据空间等技术试点,探索可复制、易推广、能持续的运营模式。三是大力推进数据要素市场化价值化实践,将海量数据(维权)资源优势转化为经济发展新动能。为探索数据价值释放路径,国家数据局支持在浙江等10个地方开展数据要素综合试验区建设。
刘烈宏在此前第八届数字中国建设峰会上强调,加快推进数字中国建设,要紧紧抓住AI发展带来的前所未有的机遇,推动数据要素市场化配置改革和“人工智能+”行动同频共振,持续推进高质量数据供给,加快推动数据要素与AI、科技创新、产业发展和赋能应用相结合,推动行业高质量数据集建设,推动数据产业高质量发展,为AI技术创新和产业应用提供坚实的数据基础。
(本文首发于钛媒体App,作者|林志佳)
责任编辑:杨赐
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.