AI时代的数据要素开发与治理

时间：2023-11-04 11:50 来源：中国工程院

| |   |  |

　　人工智能概念的提出已有60多年时间，但直到1997年IBM的深蓝计算机战胜国际象棋大师才为大众所知，不过基于专家系统经验的智能有限。2016年，AlphaGo战胜世界围棋高手初显大数据实力，但也只是在规则下的算法熟能生巧，类似的方法推动了自然语言识别与人脸识别技术的发展。2022年底，ChatGPT的问世标志着人工智能从判别式发展到生成式的跨越，虽然目前的大模型只是针对特定任务和指定模态，离通用人工智能还有不少距离，但语言大模型让机器初步具有常识，懂得推理，学会创作，让人和机器能以较自然的方式互动，通过与周边工具的结合，表现出拟人的智能。与AlphaGo将数据作为查询和判别的依据不同，ChatGPT可以说读透与消化了数据，融会贯通计上心来，得出源于数据高于数据的结论。生成式大模型赋予数据以新的生命力，AI时代大数据蕴含的价值将进一步涌现。数据因AI而变得越来越重要，数据要素是新型生产力的代表，数据挖掘能力成为新时代的国家重要竞争力。

　　一、培育数据资源，促进开放共享

　　数据是生产和生活过程的记录及对自然观察的结果。2022年中国人口占全球18%，网民占全球21.5%，GDP占全球18.06%。据国家网信办《数字中国发展报告（2022年）》数据显示，2022年我国数据产量达8.1ZB，同比增长22.7%，全球占比为10.5%，位居全球第二；我国数据存储量达724.5EB，同比增长21.1%，全球占比为14.4%。中国产生和存储的数据在全球的占比均低于中国的人口、网民和经济规模在全球的比例。据Synergy Research Group截至2021年Q3季度统计，美国大规模数据中心在全球占比高达49%，其次是中国占比为15%。可见我国数据存储量与美国相比差距还比较大，这反映了我国在社会信息化和产业数字化程度上仍落后于美国，加快数字中国的建设将有望尽快改变这一状况。

　　政府与研究机构及企业都会存储大量数据，其中政府掌握全社会数据约80%，而且是高质量数据，但主要却仅供内部使用甚至是本部门内小单位各自存储和使用而非共享，数据利用率不高。需要从制度上明确共享内容、权限和责任，促进政府部门间数据共享，更精准地把握社会和经济运行全局，提升政府部门间工作的协同性。与共享相比，数据开放更是社会数字化的标志之一，政府及企事业单位掌握的公共数据具有很强的社会性，政府开放数据对提升政府公信力、降低社会成本，带动数字经济发展有重要作用。国际上将政府数据开放作为数字政府的重要衡量指标，据《联合国电子政务调查报告2022》数据显示，从2012年到2022年的十年间，中国在线服务指数从0.5294上升到0.8876，在193个国家中排名从第62位上升到第15位，爱沙尼亚、芬兰、韩国位居前三，美国第8，日本第9。我国还存在政务数据标准规范体系待健全、政务数据统筹管理机制待完善，政务数据安全保障能力待加强的问题，需要从建设数据流通基础制度体系入手，加快数据立法，完善制度规范，统筹协调推进，编制数据目录，分类分级管理，夯实共享开放机制，提升安全保障。

　　除了政府开放数据以外，社会公共数据的开源开放也表征数据流通的水平。人工智能生成内容（AIGC）大模型都是利用语料库训练的，一些互联网大厂利用电商、社交、搜索等业务收集和标注了海量的语料供自身训练大模型使用，没有语料积累的企业和研究机构虽然可以从网络获得语料，但自媒体内容质量良莠不分，未经清洗与标注就用作大模型的训练语料其效果堪忧。ChatGPT大模型训练时使用了开源语料库，但中文词元（Token）占比不到0.1%，还不及一些小语种的比例，其中的原因与中文开源语料库数量少和规模小有关。国内高校也有数亿到数十亿字的语料库但尚未开源。国内一些语言大模型直接采用国外开源语料库训练，在价值观的把控上存在潜在风险，建议对面向公众开放应用的对话类大模型需要做语料来源的评估。面向重要应用场景的大模型不宜强调训练用数据免标注和无监督学习，还是要采用经过清洗标注的数据集和保留人工微调，即有监督学习环节。

　　行业大模型的训练也面临挑战，专业数据没有通用数据容易获得，行业内的企业间往往不愿共享专业数据。为此有必要建立高质量国家级重要行业领域基础知识库、数据库、资源库等。此外要鼓励社会数据要素的合理流动和利用。中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》提出，依法规范、共同参与、各取所需、共享红利的发展模式，将合理降低市场主体获取数据的门槛，增强数据要素共享性、普惠性，激励创新创业创造。

　　二、大模型驱动数据范式创新

　　基础大模型通常从通用语料训练生成，通识能力强，从聊天对话入手容易反馈迭代优化，但聊天难成刚需，落地行业应用将更显大模型的价值，但基础大模型缺乏行业专业知识，需要大模型提供方与垂直行业合作开发行业大模型。一种模式是企业将数据交基础大模型进行再训练，待调优至理想后再进行知识蒸馏、量化及针对特定场景迁移等缩小模型规模的工作，但后续模型微调和云边端部署等仍需算法工程师支撑，企业技术力量不足还得依赖模型提供方，企业数据交到模型提供方有数据泄漏风险，但数据不全面则会导致训练效果差。另一种模式是企业具有算法工程师，按照特定业务场景以专有数据对基础大模型进行微调，形成行业大模型或多个基于实际业务的小模型，最好是在预训练阶段就加入垂直行业企业的数据，预训练和指令微调交错进行，提高模型对行业知识的表达、理解、迁移和泛化能力。

　　一些强监管、重数据安全的行业核心企业，例如头部金融机构等，通常不会在第三方基础大模型上构建专业大模型，而是采用数据私有化、模型私有化、本地私有云方式构建大模型，即在加密环境中使用私有数据训练专业大模型，但需要面对成本与技术门槛高的挑战。总的来说，无论自建或合作开发行业大模型，数据安全都是前提，既掌握大模型训练技术又熟悉行业专业知识的人才是关键。

　　中小企业因资金、技术和人才的限制，少有能力与基础大模型提供方合作开发行业大模型，MaaS（模型即服务）应运而生，这是针对中小企业而提出的服务模式，MaaS部署在中小企业本地设备上或公有云上，以小切口嵌入PaaS与SaaS间，并提供调用基础大模型的接口，可加入企业自身数据对模型精细化调整，从而将大模型能力嵌入到SaaS产品上，解决了传统SaaS面临的客户定制化需求和标准化产品规模化盈利之间的难题。基于MaaS通过大模型可优选小程序及配套的低代码开发和模型编排等工具，PaaS可据此搭建低代码平台，丰富工具软件，实现数据和功能的定制化，以MaaS方式使中小企业上云的同时使用个性化的小模型，为数字化转型提供智能解决方案。当前大模型不仅是一种技术，它重塑了数据要素生态链，引领产业研究开发应用的范式变革，标志着信息化发展从网络驱动到数据驱动。面对大模型浪潮，需要在国家战略与规划部署下，统筹推进政产学研用，引导“百模并发”形成合力，避免资源分散和低水平重复，实现数据采集汇聚、加工处理、流通交易、开发应用全链条协同。

　　三、数据助力社会治理信息化

　　习近平总书记指出“随着互联网运用普及和大数据等技术快速发展，国家治理正逐步从线下向线下线上相结合转变，从掌握少量‘样本数据’向掌握海量‘全体数据’转变，这为推动治理模式变革、提升国家治理现代化水平提供了有利条件”。从网格化管理、精细化服务、信息化支撑的基层治理平台，到一网统揽一网通办的城市大脑，利用大数据、人工智能、物联网等信息化手段感知社会态势、畅通沟通渠道、支持快速响应，推进政府决策科学化、社会治理精准化、公共服务高效化。特别是AIGC技术的应用，重构政府与民众之间的互动过程，大模型能够提升对现实生活中复杂大系统问题的处理能力，能够精准防控社会发展中的风险，能够有力维护政治稳定和社会安全，进一步促进经济发展和社会进步。

　　AI特别是生成式大模型技术是双刃剑，其推理过程不透明，解答有自圆其说的成分，尤其使用了未经鉴别的语料训练用于社会治理的大模型，可能会触发对公众的误导，甚至引起价值观的冲突。AI技术也可能被滥用或恶意利用来制造虚假新闻，引发社会传播风险，危害国家安全。我们既要用AI来辅助社会治理也要治理AI行为，但不能因AI的使用可能失控而限制对AI技术的研究与应用，AI技术需要在应用中反馈和迭代升级。当前，国际贸易、科技合作、人员往来不可避免数据跨境流动，数据的社会治理也面临对外开放的挑战，解决之道是AI监管制度体系建设与AI技术研究并重，发展与安全治理协同，使AI的监管创新与技术发展相辅相成，以技术手段和治理规范两手应对大模型的算法偏见和伦理道德失序，以法律法规防止各类数据安全事件发生和维护国家安全。为此，首先需要按照《关于构建数据基础制度更好发挥数据要素作用的意见》，尽快完善数据产权制度、数据要素流通和交易制度、数据要素收益分配制度、数据要素治理制度，为AI技术的发展与治理提供行为规范。其次是重视数据监管的技术创新，APN6（基于IPv6的应用感知网络）和iFIT（基于IPv6的随流检测）可以标注IP流的属性，包括数据类型和对IP流路径溯源，有利于对跨境数据流动的管理，IPv6的多归属特性可以分流敏感数据。多方计算等技术可以在不同所有者的数据融合时做到数据可用不可见。加快各类数据监管和数据安全技术的研究已成当务之急，要为数据管理规范尽快填补技术支撑手段的不足或缺失。

　　四、加快数据基础设施建设

　　大模型的数据训练与推理都需要算力支撑，中国2022年算力总规模为180Eflops，低于2021年美国的200Eflops，其中智能算力2022年中国为41Eflops，不及2021年美国的65Eflpos，这反映了我国在大模型的数据训练和推理算力上的差距。算力的建设是市场行为，但国家统筹推进将优化资源的利用和产业的合理布局。“东数西算”作为国家战略部署具有中国特色，反映我国区域经济、地理气候特点和能源分布的格局，政府之手的作用在东西部数据资源配置与有效应用上不是可有可无的。西部不足之处是数据中心产业配套能力薄弱和人才短缺，需要同步规划布局数据清洗标注、数据机房产品及服务业的培育发展，延伸产业链上下游，在做好承接东部的温冷数据的存算的同时，还要带动起当地热数据的上云服务，使西部的数据集群发展形成良性循环。

　　算力的布局需要处理好几方面的关系，一是通用算力与智能算力的合理比例，通用算力以CPU为主，适合处理政务、智慧城市和智能客服等数据/计算密集的事务性任务；智能算力以GPU为主，适合做大模型的训练，注意到在数据训练过程中还需要算法工程师介入和微调，智算中心适于在数据源集中和算法工程师聚集地建设，不宜全面开花，动用财政资金支持的大型智算中心的建设应慎重规划。二是自建算力与云原生算力，很多单位有自建算力的积极性，但麦肯锡报告显示，商用和企业数据中心的服务器很少超过6%的利用率，通常高达30%的服务器带电闲置。需要鼓励中小企业从自购AI服务器搭建数据中心向采购云服务转变，既降低成本又提高利用率，增强抗DDoS的能力及减碳；需要引导县级地方政府使用省地集中建设的政务云代替独立采购IT基础设施。三是存算比例，存力与算力需配合，内存与算力合理比例是GB/Gflops为1，避免因存力短缺造成算力等待而影响处理效率，据华为/罗兰贝格报告，2020年美国为1:0.9，中国为1:2.4。四是灾备容量与主用数据中心存储容量之比，数据中心需异地双容灾备份，关键数据实现本地双活，2020年当年数据灾备保护占数据中心存储投资的比例全球平均为27.4%，而我国只有7.8%，需重视改进。

　　数据作为生产要素是经济理论与实践的创新。数据与土地、劳动力、资本等传统生产要素不同，数据要素的开发与治理有很多需要深入研究的问题，例如数据的可复制性、使用无损性等导致数据产权和安全管理边界难以界定。党中央决策部署组建国家数据局，负责协调推进数据基础制度建设，统筹数据资源整合共享和开发利用，统筹推进数字中国、数字经济、数字社会规划和建设等，将有力促进数据要素技术创新、开发利用和有效治理，以数据强国支撑数字中国的建设。（作者：中国工程院院士邬贺铨）

扫一扫在手机上查看当前页面

打印 关闭