【智库观点·聚焦数据标注产业】培育数据标注产业 开展“人工智能+”行动
数据标注伴随人工智能技术与产业前沿发展。近年来,基于数据标注、算法设计和算力突破的科技与产业创新成果造就了每一次人工智能技术进步。
新华财经北京1月21日电 近日,国家发展改革委、国家数据局等部门联合印发了《关于促进数据标注产业高质量发展的实施意见》,这是我国首次为数据标注领域专门发布高级别的实施意见,旨在通过有效市场和有为政府相结合,推动数据标注产业高质量发展,落实国家“人工智能+”行动,推动科技创新和产业创新融合,赋能经济社会发展。
一、数据标注产业高质量发展是“人工智能+”行动的内在要求
标记数据是形成人工智能的重要基础。数据标注通常需要根据特定的数据结构,对标记添加内容,便于机器进行处理、解析和训练。大多数情况下标记是在技术工具的配合下人为完成的,形成高质量的训练标记数据,再结合特定算法设计与大规模算力支撑,机器能够形成多种智能能力,从而更好地记录人类认识、模仿人类判断、对齐人类价值观。
高质量标注数据是下个阶段人工智能发展的关键。目前,互联网上可被预训练的高质量数据集基本已经被广泛使用。为进一步开展“人工智能+”行动,需扩大可训练数据的范畴,如考虑公共数据、企业数据等非完全开放数据,并通过引入先进、高效的数据标注能力,提升人工智能的逻辑能力、操作能力和价值判断能力。
数据标注的治理是构建人工智能治理体系的重要组成部分。我们可以把数据标记视为机器学习的教科书,它能为人工智能注入人类的认识、判断与价值观,成为机器理解人类世界的重要桥梁。随着人工智能的发展水平与治理要求提高,数据标注的治理体系将备受关注,并有可能逐步形成自治公约、人员从业规范、行业规范和标准等治理模式体系。
二、数据标注产业高质量发展依赖于科技创新和产业创新融合
数据标注伴随人工智能技术与产业前沿发展。近年来,基于数据标注、算法设计和算力突破的科技与产业创新成果造就了每一次人工智能技术进步。在传统深度学习作为主导技术的时期,数据标注产业得到充分发展,为人工智能专项训练任务提供数据解决方案,如图像类任务的分类、识别和分割等,又如文本类任务的分类、问答和摘要等。在大模型阶段,数据的标注需求被进一步激发,在数据的预训练、模型微调、指令对齐和提示词工程等方面,数据标注的作用愈发显著。
数据标注的效率与质量是产业的核心竞争力。加强科技和产业创新融合,有助于提升数据标注的效率与质量。围绕提升效率,数据标记的科技创新不断发展,形成自动标记、合成数据、辅助标记平台、孪生数字环境等技术路线。同时,质量保障体系建设是数据标注产业化、规模化过程中企业的关键能力与重要挑战。要通过加强产业创新,强化管理模式、业务流程、工程体系与科技创新的整合,持续提升数据标注的质量控制与效率,保障大规模、高质量的标注数据集形成。
未来,数据标注行业将是劳动力密集、知识密集和技术密集型的新兴行业。伴随着人工智能行业的技术进步与产业变革,数据标注经历了持续发展与快速变革转型。训练数据通常具有大规模、高质量且有针对性等特征。为交付高水平的数据标注服务,标注企业既需要一定的人力投入,又需要确保通用或专业知识的准确与可靠,还应不断升级标记工具的技术水平,数据标记产业将逐步形成劳动力、知识、技术密集的新兴产业。
三、数据标注产业赋能经济社会发展
数据标注的产业化有助于形成经济增长新动能。随着“人工智能+”行动计划的推广与实施,社会各界对通用人工智能与专用人工智能的需求将被持续激发,进而传导至对算力、算法与数据的需求。这将推动数据标注的产业化进程,加速行业的规模化、专业化与集约化发展,产生技术外溢效应,形成富有韧性的人工智能产业集群。
数据标注产业有助于构建就业友好型发展方式。数据标注产业化能够吸纳多层次的研究人才、技术人才与工程人才,通过有组织的培训、实践和管理,将打造就业友好型的数据标注企业,进一步释放我国在人工智能领域的工程师红利,通过新技术发展新产业,催生新岗位,促进新就业,将带动人工智能发展机遇惠及广大民众。
数据标注的产业化还有望促进产业升级和区域均衡发展。数据标注很大程度上能够通过远程协同和灵活办公实现,建议充分激发各地的比较优势,发挥数据标注基地的引领作用,实现资源优势互补和协同共创,融入统一大市场,为中西部地区创造新发展机遇,助力区域均衡发展。
本文作者系中国人民大学教授杨翰方
编辑:李倩倩
版权声明:未经新华财经书面授权许可,严禁任何个人或机构以任何形式复制、引用本文内容或观点。
免责声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115