专家解读之一 | 大力发展数据标注产业 推动我国人工智能创新发展
人工智能是新一轮科技革命和产业变革的重要驱动力量。数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。大力发展数据标注产业,对推动人工智能创新发展、带动大学生就业和促进数字经济高质量发展具有重大意义。
发展数据标注产业的重大意义
(一)数据标注是提升数据供给质量的关键环节,是提升人工智能产业竞争力的先手棋
大模型已成为中美科技竞争的制高点,数据供给质量决定了模型的基础能力。当前,全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈。训练一个领先的大模型,需要数百万甚至数千万条标注数据。数据标注发展水平成为决定中美人工智能胜负的关键因素。美国在数据标注领域投入巨大,培育了一批数据标注独角兽企业,产业迅速发展。例如,OpenAI在训练GPT系列模型时,投入数千人力和数亿资金进行数据标注,高质量语料集炼就了全球最好性能基础大模型。相比之下,我国虽是全球第二大数据资源国,但数据质量不高,开发利用比例低。全面提升中文语料质量,成为破解我国大模型发展和提升人工智能产业竞争力的关键环节。
(二)数据标注是充分释放数据要素价值的前提条件,是数据要素价值化的必选项
我国是全球第一个将数据资源作为核心生产要素的国家,加快数据要素市场化配置,发挥数据的倍增、叠加、放大效应,是实现数据要素价值赋能经济创新发展的关键。我国是数据资源大国,但不是数据资源强国。2023年,我国数据资源32ZB(泽字节),保存数据仅有2.9%,数据留存率远低于发达国家水平。数据质量低,大量数据被浪费,成为制约我国数据资源价值发挥的瓶颈。数据标注能为机器提供高质量的数据,赋能机器学习、深度学习等人工智能算法的训练,从而实现数据价值转化。以医疗领域为例,通过对大量医疗影像数据进行标注,可以训练出精准的疾病诊断模型,提高医疗诊断的准确性和效率,为患者提供更好的医疗服务。目前,标注数据已广泛应用于生成式人工智能、自动驾驶、电子商务、精准医疗、智能制造等智能场景应用,是数据要素化的必选项。
(三)数据标注产业逐步向智能化、知识化和专业化迈进,是解决大学生就业的有效路径
随着人工智能从通用领域向专业领域演进,数据标注对专业性、技术性的人才需求日益增长,数据标注产业也从劳动密集型,逐步向知识密集型转变,为大学生创造了数百万就业岗位。比如,美国从事数据标注的岗位超过30万,德国最大的数据标注公司Clickworker全球雇佣了120万标注员,印度到2030年数据标注人才的需求也将到100万。我国各地发展的数据标注基地,也对拉动大学生就业产生了显著效果。比如,日照数据标注基地,2024年从业人员突破1.1万人。国内大型互联网公司在全国数据标注基地人员都超过了数万人。通过发展数据标注产业,能够有效缓解大学生就业压力,促进人才培养与产业发展的良性互动。
(四)发达国家纷纷布局数据标注产业,使之成为数字经济发展的基础性、战略性产业
推动我国数据标注产业发展的思路与重点