02

数据标注产业助力人工智能技术高质量发展 2025年07月15日  闫茜

自动驾驶、人脸支付、智慧医疗、智能家居……人工智能正日益融入生活,为我们带来诸多便利。这背后,离不开数据标注师的辛勤工作。高质量的数据集是人工智能发展的基石,而数据标注正是构建这些数据集的关键环节。依托科研优势和政策支持,银川的数据标注产业正构建起覆盖数据标注、算力支撑、场景应用的全链条产业生态,推动人工智能技术高质量发展。

一天标200万个点

数据标注师的工作很“科幻”

夏日午后,走进宁夏人工智能创新生态产业园的宁夏瀚海星辰网络信息科技有限公司,26岁的韩院翠正对照2D街景照片,在相应的3D点云图上精准标注交通信号灯、路牌和路障等目标。鼠标快速滑动,屏幕上的点云图随之翻转,一个个针尖大的数据点被标注在不同物体上——蓝色代表路面、绿色是绿植、红色标识路沿、白色则标记障碍物。从业仅两年的韩院翠,已是一名资深数据标注师。“传统行业的原料、产品看得见摸得着,而我们只需要一台电脑、一根网线,原料是数据,产品也是数据,这份职业有种‘科幻感’。”韩院翠这样描述她的工作。

对于数据标注师的工作,韩院翠有自己的理解:“数据训练过程会产生大量供计算机深度学习的训练数据。为了让AI更快‘学会’,数据标注师就像‘幼教’,教会AI更好地认识数据。”近期,她和同事正为汽车自动驾驶项目提供标注服务,这是人工智能的高级应用场景之一。通过训练,计算机能识别分类信号灯、车道线、行人和车辆,从而规划并实时调整合适的驾驶方案。

面对人脸识别、声音识别甚至更复杂的任务,一位熟练的标注师每天可完成200万点的标注工作。“一张普通点云图大约需标注18万个点,熟练的数据标注师半个多小时就能完成。这样算下来,一天标200万个点不成问题,不少熟练的标注师月薪过万。”宁夏瀚海星辰负责人张涛介绍。该企业于2024年7月落地银川,目前拥有上百位数据标注师,客户包括阿里、广汽、快手、腾讯等知名企业。宁夏人工智能创新生态产业园区还将招募150余名数据标注师,助力本地人工智能产业链建链、强链。

提炼语音数据

助力保护银川“多彩乡音”

数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。

在银川,数据标注企业的业务范围已从图片拓展至语音、医疗CT、人脸识别等领域。语音数据涵盖普通话、各地方言及外语等,对数据标注师的要求也越来越高。

近期,位于银川中关村创新创业科技园的宁夏智数科技有限公司,正与燃气公司合作开发能说银川话的人工智能客服机器人。“目前,我们已采集了800个小时的银川方言语音数据,覆盖银川市三区两县,内容涉及旅游、教育、饮食、风俗文化等多个领域。”公司副总经理贾玉玉介绍道。

7月6日,数据标注师马芳从数据库中提取出20分钟的“语音标本”,将其切分为200余小段,再将每段银川话转写成文字输入大模型。“经过800小时的持续训练,让大模型能‘看到’声音波段,判断方言含义并实现双向转化。”马芳解释道。

“现在农村不少年轻人外出务工,老年人在家若遇燃气问题,拨打客服电话可能沟通不畅。如果听到客服说的是熟悉的银川话,不仅会有亲切感,也能更有效地解决燃气安全问题,打通服务的‘最后一公里’。”贾玉玉表示,银川方言大模型建成后,可匹配各类终端,提供“老年人口音”“年轻人口音”“标准发音”等多版本服务。

这不仅能促进不同地域人群的顺畅交流,也对方言文化起到保护作用。“我们首款产品聚焦银川方言,后续将开展‘方言保护计划’,搭建中卫、固原等地方言大模型,开发更贴合消费者需求的智能语音交互产品。”贾玉玉补充道。

从数据标注到算力集群,再到多元应用场景,银川市正以全链条的产业布局,抢占人工智能发展制高点。在这片数据“沃土”上,一幅“科技之林”的繁茂画卷正徐徐展开。

本报记者 闫茜