首页 > 中经智库 > 数字经济 > 正文

数据之声 | 希尔贝壳卜辉:以高质量数据为“小切口”,做技术向善“大文章”

新华财经|2026年05月20日
阅读量:

北京希尔贝壳科技有限公司创始人卜辉表示,数据是AI的基石,更是人文的接口。行业应以开源促生态,以向善守初心,让每一份数据都承载温度,真正实现技术向善、“声声不息”。

新华财经北京5月20日电(刘苏毅)高质量数据集作为人工智能产业基础层的关键环节,其发展质量直接影响人工智能算法模型性能与应用场景落地。北京希尔贝壳科技有限公司(以下简称“希尔贝壳”)创始人卜辉表示,数据是AI的基石,更是人文的接口。行业应以开源促生态,以向善守初心,让每一份数据都承载温度,真正实现技术向善、“声声不息”。

AI基础数据是“小切口、大产业”,以数据标注为代表的数据服务模式正从劳动密集型向高技术、高知识、高价值跃迁。以做高价值数据服务为核心,希尔贝壳拥有AISHELL-LableS智能数据工程平台,并自主研发音视频标注、音频降噪、模型测试等AI大模型,从最初的语音数据逐步拓展至音视频、评测、具身智能、智驾、人机交互、脑电及多模态数据服务,已形成从提供“数据燃料”到“效能调优”的全栈式数据解决方案。

完善的产业生态建设对高质量数据建设及服务行业发展至关重要。在这方面,“开源”贯穿这家企业始终。“从最初的AISHELL-1到如今的AISHELL-7系列,开源数据集的类型更丰富、场景更多元、准确率更高。”据卜辉介绍,公司开发的AISHELL系列数据集已覆盖中文普通话、方言、多模态及特殊声学特征语音等多种类型,横跨智能家居、智能驾舱、工业生产、会议对话等数十个真实交互场景,全球已有超过1000家单位使用。谈及数据开源是否会影响自身产品竞争力,在卜辉看来,数据只有被广泛利用才能体现价值,只有数据开源,朋友圈才会更大、市场才会更健康。

高质量数据既是AI训练的基石,也是人文关怀的最直接落脚点。2024年,希尔贝壳正式开放AISHELL-6系列特殊声学特征语音数据集,至今已发布中文构音障碍、大规模耳语与正常发音平行对齐数据集等。以数据建设为纽带,2026年,希尔贝壳联合中国计算机学会语音对话与听觉专委会、深圳市人工智能学会、中国人工智能产业发展联盟数据标注专委会三大专业机构,共同发起“AISHELL融声向善语音资源开源计划”。“我们希望有越来越多的机构加入计划,共建包容、公平、可持续的全球语音技术研究生态。”卜辉呼吁。据了解,近期,腾讯天籁实验室也已加入该计划中。

81ef08c1092845e4adab33a86154f44e.jpeg

科技向善,普惠致远。从技术支撑到开源生态再到特殊声学特征数据集发布,“数据+生态”已构成希尔贝壳的立身之本与特色亮点。“让每一种声音都被听到,每一个需求都能被回应”不应仅是一项计划的追求,更应是技术普惠向善的必答题。

 

编辑:于青

 

版权声明:未经新华财经书面授权许可,严禁任何个人或机构以任何形式复制、引用本文内容或观点。

免责声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115

传播矩阵