登录
第三方登录
武汉“长”出的AI,瞄准2亿人的听力困局
湖北日报客户端 2025-07-10 20:54:57

图片

开栏语:当下,人工智能作为一股势不可挡的力量,正深刻改变着我们的生产和生活方式。机器人、具身智能只是拼图的一小块,AI赋能应用远不止于此。AI冲击波的涟漪,扩散到了我们每个人司空见惯的行业和产业。


“AI在武汉 从实验室到产业深处”系列试图走近武汉人工智能企业,走到产业深处,感受AI如何重塑产业,看见“AI+”的无限可能。


2006年,我国第二次全国残疾人抽样调查结果显示,全国听力残疾人数为2004万人。

2016年,原国家卫计委、中国残联发布联合调查数据显示,中国患有听力障碍的有2.06亿人,占总人口15.84%。其中患致残性听力障碍,即中度以上听力障碍的人占到总人口的5.17%

很快又是十年。噪声聋成为我国第二大职业病,仅次于尘肺病。

听不见,等于与世间的热闹隔绝。而现实是,如助听器这类有效的听力辅助手段,在国内普及率低得可怜。

要么高端的买不起,要么百元左右的助听器“越戴越聋”,困扰上亿人的听力问题,始终没有得到很好解决。

带着这个问题,我们对话了武汉3个团队,1个来自高校,2个来自企业。他们的共通点,是正在用人工智能技术试图破局。

“我们的目标是,聋人可以像正常人一样融入社会和交流。

“我们的目标是,戴助听器可以像戴眼镜一样便捷。

技术,开始变得有温度。

王然和肖阳的团队志愿者一直记得,云南昭通两兄弟小磊、小亮(化名)叫出的第一声“爸爸妈妈”。

小磊、小亮均患有先天性耳聋,因聋致哑,不曾开口说话。父母在外务工,平日里爷爷照顾。当团队志愿者走进云南昭通,认识了他们。

志愿者利用团队开发的AI唇语辅助训练系统,花一个下午教他们说话。当他们说出了第一声“爸爸妈妈”。爷爷在旁,泪流满面。

▼ 金蝉子公益团队帮助听障小朋友学唇形。图源:央视新闻

图片

王然和肖阳都是华中科技大学的老师,一个做自然语言处理,一个做计算机视觉与图像处理。

技术出身的团队如何关注到听障群体?

王然提到了一个启发式的人物——江梦南。这个聋人女孩凭借着毅力学会了读唇,并能发声与人正常双向沟通。

接触到更多聋人群体后,王然意识到,聋人只是听不见,不等于说不出。

两人开始商量:怎样让聋人也能真正享受到时代发展的红利?AI技术怎样有温度?

图片

结合两人的专业背景,一个AI唇语辅助训练系统诞生。

系统通过计算机视觉与图形处理,对聋人用户唇部的关键点精准定位。当聋人用户练习发声,如北京、上海、武汉”,系统完整记录、提取并量化其唇形的时空特征,再将这些量化特征与标准唇特征比对、打分、提供反馈。

同时,他们也在做语音信号的评估,通过自然语言处理评估发声的准确程度。

这一套系统,他们定位为“基于人工智能的、面向特殊教育的辅助教学系统”。

在王然和肖阳的调研中,听力残疾儿童大量存在,而聋儿康复中心学生很少,特教老师严重欠缺,这给他们造成很大冲击。

尤其他们看到,聋人小朋友从特教学校回家后,家长教不了,也没有精力辅导孩子发声。

他们萌生了开发辅助教学系统的想法,聋儿只需要点进网页,就有机器来辅助他们的发声训练。

他们的设想中,既不需要特教老师和家长参与,又能针对聋儿具体的情况进行定制化、个性化教学,就可以成为特教学校的补充和延伸,缓解聋人数量庞大而教育资源欠缺的矛盾。

▼ 特教老师在给听障孩子上课。图源:新华社

↑3月27日,在湖北省武汉市江夏区小葵花康复中心,特教老师李虹葭在给听障孩子上课。新华社记者 杜子璇 摄

为了让更多孩子愿意练习发声,他们计划设计虚拟的卡通形象,让孩子们更愿意交流,激起学习兴趣。

当前,这里面还有许多“硬骨头”需要啃。

唇语识别是一个精细化的模式识别任务,对精确性要求特别高。唇形相近而意思天差地别的情形很多,再加上人所身处的场景十分复杂,精细化识别的挑战很大。

“我们做实验时,窗帘拉开的角度不一样,人变成阴阳脸,或唇动幅度小、语速快,都会对唇语识别造成较大影响。目前没有一个数据集,广泛到可以囊括所有实际应用的情况。”肖阳表示。

目前,他们团队也正努力解决现有唇语识别算法的长尾分布问题。

华中科技大学金蝉子团队微唇语识别相关研究成果。图源:金蝉有知

图片

“有问题很正常,但是我们已经制造一种可能性。”肖阳说。

在他看来,目前属于0-1的突破性工作,当技术框架确定后,唇语识别可以从普通话拓展到英语、德语、法语甚至方言,帮助更多其他语系听障人士发声。

一步一步来。“学习‘爸爸妈妈’‘爷爷奶奶’‘吃了吗?喝了吗?’,先把这些词做好,就已经有用了。一开始几个词,到短句,后面系统越来越强,可以教他说长句。事物的发展有个过程,边做边改善。”

他们的最终目标是,让聋人能够像正常人一样交流、融入社会。

“我们这一辈子能够做成这一件事情,内心觉得就挺好。”两人说。

听障人群中,又以老年人为主。我国老年听障群体规模达到了 1.2 亿。

据《中国听力健康现状及发展趋势》统计,我国 65 岁以上老年人约 1/3 存在中度以上听力损失,75 岁以上老年人中这一数字上升到约 1/2 

然而,他们的处境却容易被忽视——“人老了都这样。”

还有一部分听障人群,是职业病所致。

“耳聋分传导性聋、感音神经性聋和混合型聋等。人一出生就有16000个耳蜗神经元左右,不可再生。这些耳蜗神经元好比花朵,长期处于强噪声环境下的工作者,这16000朵花朵就会被踩死。”豆听科技创始人胡拥军说。

中国疾病预防控制中心2018年曾发文指出,职业性噪声聋已是继职业性尘肺病后的第二大职业病。

部分城市这一数据更高。

深圳市职业病监测数据显示,职业性噪声聋已成为深圳第一大职业病,在专用设备制造业、金属制品制造业、电子电器设备制造业尤为严重。

▼深圳电子厂工人进行生产。图源:新华社

在深圳市冠涞电子有限公司深圳工厂内,工人进行生产(2023年7月摄)。新华社发(受访者供图)

与此同时,多组数据显示,我国助听器渗透率不足10%,远低于发达国家。

为什么渗透率不高?助听器市场分化严重是重要原因。

市场上百元左右的模拟助听器,本质上是个声音放大器,对所有频段声音同等放大,反而“越戴越聋”,医生并不推荐。

实际情况中,许多人听力损失频段不一,有人高频声音听不清,有人低频声音听不清。类比到眼睛,不同人的近视程度和散光程度也不一样,需要专业的验配师选择合适的眼镜。合适的助听器也需要根据每个人的听力损失情况而定,方能起效。

这类高端助听器,基本由国际大牌垄断。双耳配备助听器价格动辄好几万。

“价格直接影响到产品的渗透率,大家买不起。”武汉左点合伙人汪立君说。

2014年,国家放宽了医疗器械的准入门槛,经营第二类医疗器械,从原来严格的许可管理,变为备案管理。助听器、血压计、体温计这类常见医疗器械,即在此列。

图片

豆听科技zdeer左点都抓住这个契机入行。

胡拥军还提到了自己的亲身经历。

“有一次,我爸突聋,我带他去医院就诊,医生做了一次听力检查,也没开药,就吩咐他回家好好休息,一个星期后他的听力恢复了。这次听力测试花了我1300多元。

当时我很好奇,调研发现当时家里附近两家店主流助听器价格都在3万块钱以上。给我们家4个老人配助听器,相当于11台车就不见了。”

这刺激了他。他也暗下决心,要让听力筛查像血压计一样走进千家万户,让戴助听器像戴眼镜一样方便。

AI时代的到来,正在加速这一愿景的实现。

很多人不用助听器,一是嫌麻烦,二是好的助听器价格太高,且被国外品牌垄断。

验配环节对许多听障人士而言是件麻烦事。

一般流程是,先由专业听力师做纯音测听,记录125Hz8000Hz测试频率的最小可听阈值,得出听力图,判断听力损失程度和类型。验配师再根据听力图调试参数,调整频响、增益等。

“每个人听力损失频段不一样。如果遇到个好的验配师,可能配得很棒,但也有可能碰到一个不那么负责任的,就得来来回回调试。人工验配很难完全规范化。”左点合伙人陈毕盛说。

噪声也是个很大问题。

“降噪是世界性难题。”胡拥军说,“助听器芯片也是芯片行业的桂冠。它要求低时延、低功耗。指甲盖大的地方,要求运算速度超高的同时,还要不发热、长续航。”

AI为破解这两大难题带来了希望。

“目前市面上的助听器产品,已经落后于我们实验室产品至少两代,最大的区别在于人工智能应用。”陈毕盛说。

首先,验配流程有望大幅简化,实现由人工验配变为远程智能验配。

zdeer左点已经让验配从线下走到了线上,“线上验配只需510分钟,如果不行还有远程验配指导。”这个年轻的团队在继续思考,如何让验配更便捷。

“传统七点纯音测评太复杂了。当我们引入人工智能以后,验配的便捷度会大幅提升。”陈毕盛说。

在他们的设想中,用户只需要和助听器对话,对话时间越长,助听器就能自动识别用户的听损情况。

“为什么刚才我一句话你识别了,为什么识别错误,我都能知道。聊得越来越多,机器就越来越懂你,验配流程就变得专业化。”

胡拥军在豆听科技创立之初,就提出了“智能助听器”的概念,其核心是自己测听、自动验配,把人验配的过程用AI算法来实现。

图片

“有的老人连测听都不会。我们通过人工智能算法和大数据,优化验配公式,调节各项参数,直接用助听器来测听。经过10年的技术积累,精度可以控制在5分贝以内。”胡拥军说。

2024年,豆听科技凭借“特殊作业环境噪声聋防控防护防治创新技术与应用”项目荣获国家科学技术进步奖二等奖。

降噪显得更为棘手。

助听器降噪的原理,是将声音频段切分成多个通道。

胡拥军形象地比喻为将一根宽面条切成16段,就叫16通道。目前顶级助听器可以把声音按频段切成32段。每根小面条用不同方法来处理,有的声音放大,有的声音压低,再进行两根小面条之间的平滑处理。

识别什么是噪声,什么是人声,需要拟合比对,就是人工智能技术。有的助听器戴上去听起来‘呼呼’的,是把噪声也放大了。”胡拥军说。

降噪问题需解决芯片问题。

在指甲盖大的助听器里,具备超高运算能力的同时实现低功耗,这一芯片技术仍掌握在国外助听器生产厂家手中。

而国内要研发出同样的芯片,起码需要亿级的资金投入。

与此同时,豆听科技在利用人工智能做更多优化。

比如,基于人工智能开发智能辅助诊断系统,将测听数据传达云服务器,不需要基层医务工作者,机器可诊断耳聋成因。

又如,研发配备四种或八种模式的智能助听器,适应多种听力受损情形,听障人士可根据自身情况选择听起来更舒服的模式。

“这种助听器采用8通道数量就可以做到,而这种芯片技术国内已经攻克了。”胡拥军说。

zdeer左点同样着力于解决降噪问题。

他们提出的方案是,在传统的DSP芯片外,增加一块专门运行AI降噪算法的边缘神经网络芯片。

“空调声音通过助听器放大后,会对言语识别造成干扰。如果通过算法把它剥离出来进行降噪,降噪过程或多或少会损失部分言语上的频段,这时整个言语频段就不完整,听起来存在一定失真和不自然。”陈毕盛说。

“人工智能的边缘神经网络不是单纯把环境噪声压下去,它单独把人声剥离出来放大。‘噪声’(环境声音)听得很清晰,人声更加清晰,整个听感会更好。”

但同样受限于芯片问题。

“其实这种算法我们很早就具备了,受限于芯片的制程、算力等问题,导致算法的功耗非常大,待机时长两小时都不到,明显不能满足市场投入和用户使用需求。”

虽然如此,他们都对未来保持乐观。“芯片问题如果不是我解决,也会有国内其他公司解决的。”胡拥军说。

汪立君引用了一句古诗——旧时王谢堂前燕,飞入寻常百姓家。

“技术未来肯定是逐步平权的,让每个人都能享受科技带来的普惠。”他说。


来源:大刚观察 武汉晨报


责任编辑:施佳敏
点赞 0
收藏
已输入0个字
全部评论
  • 回复
    • 查看全部{{ item.replyCount }}条回复> 查看更多回复>
    • 查看更多回复>
查看更多评论 没有更多评论了
电子报
  • 湖北日报
  • 楚天都市报
  • 农村新报
政情
精彩推荐
  • 湖北日报客户端
  • 湖北日报官方微信
  • 湖北日报官方微博