-
- 查看全部{{ item.replyCount }}条回复> 查看更多回复>
- 查看更多回复>
开栏语:当下,人工智能作为一股势不可挡的力量,正深刻改变着我们的生产和生活方式。机器人、具身智能只是拼图的一小块,AI赋能应用远不止于此。AI冲击波的涟漪,扩散到了我们每个人司空见惯的行业和产业。 “AI在武汉 从实验室到产业深处”系列试图走近武汉人工智能企业,走到产业深处,感受AI如何重塑产业,看见“AI+”的无限可能。
2006年,我国第二次全国残疾人抽样调查结果显示,全国听力残疾人数为2004万人。
2016年,原国家卫计委、中国残联发布联合调查数据显示,中国患有听力障碍的有2.06亿人,占总人口15.84%。其中患致残性听力障碍,即中度以上听力障碍的人占到总人口的5.17%。
很快又是十年。噪声聋成为我国第二大职业病,仅次于尘肺病。
听不见,等于与世间的热闹隔绝。而现实是,如助听器这类有效的听力辅助手段,在国内普及率低得可怜。
要么高端的买不起,要么百元左右的助听器“越戴越聋”,困扰上亿人的听力问题,始终没有得到很好解决。
带着这个问题,我们对话了武汉3个团队,1个来自高校,2个来自企业。他们的共通点,是正在用人工智能技术试图破局。
“我们的目标是,聋人可以像正常人一样融入社会和交流。”
“我们的目标是,戴助听器可以像戴眼镜一样便捷。”
技术,开始变得有温度。
王然和肖阳的团队志愿者一直记得,云南昭通两兄弟小磊、小亮(化名)叫出的第一声“爸爸妈妈”。
小磊、小亮均患有先天性耳聋,因聋致哑,不曾开口说话。父母在外务工,平日里爷爷照顾。当团队志愿者走进云南昭通,认识了他们。
志愿者利用团队开发的AI唇语辅助训练系统,花一个下午教他们说话。当他们说出了第一声“爸爸妈妈”。爷爷在旁,泪流满面。
▼ 金蝉子公益团队帮助听障小朋友学唇形。图源:央视新闻
王然和肖阳都是华中科技大学的老师,一个做自然语言处理,一个做计算机视觉与图像处理。
技术出身的团队如何关注到听障群体?
王然提到了一个启发式的人物——江梦南。这个聋人女孩凭借着毅力学会了读唇,并能发声与人正常双向沟通。
接触到更多聋人群体后,王然意识到,聋人只是听不见,不等于说不出。
两人开始商量:怎样让聋人也能真正享受到时代发展的红利?AI技术怎样有温度?
结合两人的专业背景,一个AI唇语辅助训练系统诞生。
系统通过计算机视觉与图形处理,对聋人用户唇部的关键点精准定位。当聋人用户练习发声,如“北京、上海、武汉”,系统完整记录、提取并量化其唇形的时空特征,再将这些量化特征与标准唇形特征比对、打分、提供反馈。
同时,他们也在做语音信号的评估,通过自然语言处理评估发声的准确程度。
这一套系统,他们定位为“基于人工智能的、面向特殊教育的辅助教学系统”。
在王然和肖阳的调研中,听力残疾儿童大量存在,而聋儿康复中心学生很少,特教老师严重欠缺,这给他们造成很大冲击。
尤其他们看到,聋人小朋友从特教学校回家后,家长教不了,也没有精力辅导孩子发声。
他们萌生了开发辅助教学系统的想法,聋儿只需要点进网页,就有机器来辅助他们的发声训练。
他们的设想中,既不需要特教老师和家长参与,又能针对聋儿具体的情况进行定制化、个性化教学,就可以成为特教学校的补充和延伸,缓解聋人数量庞大而教育资源欠缺的矛盾。
▼ 特教老师在给听障孩子上课。图源:新华社
为了让更多孩子愿意练习发声,他们计划设计虚拟的卡通形象,让孩子们更愿意交流,激起学习兴趣。
当前,这里面还有许多“硬骨头”需要啃。
唇语识别是一个精细化的模式识别任务,对精确性要求特别高。唇形相近而意思天差地别的情形很多,再加上人所身处的场景十分复杂,精细化识别的挑战很大。
“我们做实验时,窗帘拉开的角度不一样,人变成阴阳脸,或唇动幅度小、语速快,都会对唇语识别造成较大影响。目前没有一个数据集,广泛到可以囊括所有实际应用的情况。”肖阳表示。
目前,他们团队也正努力解决现有唇语识别算法的长尾分布问题。
▼华中科技大学金蝉子团队微唇语识别相关研究成果。图源:金蝉有知
“有问题很正常,但是我们已经制造一种可能性。”肖阳说。
在他看来,目前属于0-1的突破性工作,当技术框架确定后,唇语识别可以从普通话拓展到英语、德语、法语甚至方言,帮助更多其他语系听障人士发声。
一步一步来。“学习‘爸爸妈妈’‘爷爷奶奶’‘吃了吗?喝了吗?’,先把这些词做好,就已经有用了。一开始几个词,到短句,后面系统越来越强,可以教他说长句。事物的发展有个过程,边做边改善。”
他们的最终目标是,让聋人能够像正常人一样交流、融入社会。
“我们这一辈子能够做成这一件事情,内心觉得就挺好。”两人说。
听障人群中,又以老年人为主。我国老年听障群体规模达到了 1.2 亿。
据《中国听力健康现状及发展趋势》统计,我国 65 岁以上老年人约 1/3 存在中度以上听力损失,75 岁以上老年人中这一数字上升到约 1/2 。
然而,他们的处境却容易被忽视——“人老了都这样。”
还有一部分听障人群,是职业病所致。
“耳聋分传导性聋、感音神经性聋和混合型聋等。人一出生就有16000个耳蜗神经元左右,不可再生。这些耳蜗神经元好比花朵,长期处于强噪声环境下的工作者,这16000朵花朵就会被踩死。”豆听科技创始人胡拥军说。
中国疾病预防控制中心2018年曾发文指出,职业性噪声聋已是继职业性尘肺病后的第二大职业病。
部分城市这一数据更高。
深圳市职业病监测数据显示,职业性噪声聋已成为深圳第一大职业病,在专用设备制造业、金属制品制造业、电子电器设备制造业尤为严重。
▼深圳电子厂工人进行生产。图源:新华社
与此同时,多组数据显示,我国助听器渗透率不足10%,远低于发达国家。
为什么渗透率不高?助听器市场分化严重是重要原因。
市场上百元左右的模拟助听器,本质上是个声音放大器,对所有频段声音同等放大,反而“越戴越聋”,医生并不推荐。
实际情况中,许多人听力损失频段不一,有人高频声音听不清,有人低频声音听不清。类比到眼睛,不同人的近视程度和散光程度也不一样,需要专业的验配师选择合适的眼镜。合适的助听器也需要根据每个人的听力损失情况而定,方能起效。
这类高端助听器,基本由国际大牌垄断。双耳配备助听器价格动辄好几万。
“价格直接影响到产品的渗透率,大家买不起。”武汉左点合伙人汪立君说。
2014年,国家放宽了医疗器械的准入门槛,经营第二类医疗器械,从原来严格的许可管理,变为备案管理。助听器、血压计、体温计这类常见医疗器械,即在此列。
豆听科技和zdeer左点都抓住这个契机入行。
胡拥军还提到了自己的亲身经历。
“有一次,我爸突聋,我带他去医院就诊,医生做了一次听力检查,也没开药,就吩咐他回家好好休息,一个星期后他的听力恢复了。这次听力测试花了我1300多元。
当时我很好奇,调研发现当时家里附近两家店主流助听器价格都在3万块钱以上。给我们家4个老人配助听器,相当于1年1台车就不见了。”
这刺激了他。他也暗下决心,要让听力筛查像血压计一样走进千家万户,让戴助听器像戴眼镜一样方便。
AI时代的到来,正在加速这一愿景的实现。
很多人不用助听器,一是嫌麻烦,二是好的助听器价格太高,且被国外品牌垄断。
验配环节对许多听障人士而言是件麻烦事。
一般流程是,先由专业听力师做纯音测听,记录125Hz至8000Hz测试频率的最小可听阈值,得出听力图,判断听力损失程度和类型。验配师再根据听力图调试参数,调整频响、增益等。
“每个人听力损失频段不一样。如果遇到个好的验配师,可能配得很棒,但也有可能碰到一个不那么负责任的,就得来来回回调试。人工验配很难完全规范化。”左点合伙人陈毕盛说。
噪声也是个很大问题。
“降噪是世界性难题。”胡拥军说,“助听器芯片也是芯片行业的桂冠。它要求低时延、低功耗。指甲盖大的地方,要求运算速度超高的同时,还要不发热、长续航。”
AI为破解这两大难题带来了希望。
“目前市面上的助听器产品,已经落后于我们实验室产品至少两代,最大的区别在于人工智能应用。”陈毕盛说。
首先,验配流程有望大幅简化,实现由人工验配变为远程智能验配。
zdeer左点已经让验配从线下走到了线上,“线上验配只需5~10分钟,如果不行还有远程验配指导。”这个年轻的团队在继续思考,如何让验配更便捷。
“传统七点纯音测评太复杂了。当我们引入人工智能以后,验配的便捷度会大幅提升。”陈毕盛说。
在他们的设想中,用户只需要和助听器对话,对话时间越长,助听器就能自动识别用户的听损情况。
“为什么刚才我一句话你识别了,为什么识别错误,我都能知道。聊得越来越多,机器就越来越懂你,验配流程就变得专业化。”
胡拥军在豆听科技创立之初,就提出了“智能助听器”的概念,其核心是自己测听、自动验配,把人验配的过程用AI算法来实现。
“有的老人连测听都不会。我们通过人工智能算法和大数据,优化验配公式,调节各项参数,直接用助听器来测听。经过10年的技术积累,精度可以控制在5分贝以内。”胡拥军说。
降噪显得更为棘手。
助听器降噪的原理,是将声音频段切分成多个通道。
胡拥军形象地比喻为将一根宽面条切成16段,就叫16通道。目前顶级助听器可以把声音按频段切成32段。每根“小面条”用不同方法来处理,有的声音放大,有的声音压低,再进行两根“小面条”之间的平滑处理。
“识别什么是噪声,什么是人声,需要拟合比对,就是人工智能技术。有的助听器戴上去听起来‘呼呼’的,是把噪声也放大了。”胡拥军说。
降噪问题需解决芯片问题。
在指甲盖大的助听器里,具备超高运算能力的同时实现低功耗,这一芯片技术仍掌握在国外助听器生产厂家手中。
而国内要研发出同样的芯片,起码需要亿级的资金投入。
与此同时,豆听科技在利用人工智能做更多优化。
比如,基于人工智能开发智能辅助诊断系统,将测听数据传达云服务器,不需要基层医务工作者,机器可诊断耳聋成因。
又如,研发配备四种或八种模式的智能助听器,适应多种听力受损情形,听障人士可根据自身情况选择听起来更舒服的模式。
“这种助听器采用8通道数量就可以做到,而这种芯片技术国内已经攻克了。”胡拥军说。
zdeer左点同样着力于解决降噪问题。
他们提出的方案是,在传统的DSP芯片外,增加一块专门运行AI降噪算法的边缘神经网络芯片。
“空调声音通过助听器放大后,会对言语识别造成干扰。如果通过算法把它剥离出来进行降噪,降噪过程或多或少会损失部分言语上的频段,这时整个言语频段就不完整,听起来存在一定失真和不自然。”陈毕盛说。
“人工智能的边缘神经网络不是单纯把环境噪声压下去,它单独把人声剥离出来放大。‘噪声’(环境声音)听得很清晰,人声更加清晰,整个听感会更好。”
但同样受限于芯片问题。
“其实这种算法我们很早就具备了,受限于芯片的制程、算力等问题,导致算法的功耗非常大,待机时长两小时都不到,明显不能满足市场投入和用户使用需求。”
虽然如此,他们都对未来保持乐观。“芯片问题如果不是我解决,也会有国内其他公司解决的。”胡拥军说。
汪立君引用了一句古诗——旧时王谢堂前燕,飞入寻常百姓家。
“技术未来肯定是逐步平权的,让每个人都能享受科技带来的普惠。”他说。
来源:大刚观察 武汉晨报
-
回复