一群工程师,让听障群体“看见”了声音
现在,AI实时字幕进入了聋协的手语课堂
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
看到这样一张图,你是否会露出“暴露年龄”的会心一笑?
电脑还只有dos系统的年代仿佛还没过去多久,智能手机却已俨然成为在现代社会中生活的标配。
科技的进步,无疑给大多数人的生活带来了便利。但其高速的发展,却也不免带来了这样一个问题:
如果有人跟不上技术发展的节奏,怎么办?
这其实就是技术人员要做的事,让弱势群体也能够感受到科技的温度。
有人给出了这样的答案,并且就在最近,身体力行实践了这句话——
把AI实时字幕,带进了中国聋人协会的手语课堂。
不一样的课堂
疫情期间,上网课成为了一种常态。对于经常为听障人群组织培训、会议的中国聋人协会而言,这种线上远程开会、上课的需求也越来越多。
问题是,对于听障人士而言,这样的工作、学习方式天然存在着种种障碍。
视频没有字幕,就是其中一种。
虽然很大一部分聋人群体,能在助听器和人工耳蜗的帮助下听见外界的声音,但“听到”不代表“听清”,他们的声音世界仍像是被打上了马赛克,日常的沟通交流往往还是需要辅以文字。
如何能让这个特殊群体更简单地获取学习资源,参与培训、会议?
中国聋协想到了AI——现在在很多会议活动里,都能见到AI实时字幕的身影,那么能不能把这样的AI能力带到聋协的培训课堂里呢?
说来也巧,当中国聋协主席杨洋在同钉钉的一次工作会议上提出这一想法,立即便得到了对方的响应。
彼时,钉钉的工程师们正好在为钉钉的视频会议、直播产品开发类似的功能。得知聋协的诉求,钉钉技术团队当即决定,联合阿里达摩院团队,为听障群体搭建一套基于钉钉的无障碍工作平台。
初战未捷
实战的机会很快就到来。
深圳聋协组织了一场手语翻译培训,需要钉钉进行AI实时字幕的技术支援。
据钉钉直播智能翻译技术负责人卜瑞回忆,当时,留给技术团队的准备时间并不多:周一周二功能刚在钉钉上线内测,周六就要第一次公开使用。
不过一开始,卜瑞和他的同事们都颇有信心——虽然功能刚刚上线,但背后的技术方案其实已经相对成熟。
钉钉这次提供给聋协的AI实时字幕解决方案,核心采用的是达摩院语音实验室的E2E-ASR(端到端语音识别)技术。早在2020年9月的云栖大会上,达摩院就对外公布过相关技术进展:
基于达摩院提出的SAN-M网络结构,及基于SCAMA的流式端到端语音识别框架,在提升计算效率的同时,还能将高难度场景中的语音识别错误率降低近三成。并且,该技术解决了高精度语音交互任务长期依赖云端算力、语音指令出现延时等问题,使得基于该框架的整套语音识别系统可以部署在手机端。
相关论文,均已发表在了语音技术顶会INTERSPEECH上。
谁曾想,在聋协的第一次实战,培训现场还是出现了不少在工程师们意料之外的情况。
一方面,听障人群之间,会用到“聋人”、“听人”这一类平时不常见的专用词汇。钉钉的语音识别AI初来乍到,没有经过特训,一时间在这样的词汇识别上出了不少错。
更为严重的是,在第一场培训中,还出现了字幕显示着显示着就没了的情况。甚至在卜瑞和同事们拉来了阿里云视频云、达摩院的技术人员紧急“会诊”之后,情况也未能得到彻底的解决。
很尴尬,觉得有点辜负了参与培训的老师、同学们的期待。
“终于松了口气”
初战未捷,成为了悬在卜瑞和同事们头上的一朵阴云,回到大本营之后,便迅速开始了问题的排查。
事实上,像深圳聋协此次组织的手语培训课程,在形式上与正常的视频直播还是有不小的区别。
因为很多听障人士其实是看不懂手语的,所以在手语老师之外,这样的课程中还会有一位负责翻译手语的口语老师。也就是说,在这样一场直播中,口语老师和手语老师要保持全程连麦。
并且跟我们常见的新闻播报场景相反,口语老师接入的窗口并非主窗口,而是左下角的次窗口。因此语音流也是从次窗口输入的。
从系统流程上讲,要在这个场景中部署AI实时语音,是这样一个过程:
主播通过钉钉直播开启语音识别的功能,在主播的直播推流到阿里云CDN后,会分别被云导播跟ASR服务拉取,云导播服务负责字幕样式,实时展示,音、画、字的同步校准,以及链路的高可用等。
ASR服务则只负责解析音频数据,对音频重采样后输出给达摩院语音识别模块,生成字幕流并将其传给云导播。
云导播收到字幕流后,会计算显示时间戳(pts)时间,根据pts做音、画、字同步对齐,最终混流回推CDN,分发给用户播放。
回溯整个流程,技术人员们很快发现,在内部测试时,由于网络条件良好,次窗口的音频流和主窗口的视频流之间偏差不大,在可以容忍的范围之内。
但真正到了培训现场,网络情况较差,经常会出现抖动。这种持续的网络不稳定慢慢积累,就使得偏差超出了技术方案的容忍度范围,导致出现掉字幕的情况。
找到了原因,技术团队便立即着手对方案进行优化。一方面,是针对听障人群的特殊语料库,对语音模型进行特训。
另一方面,更换推拉流协议,打通与CDN传输状态的深度感知,增强网络波动兼容性。并改进时间戳对齐算法,采用滑动对齐的方式,确保在弱网抖动的情况下,当主播或连麦者客户端掉线发生闪断重推时,不会影响云导播对音、画、字的处理,对于观众来说看到的只是画面出现了轻微的卡顿。
方案调整之后,在第二周的培训课程中,AI实时字幕全程表现稳定,参与培训的老师学员纷纷表示“很有帮助,体验不错”。
卜瑞和同事们悬着的心也终于放了下来:
总算是松了口气,一周前丢的脸给挣回来了。
不一样的成就感
就在几天前,中国聋人协会正式宣布,基于钉钉搭建的无障碍工作平台会广泛投入使用,中国聋协系统全国31个省份、80多个城市的听障人士,均可利用语音转文字、AI实时字幕,无障碍开展视频会议、直播、网课学习等。
像AI实时字幕这样的功能实现,在一些to B的场景中其实并不鲜见,但也往往费用不菲。
此次协助中国聋协上线无障碍平台,钉钉又投入了多少人力、资源成本?
谈及这个问题,钉钉音视频资深技术专家胡洪卫回答说,在这个项目上,他们秉持公益心态,因此并没有太多地考虑成本问题。
从人力的角度来说,因为参与项目的还包括达摩院、钉钉生态伙伴等各方力量,后续还会保障无障碍平台功能的长期迭代,因此也不太好衡量。
不过,有一个答案是肯定的,做这个项目,“很值”。
在帮助聋协上线AI实时字幕的过程中,有来自听障朋友的反馈是这样的:
听障带来的影响,其实不只是日常沟通、交流方面存在障碍,还会延伸到很多方面。
比如职业天花板很明显,接受再教育的难度很大。
客观的现实就是,社会上大部分和职业提升有关的公开课程,比如医疗、法律、管理课程等,并不会专门为听障群体准备字幕。
AI实时字幕这样的功能,给特殊人群带来了新的可能性。
听到这样的反馈,胡洪卫、卜瑞等工程师真正感觉到自己作为技术人员,正在用技术创造社会价值。“那种自豪的感觉和精神上的鼓舞,是以前窝在实验室里做算法Demo时体会不到的”。
科技向善,不外如是。
科技的发展无疑会给人们的生活带来改变,但这种变化之中,人和技术本身不应该是对立的。
这一次,AI就给出了一张高分答卷,你觉得呢?
— 完 —
- 微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑2024-11-03
- o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透o22024-11-03
- 全国第二!智平方荣获第十三届全国创新创业大赛初创型企业全国总决赛第二名(新一代信息技术赛道)2024-11-03
- 科研版AI搜索来了!知乎直答接入正版论文库,一手实测在此2024-11-01