English

首页
新闻动态+
当前位置: 首页 > 新闻动态 > 正文
机械系智能与生物机械实验室提出一种基于深度学习辅助自供电柔性传感器的唇语解读技术

人说话时嘴唇动作跟语音同步,可以通过识别唇动(Lip motion)来进行语言交流。对于声带、喉舌损伤的失声人群,唇语(Lip language)是一种不占用双手的、日常无障碍交流的有效方式。唇语对讲话者友好,但是对解读唇语的听众来说却并不轻松,唇语学习和掌握的成本较高。为降低唇语解读难度,现有技术手段常采用磁场、视觉图像、超声波等方法。以最流行的非接触式视觉图像方法为例,尽管其唇语识别准确率较高,但依然容易受到面部角度、光强、头动和遮挡等因素的干扰。特别是在COVID-19新冠病毒流行期间,佩戴的口罩给基于视觉的唇动解读带来全新的挑战。通过直接捕捉面部肌肉细微动作解读唇语技术具有重要的科学研究价值与广阔的应用前景。

图 1 唇语解读系统(Lip Language Decoding System, LLDS)示意图

近日,清华大学机械工程系智能与生物机械团队与中科院北京纳米能源与系统研究所团队合作,提出了一种新颖的唇语解读系统(Lip Language Decoding System, LLDS)。该系统(图1)包含低成本、自供电的柔性摩擦电传感器和基于原型学习的深度学习模型。

图 2 唇部肌肉产生的信号以及声音信号同唇动信号的比较

研究人员提出了一种基于接触分离摩擦电传感器的唇语解码系统。传感器将唇部肌肉运动产生的电信号传输到解码系统,翻译成可沟通的语言。该自供电传感器由柔性聚合物薄膜与柔性电极组成,可提高人体佩戴的舒适性。该研究测试分析了传感器的机械与电气性能,采集并提取了选定元音、单词、短语、无声语音和发声语音的唇动信号特征。通过比较同步采集的唇动和声音信号,证明了无论是否发声嘴唇运动信号具有一致性。进一步分析了语速与唇动模式等不同参数对信号特征的影响规律(图2)。提出了一种基于原型学习的空洞循环神经网络模型,用于唇动信号的识别,在20个分类(100样本/类)情况下,测试准确率达到94.5%。研究团队利用该系统进行了多种场景应用展示,如解锁大门的身份识别、移动模型车的方向控制、唇动/语音的实时转换等,展示了该系统在唇动识别领域的可行性和应用潜力。

图 3 失声人群日常生活交流中使用和不使用LLDS的示意图

面向失声人群日常无障碍沟通需求(图3),该工作提出了一种极具潜力的方法与技术手段,为特殊场景下唇语翻译应用开拓了创新的研究方向。尽管该工作已展示了该技术的有效性和应用前景,但仍然面临诸如系统可靠性、稳定性等问题。研究团队相信随着研究的深入,该技术有望切实为失声人群服务,提供无障碍语言交流的科技手段。此外,该工作在机器人控制、个人身份验证、人机界面、残疾辅助、无声语音、情报、反恐任务实施、康复、生物医学工程和虚拟现实等诸多领域中都具有较大的潜在应用价值。

相关研究成果以“使用基于深度学习的摩擦电传感器解码唇语”(Decoding lip language using triboelectric sensors with deep learning)为题于3月17日在线发表于《自然·通讯》(Nature Communications)期刊上。

清华大学为论文第一单位,第一作者为机械系智能与生物机械团队助理研究员路益嘉,中科院北京纳米能源与系统研究所王中林院士为论文的通讯作者。论文作者还包括季林红教授、程嘉副研究员、田涵、朱飞、刘宾和魏姗姗。该研究得到了国家自然科学基金,国家重点研发计划的项目支持。

论文链接:

https://www.nature.com/articles/s41467-022-29083-0

撰稿:魏姗姗

审核:胡楚雄


联系方式

010-62772677

mayue@tsinghua.edu.cn

北京市海淀区清华大学李兆基科技大楼A401(校园地图)

机械工程系

系官微

机械工程系

机械正发声

机械工程系

机械之声

机械工程系

校友分会

Copyright © 2020 清华大学机械工程系 版权所有