近日,中國科學院合肥物質院健康所李海研究員團隊在基于語音信號的神經系統疾病檢測研究中取得新進展。相關研究成果發表在計算機科學領域的權威期刊?Neurocomputing?上。
構音障礙是多種神經系統疾病,如帕金森病(Parkinson’s disease, PD)、亨廷頓病(Huntington's disease, HD)和肝豆狀核變性病(Wilson Disease, WD)等的早期常見癥狀。構音障礙會改變患者的發音節律和清晰度,因此,語音信號有望作為生物標記物輔助神經性疾病的無創篩查與持續監測,并且基于語音的自動化分析方法具備檢測效率高、使用成本低和非侵入性等優勢。然而,現有的主流方法仍存在過分依賴人工特征設計、時間變量交互建模能力不足以及模型的可解釋性差等問題。
為應對上述挑戰,研究團隊提出了一種跨時間與跨通道的多變量時間序列處理框架(CTCAIT)。該框架首先利用大型音頻模型提取語音信號的高維時序特征,并將其表示為時間與通道的多維嵌入結構。隨后,借助 InceptionTime 網絡提取多變量時間序列中的多尺度、多層次信息,結合跨時間與跨通道的多頭注意力機制,有效捕捉語音在不同維度中所蘊含的病理特征。該方法在中文普通話語音數據集上達到了92.06%的檢測準確率,在外部英文數據集上也取得了87.73%的準確率,表現出良好的跨語言泛化能力。
此外,研究團隊還對模型的內部決策機制進行了可解釋性分析,并比較了不同言語任務的檢測效果,為模型在臨床中的實際應用提供了支持。
該論文的第一作者為中國科學技術大學博士研究生張政霖,通訊作者為健康所李海研究員和楊立狀副研究員。本研究得到了國家自然科學基金、安徽省自然科學基金和安徽省重點研發項目的支持。
文章鏈接:https://www.sciencedirect.com/science/article/pii/S0925231225013803
構音障礙檢測中的多變量時間序列處理框架