jizzjizz在线观看,亚洲色频,中文字幕精品久久久久人妻红杏1

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

利用合成語音：基于文本到語音（TTS）的數據增強技術，提升失語癥患者語音識別的效果

《Computer Speech & Language》：Leveraging synthetic speech: TTS-driven data augmentation for effective dysarthric speech recognition

【字體：大中小】 時間：2026年02月23日 來源：Computer Speech & Language 3.4

編輯推薦：

　　針對坦米爾語失語癥（DASR）的自動語音識別系統研究，通過文本轉語音（TTS）技術合成數據解決數據稀缺問題。實驗對比隱馬爾可夫模型（HTS）、FastSpeech2和Tacotron2三種TTS模型，發現FastSpeech2生成的合成語音在保留失語癥特征方面最優，結合真實數據后系統誤碼率（WER）分別降至3.49%（輕度）和13.17%（中度）。進一步混合使用FastSpeech2和Tacotron2數據可降低至2.67%和8.32%。

印度金奈Sri Sivasubramaniya Nadar工程學院電子與通信工程系

摘要

構音障礙是一種神經運動性言語障礙，會損害一個人的溝通能力。這需要借助溝通輔助工具來與人和計算機進行交流，通常采用自動語音識別（ASR）系統的形式。然而，傳統的ASR系統在處理構音障礙語音時存在較高的錯誤率（WER），因此需要開發專門的構音障礙ASR（DASR）系統。在本研究中，使用SSN TDSC（泰米爾語構音障礙語音語料庫）數據集開發了DASR系統，針對輕度和中度構音障礙。最初，使用原始構音障礙語音數據開發了一個基線DASR系統，其錯誤率分別為輕度9.71%和中度19.54%。為了開發低錯誤率的DASR系統，需要大量的構音障礙語音數據。但由于患者的醫療狀況，錄制數小時的語音數據非常困難。為了解決數據稀缺問題，我們探索了利用文本轉語音（TTS）合成技術生成額外的構音障礙語音數據。本研究使用了多種TTS模型，包括基于隱馬爾可夫模型的TTS（HTS）、FastSpeech2和Tacotron2來合成構音障礙語音。本研究重點探討了合成語音應具備的特性，以提升DASR系統的性能，并確定了所需的構音障礙語音數據量。通過對合成語音的主觀和客觀評估，發現FastSpeech2在保留構音障礙語音特征方面表現最佳。使用FastSpeech2生成的增強數據進行訓練后，輕度構音障礙的WER降低了3.49%，中度構音障礙的WER降低了13.17%。進一步實驗表明，當使用來自多個合成器的增強數據（FastSpeech2和Tacotron2）進行訓練時，WER可進一步降低（輕度2.67%，中度8.32%）。這些結果證明了基于TTS的數據增強方法在提升DASR性能方面的有效性。

引言

語音是人類之間主要的交流方式，因此也是與計算機交互的首選方式。然而，患有言語障礙的人在與他人交流時面臨挑戰。與計算機交互時，有效的溝通更加困難，因為現有技術無法滿足這類人群的需求。構音障礙是一種由于中樞或周圍神經系統損傷導致發音器官肌肉控制能力受損的言語障礙（Duffy, 2013）。構音障礙患者的語音通常含糊不清（由于音素替換、插入或刪除），因此難以理解。借助溝通輔助工具可以改善這類人群的交流效果，這類工具通常包括自動語音識別（ASR）系統和文本轉語音（TTS）系統，前者將語音信號轉換為文本，后者將文本轉換為可理解的語音。然而，主要挑戰在于開發能夠準確解碼構音障礙語音的ASR系統。這一挑戰同樣適用于與計算機的交互，因為計算機也需要通過ASR系統獲取語音輸入。

現有ASR系統無法處理構音障礙語音，De Russis和Corno（2019）的分析證明了這一點。他們比較了IBM Watson Speech-to-Text、Google Cloud Speech和Microsoft Azure Bing Speech等現代ASR云平臺在Torgo構音障礙語音語料庫上的性能，發現Google Cloud Speech的表現最好，WER為59.81%，其次是Microsoft Azure Bing Speech（62.94%），IBM為67.35%。即使是輕度構音障礙患者，WER也至少為15%，而正常人的WER約為5%。因此，需要開發專門的構音障礙ASR（DASR）系統。這類系統通常需要大量訓練數據，但從構音障礙患者那里錄制如此大量的數據很困難。盡管存在一些開源的構音障礙語音數據集（Rudzicz等人，2000年；Kim等人，2008年；Wan等人，2024年），但由于數據規模有限和變異性大，它們難以直接用于訓練模型。解決數據稀缺問題的一種方法是采用數據增強技術。構音障礙語音的數據增強方法包括：（i）對現有語音樣本進行微調，如相位移動（Mariya Celin等人，2020年）、速度擾動（Vachhani等人，2018年）、音高調整（Salamon和Bello，2017年）、時間拉伸（Geng等人，2020年）和添加噪聲（Nawroly等人，2023年）以生成新的增強版本；（ii）轉換健康人的語音記錄，以再現構音障礙患者的聲學特征（Xiong等人，2020年）；（iii）利用TTS技術合成構音障礙語音，模擬患者的發音模式（Soleymanpour等人，2024年；Bhattacharya等人，2020年；Jiao等人，2021年；Leung等人，2024年；Hermann和Magimai Doss，2023年；Li等人，2025年；Soleymanpour等人，2022年）。

在早期的數據增強技術中，對構音障礙語音進行了簡單的修改，如添加噪聲、速度擾動、音高調整和時間拉伸（Mariya Celin等人，2020年；Vachhani等人，2018年；Geng等人，2020年；Bhat和Strik，2025年）。Geng等人（2020年）分析了聲道長度、速度和節奏擾動的效果，發現速度擾動最適合數據增強（Wang等人，2024年；Hu等人，2024年）。T.A. Celin等人（2020年）還采用了虛擬麥克風陣列合成技術來增加數據量，并進行了多分辨率特征提取以進一步增加訓練數據。還有嘗試在特定信噪比（SNR）和頻率范圍內向構音障礙語音數據中添加噪聲，以避免影響其特性（Nawroly等人，2023年），從而生成更多數據。

Xiong等人（2020年）嘗試將健康人的語音轉換為構音障礙語音，認為結合多個構音障礙患者和健康人的數據可以獲得所需的數據量。但某些數據可能有益，而某些則可能有害，因此他們從多個說話者中篩選出與目標患者更接近的數據用于增強。另一種增強方法是人工合成構音障礙語音，通過修改健康語音的特征來實現。Vachhani等人（2018年）通過修改健康語音的音素時長來模擬構音障礙語音。然而，在這些方法中，修改并未針對特定構音障礙患者的特征，因此增強數據中并未捕捉到音素替換、插入或刪除等發音錯誤。最近，開發了新的構音障礙語音TTS合成系統，以更準確地捕捉患者的發音特征（Soleymanpour等人，2024年）。

TTS技術的最新進展進一步提升了DASR中數據增強的潛力。Vachhani等人（2018年）研究了使用健康語音數據增強構音障礙語音識別系統的效果，發現加入健康語音有助于提升輕度構音障礙的識別性能，而合成構音障礙語音數據則能進一步提高系統整體性能。Bhattacharya等人（2020年）提出了一種使用合成數據訓練特定類型構音障礙ASR系統的方法，強調了專用數據在應對該障礙挑戰中的必要性。Soleymanpour等人（2024年）的研究表明，合成語音與真實構音障礙語音結合使用可顯著提升識別準確性。這些TTS技術的進步為解決DASR系統的數據稀缺問題提供了可行方案，同時保留了構音障礙患者的特征。

文獻綜述表明，基于TTS的構音障礙語音數據增強是一種有前景的方法。盡管在準確合成涵蓋所有語音障礙特征的構音障礙語音方面仍存在挑戰，但將TTS系統的合成數據整合到DASR模型訓練中已顯著提升了性能，降低了WER并增強了系統對構音障礙語音變化的魯棒性。現有方法主要集中在開發英語DASR系統，而本研究則專注于開發泰米爾語DASR系統。通過使用TTS系統合成額外構音障礙語音數據，解決了訓練數據不足的問題。雖然現有研究通常使用FastSpeech2架構，但未探討合成語音質量對DASR系統性能的影響。本研究探討了三種TTS模型（基于隱馬爾可夫模型的TTS、FastSpeech2和Tacotron2），以確定合成語音應具備的特性，從而顯著提升DASR系統性能。此外，還分析了增強數據量對DASR性能的影響。

本文的其余部分安排如下：第2節描述了研究中使用的語音語料庫；第3節詳細介紹了開發的TTS系統；第4節分析了各TTS系統合成的語音質量；第5節介紹了開發的DASR系統及其性能；第6節總結了分析結果和結論。

節選內容

語音語料庫

本研究使用了以下包含泰米爾語語音的數據語料庫來訓練TTS和DASR系統，相關細節詳見表1。

基于TTS的數據增強

文本轉語音（TTS）系統通常能將文本輸入轉換為清晰自然的語音。但在本研究中，目標是利用TTS系統生成具有構音障礙特征的語音。因此，TTS系統必須適應構音障礙的獨特特征。由于構音障礙語音數據有限，直接用此類數據訓練TTS系統不切實際。因此，采用了一種替代方法

合成語音分析

通過主觀和客觀評估指標，對每個合成器合成的語音在質量（自然度）、可理解性和說話者相似性方面進行了評估。詳細分析和結果如下。

構音障礙自動語音識別（DASR）

為了開發獨立的構音障礙ASR系統，使用了SSN TDSC數據集（一個詞匯量有限的數據集）。選擇混合深度神經網絡-隱馬爾可夫模型（DNN-HMM）架構，因為它在處理有限詞匯數據時優于基于泰米爾語訓練的自我監督模型（Celin等人，2023年）。在此設置中，DNN被訓練用于預測HMM中每個狀態的觀測概率。DASR系統通過

結論

構音障礙語音識別對于提高構音障礙患者與周圍人和機器的溝通能力至關重要。然而，市面上的ASR系統無法滿足構音障礙患者的需求。因此，需要開發專門的構音障礙ASR系統，使其能夠在存在發音錯誤的情況下生成準確的轉錄結果。訓練此類系統需要大量數據

CRediT作者貢獻聲明

P. Vijayalakshmi：撰寫——審稿與編輯、可視化、驗證、監督、資源管理、方法論、研究、資金獲取、概念化。Anushiya Rachel Gladston：撰寫——初稿撰寫、可視化、驗證、軟件開發、資源管理、方法論、研究、數據分析、數據整理、概念化。B. Ramani：撰寫——審稿與編輯、驗證、軟件開發、數據分析。M.P. Actlin

利益沖突聲明

作者聲明以下可能構成利益沖突的財務利益/個人關系：P. Vijayalakshmi表示獲得了電子與信息技術部的財政支持。如果還有其他作者，他們聲明沒有已知的可能影響本文研究的財務利益或個人關系。

致謝

本研究是“輔助語音技術”項目的一部分，屬于NLTM BHASHINI項目的子項目“印度語言中的語音技術”，該項目由印度電子與信息技術部資助，項目編號為11(1)/2022-HCC(TDIL)。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號