<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        Cro-MTVITS:一種基于VITS的端到端跨語言語音合成模型,適用于普通話和多種藏語方言

        《Computer Speech & Language》:Cro-MTVITS: An end-to-end cross-lingual speech synthesis model for Mandarin and multi-dialect Tibetan based on VITS

        【字體: 時間:2026年03月02日 來源:Computer Speech & Language 3.4

        編輯推薦:

          本文構建了覆蓋拉薩、康、安多三方言的52.2小時藏語語料庫,基于VITS模型提出Cro-MTVITS改進模型,通過優化后編碼器、SDP和預訓練語言模型,顯著提升跨語言合成質量,MOS提高0.07-0.21,統計檢驗顯示性能顯著優于基線,為藏語應用提供支持。

          
        張偉釗|王夢娟|李俊志|楊洪武
        中國西北師范大學物理與電子工程學院

        摘要

        跨語言語音合成是語音合成領域的一個關鍵研究方向,它允許單個模型為同一說話人生成多種語言的語音。在中國,雖然普通話是官方語言,但約有400萬人以藏語為母語。以往的普通話-藏語跨語言研究主要集中在拉薩方言上,往往忽略了康區和安多區方言,并且依賴于自回歸模型,這些模型的語音質量仍不如主要語言。為了解決這些問題,我們提出了Cro-MTVITS,這是一個針對普通話和多種藏語方言的端到端跨語言語音合成模型。首先,我們構建了一個包含拉薩、康區和安多區方言的大規模多方言藏語語料庫,總時長為52.2小時。然后,我們基于VITS開發了一個基線模型,在文本編碼器、后驗編碼器、解碼器、隨機持續時間預測器(SDP)和流模塊中加入了說話人和語言嵌入,以實現跨語言合成。最后,我們通過改進后驗編碼器、SDP以及預訓練的語言和語音模型,進一步提升了該基線模型的性能。Cro-MTVITS在所有語言和場景下均顯著提高了平均意見得分(MOS),提升幅度在0.07到0.21分之間。統計測試證實Cro-MTVITS的性能明顯優于基線模型。總體而言,實驗結果表明,我們的模型在主觀和客觀評估中均超越了基線模型,實現了高質量的普通話與多種藏語方言之間的跨語言語音合成。合成的語音樣本可以在演示中找到1

        引言

        隨著數字時代的到來,人工智能(AI)技術的快速發展徹底改變了人類社會的許多領域。作為AI的一個關鍵分支,文本到語音(TTS)技術利用其獨特的能力,能夠高效地將書面文本轉換為自然發音的語音,極大地提高了信息傳播的效率和可訪問性。
        語音合成技術經歷了兩個世紀的發展,起源于18世紀沃爾夫岡·馮·肯佩倫的機械合成器。20世紀后期,該領域通過基于隱馬爾可夫模型(HMM)的統計參數語音合成(SPSS)取得了進展,2006年后隨著深度學習的興起進入了轉型階段。這些發展使得合成語音從機械音效轉變為接近人類質量的聲音。最近的端到端模型進一步增強了魯棒性、自然度和推理效率。語音大型語言模型(SpeechLLMs)的出現加速了這一進程,通常采用將音頻編碼為潛在聲學表示的流程,然后通過自回歸或基于擴散的語言模型進行建模。值得注意的例子包括NaturalSpeech(Tan等人,2024年)、Mega-TTS(Jiang等人,2023年、2024年)和VALL-E(Chen等人,2025年)。然而,這些模型對大規模訓練數據的依賴限制了它們在低資源語言上的應用,因為當前的研究主要集中在數據豐富的語言上。
        跨語言語音合成是語音合成研究的一個熱點領域,已經取得了許多關于主要語言的跨語言語音合成研究成果。然而,全球有超過6000種語言,其中大多數是低資源語言,其合成語音質量與主要語言相比存在顯著差距。在中國,普通話作為官方語言,擁有最大的使用者群體,促進了跨地區交流。同時,藏語、蒙古語和維吾爾語等少數民族語言也廣泛使用,具有重要的文化和民族意義。藏語屬于漢藏語系的藏緬語支,約有400萬人在中國西南部和西北部地區使用。盡管藏語有標準的書寫系統,但其發音存在顯著的區域差異,形成了拉薩、康區和安多區三個主要方言。與主要語言相比,由于語料庫有限、基礎研究不足和專業知識缺乏,藏語語音合成技術仍不成熟,屬于低資源語言。推進藏語的跨語言語音合成具有巨大潛力,可以應用于語言學習、廣播和有聲書制作,同時促進藏語社區的教育、經濟發展和公共服務。
        本文的結構如下:第2節介紹相關工作;第3節描述了多方言藏語語料庫的構建過程;第4節介紹了藏語和普通話文本的基線模型及轉錄方法;第5節介紹了提出的Cro-MTVITS跨語言語音合成模型;第6節提供了實驗結果和分析;第7節總結了研究成果并指出了未來的研究方向。

        相關研究

        語音合成經歷了多個發展階段,從共振峰和拼接方法發展到基于隱馬爾可夫模型(HMMs)的方法(Tokuda等人,2013年),后者通過提高合成質量和減少數據需求實現了實際應用。2006年后深度學習的出現標志著一個重要轉折點,深度神經網絡(DNNs)(Zen等人,2013年;Qian等人,2014年)和長短期記憶(LSTM)(Fan等人,2014年;Zen和Sak,2015年)提高了建模精度和低延遲。最近,

        用于語音合成的多方言藏語語料庫

        構建多方言藏語語料庫是實現普通話和多種藏語方言跨語言語音合成的關鍵步驟。我們構建了一個名為MDTCSS的多方言藏語語料庫,包含拉薩方言、康區方言和安多區方言的女性說話人的語音。
        該文本語料庫來源于各種已發表的藏語書面材料,包括報紙、書籍和其他出版物,確保了

        基線模型

        基于VITS的完全端到端的普通話-藏語跨語言語音合成基線模型如圖1所示。這個基于VITS的基線模型,以下簡稱VITS-Baseline,包括幾個關鍵組成部分:后驗編碼器、解碼器、鑒別器、SDP、流模塊和文本編碼器。該研究專注于普通話與三種主要藏語方言(拉薩、康區、安多區)之間的跨語言語音合成。盡管這些方言具有共同的拼寫系統,但

        提出的模型

        我們進一步提出了一個針對普通話和多種藏語方言的跨語言語音合成模型Cro-MTVITS,它基于VITS-Baseline。模型結構如圖3所示。我們對VITS-Baseline模型進行了幾項改進,以提高其在跨語言和多方言場景下的性能,具體如下:
        首先,我們加入了中文少數民族預訓練語言模型(CINO)(Yang等人,2022年),以從輸入中提取語言特征

        數據集

        實驗在MDTCSS和公開可用的普通話語料庫AISHELL-3(Shi等人,2021年)上進行。為了平衡不同語言的數據量,我們使用了AISHELL-3中的一個子集,其中包含45位說話人的錄音,共計21,379個樣本(約20.4小時)。從合并的語料庫中隨機選擇了500個樣本進行評估:300個用于驗證,200個用于測試。

        實驗設置

        所有語音樣本在預處理過程中被降采樣到16 kHz。模型訓練在四個

        結論與未來工作

        在這項工作中,我們構建了一個覆蓋拉薩、康區和安多區方言的大規模多方言藏語語料庫,時長分別為15.8小時、17.8小時和18.6小時。然后,我們開發了一個基于VITS的基線模型,在文本編碼器、后驗編碼器、解碼器、SDP和流模塊中加入了說話人和語言嵌入,以實現跨語言語音合成。在此基礎上,我們提出了Cro-MTVITS,引入了幾項關鍵改進:

        CRediT作者貢獻聲明

        張偉釗:撰寫——原始稿件、審閱與編輯、方法論、研究調查、資金獲取、概念化。王夢娟:撰寫——審閱與編輯、撰寫——原始稿件、方法論、研究調查。李俊志:方法論、研究調查、概念化。楊洪武:項目管理、資金獲取。

        利益沖突聲明

        作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

        致謝

        本研究得到了國家自然科學基金(項目編號62067008)的支持。此外,部分工作還得到了中國西北師范大學青年教師研究能力提升計劃(項目編號NWNU-LKQN2024-11)的支持。同時,我們也感謝那些為語料庫提供聲音的錄音者,以及參與主觀評估的聽眾。
        相關新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內
        • 人物
        • 產業
        • 熱點
        • 科普

        知名企業招聘

        熱點排行

          今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯系信箱:

          粵ICP備09063491號