<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        通過使用預(yù)訓(xùn)練的語言模型進(jìn)行文本生成來改進(jìn)神經(jīng)網(wǎng)絡(luò)自然語言模型(NNLMs)

        《Computer Speech & Language》:Improve NNLMs by text generation from pre-trained language models

        【字體: 時(shí)間:2026年03月02日 來源:Computer Speech & Language 3.4

        編輯推薦:

          文本生成增強(qiáng)數(shù)據(jù)提升輕量級語音識別模型

          
        宋明光|趙云鑫
        密蘇里大學(xué)哥倫比亞分校電子工程與計(jì)算機(jī)科學(xué)系,美國密蘇里州哥倫比亞市,65211

        摘要

        大型預(yù)訓(xùn)練語言模型(PLMs)能夠?qū)W習(xí)豐富的語言知識,并在自動語音識別(ASR)任務(wù)中展現(xiàn)出強(qiáng)大的能力。然而,大型PLMs的高計(jì)算成本限制了它們在計(jì)算資源有限的現(xiàn)實(shí)世界場景中的直接應(yīng)用。在本文中,我們提出了一種有效的方法,利用PLMs進(jìn)行基于文本生成的數(shù)據(jù)增強(qiáng),以改進(jìn)用于ASR的特定任務(wù)神經(jīng)網(wǎng)絡(luò)語言模型(NNLM),這是一個尚未得到充分解決的問題。我們的數(shù)據(jù)增強(qiáng)方法首先在領(lǐng)域內(nèi)數(shù)據(jù)上對PLM進(jìn)行微調(diào),以生成類似領(lǐng)域內(nèi)的文本,然后根據(jù)所需的句子困惑度分布選擇新穎的句子。選定的文本與領(lǐng)域內(nèi)數(shù)據(jù)共同構(gòu)成一個增強(qiáng)數(shù)據(jù)集,用于訓(xùn)練輕量級的NNLM。由于微調(diào)后的PLM同時(shí)掌握了通用語言知識和領(lǐng)域內(nèi)語言知識,因此在模型訓(xùn)練中充分使用這些生成的文本可以提高NNLM的泛化能力。我們在《華爾街日報(bào)》(WSJ)和增強(qiáng)型多方互動(AMI)會議的ASR任務(wù)上評估了我們的方法。實(shí)驗(yàn)結(jié)果表明,輕量級增強(qiáng)型NNLM在單詞錯誤率和困惑度方面有顯著降低,證明了高性能NNLM在資源受限環(huán)境中的應(yīng)用潛力。

        引言

        語言模型在自然語言處理(NLP)中起著至關(guān)重要的作用。語言模型計(jì)算單詞序列的概率。在過去十年中,神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)在語言建模任務(wù)中取得了最先進(jìn)的性能。NNLM通過學(xué)習(xí)單詞的分布式表示來克服維數(shù)災(zāi)難(Bengio等人,2003年)。循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)(Mikolov等人,2010年)在捕捉長距離依賴關(guān)系方面表現(xiàn)出色,并且性能超過了傳統(tǒng)的n-gram語言模型。帶有門控機(jī)制(如長短期記憶(LSTM)單元的RNNLM(Hochreiter和Schmidhuber,1997年)能夠有效編碼比基本循環(huán)單元更長的上下文,從而在自動語音識別(Sundermeyer等人,2015年)的語言建模中顯著提高性能。
        注意力機(jī)制作為RNN的替代方案出現(xiàn),并在序列建模中得到廣泛應(yīng)用(Irie等人,2019年)。最初為機(jī)器翻譯提出的Transformer(Vaswani等人,2017年)架構(gòu)在語言建模中迅速流行起來;赥ransformer的大型PLMs,如BERT(Devlin等人,2019年)和GPT系列(Radford等人,2018年,Radford等人,2019年,Brown等人,2020年),在大量文本上進(jìn)行了訓(xùn)練,使它們能夠掌握豐富的語言知識并在各種NLP任務(wù)中表現(xiàn)出色。最近的生成型大型語言模型(例如ChatGPT、Llama(Touvron等人,2023年)、Claude、Qwen(Qwen團(tuán)隊(duì),2025年)在遵循提示和提供詳細(xì)響應(yīng)方面表現(xiàn)出顯著的能力。當(dāng)應(yīng)用于下游NLP任務(wù)時(shí),PLMs通常會在領(lǐng)域內(nèi)數(shù)據(jù)上進(jìn)行微調(diào),以適應(yīng)特定任務(wù)的語言知識。例如,大型PLMs已被微調(diào)用于重新評分n最佳假設(shè)列表,用于ASR任務(wù)(Shin等人,2019年,Zheng等人,2021年),并顯著降低了WER。盡管大型PLMs的性能令人印象深刻,但它們極高的計(jì)算成本對資源有限的現(xiàn)實(shí)世界應(yīng)用構(gòu)成了挑戰(zhàn),尤其是與較小的NNLM相比。
        數(shù)據(jù)稀疏性是語言建模中的一個固有挑戰(zhàn)。通常,用于訓(xùn)練ASR任務(wù)的語言模型的領(lǐng)域內(nèi)數(shù)據(jù)量是有限的。這個問題通過對現(xiàn)有領(lǐng)域外文本或PLM生成的文本收集額外數(shù)據(jù)來解決。網(wǎng)絡(luò)爬。℅andhe等人,2013年,Mendels等人,2015年)和選擇非領(lǐng)域特定訓(xùn)練數(shù)據(jù)的子集(Klakow,2000年,Moore和Lewis,2010年)是常見的做法;谖谋旧傻臄(shù)據(jù)增強(qiáng)(Suzuki等人,2019年,Wang等人,2019年,Tarján等人,2020年,Tarján等人,2022年)隨著大型PLM的出現(xiàn)而變得流行,這些模型能夠生成高質(zhì)量的文本(Radford等人,2019年,Yang等人,2019年,Li等人,2024年)。
        當(dāng)在領(lǐng)域內(nèi)數(shù)據(jù)上微調(diào)時(shí),PLMs可以適應(yīng)任務(wù)領(lǐng)域的語言模式,同時(shí)保留從大規(guī)模預(yù)訓(xùn)練中獲得的一般知識。這使得微調(diào)后的PLMs能夠生成領(lǐng)域內(nèi)數(shù)據(jù)中不存在但風(fēng)格相似的新句子。文獻(xiàn)中顯示,使用這些方法生成增強(qiáng)數(shù)據(jù)可以提高n-gram語言模型的性能。
        盡管n-gram語言模型在計(jì)算和內(nèi)存效率方面表現(xiàn)出色,但它們對短上下文信息的依賴限制了將語言知識從PLMs轉(zhuǎn)移到n-gram模型的效果,從而限制了ASR任務(wù)的改進(jìn)程度。由于n-gram語言模型不如RNNLM,研究從PLMs到輕量級RNNLM的語言知識轉(zhuǎn)移是值得的。此外,RNNLM用于長上下文建模的架構(gòu)需要比n-gram語言模型更多的訓(xùn)練數(shù)據(jù),因此它們可能從微調(diào)后的PLM生成的數(shù)據(jù)中吸收更多信息。
        在這項(xiàng)工作中,我們提出了一種基于文本生成的數(shù)據(jù)增強(qiáng)方法,用于訓(xùn)練ASR任務(wù)中的NNLM。我們的方法包括在領(lǐng)域內(nèi)數(shù)據(jù)上對PLM(GPT-2)模型進(jìn)行微調(diào),然后使用微調(diào)后的PLM生成與領(lǐng)域內(nèi)數(shù)據(jù)相似的新句子。我們進(jìn)一步提出了一種文本選擇方法,通過使用正態(tài)采樣策略來調(diào)整選定文本的困惑度分布,以平衡新穎性和與領(lǐng)域內(nèi)數(shù)據(jù)的相似性。選定的文本與領(lǐng)域內(nèi)數(shù)據(jù)一起用于訓(xùn)練LSTM語言模型,這些模型隨后被用來重新評分ASRn最佳假設(shè)列表。我們在兩個ASR任務(wù)上評估了我們的方法:《華爾街日報(bào)》(WSJ)(Paul和Baker,1992年)和AMI(Carletta等人,2005年),并將我們的NNLM與數(shù)據(jù)增強(qiáng)的n-gram語言模型、精簡的PLM(DistilGPT2(HuggingFace,2019年)和微調(diào)后的PLM進(jìn)行了比較。在這兩個ASR任務(wù)上,我們的方法一致性地改善了WER和PPL,優(yōu)于僅基于領(lǐng)域內(nèi)數(shù)據(jù)訓(xùn)練的基線模型。
        我們的貢獻(xiàn)總結(jié)如下。首先,我們將基于文本生成的數(shù)據(jù)增強(qiáng)應(yīng)用于NNLM,這是一個在以往主要關(guān)注增強(qiáng)-gram語言模型的研究中尚未充分探索的問題。因?yàn)镹NLM(如LSTM和Transformer)可以捕捉序列中的長距離依賴關(guān)系,而不是n-gram的固定短窗口,所以增強(qiáng)小型NNLM可能會從生成的文本數(shù)據(jù)中受益更多。其次,雖然之前的研究從領(lǐng)域外語料庫中選擇了與領(lǐng)域內(nèi)數(shù)據(jù)最相似的句子,但我們提出根據(jù)目標(biāo)困惑度分布從生成的類似領(lǐng)域內(nèi)的文本中選擇新穎句子。這種策略鼓勵在任務(wù)領(lǐng)域內(nèi)包含未見但相關(guān)的模式,據(jù)我們所知,這一點(diǎn)尚未得到充分研究。第三,我們研究了增強(qiáng)數(shù)據(jù)大小和NNLM模型大小的影響,并探討了在有效吸收大規(guī)模增強(qiáng)數(shù)據(jù)的同時(shí)保持NNLM緊湊性的方法。最后,我們在兩個ASR任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),我們提出的方法實(shí)現(xiàn)的WER與微調(diào)后的Qwen3-0.6B-Base和GPT-2中型模型相當(dāng)或更低,并且使用的參數(shù)僅為它們的一小部分。這種性能-成本效率支持在資源受限場景中部署高性能NNLM。
        本手稿的其余部分組織如下。第2節(jié)我們簡要回顧了GPT-2模型和相關(guān)工作。第3節(jié)描述了我們提出的方法。第4節(jié)展示了實(shí)驗(yàn)設(shè)置和結(jié)果。第5節(jié)給出了結(jié)論。

        章節(jié)片段

        GPT和GPT-2

        GPT(Radford等人,2018年)僅使用Transformer的解碼器結(jié)構(gòu),去除了其編碼器、編碼器-解碼器多頭注意力和層歸一化(Ba等人,2016年)組件。GPT模型由12個Transformer解碼器塊組成,具有1.1億(M)個參數(shù)。最大序列長度為512個標(biāo)記。
        GPT-2(Radford等人,2019年)作為GPT的繼任者,基本上遵循GPT的結(jié)構(gòu),但對層歸一化和最大值進(jìn)行了一些修改

        處理流程

        我們的處理流程如圖1所示。首先,從大型語料庫從頭開始訓(xùn)練PLM,或者從現(xiàn)有版本中獲取PLM。接下來,我們在特定于ASR任務(wù)的領(lǐng)域內(nèi)語料庫上對PLM進(jìn)行微調(diào)。然后使用微調(diào)后的PLM生成新的語料庫,并從中選擇句子。最后,將增強(qiáng)后的語料庫與領(lǐng)域內(nèi)語料庫結(jié)合,以訓(xùn)練增強(qiáng)的NNLM。隨后使用增強(qiáng)后的NNLM重新評分最佳

        實(shí)驗(yàn)設(shè)置

        我們在兩個ASR任務(wù)上評估了我們提出的方法:WSJ語料庫和AMI語料庫。WSJ語料庫包含在受控錄音室環(huán)境中錄制的清晰發(fā)音的朗讀語音,演講者清晰地朗讀《華爾街日報(bào)》文章,背景噪音最小。相比之下,AMI語料庫包含在自然辦公室環(huán)境中捕獲的自發(fā)多方會議對話,其特征是語音重疊、不連貫和大量的背景噪音

        結(jié)論

        我們提出并研究了一種基于文本生成和選擇的數(shù)據(jù)增強(qiáng)方法,用于提高NNLM在語音識別中的泛化性能。首先,我們應(yīng)用了基于文本生成的數(shù)據(jù)增強(qiáng)方法來改進(jìn)NNLM訓(xùn)練,其中文本生成是通過為任務(wù)領(lǐng)域微調(diào)預(yù)訓(xùn)練的大型語言模型來完成的,這是一個之前尚未得到充分研究的領(lǐng)域。然后,我們研究了一種基于

        CRediT作者貢獻(xiàn)聲明

        宋明光:撰寫——原始草稿,方法論。趙云鑫:撰寫——審閱與編輯,監(jiān)督。

        利益沖突聲明

        作者聲明他們沒有已知的競爭性財(cái)務(wù)利益或個人關(guān)系可能影響本文報(bào)告的工作。
        相關(guān)新聞
        生物通微信公眾號
        微信
        新浪微博

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動態(tài) | 人才市場 | 新技術(shù)專欄 | 中國科學(xué)人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號