亚洲综合社区,99在线精品国自产拍不卡,色99999

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

通過使用預(yù)訓(xùn)練的語言模型進(jìn)行文本生成來改進(jìn)神經(jīng)網(wǎng)絡(luò)自然語言模型（NNLMs）

《Computer Speech & Language》：Improve NNLMs by text generation from pre-trained language models

【字體：大中小】 時(shí)間：2026年03月02日 來源：Computer Speech & Language 3.4

編輯推薦：

　　文本生成增強(qiáng)數(shù)據(jù)提升輕量級語音識別模型

宋明光|趙云鑫

密蘇里大學(xué)哥倫比亞分校電子工程與計(jì)算機(jī)科學(xué)系，美國密蘇里州哥倫比亞市，65211

摘要

大型預(yù)訓(xùn)練語言模型（PLMs）能夠?qū)W習(xí)豐富的語言知識，并在自動語音識別（ASR）任務(wù)中展現(xiàn)出強(qiáng)大的能力。然而，大型PLMs的高計(jì)算成本限制了它們在計(jì)算資源有限的現(xiàn)實(shí)世界場景中的直接應(yīng)用。在本文中，我們提出了一種有效的方法，利用PLMs進(jìn)行基于文本生成的數(shù)據(jù)增強(qiáng)，以改進(jìn)用于ASR的特定任務(wù)神經(jīng)網(wǎng)絡(luò)語言模型（NNLM），這是一個尚未得到充分解決的問題。我們的數(shù)據(jù)增強(qiáng)方法首先在領(lǐng)域內(nèi)數(shù)據(jù)上對PLM進(jìn)行微調(diào)，以生成類似領(lǐng)域內(nèi)的文本，然后根據(jù)所需的句子困惑度分布選擇新穎的句子。選定的文本與領(lǐng)域內(nèi)數(shù)據(jù)共同構(gòu)成一個增強(qiáng)數(shù)據(jù)集，用于訓(xùn)練輕量級的NNLM。由于微調(diào)后的PLM同時(shí)掌握了通用語言知識和領(lǐng)域內(nèi)語言知識，因此在模型訓(xùn)練中充分使用這些生成的文本可以提高NNLM的泛化能力。我們在《華爾街日報(bào)》（WSJ）和增強(qiáng)型多方互動（AMI）會議的ASR任務(wù)上評估了我們的方法。實(shí)驗(yàn)結(jié)果表明，輕量級增強(qiáng)型NNLM在單詞錯誤率和困惑度方面有顯著降低，證明了高性能NNLM在資源受限環(huán)境中的應(yīng)用潛力。

引言

語言模型在自然語言處理（NLP）中起著至關(guān)重要的作用。語言模型計(jì)算單詞序列的概率。在過去十年中，神經(jīng)網(wǎng)絡(luò)語言模型（NNLM）在語言建模任務(wù)中取得了最先進(jìn)的性能。NNLM通過學(xué)習(xí)單詞的分布式表示來克服維數(shù)災(zāi)難（Bengio等人，2003年）。循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型（RNNLM）（Mikolov等人，2010年）在捕捉長距離依賴關(guān)系方面表現(xiàn)出色，并且性能超過了傳統(tǒng)的

n

-gram語言模型。帶有門控機(jī)制（如長短期記憶（LSTM）單元的RNNLM（Hochreiter和Schmidhuber，1997年）能夠有效編碼比基本循環(huán)單元更長的上下文，從而在自動語音識別（Sundermeyer等人，2015年）的語言建模中顯著提高性能。

注意力機(jī)制作為RNN的替代方案出現(xiàn)，并在序列建模中得到廣泛應(yīng)用（Irie等人，2019年）。最初為機(jī)器翻譯提出的Transformer（Vaswani等人，2017年）架構(gòu)在語言建模中迅速流行起來�；赥ransformer的大型PLMs，如BERT（Devlin等人，2019年）和GPT系列（Radford等人，2018年，Radford等人，2019年，Brown等人，2020年），在大量文本上進(jìn)行了訓(xùn)練，使它們能夠掌握豐富的語言知識并在各種NLP任務(wù)中表現(xiàn)出色。最近的生成型大型語言模型（例如ChatGPT、Llama（Touvron等人，2023年）、Claude、Qwen（Qwen團(tuán)隊(duì)，2025年）在遵循提示和提供詳細(xì)響應(yīng)方面表現(xiàn)出顯著的能力。當(dāng)應(yīng)用于下游NLP任務(wù)時(shí)，PLMs通常會在領(lǐng)域內(nèi)數(shù)據(jù)上進(jìn)行微調(diào)，以適應(yīng)特定任務(wù)的語言知識。例如，大型PLMs已被微調(diào)用于重新評分

n

最佳假設(shè)列表，用于ASR任務(wù)（Shin等人，2019年，Zheng等人，2021年），并顯著降低了WER。盡管大型PLMs的性能令人印象深刻，但它們極高的計(jì)算成本對資源有限的現(xiàn)實(shí)世界應(yīng)用構(gòu)成了挑戰(zhàn)，尤其是與較小的NNLM相比。

數(shù)據(jù)稀疏性是語言建模中的一個固有挑戰(zhàn)。通常，用于訓(xùn)練ASR任務(wù)的語言模型的領(lǐng)域內(nèi)數(shù)據(jù)量是有限的。這個問題通過對現(xiàn)有領(lǐng)域外文本或PLM生成的文本收集額外數(shù)據(jù)來解決。網(wǎng)絡(luò)爬�。℅andhe等人，2013年，Mendels等人，2015年）和選擇非領(lǐng)域特定訓(xùn)練數(shù)據(jù)的子集（Klakow，2000年，Moore和Lewis，2010年）是常見的做法�；谖谋旧傻臄�(shù)據(jù)增強(qiáng)（Suzuki等人，2019年，Wang等人，2019年，Tarján等人，2020年，Tarján等人，2022年）隨著大型PLM的出現(xiàn)而變得流行，這些模型能夠生成高質(zhì)量的文本（Radford等人，2019年，Yang等人，2019年，Li等人，2024年）。

當(dāng)在領(lǐng)域內(nèi)數(shù)據(jù)上微調(diào)時(shí)，PLMs可以適應(yīng)任務(wù)領(lǐng)域的語言模式，同時(shí)保留從大規(guī)模預(yù)訓(xùn)練中獲得的一般知識。這使得微調(diào)后的PLMs能夠生成領(lǐng)域內(nèi)數(shù)據(jù)中不存在但風(fēng)格相似的新句子。文獻(xiàn)中顯示，使用這些方法生成增強(qiáng)數(shù)據(jù)可以提高

n

-gram語言模型的性能。

盡管

n

-gram語言模型在計(jì)算和內(nèi)存效率方面表現(xiàn)出色，但它們對短上下文信息的依賴限制了將語言知識從PLMs轉(zhuǎn)移到

n

-gram模型的效果，從而限制了ASR任務(wù)的改進(jìn)程度。由于n-gram語言模型不如RNNLM，研究從PLMs到輕量級RNNLM的語言知識轉(zhuǎn)移是值得的。此外，RNNLM用于長上下文建模的架構(gòu)需要比n-gram語言模型更多的訓(xùn)練數(shù)據(jù)，因此它們可能從微調(diào)后的PLM生成的數(shù)據(jù)中吸收更多信息。

在這項(xiàng)工作中，我們提出了一種基于文本生成的數(shù)據(jù)增強(qiáng)方法，用于訓(xùn)練ASR任務(wù)中的NNLM。我們的方法包括在領(lǐng)域內(nèi)數(shù)據(jù)上對PLM（GPT-2）模型進(jìn)行微調(diào)，然后使用微調(diào)后的PLM生成與領(lǐng)域內(nèi)數(shù)據(jù)相似的新句子。我們進(jìn)一步提出了一種文本選擇方法，通過使用正態(tài)采樣策略來調(diào)整選定文本的困惑度分布，以平衡新穎性和與領(lǐng)域內(nèi)數(shù)據(jù)的相似性。選定的文本與領(lǐng)域內(nèi)數(shù)據(jù)一起用于訓(xùn)練LSTM語言模型，這些模型隨后被用來重新評分ASR

n

最佳假設(shè)列表。我們在兩個ASR任務(wù)上評估了我們的方法：《華爾街日報(bào)》（WSJ）（Paul和Baker，1992年）和AMI（Carletta等人，2005年），并將我們的NNLM與數(shù)據(jù)增強(qiáng)的

n

-gram語言模型、精簡的PLM（DistilGPT2（HuggingFace，2019年）和微調(diào)后的PLM進(jìn)行了比較。在這兩個ASR任務(wù)上，我們的方法一致性地改善了WER和PPL，優(yōu)于僅基于領(lǐng)域內(nèi)數(shù)據(jù)訓(xùn)練的基線模型。

我們的貢獻(xiàn)總結(jié)如下。首先，我們將基于文本生成的數(shù)據(jù)增強(qiáng)應(yīng)用于NNLM，這是一個在以往主要關(guān)注增強(qiáng)-gram語言模型的研究中尚未充分探索的問題。因?yàn)镹NLM（如LSTM和Transformer）可以捕捉序列中的長距離依賴關(guān)系，而不是n-gram的固定短窗口，所以增強(qiáng)小型NNLM可能會從生成的文本數(shù)據(jù)中受益更多。其次，雖然之前的研究從領(lǐng)域外語料庫中選擇了與領(lǐng)域內(nèi)數(shù)據(jù)最相似的句子，但我們提出根據(jù)目標(biāo)困惑度分布從生成的類似領(lǐng)域內(nèi)的文本中選擇新穎句子。這種策略鼓勵在任務(wù)領(lǐng)域內(nèi)包含未見但相關(guān)的模式，據(jù)我們所知，這一點(diǎn)尚未得到充分研究。第三，我們研究了增強(qiáng)數(shù)據(jù)大小和NNLM模型大小的影響，并探討了在有效吸收大規(guī)模增強(qiáng)數(shù)據(jù)的同時(shí)保持NNLM緊湊性的方法。最后，我們在兩個ASR任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)，我們提出的方法實(shí)現(xiàn)的WER與微調(diào)后的Qwen3-0.6B-Base和GPT-2中型模型相當(dāng)或更低，并且使用的參數(shù)僅為它們的一小部分。這種性能-成本效率支持在資源受限場景中部署高性能NNLM。

本手稿的其余部分組織如下。第2節(jié)我們簡要回顧了GPT-2模型和相關(guān)工作。第3節(jié)描述了我們提出的方法。第4節(jié)展示了實(shí)驗(yàn)設(shè)置和結(jié)果。第5節(jié)給出了結(jié)論。

章節(jié)片段

GPT和GPT-2

GPT（Radford等人，2018年）僅使用Transformer的解碼器結(jié)構(gòu)，去除了其編碼器、編碼器-解碼器多頭注意力和層歸一化（Ba等人，2016年）組件。GPT模型由12個Transformer解碼器塊組成，具有1.1億（M）個參數(shù)。最大序列長度為512個標(biāo)記。

GPT-2（Radford等人，2019年）作為GPT的繼任者，基本上遵循GPT的結(jié)構(gòu)，但對層歸一化和最大值進(jìn)行了一些修改

處理流程

我們的處理流程如圖1所示。首先，從大型語料庫從頭開始訓(xùn)練PLM，或者從現(xiàn)有版本中獲取PLM。接下來，我們在特定于ASR任務(wù)的領(lǐng)域內(nèi)語料庫上對PLM進(jìn)行微調(diào)。然后使用微調(diào)后的PLM生成新的語料庫，并從中選擇句子。最后，將增強(qiáng)后的語料庫與領(lǐng)域內(nèi)語料庫結(jié)合，以訓(xùn)練增強(qiáng)的NNLM。隨后使用增強(qiáng)后的NNLM重新評分最佳

實(shí)驗(yàn)設(shè)置

我們在兩個ASR任務(wù)上評估了我們提出的方法：WSJ語料庫和AMI語料庫。WSJ語料庫包含在受控錄音室環(huán)境中錄制的清晰發(fā)音的朗讀語音，演講者清晰地朗讀《華爾街日報(bào)》文章，背景噪音最小。相比之下，AMI語料庫包含在自然辦公室環(huán)境中捕獲的自發(fā)多方會議對話，其特征是語音重疊、不連貫和大量的背景噪音

結(jié)論

我們提出并研究了一種基于文本生成和選擇的數(shù)據(jù)增強(qiáng)方法，用于提高NNLM在語音識別中的泛化性能。首先，我們應(yīng)用了基于文本生成的數(shù)據(jù)增強(qiáng)方法來改進(jìn)NNLM訓(xùn)練，其中文本生成是通過為任務(wù)領(lǐng)域微調(diào)預(yù)訓(xùn)練的大型語言模型來完成的，這是一個之前尚未得到充分研究的領(lǐng)域。然后，我們研究了一種基于