語言模型在自然語言處理(NLP)中起著至關(guān)重要的作用。語言模型計(jì)算單詞序列的概率。在過去十年中,神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)在語言建模任務(wù)中取得了最先進(jìn)的性能。NNLM通過學(xué)習(xí)單詞的分布式表示來克服維數(shù)災(zāi)難(Bengio等人,2003年)。循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)(Mikolov等人,2010年)在捕捉長距離依賴關(guān)系方面表現(xiàn)出色,并且性能超過了傳統(tǒng)的-gram語言模型。帶有門控機(jī)制(如長短期記憶(LSTM)單元的RNNLM(Hochreiter和Schmidhuber,1997年)能夠有效編碼比基本循環(huán)單元更長的上下文,從而在自動語音識別(Sundermeyer等人,2015年)的語言建模中顯著提高性能。
注意力機(jī)制作為RNN的替代方案出現(xiàn),并在序列建模中得到廣泛應(yīng)用(Irie等人,2019年)。最初為機(jī)器翻譯提出的Transformer(Vaswani等人,2017年)架構(gòu)在語言建模中迅速流行起來;赥ransformer的大型PLMs,如BERT(Devlin等人,2019年)和GPT系列(Radford等人,2018年,Radford等人,2019年,Brown等人,2020年),在大量文本上進(jìn)行了訓(xùn)練,使它們能夠掌握豐富的語言知識并在各種NLP任務(wù)中表現(xiàn)出色。最近的生成型大型語言模型(例如ChatGPT、Llama(Touvron等人,2023年)、Claude、Qwen(Qwen團(tuán)隊(duì),2025年)在遵循提示和提供詳細(xì)響應(yīng)方面表現(xiàn)出顯著的能力。當(dāng)應(yīng)用于下游NLP任務(wù)時(shí),PLMs通常會在領(lǐng)域內(nèi)數(shù)據(jù)上進(jìn)行微調(diào),以適應(yīng)特定任務(wù)的語言知識。例如,大型PLMs已被微調(diào)用于重新評分最佳假設(shè)列表,用于ASR任務(wù)(Shin等人,2019年,Zheng等人,2021年),并顯著降低了WER。盡管大型PLMs的性能令人印象深刻,但它們極高的計(jì)算成本對資源有限的現(xiàn)實(shí)世界應(yīng)用構(gòu)成了挑戰(zhàn),尤其是與較小的NNLM相比。
數(shù)據(jù)稀疏性是語言建模中的一個固有挑戰(zhàn)。通常,用于訓(xùn)練ASR任務(wù)的語言模型的領(lǐng)域內(nèi)數(shù)據(jù)量是有限的。這個問題通過對現(xiàn)有領(lǐng)域外文本或PLM生成的文本收集額外數(shù)據(jù)來解決。網(wǎng)絡(luò)爬。℅andhe等人,2013年,Mendels等人,2015年)和選擇非領(lǐng)域特定訓(xùn)練數(shù)據(jù)的子集(Klakow,2000年,Moore和Lewis,2010年)是常見的做法;谖谋旧傻臄(shù)據(jù)增強(qiáng)(Suzuki等人,2019年,Wang等人,2019年,Tarján等人,2020年,Tarján等人,2022年)隨著大型PLM的出現(xiàn)而變得流行,這些模型能夠生成高質(zhì)量的文本(Radford等人,2019年,Yang等人,2019年,Li等人,2024年)。
當(dāng)在領(lǐng)域內(nèi)數(shù)據(jù)上微調(diào)時(shí),PLMs可以適應(yīng)任務(wù)領(lǐng)域的語言模式,同時(shí)保留從大規(guī)模預(yù)訓(xùn)練中獲得的一般知識。這使得微調(diào)后的PLMs能夠生成領(lǐng)域內(nèi)數(shù)據(jù)中不存在但風(fēng)格相似的新句子。文獻(xiàn)中顯示,使用這些方法生成增強(qiáng)數(shù)據(jù)可以提高-gram語言模型的性能。
盡管-gram語言模型在計(jì)算和內(nèi)存效率方面表現(xiàn)出色,但它們對短上下文信息的依賴限制了將語言知識從PLMs轉(zhuǎn)移到-gram模型的效果,從而限制了ASR任務(wù)的改進(jìn)程度。由于n-gram語言模型不如RNNLM,研究從PLMs到輕量級RNNLM的語言知識轉(zhuǎn)移是值得的。此外,RNNLM用于長上下文建模的架構(gòu)需要比n-gram語言模型更多的訓(xùn)練數(shù)據(jù),因此它們可能從微調(diào)后的PLM生成的數(shù)據(jù)中吸收更多信息。
在這項(xiàng)工作中,我們提出了一種基于文本生成的數(shù)據(jù)增強(qiáng)方法,用于訓(xùn)練ASR任務(wù)中的NNLM。我們的方法包括在領(lǐng)域內(nèi)數(shù)據(jù)上對PLM(GPT-2)模型進(jìn)行微調(diào),然后使用微調(diào)后的PLM生成與領(lǐng)域內(nèi)數(shù)據(jù)相似的新句子。我們進(jìn)一步提出了一種文本選擇方法,通過使用正態(tài)采樣策略來調(diào)整選定文本的困惑度分布,以平衡新穎性和與領(lǐng)域內(nèi)數(shù)據(jù)的相似性。選定的文本與領(lǐng)域內(nèi)數(shù)據(jù)一起用于訓(xùn)練LSTM語言模型,這些模型隨后被用來重新評分ASR最佳假設(shè)列表。我們在兩個ASR任務(wù)上評估了我們的方法:《華爾街日報(bào)》(WSJ)(Paul和Baker,1992年)和AMI(Carletta等人,2005年),并將我們的NNLM與數(shù)據(jù)增強(qiáng)的-gram語言模型、精簡的PLM(DistilGPT2(HuggingFace,2019年)和微調(diào)后的PLM進(jìn)行了比較。在這兩個ASR任務(wù)上,我們的方法一致性地改善了WER和PPL,優(yōu)于僅基于領(lǐng)域內(nèi)數(shù)據(jù)訓(xùn)練的基線模型。
我們的貢獻(xiàn)總結(jié)如下。首先,我們將基于文本生成的數(shù)據(jù)增強(qiáng)應(yīng)用于NNLM,這是一個在以往主要關(guān)注增強(qiáng)-gram語言模型的研究中尚未充分探索的問題。因?yàn)镹NLM(如LSTM和Transformer)可以捕捉序列中的長距離依賴關(guān)系,而不是n-gram的固定短窗口,所以增強(qiáng)小型NNLM可能會從生成的文本數(shù)據(jù)中受益更多。其次,雖然之前的研究從領(lǐng)域外語料庫中選擇了與領(lǐng)域內(nèi)數(shù)據(jù)最相似的句子,但我們提出根據(jù)目標(biāo)困惑度分布從生成的類似領(lǐng)域內(nèi)的文本中選擇新穎句子。這種策略鼓勵在任務(wù)領(lǐng)域內(nèi)包含未見但相關(guān)的模式,據(jù)我們所知,這一點(diǎn)尚未得到充分研究。第三,我們研究了增強(qiáng)數(shù)據(jù)大小和NNLM模型大小的影響,并探討了在有效吸收大規(guī)模增強(qiáng)數(shù)據(jù)的同時(shí)保持NNLM緊湊性的方法。最后,我們在兩個ASR任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),我們提出的方法實(shí)現(xiàn)的WER與微調(diào)后的Qwen3-0.6B-Base和GPT-2中型模型相當(dāng)或更低,并且使用的參數(shù)僅為它們的一小部分。這種性能-成本效率支持在資源受限場景中部署高性能NNLM。
本手稿的其余部分組織如下。第2節(jié)我們簡要回顧了GPT-2模型和相關(guān)工作。第3節(jié)描述了我們提出的方法。第4節(jié)展示了實(shí)驗(yàn)設(shè)置和結(jié)果。第5節(jié)給出了結(jié)論。