人妻少妇被猛烈进入中文字幕,午夜性福利,秋霞91大神

首頁今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專欄中國(guó)科學(xué)人云展臺(tái)
BioHot
云講堂直播會(huì)展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁 > 今日動(dòng)態(tài) > 正文

西班牙語音頻轉(zhuǎn)錄工作流程的改進(jìn)：整合預(yù)處理、基于大型語言模型的校正以及說話人分離與識(shí)別技術(shù)

《Computer Speech & Language》：Improvements in Spanish audio transcription workflows: Integrating preprocessing, LLM-based correction, and speaker diarization and identification

【字體：大中小】 時(shí)間：2026年03月02日 來源：Computer Speech & Language 3.4

編輯推薦：

　　西班牙語音頻轉(zhuǎn)錄通過整合HDemucs預(yù)處理、WhisperX轉(zhuǎn)錄與LLM校驗(yàn)及說話人嵌入匹配，顯著降低字詞錯(cuò)誤率（如RTVE2022DB降至10.82%）并實(shí)現(xiàn)說話人身份標(biāo)注。

Gonzalo Nieto Montero | Santiago Hernández | Juan Casal

Cires21 研發(fā)部，P.° de la Castellana, 81號(hào)，15層，28046，馬德里，西班牙

摘要

即使在最先進(jìn)的多語言自動(dòng)語音識(shí)別（ASR）系統(tǒng)下，要在現(xiàn)實(shí)條件下對(duì)西班牙語廣播音頻進(jìn)行魯棒且注釋豐富的轉(zhuǎn)錄仍然具有挑戰(zhàn)性。本文通過一個(gè)框架來改進(jìn)西班牙語語音轉(zhuǎn)錄，該框架結(jié)合了（i）針對(duì)性的音頻預(yù)處理、（ii）大型語言模型（LLM）的后校正及確定性驗(yàn)證，以及（iii）語音分割和說話者身份識(shí)別，從而產(chǎn)生更準(zhǔn)確、信息更豐富的轉(zhuǎn)錄結(jié)果。首先，我們展示了應(yīng)用HDemucs聲學(xué)分離技術(shù)后進(jìn)行帶限濾波能夠提升WhisperX（Whisper large-v3）在現(xiàn)代RTVE廣播測(cè)試集上的性能，在RTVE2022DB數(shù)據(jù)集上的詞錯(cuò)誤率（WER）降至10.82%（相比WhisperX降低了2.79%），在RTVE2020DB數(shù)據(jù)集上為10.36%。為了明確這種方法的適用范圍，我們還評(píng)估了NVIDIA Canary-1B-v2模型，發(fā)現(xiàn)這些改進(jìn)效果依賴于具體模型。其次，我們引入了一種基于LLM的校正算法，通過標(biāo)準(zhǔn)化文本等價(jià)性和有界的編輯距離接受度來限制模型的作用，既保持了流程的確定性，又保留了LLM的優(yōu)勢(shì)。在兩個(gè)包含格式噪聲的測(cè)試集（RTVE2017-week subtitles和嘈雜的VoxPopuli-es）中，該機(jī)制將案例敏感性和標(biāo)點(diǎn)符號(hào)敏感性的錯(cuò)誤率幾乎減半，并確定了容錯(cuò)閾值的穩(wěn)定運(yùn)行范圍。第三，我們通過結(jié)合WhisperX/pyannote的語音分割技術(shù)、音頻嵌入匹配以及基于LLM的補(bǔ)充識(shí)別方法來豐富轉(zhuǎn)錄內(nèi)容，在RTVE2022DB數(shù)據(jù)集上的詞錯(cuò)誤率降至29.92%，優(yōu)于挑戰(zhàn)賽的基準(zhǔn)結(jié)果。這些模塊共同作用，提供了更清晰、能識(shí)別說話者的轉(zhuǎn)錄結(jié)果，超越了單獨(dú)使用WhisperX的最佳效果，展示了如何在不進(jìn)行訓(xùn)練的情況下通過精心組合現(xiàn)成模型來提升西班牙語ASR的性能。

引言

對(duì)于伊比利亞語言（如西班牙語）來說，高質(zhì)量的語音轉(zhuǎn)錄對(duì)于從廣播媒體索引到語音助手等各種應(yīng)用都至關(guān)重要。盡管自動(dòng)語音識(shí)別（ASR）技術(shù)取得了近期進(jìn)展，但在現(xiàn)實(shí)場(chǎng)景中（如有多個(gè)說話者、背景音樂和地區(qū)口音的情況下），準(zhǔn)確轉(zhuǎn)錄西班牙語音頻仍然具有挑戰(zhàn)性（Lleida等人，2023年）。例如，RTVE 2022挑戰(zhàn)賽數(shù)據(jù)集中的西班牙語電視節(jié)目存在語音重疊、背景噪音和非正式說話風(fēng)格等問題，導(dǎo)致即使是最先進(jìn)的系統(tǒng)其詞錯(cuò)誤率（WER）也處于中等水平。值得注意的是，一個(gè)在多語言數(shù)據(jù)上訓(xùn)練的零樣本W(wǎng)hisper大型模型在2022年RTVE測(cè)試集上的WER僅為14.9%——盡管這是一個(gè)不錯(cuò)的結(jié)果，但考慮到音頻的復(fù)雜性，仍有改進(jìn)空間。這一性能差距激發(fā)了人們研究能夠應(yīng)對(duì)這些不利條件的增強(qiáng)型轉(zhuǎn)錄工作流程的興趣。

在這項(xiàng)工作中，我們采用了一種集成工程的方法，通過結(jié)合三種互補(bǔ)技術(shù)來提升西班牙語ASR的輸出：音頻預(yù)處理、基于LLM的錯(cuò)誤校正以及說話者語音分割和識(shí)別。這些組件分別針對(duì)轉(zhuǎn)錄流程中的不同錯(cuò)誤來源。首先，前端音頻預(yù)處理旨在通過去除或隔離背景內(nèi)容來增強(qiáng)語音信號(hào)。先前的研究表明，有針對(duì)性的聲音分離（例如去除音樂或其他說話者的聲音）可以提高ASR和語音分割的性能（Rascon和Fuentes-Pineda，2023年）。我們采用了高質(zhì)量的音頻源分離模型（HDemucs）來分離語音信號(hào)，并應(yīng)用高通濾波器來減少低頻噪聲。其次，我們利用現(xiàn)代大型語言模型的強(qiáng)大能力進(jìn)行轉(zhuǎn)錄后的錯(cuò)誤校正。像ChatGPT和LLLaMA這樣的大型LLM最近被用作后處理器，利用其豐富的語言知識(shí)來完善ASR的識(shí)別結(jié)果（Ma等人，2023年）。通過向700億參數(shù)的LLM提供初始轉(zhuǎn)錄文本，我們可以糾正標(biāo)點(diǎn)符號(hào)、大寫錯(cuò)誤、重音符號(hào)以及ASR引擎可能遺漏的語言不一致性。第三，我們結(jié)合了基于神經(jīng)說話者嵌入的說話者語音分割和識(shí)別模塊。雖然WhisperX（Bain等人，2023年）使用Pyannote音頻模型實(shí)現(xiàn)了自動(dòng)語音分割（按說話者變化分段），但其輸出的是匿名的說話者標(biāo)簽（“說話者1”、“說話者2”）。我們通過將說話者嵌入與已知聲音的數(shù)據(jù)庫進(jìn)行匹配，盡可能為說話者分配真實(shí)身份，這一步驟對(duì)于媒體檔案或會(huì)議記錄等應(yīng)用非常重要，因?yàn)樵谶@些應(yīng)用中，誰說了什么與說了什么同樣重要。

我們的貢獻(xiàn)包括：（i）將這些組件系統(tǒng)地整合到一個(gè)無需訓(xùn)練的工作流程中；（ii）在西班牙語數(shù)據(jù)上測(cè)試其性能（相比英語數(shù)據(jù)，西班牙語數(shù)據(jù)的相關(guān)研究較少）；（iii）開發(fā)了一種基于LLM的校正算法，該算法在保留程序確定性的同時(shí)利用了LLM的能力。我們證明了這個(gè)集成系統(tǒng)在西班牙語評(píng)估數(shù)據(jù)集上顯著提高了轉(zhuǎn)錄的準(zhǔn)確性和輸出的質(zhì)量（包括說話者名稱）。具體來說，在RTVE挑戰(zhàn)賽數(shù)據(jù)集（2018-2022年）中，我們的預(yù)處理步驟一致性地降低了WER。在嘈雜的VoxPopuli西班牙語語料庫和RTVE2018DB數(shù)據(jù)集上，基于LLM的校正顯著減少了轉(zhuǎn)錄錯(cuò)誤。此外，添加說話者識(shí)別后，標(biāo)記出的轉(zhuǎn)錄結(jié)果具有更少的額外語音分割錯(cuò)誤。通過展示定量改進(jìn)和定性示例，我們強(qiáng)調(diào)了預(yù)處理、ASR、LLM校正和說話者識(shí)別之間的協(xié)同作用如何能夠提升西班牙語語音轉(zhuǎn)錄的性能，超越了各個(gè)組件單獨(dú)使用時(shí)的效果。

章節(jié)片段

ASR的預(yù)處理和語音增強(qiáng)

魯棒的ASR通常依賴于前端處理來處理音頻中的噪聲、音樂或重疊說話者的問題。傳統(tǒng)方法包括頻譜濾波和波束成形技術(shù)來增強(qiáng)語音并抑制噪聲（Rascon和Fuentes-Pineda，2023年）。深度學(xué)習(xí)方法下的數(shù)據(jù)驅(qū)動(dòng)語音增強(qiáng)和源分離技術(shù)也展現(xiàn)出了巨大潛力。例如，Google的VoiceFilter（Wang等人，2019年）引入了一種基于說話者條件的模型來分離目標(biāo)聲音和其他聲音。

方法論

我們的整體系統(tǒng)由三個(gè)主要模塊依次執(zhí)行組成：（1）音頻預(yù)處理、（2）ASR轉(zhuǎn)錄、（3）基于LLM的校正以及（4）說話者語音分割和識(shí)別。我們使用OpenAI的Whisper模型作為核心ASR引擎（通過WhisperX工具包），并利用其他組件來增強(qiáng)其輸入和輸出。工作流程如下：音頻輸入 → 預(yù)處理 → WhisperX → LLM校正 → 說話者識(shí)別（見圖1）。

在本節(jié)中，我們將描述每個(gè)組件的詳細(xì)信息。

數(shù)據(jù)集

我們?cè)趦煞N類型的西班牙語數(shù)據(jù)集上評(píng)估了該集成系統(tǒng)的性能：RTVE 2018/2020/2022測(cè)試集以及添加了噪聲的VoxPopuli西班牙語子集。選擇這些數(shù)據(jù)集是為了模擬現(xiàn)實(shí)世界的西班牙語ASR挑戰(zhàn)：前者包含多個(gè)說話者和噪聲的開放領(lǐng)域電視音頻，后者則模擬了受控環(huán)境下的嘈雜轉(zhuǎn)錄情況。

1. RTVE數(shù)據(jù)庫

WhisperX實(shí)驗(yàn)

表2總結(jié)了五種ASR流程（包括WhisperX及其四種帶有語音增強(qiáng)/濾波的變體）在三個(gè)RTVE西班牙語廣播語料集（RTVE2022DB、RTVE2020DB和RTVE2018DB）上的詞錯(cuò)誤率（WER）。在最新的RTVE2022DB數(shù)據(jù)集上，c21-demucs-filter_200–8000 Hz流程的WER最低，為10.82%，相比WhisperX基線（11.13%）降低了2.79%，有效減少了約2088個(gè)單詞錯(cuò)誤。RTVE2020DB數(shù)據(jù)集也顯示了類似的趨勢(shì)。

結(jié)論

這項(xiàng)工作表明，一種無需訓(xùn)練的集成工程方法可以顯著提升西班牙語語音轉(zhuǎn)錄在現(xiàn)實(shí)廣播條件下的性能和實(shí)際應(yīng)用價(jià)值。我們沒有依賴特定任務(wù)的微調(diào)，而是將互補(bǔ)的現(xiàn)成組件（音頻預(yù)處理、基于WhisperX的ASR、基于LLM的轉(zhuǎn)錄校正以及語音分割和識(shí)別）整合到一個(gè)連貫的工作流程中，其性能超過了單獨(dú)使用WhisperX的效果。

CRediT作者貢獻(xiàn)聲明

Gonzalo Nieto Montero：撰寫 – 審稿與編輯、初稿撰寫、可視化、監(jiān)督、軟件開發(fā)、項(xiàng)目管理、方法論設(shè)計(jì)、數(shù)據(jù)分析、概念化。Santiago Hernández：初稿撰寫、軟件開發(fā)、形式化分析。Juan Casal：審稿、項(xiàng)目管理、概念化。