<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        西班牙語音頻轉(zhuǎn)錄工作流程的改進(jìn):整合預(yù)處理、基于大型語言模型的校正以及說話人分離與識(shí)別技術(shù)

        《Computer Speech & Language》:Improvements in Spanish audio transcription workflows: Integrating preprocessing, LLM-based correction, and speaker diarization and identification

        【字體: 時(shí)間:2026年03月02日 來源:Computer Speech & Language 3.4

        編輯推薦:

          西班牙語音頻轉(zhuǎn)錄通過整合HDemucs預(yù)處理、WhisperX轉(zhuǎn)錄與LLM校驗(yàn)及說話人嵌入匹配,顯著降低字詞錯(cuò)誤率(如RTVE2022DB降至10.82%)并實(shí)現(xiàn)說話人身份標(biāo)注。

          
        Gonzalo Nieto Montero | Santiago Hernández | Juan Casal
        Cires21 研發(fā)部,P.° de la Castellana, 81號(hào),15層,28046,馬德里,西班牙

        摘要

        即使在最先進(jìn)的多語言自動(dòng)語音識(shí)別(ASR)系統(tǒng)下,要在現(xiàn)實(shí)條件下對(duì)西班牙語廣播音頻進(jìn)行魯棒且注釋豐富的轉(zhuǎn)錄仍然具有挑戰(zhàn)性。本文通過一個(gè)框架來改進(jìn)西班牙語語音轉(zhuǎn)錄,該框架結(jié)合了(i)針對(duì)性的音頻預(yù)處理、(ii)大型語言模型(LLM)的后校正及確定性驗(yàn)證,以及(iii)語音分割和說話者身份識(shí)別,從而產(chǎn)生更準(zhǔn)確、信息更豐富的轉(zhuǎn)錄結(jié)果。首先,我們展示了應(yīng)用HDemucs聲學(xué)分離技術(shù)后進(jìn)行帶限濾波能夠提升WhisperX(Whisper large-v3)在現(xiàn)代RTVE廣播測(cè)試集上的性能,在RTVE2022DB數(shù)據(jù)集上的詞錯(cuò)誤率(WER)降至10.82%(相比WhisperX降低了2.79%),在RTVE2020DB數(shù)據(jù)集上為10.36%。為了明確這種方法的適用范圍,我們還評(píng)估了NVIDIA Canary-1B-v2模型,發(fā)現(xiàn)這些改進(jìn)效果依賴于具體模型。其次,我們引入了一種基于LLM的校正算法,通過標(biāo)準(zhǔn)化文本等價(jià)性和有界的編輯距離接受度來限制模型的作用,既保持了流程的確定性,又保留了LLM的優(yōu)勢(shì)。在兩個(gè)包含格式噪聲的測(cè)試集(RTVE2017-week subtitles和嘈雜的VoxPopuli-es)中,該機(jī)制將案例敏感性和標(biāo)點(diǎn)符號(hào)敏感性的錯(cuò)誤率幾乎減半,并確定了容錯(cuò)閾值的穩(wěn)定運(yùn)行范圍。第三,我們通過結(jié)合WhisperX/pyannote的語音分割技術(shù)、音頻嵌入匹配以及基于LLM的補(bǔ)充識(shí)別方法來豐富轉(zhuǎn)錄內(nèi)容,在RTVE2022DB數(shù)據(jù)集上的詞錯(cuò)誤率降至29.92%,優(yōu)于挑戰(zhàn)賽的基準(zhǔn)結(jié)果。這些模塊共同作用,提供了更清晰、能識(shí)別說話者的轉(zhuǎn)錄結(jié)果,超越了單獨(dú)使用WhisperX的最佳效果,展示了如何在不進(jìn)行訓(xùn)練的情況下通過精心組合現(xiàn)成模型來提升西班牙語ASR的性能。

        引言

        對(duì)于伊比利亞語言(如西班牙語)來說,高質(zhì)量的語音轉(zhuǎn)錄對(duì)于從廣播媒體索引到語音助手等各種應(yīng)用都至關(guān)重要。盡管自動(dòng)語音識(shí)別(ASR)技術(shù)取得了近期進(jìn)展,但在現(xiàn)實(shí)場(chǎng)景中(如有多個(gè)說話者、背景音樂和地區(qū)口音的情況下),準(zhǔn)確轉(zhuǎn)錄西班牙語音頻仍然具有挑戰(zhàn)性(Lleida等人,2023年)。例如,RTVE 2022挑戰(zhàn)賽數(shù)據(jù)集中的西班牙語電視節(jié)目存在語音重疊、背景噪音和非正式說話風(fēng)格等問題,導(dǎo)致即使是最先進(jìn)的系統(tǒng)其詞錯(cuò)誤率(WER)也處于中等水平。值得注意的是,一個(gè)在多語言數(shù)據(jù)上訓(xùn)練的零樣本W(wǎng)hisper大型模型在2022年RTVE測(cè)試集上的WER僅為14.9%——盡管這是一個(gè)不錯(cuò)的結(jié)果,但考慮到音頻的復(fù)雜性,仍有改進(jìn)空間。這一性能差距激發(fā)了人們研究能夠應(yīng)對(duì)這些不利條件的增強(qiáng)型轉(zhuǎn)錄工作流程的興趣。
        在這項(xiàng)工作中,我們采用了一種集成工程的方法,通過結(jié)合三種互補(bǔ)技術(shù)來提升西班牙語ASR的輸出:音頻預(yù)處理、基于LLM的錯(cuò)誤校正以及說話者語音分割和識(shí)別。這些組件分別針對(duì)轉(zhuǎn)錄流程中的不同錯(cuò)誤來源。首先,前端音頻預(yù)處理旨在通過去除或隔離背景內(nèi)容來增強(qiáng)語音信號(hào)。先前的研究表明,有針對(duì)性的聲音分離(例如去除音樂或其他說話者的聲音)可以提高ASR和語音分割的性能(Rascon和Fuentes-Pineda,2023年)。我們采用了高質(zhì)量的音頻源分離模型(HDemucs)來分離語音信號(hào),并應(yīng)用高通濾波器來減少低頻噪聲。其次,我們利用現(xiàn)代大型語言模型的強(qiáng)大能力進(jìn)行轉(zhuǎn)錄后的錯(cuò)誤校正。像ChatGPT和LLLaMA這樣的大型LLM最近被用作后處理器,利用其豐富的語言知識(shí)來完善ASR的識(shí)別結(jié)果(Ma等人,2023年)。通過向700億參數(shù)的LLM提供初始轉(zhuǎn)錄文本,我們可以糾正標(biāo)點(diǎn)符號(hào)、大寫錯(cuò)誤、重音符號(hào)以及ASR引擎可能遺漏的語言不一致性。第三,我們結(jié)合了基于神經(jīng)說話者嵌入的說話者語音分割和識(shí)別模塊。雖然WhisperX(Bain等人,2023年)使用Pyannote音頻模型實(shí)現(xiàn)了自動(dòng)語音分割(按說話者變化分段),但其輸出的是匿名的說話者標(biāo)簽(“說話者1”、“說話者2”)。我們通過將說話者嵌入與已知聲音的數(shù)據(jù)庫進(jìn)行匹配,盡可能為說話者分配真實(shí)身份,這一步驟對(duì)于媒體檔案或會(huì)議記錄等應(yīng)用非常重要,因?yàn)樵谶@些應(yīng)用中,誰說了什么與說了什么同樣重要。
        我們的貢獻(xiàn)包括:(i)將這些組件系統(tǒng)地整合到一個(gè)無需訓(xùn)練的工作流程中;(ii)在西班牙語數(shù)據(jù)上測(cè)試其性能(相比英語數(shù)據(jù),西班牙語數(shù)據(jù)的相關(guān)研究較少);(iii)開發(fā)了一種基于LLM的校正算法,該算法在保留程序確定性的同時(shí)利用了LLM的能力。我們證明了這個(gè)集成系統(tǒng)在西班牙語評(píng)估數(shù)據(jù)集上顯著提高了轉(zhuǎn)錄的準(zhǔn)確性和輸出的質(zhì)量(包括說話者名稱)。具體來說,在RTVE挑戰(zhàn)賽數(shù)據(jù)集(2018-2022年)中,我們的預(yù)處理步驟一致性地降低了WER。在嘈雜的VoxPopuli西班牙語語料庫和RTVE2018DB數(shù)據(jù)集上,基于LLM的校正顯著減少了轉(zhuǎn)錄錯(cuò)誤。此外,添加說話者識(shí)別后,標(biāo)記出的轉(zhuǎn)錄結(jié)果具有更少的額外語音分割錯(cuò)誤。通過展示定量改進(jìn)和定性示例,我們強(qiáng)調(diào)了預(yù)處理、ASR、LLM校正和說話者識(shí)別之間的協(xié)同作用如何能夠提升西班牙語語音轉(zhuǎn)錄的性能,超越了各個(gè)組件單獨(dú)使用時(shí)的效果。

        章節(jié)片段

        ASR的預(yù)處理和語音增強(qiáng)

        魯棒的ASR通常依賴于前端處理來處理音頻中的噪聲、音樂或重疊說話者的問題。傳統(tǒng)方法包括頻譜濾波和波束成形技術(shù)來增強(qiáng)語音并抑制噪聲(Rascon和Fuentes-Pineda,2023年)。深度學(xué)習(xí)方法下的數(shù)據(jù)驅(qū)動(dòng)語音增強(qiáng)和源分離技術(shù)也展現(xiàn)出了巨大潛力。例如,Google的VoiceFilter(Wang等人,2019年)引入了一種基于說話者條件的模型來分離目標(biāo)聲音和其他聲音。

        方法論

        我們的整體系統(tǒng)由三個(gè)主要模塊依次執(zhí)行組成:(1)音頻預(yù)處理、(2)ASR轉(zhuǎn)錄、(3)基于LLM的校正以及(4)說話者語音分割和識(shí)別。我們使用OpenAI的Whisper模型作為核心ASR引擎(通過WhisperX工具包),并利用其他組件來增強(qiáng)其輸入和輸出。工作流程如下:音頻輸入 → 預(yù)處理 → WhisperX → LLM校正 → 說話者識(shí)別(見圖1)。
        在本節(jié)中,我們將描述每個(gè)組件的詳細(xì)信息。

        數(shù)據(jù)集

        我們?cè)趦煞N類型的西班牙語數(shù)據(jù)集上評(píng)估了該集成系統(tǒng)的性能:RTVE 2018/2020/2022測(cè)試集以及添加了噪聲的VoxPopuli西班牙語子集。選擇這些數(shù)據(jù)集是為了模擬現(xiàn)實(shí)世界的西班牙語ASR挑戰(zhàn):前者包含多個(gè)說話者和噪聲的開放領(lǐng)域電視音頻,后者則模擬了受控環(huán)境下的嘈雜轉(zhuǎn)錄情況。
        • 1. RTVE數(shù)據(jù)庫

        WhisperX實(shí)驗(yàn)

        表2總結(jié)了五種ASR流程(包括WhisperX及其四種帶有語音增強(qiáng)/濾波的變體)在三個(gè)RTVE西班牙語廣播語料集(RTVE2022DB、RTVE2020DB和RTVE2018DB)上的詞錯(cuò)誤率(WER)。在最新的RTVE2022DB數(shù)據(jù)集上,c21-demucs-filter_200–8000 Hz流程的WER最低,為10.82%,相比WhisperX基線(11.13%)降低了2.79%,有效減少了約2088個(gè)單詞錯(cuò)誤。RTVE2020DB數(shù)據(jù)集也顯示了類似的趨勢(shì)。

        結(jié)論

        這項(xiàng)工作表明,一種無需訓(xùn)練的集成工程方法可以顯著提升西班牙語語音轉(zhuǎn)錄在現(xiàn)實(shí)廣播條件下的性能和實(shí)際應(yīng)用價(jià)值。我們沒有依賴特定任務(wù)的微調(diào),而是將互補(bǔ)的現(xiàn)成組件(音頻預(yù)處理、基于WhisperX的ASR、基于LLM的轉(zhuǎn)錄校正以及語音分割和識(shí)別)整合到一個(gè)連貫的工作流程中,其性能超過了單獨(dú)使用WhisperX的效果。

        CRediT作者貢獻(xiàn)聲明

        Gonzalo Nieto Montero:撰寫 – 審稿與編輯、初稿撰寫、可視化、監(jiān)督、軟件開發(fā)、項(xiàng)目管理、方法論設(shè)計(jì)、數(shù)據(jù)分析、概念化。Santiago Hernández:初稿撰寫、軟件開發(fā)、形式化分析。Juan Casal:審稿、項(xiàng)目管理、概念化。

        利益沖突聲明

        作者聲明他們沒有已知的可能會(huì)影響本文研究的財(cái)務(wù)利益或個(gè)人關(guān)系。

        致謝

        本項(xiàng)工作得到了西班牙技術(shù)創(chuàng)新中心(CDTI)通過Subtaitles項(xiàng)目(IDI-20240449)的支持。
        相關(guān)新聞
        生物通微信公眾號(hào)
        微信
        新浪微博
        • 搜索
        • 國(guó)際
        • 國(guó)內(nèi)
        • 人物
        • 產(chǎn)業(yè)
        • 熱點(diǎn)
        • 科普

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號(hào)