熟女国产精品网站,欧美《熟妇做爰》HD,亚洲二页

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

LeHSE：基于大型語言模型的多文檔分層腳本提取技術

《Knowledge-Based Systems》：LeHSE: Large Language Model Enhanced Hierarchical Script Extraction from Multiple Documents

【字體：大中小】 時間：2026年02月27日 來源：Knowledge-Based Systems 7.6

編輯推薦：

　　針對單文檔腳本提取的局限性，本研究提出多文檔腳本提取任務，設計LeHSE框架通過迭代提取、層次識別和腳本增強三階段處理，并開發輕量版LeHSE-FT及MDScript數據集，實驗驗證其優于現有方法。

廖增華|廖金志|胡勝澤|黃培新|趙翔

中國長沙國防科技大學大數據與決策實驗室

摘要

提取和結構化呈現腳本對于提供清晰的指導和有效的學習至關重要。雖然以往的研究側重于從單一文檔中提取線性腳本，但它們忽略了從多個來源聚合層次化腳本的潛力。在本文中，我們借鑒了心理學的認知負荷理論，提出了一種新的多文檔腳本提取任務來彌補這一不足。為了解決這一挑戰，我們提出了LeHSE，這是一個用于從多個文檔中提取層次化腳本的大型語言模型（LLM）框架。LeHSE通過三個階段進行操作：首先，使用迭代提取模塊從單個文檔中提取線性腳本；其次，層次識別模塊識別這些線性腳本之間的關系并將其聚合為層次化腳本；最后，腳本增強模塊用常識知識和跨腳本洞察力豐富提取的腳本。為了適應計算資源有限的場景，我們還引入了LeHSE-FT，這是一種輕量級替代方案，它利用在我們新構建的MDScript數據集上微調的小型專用模型，該數據集包含2,000個目標和15,493個文檔，作為多文檔腳本提取研究的強大基準。包括自動評估和人類評估在內的廣泛實驗證明了LeHSE的優越性。此外，LeHSE-FT的性能可與LLM相媲美，這表明微調后的小型專用模型在高效多文檔腳本提取方面具有價值。

引言

人們已經適應了從包含腳本的文檔中獲取知識，腳本由一系列旨在實現特定目標的步驟組成。腳本被定義為“特定場景中事件序列的結構化表示" [1], [2], [3], [4], [5]，可以分為敘述性腳本和目標導向型腳本。前者描述了特定上下文中的事件鏈，而后者則包括為實現預定義目標而邏輯排序的步驟。例如，“看醫生"的目標導向型腳本包括“預約"和“去醫院"等步驟。因此，從非結構化文檔中自動提取腳本引起了研究界的極大興趣，包括在可執行機器人系統[6], [7]和問題解決推理系統[8], [9]等應用中。

以往的研究使用了無監督的廣泛覆蓋方法[10], [11]和基于Transformer的模型[12], [13]進行腳本提取。最近，大型語言模型（LLMs）在零樣本/少樣本設置中展示了它們的有效性[14], [15], [16]。然而，這些方法主要關注從單個文檔中提取腳本，即所謂的單文檔腳本提取，如圖1（a）所示。這種任務設置存在顯著的限制，可能無法滿足實際需求，因為它通常會導致兩種關鍵的信息損失：（1）決策空間壓縮：從單個文檔中提取的腳本通常是線性的，限制了用戶的決策選項。正如俗語所說，“條條大路通羅馬”，意味著實現給定目標通常有多種方法。實際上，用戶應該能夠訪問不同的步驟序列，以選擇最適合他們獨特情況和偏好的方法。例如，圖1（a）中的腳本省略了“制作短片”作為實現“制作視頻"目標的途徑。（2）缺乏細節。線性腳本中的步驟往往含糊不清，缺乏詳細的指導，降低了過程的可行性。例如，圖1（a）中的步驟2關于“如何設置設備"提供的細節不足，使用戶沒有明確的指導。

為了解決這些限制，我們提出了一種新的任務，稱為多文檔腳本提取（MDSE）。與單文檔腳本提取不同，MDSE旨在從多個文檔中提取層次化腳本，以減少信息損失。具體來說，給定一個特定目標和多個相關文檔，MDSE涉及提取與該目標相關的所有線性腳本，并以層次化格式呈現它們。這一定義符合心理學的認知負荷理論[17], [18], [19]，該理論認為層次結構有助于讀者更有效地分類、總結和整合信息。通過減少冗長復雜線性文本帶來的認知負擔，層次化腳本提高了可用性和可訪問性。盡管層次化組織本身會引入導航開銷（例如，增加用戶等待時間），但LeHSE策略性地優化了層次深度（第3.3節）。效率分析（第5.3.4節）進一步驗證了用戶等待時間保持在實際范圍內，確保了結構化腳本的好處超過了潛在的權衡。

示例1

考慮圖1（b）。給定一個目標，例如“制作視頻”，任務要求模型分析多個文檔之間的復雜關系以獲得層次化腳本。層次化腳本提供了不同的路徑（例如，“制作短片”和“創建YouTube教程”）以及詳細的步驟擴展，例如為步驟1.2“設置設備”指定具體操作。

MDSE可以從多文檔來源提取實現目標的多種路徑，從而擴展用戶的決策空間，并有效解決上述第一個限制。此外，MDSE以層次化格式呈現腳本，允許擴展腳本中的模糊步驟，從而解決第二個限制。例如，如圖1（b）所示，考慮到步驟1.2，用戶可能會對“如何設置設備"感到困惑。然而，如果其中一個文檔來源描述了“如何配置相機"，MDSE會將該文檔中的線性腳本鏈接到步驟1.2作為更詳細的擴展。通過使用層次化腳本，用戶可以有效地理解他們的整個目標，從而簡化學習過程并增強知識獲取。為了深入探討這項任務的本質，我們對MDSE進行了全面分析，識別了其研究挑戰，包括：

RQ 1：

由于缺失的步驟可能會破壞腳本的連續性，我們如何充分探索每個文檔涵蓋的步驟？

RQ 2：

由于腳本能夠相互強化和補充，我們如何基于多個文檔建立復雜的相關性？

RQ 3：

由于某些步驟可能包含“金鑰匙”信息，我們如何利用補充信息來豐富事實并糾正腳本中的不準確之處？

為了解決這些挑戰，一種直觀的方法是將相關文檔提供給LLM，并指示它生成層次化腳本。然而，這種方法面臨兩個問題：（1）多文檔輸入包含大量令牌，導致時間和計算成本過高。（2）當前的LLMs在上下文長度增加時往往會失去焦點或忽略某些信息[20], [21], [22]。因此，我們提出了一個受提取-組裝概念啟發的新框架，并構想了一個大型語言模型增強層次化腳本提取器，即LeHSE。它首先從每個單獨的文檔中提取線性腳本，然后識別它們的層次結構以組裝成層次化腳本。LeHSE具有三個為任務量身定制的精心設計的模塊：（1）迭代提取模塊使用迭代提取策略從每個單獨的文檔中提取線性腳本，從而通過多階段推理提高腳本的質量，以解決RQ1。（2）層次識別模塊通過兩階段相似性計算方法構建層次結構，識別單個線性腳本之間的關系，以解決RQ2。（3）腳本增強模塊通過整合來自其他步驟和LLMs的補充信息來增強腳本中的次優步驟，以解決RQ3。此外，我們還為計算資源有限的情況開發了LeHSE-FT選項，通過微調小型專用模型來實現。

為了增強MDSE任務的完整性，我們開發了一個定制的基準數據集MDScript，該數據集源自wikiHow數據集[24]。對于每個目標，我們從wikiHow數據集中檢索相關文檔作為多文檔來源。然后，注釋者通過詳細分析這些文檔來手動制作層次化腳本。每個腳本都經過多名注釋者的嚴格審查，以確保準確性和質量。這個過程確保了MDScript完全反映了人類的偏好，并作為評估MDSE模型性能的可靠測試平臺。

總結來說，這項研究做出了以下關鍵貢獻：

•

據我們所知，我們是最早探索MDSE的研究者之一，我們識別了其關鍵挑戰并提出了一個非平凡的解決方案；

•

我們率先整合了LLMs，并提出了一個基于提取-組裝概念的新框架LeHSE。此外，我們還提供了一個計算效率更高的替代方案LeHSE-FT；

•

我們進一步開發了一個新的基準數據集MDScript，它提供了多個文檔來源和每個目標的手動注釋層次化腳本；

•

廣泛的實驗通過自動和人類評估證明了LeHSE的優越性，而且，用MDScript數據微調的小型專用模型實現了與LLM相當的能力。

部分片段

腳本提取

腳本的概念最初由Schank和Abelson [1]提出，作為特定場景中事件序列的結構化表示。腳本可以分為兩類：（1）敘述性腳本，描述特定上下文中的事件鏈（例如，從食譜[25], [26]或故事[25], [26]等敘述性文本中提取的）；（2）目標導向型腳本，包括為實現預定義目標而邏輯排序的步驟[13], [25]，例如“制作

提出的方法

本節首先正式定義了表1中呈現的定義，然后介紹了所提出的方法，包括LeHSE框架及其模塊細節。我們還為資源有限的場景提出了一種計算效率更高的替代方案LeHSE-FT。

MDScript數據集

現有的數據集在支持MDSE方面存在不足[2], [13], [28]，并且數據集的手動注釋成本高昂且勞動密集。因此，我們將LeHSE的自動提取與手動注釋結合起來，開發了一個專為MDSE任務定制的數據集MDScript。

實驗

為了全面評估所提出方法的能力，我們進行了廣泛的實驗，涵蓋了各個方面，包括整體評估、消融研究（第5.2節）、三個模塊的深入分析以及效率分析（第5.3節）。

結論

本文介紹了一種稱為多文檔腳本提取的新任務，旨在通過層次化腳本總結多個文檔的框架。為了自動化這一過程，我們提出了LeHSE，這是一個新的LLM增強型提取-組裝框架。此外，我們還構建了一個名為MDScript的基準數據集，專為MDSE任務設計。考慮到計算資源有限的場景，我們還提出了另一種框架LeHSE-FT。廣泛的實驗

CRediT作者貢獻聲明

廖增華：撰寫——原始草稿，驗證，數據管理。廖金志：撰寫——審閱與編輯，撰寫——原始草稿，資源整理，概念化。胡勝澤：撰寫——審閱與編輯，監督，項目管理，方法論。黃培新：撰寫——原始草稿，驗證，數據管理。趙翔：撰寫——審閱與編輯，監督，項目管理，方法論，資金獲取，概念化。

利益沖突聲明

作者聲明他們沒有已知的競爭財務利益或個人關系可能會影響本文報告的工作。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號