<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        一種基于關系語義學的自頂向下方法,用于在復雜場景中聯合提取實體和關系

        《Knowledge-Based Systems》:A Relation Semantics-Guided Top-Down Approach for Joint Entity and Relation Extraction in Complex Scenarios

        【字體: 時間:2026年03月01日 來源:Knowledge-Based Systems 7.6

        編輯推薦:

          聯合實體與關系抽取模型提出關系語義引導的拓撲架構,通過關系依賴模塊建模多關系潛在關聯,采用對比學習增強關系表征區分度,并設計雙分支解碼器結合全局注意力與多尺度門控聚合機制實現高效長文本處理和精確實體邊界識別。實驗表明其在重疊三元組場景下顯著優于基線方法。

          
        魏子明|曲少成|趙麗|史倩倩|張晨
        中國華中師范大學物理科學與技術學院電子與信息工程系,武漢,430079,中國

        摘要

        聯合實體和關系提取是信息提取領域的一項基本任務,旨在從非結構化文本中識別出結構化的知識三元組。然而,現有模型在處理復雜文本(尤其是包含重疊三元組的文本)時存在多方面的局限性。首先,在關系層面,這些模型不僅會導致冗余提取,還會忽略不同關系之間的內在依賴性。其次,在實體層面,存在邊界識別不準確的問題。為了解決這些挑戰,本研究提出了一種新的聯合提取模型,該模型采用了基于關系語義的自上而下的架構。該模型首先預測句子中的候選關系集合以縮小搜索范圍,然后采用級聯解碼策略,在關系的引導下提取主體實體,隨后在已識別主體和關系的雙重引導下提取對象實體。為了加強關系建模,我們設計了一個關系依賴模塊,該模塊明確學習了不同關系類型之間的潛在依賴性。此外,引入了基于關系語義的對比學習目標,以生成更具區分性的關系表示。在實體識別方面,我們設計了一個雙分支解碼器,該解碼器結合了兩個創新組件:一種向量引導的注意力機制,用于高效捕獲全局上下文;以及一種門控分層特征聚合器,用于提取高分辨率的局部特征,以實現精確的邊界檢測。在兩個公共基準數據集上的廣泛實驗表明,與基線方法相比,所提出的模型取得了顯著的性能提升,驗證了我們在解決聯合提取基本挑戰方面的架構創新的有效性。

        引言

        聯合實體和關系提取是信息提取領域的一項基本任務,其目的是從非結構化文本數據中識別實體并提取它們之間的語義關系[1]、[2]。這些關系通常以(主體,關系,對象)的形式表示為關系三元組(s, r, o)。這種結構化的三元組是構建大規模知識圖譜不可或缺的基礎組件,為智能問答系統提供支持,并實現廣泛的自然語言處理應用中的精確信息檢索[3]、[4]。
        早期的信息提取方法主要采用流水線范式,將任務分解為順序的命名實體識別(NER)和關系提。≧E)兩個階段[5]。然而,這些方法本質上存在錯誤傳播的問題,并且無法捕捉子任務之間的內在交互[6]、[7]。為了解決這些局限性,研究人員轉向了聯合提取模型[8]、[9]。通過將實體提取和關系提取整合到一個端到端的框架中,聯合模型利用了共享的特征和依賴性,顯著提高了性能。盡管取得了這些進展,當前的聯合模型在處理涉及重疊三元組和長序列的復雜場景時仍面臨挑戰。
        研究表明,在處理長文本或復雜場景(如文檔級關系提。⿻r,某些聯合模型的性能會急劇下降,有時甚至不如流水線模型[6]、[10]。這種性能下降是由于聯合解碼導致搜索空間呈指數級增長,使得有效的模型學習變得難以實現。此外,設計不佳的聯合模型也可能表現不佳。這表明,成功的聯合提取關鍵不在于任務的簡單合并,而在于設計一個有效的聯合架構,以促進有效的信息交互并防止計算復雜性變得難以管理。
        盡管聯合提取模型已成為主流,但目前的方法在處理日益復雜的文本數據時仍面臨一系列挑戰。首先,關系建模的復雜性和可擴展性方面存在瓶頸。許多現有模型在處理包含多個實體和復雜關系的句子時性能下降,尤其是在處理重疊三元組時。在現實世界的文本中,一個或多個實體經常同時參與多個關系事實,產生復雜的重疊模式。如圖1所示,這些模式通常分為三類:正常(三元組不共享實體)、單一實體重疊(SEO)(一個實體參與多個不同的關系)和實體對重疊(EPO)(同一實體對之間存在多個不同的關系)。最近的一些先進模型[11]、[12]、[13]通過新的標記方案或關系過濾成功處理了重疊三元組,但在捕捉關系的內在語義結構方面仍存在局限性。大多數方法專注于解碼策略來識別重疊邊界,但獨立處理關系類型,忽略了它們潛在的語義依賴性。此外,填充表格和窮舉配對策略存在標簽稀疏和計算冗余的問題。因此,一個關鍵挑戰仍然是:如何利用關系之間的依賴性來指導提取,而不僅僅是簡單地匹配重疊模式。
        此外,實體識別在精確性和效率方面也面臨挑戰。一方面,基于Transformer的[14]編碼器通過自注意力機制有效捕獲了長距離的全局上下文依賴性,但它們強大的全局建模能力可能不適用于需要精確定位的實體邊界檢測任務[15],F有研究表明,實體邊界識別對局部特征非常敏感[16]、[17],而全局注意力機制可能會導致局部細節的平滑,從而可能導致邊界劃分不精確[18]。另一方面,標準自注意力機制的計算復雜性與序列長度呈二次方關系,即O(n2·d),在處理長文本時構成了嚴重的計算效率瓶頸,從而阻礙了模型在文檔級和其他長序列場景中的部署。
        這些持續的挑戰表明,該領域需要探索新的模型架構,以實現關系建模的深度、實體識別的精確性和長文本處理的效率之間的更好平衡。針對上述挑戰,本研究提出了一種新的聯合實體和關系提取框架,旨在通過一系列協同的架構創新實現更精確和高效的知識提取。我們的模型采用了自上而下的級聯解碼策略。具體來說,模型首先預測句子中的潛在關系集合,有效解決了關系冗余問題,并大幅縮小了后續的搜索范圍。此外,這種設計允許不同的關系靈活地匹配相同的或不同的實體,自然適應SEO和EPO重疊場景,而不受先識別實體方法的限制。為了解決關系之間的獨立性假設問題,我們引入了一個關系依賴模塊(RDM),該模塊明確構建并學習了一個關系依賴矩陣,以捕捉不同關系類型之間的潛在依賴性,從而提高了關系提取的準確性。為了提高關系表示的區分能力,我們設計了一個對比學習目標。與之前依賴實例級數據增強或噪聲啟發式的方法不同,我們的方法采用了一種基于語義的采樣策略,將句子表示拉向真實關系類別簇的語義中心,同時將其從錯誤關系類別簇的語義中心推開。這種策略為模型提供了相對直接和強大的監督信號,以學習具有區分性的特征。
        為了在實體識別中同時實現高效的長序列上下文編碼和精確的局部邊界定位,我們設計了一個雙分支實體解碼器。特別是為了高效建模全局上下文,我們開發了一種向量引導的注意力(VGA)機制。該機制通過一個可學習的引導向量生成序列的全局上下文摘要,從而調節整個序列的表示,保持了強大的上下文建模能力,同時將計算復雜性從二次方擴展降低到更低的水平。作為補充,我們設計了一個門控分層特征聚合器(GHFA)。該模塊使用并行的多尺度門控卷積來系統地分析令牌鄰域內的n-gram模式,為模型提供了高分辨率的局部特征,這對于實體邊界識別至關重要,并有效補償了全局注意力機制可能導致的細節平滑問題。最后,整個模型遵循了一個關系引導的級聯解碼過程:在預測關系的引導下識別主體實體,然后在關系和主體的雙重引導下識別對象實體,從而逐步傳播抽象的關系信息,以約束和優化具體的三元組提取過程。
        本文的主要貢獻可以總結如下:
      3. 我們提出了一種基于關系語義的自上而下的聯合提取框架。我們設計了一個RDM來明確建模潛在的關系依賴性,并引入了一個基于語義的對比學習目標,以增強關系區分性,有效縮小了搜索范圍。
      4. 為了解決實體識別中的上下文建模難題,我們提出了一種雙分支解碼器,該解碼器結合了兩個創新組件:VGA,一種用于高效捕獲長距離全局上下文的注意力機制;以及GHFA,一種用于提取高分辨率局部特征的多尺度卷積模塊,這些特征對于精確的實體邊界檢測至關重要。
      5. 在公共基準數據集上的廣泛實驗表明,我們提出的模型與其他基線模型相比取得了更好的性能,驗證了我們提出的架構及其創新組件的有效性。
      6. 部分片段

        流水線提取模型

        早期的實體和關系提取研究主要使用流水線提取模型,這些模型通常將實體識別和關系提取視為兩個獨立的、順序的子任務。例如,Seng等人[5]提出了一種方法,首先識別文本中的受限結構模式,然后確定關系類型。隨后,Zhou等人[19]引入了一個基于注意力的長短期記憶(LSTM)模型,該模型僅依賴于詞向量

        提出的方法

        所提出模型的整體架構如圖2所示。該框架包括一個BERT編碼器[31]和兩個專門的解碼器,分別用于關系提取(RE)和命名實體識別(NER)。BERT編碼器首先獲取輸入文本的初步特征表示。然后,RE解碼器根據這些表示識別句子中的潛在關系。在檢測到的關系和文本特征的引導下,實體識別解碼器進一步識別主體和

        數據集和實現細節

        我們使用了兩個公開可用的數據集來驗證我們模型的性能:NYT [40]和WebNLG [41]。NYT數據集是一個權威的自然語言處理基準數據集,由《紐約時報》的新聞文章組成,涵蓋了政治、經濟和技術等 diverse 主題。WebNLG 數據集來自DBpedia知識庫中的RDF三元組,包含許多復雜場景,包括長文本、遠距離實體關系和隱含的關系

        結論

        在這項研究中,我們提出了一種基于關系語義的自上而下的聯合提取框架,專門用于解決復雜重疊三元組的挑戰。我們的方法首先預測候選關系以縮小搜索范圍,然后根據關系提取主體,接著根據關系和主體的雙重約束提取對象,有效解決了重疊關系的問題

        局限性

        盡管我們提出的框架在處理復雜的重疊三元組場景時取得了有競爭力的性能,但我們認識到該模型仍存在一些局限性,這也指出了未來研究的方向。首先,在捕獲關系依賴性時,我們的模型主要依賴于訓練數據中觀察到的統計相關性。對于需要外部世界知識或深度邏輯推理來發現的隱含關系,模型的提取能力可能會受到限制。

        CRediT作者貢獻聲明

        魏子明:撰寫——原始草稿,監督,軟件,項目管理,方法論,概念化。曲少成:監督,軟件,項目管理,方法論。趙麗:調查,形式分析,數據 curatorial。史倩倩:調查,形式分析,數據 curatorial。張晨:調查,數據 curatorial。

        利益沖突聲明

        作者聲明他們沒有已知的競爭性財務利益或個人關系,這些利益或關系可能會影響本文報告的工作。
        相關新聞
        生物通微信公眾號
        微信
        新浪微博
        • 搜索
        • 國際
        • 國內
        • 人物
        • 產業
        • 熱點
        • 科普

        知名企業招聘

        熱點排行

          今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

          版權所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯系信箱:

          粵ICP備09063491號