《Computer Speech & Language》:Sentence representations for semantic textual similarity: A systematic review
編輯推薦:
這篇綜述系統性回顧了2018年至2025年期間關于生成句子表示以用于語義文本相似性(STS)任務的最新研究。文章通過構建一個分類法來組織該任務,分析了各種方法的模型架構、訓練數據集和評估指標,總結了當前最優(SOTA)方法,并提出了針對句子級STS任務選擇模型和方法的實用指南,為自然語言處理(NLP)領域的研究和應用提供了全面參考。
在自然語言處理(NLP)的廣闊天地里,讓計算機理解人類語言的細微差別一直是個核心挑戰。其中,衡量兩段文本在含義上的相近程度——即語義文本相似度(Semantic Textual Similarity, STS),是許多高級任務如機器翻譯、問答系統和信息檢索的基石。而要實現精準的語義相似度計算,第一步便是將抽象的句子或文本轉化為計算機能夠處理的數值形式,即生成富含語義信息的句子表示。近期,一篇系統性的綜述文章為我們梳理了這項任務的最新進展與全貌。
文本表示與語義相似度
要處理自然語言,我們首先需要一種能捕獲文本關鍵特征的表示方法。多年來,人們提出了在不同粒度(如詞、短語、句子、文檔)上表示文本的方法。最基本的方法之一是詞袋模型,它將文檔轉換為一個稀疏的整數向量,記錄每個詞的出現次數。其進階版TF-IDF(詞頻-逆文檔頻率)則進一步考慮了詞語在整個文檔集合中的重要性,通過權重來反映特定詞語對文檔的代表性。然而,這些方法僅關注詞匯的共現,無法處理詞序變化導致語義相反(如“Lucas學習生物,而非地理”與“Lucas學習地理,而非生物”)或詞匯不同但含義相同(如“今天會下雨”與“全天預計有陣雨”)的情況。
近年來,基于神經網絡的方法通過學習詞語間的上下文關系,能夠生成同時保留句法和語義信息的分布式表示。例如,Mikolov等人提出的CBOW(連續詞袋)和Skip-Gram模型,通過預測目標詞的上下文或根據當前詞預測上下文詞來訓練詞向量。這些詞向量構成了更豐富文本表示的基礎。
真正的變革來自于Transformer架構的提出。其核心的注意力機制允許模型捕捉句子中詞語之間的長遠依賴關系。以此為基礎,BERT(來自Transformer的雙向編碼器表示)及其后續變體(如RoBERTa、ALBERT)通過在海量文本上的預訓練,能夠生成根據上下文動態變化的詞表示,從而有效區分一詞多義(如“bank”可指“銀行”或“河岸”)。這些模型通常作為強大的句子編碼器,為下游的STS任務提供高質量的句子表示。
一旦句子被轉化為高維空間中的向量(即句子嵌入),衡量其語義相似度就變成了計算向量間的距離。最常用的度量包括余弦相似度(計算兩個向量夾角的余弦值,結果在-1到1之間)、曼哈頓距離(計算向量各維度絕對差之和)和歐幾里得距離(計算向量間的直線距離)。在評估模型性能時,研究者通常將模型預測的相似度分數與人工標注的“黃金標準”分數進行比較,使用皮爾遜相關系數(衡量線性相關)和斯皮爾曼等級相關系數(衡量等級相關)作為主要評價指標。
研究方法論
該綜述采用了系統文獻綜述的方法,旨在全面調查截至2025年2月關于句子表示用于STS任務的文獻。研究團隊制定了嚴格的協議,首先在ACL Anthology、ACM Digital Library、IEEE Xplore和Scopus等權威數據庫中進行檢索,初始獲得1708篇文獻。經過剔除重復、篩選標題摘要、全文精讀及質量評估(包括檢查是否明確定義問題、使用合適數據集、與現有工作對比等)三輪篩選,最終納入了122篇高質量研究進行深入分析。
數據分析與指南
通過對入選文獻的梳理,綜述揭示了該領域的發展趨勢。2018年后,基于Transformer和BERT的模型迅速成為主流,在各類STS評測數據集上取得了最先進的性能。研究團隊從這些文獻中提取了模型架構、訓練數據、評估指標等關鍵信息,并進行了交叉分析。
基于分析結果,文章提出了一個實用的任務指南,為研究人員和應用開發者選擇合適的句子表示和相似度計算方法提供了決策路徑。該指南建議,首先應根據任務的具體需求(如對計算資源的要求、對語義捕捉深度的要求)來選擇模型類型。對于追求最佳性能且資源充足的場景,基于大型Transformer的模型是首選;而對于需要快速計算或資源受限的場景,則可以考慮更輕量級的模型或經典的詞向量組合方法(如對詞向量取平均)。其次,相似度度量方法的選擇也需考慮,余弦相似度因其對向量幅度的不敏感性,在文本相似度計算中最為常用。
結論與展望
這篇系統性綜述清晰地勾勒出句子表示用于語義文本相似度任務的發展脈絡。從早期的詞袋模型,到神經網絡詞向量,再到如今占據主導地位的基于Transformer的上下文感知模型,技術的演進不斷推動著語義理解能力的邊界。分析表明,當前的最優方法普遍依賴于在大規模語料上預訓練的深度雙向Transformer模型。
然而,挑戰依然存在。例如,如何讓模型更好地理解長文檔、處理領域特定術語、以及降低大規模模型的計算開銷,都是未來值得探索的方向。此外,如何將語義相似度技術更有效地應用于具體的生命科學或健康醫學信息處理場景(例如,比對臨床指南文本、挖掘文獻中的疾病-基因關聯、評估患者主訴與診斷代碼的語義匹配度),需要進一步的跨學科研究和領域適配。本綜述提供的分類法、數據分析和實用指南,旨在為后續研究奠定基礎,助力自然語言處理技術在追求更精準、更高效的語義理解道路上繼續前行。