亚洲精品乱码久久久久99,嫩草院一区二区三区无码,青青草欧美

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

使用基于超邊的關系提取方法進行場景圖優化

《Applied Soft Computing》：Scene graph optimization using hyperedge-based relationship extraction

【字體：大中小】 時間：2026年03月03日 來源：Applied Soft Computing 6.6

編輯推薦：

　　場景圖優化通過關聯規則挖掘和超圖劃分過濾冗余關系，提升Transformer模型（如BERT、GPT）在COCO和Visual Genome數據集上的圖像描述生成效率與質量，實驗顯示BLEU和ROUGE分數顯著提高且計算復雜度降低。

Ji-Won Baek|Kyungyong Chung

韓國京畿道水原市永同區光耀山路154-42號京畿大學計算機科學系，郵編16227

摘要

場景圖為圖像中的對象及其關系提供了結構化的表示方式，通過捕捉語義上下文被廣泛用于改進圖像字幕生成。然而，場景圖中冗余或無關的關系可能會導致計算復雜度增加以及字幕生成性能下降。為了解決這些問題，本文提出了一種基于關系挖掘的場景圖優化方法，以提高圖像字幕生成的效率和質量。該方法利用關聯規則挖掘和超圖劃分來過濾低重要性的關系，同時強調對象之間的有意義交互。優化后的場景圖被輸入到基于Transformer的字幕模型中，包括BERT和GPT的變體。在COCO和Visual Genome數據集上進行的實驗表明，所提出的方法在降低圖復雜度的同時，提高了BLEU和ROUGE分數。此外，該方法在定性和定量評估中均優于傳統的字幕生成流程。這些結果證實了關系挖掘在提高圖像字幕生成的語義表達能力和計算效率方面的有效性。

引言

近年來，由于數據的廣泛生成和使用，其重要性日益增加。數據大致可以分為文本數據和圖像數據。圖像數據能夠傳達豐富的視覺信息，這些信息可以被人類直接理解。基于深度學習的對象檢測和分類等任務實現了自動化和智能化。因此，圖像數據被應用于醫學、機器人技術和自動駕駛等眾多工業領域。盡管取得了這些進展，但對于非專家來說，從圖像數據中提取有意義的信息仍然具有挑戰性。在這種背景下，圖像字幕生成成為一項關鍵任務，它通過將視覺信息轉換為易于理解的語言描述來提高信息的可訪問性[1]、[2]。在圖像字幕生成場景中，場景圖能夠識別圖像中對象之間的語義關系。例如，“一個人正在騎自行車”這樣的描述僅通過簡單的對象識別是無法充分表達的，理解人與自行車之間的關系對于生成準確的字幕至關重要。此外，場景圖通過編碼圖像中對象之間的關系提供了更豐富的上下文，增強了人們對圖像中對象意義的理解，并使深度學習模型能夠生成自然的字幕。盡管場景圖可以生成復雜且連貫的字幕，但仍存在一些限制。構建場景圖需要一個在大規模圖像-文本數據集上預訓練的模型，或者具備語義推理能力的模型。當訓練數據不足時，這可能會限制性能。此外，對象檢測和關系推理中的錯誤可能會影響準確性。由于場景圖同時執行對象檢測和關系推理，因此會帶來較高的計算成本，且隨著對象數量的增加，計算成本會迅速上升。因此，迫切需要一種能夠在數據有限的情況下準確推斷對象關系并確保可訪問性的圖像字幕生成方法。這樣的方法必須能夠訪問多種類型的視覺信息并生成準確的字幕[3]。需要區分場景圖和知識圖。知識圖編碼的是與特定視覺數據無關的通用常識或事實關系，而場景圖則是給定圖像中特定對象及其語義交互的結構化表示。

圖是一種有效的框架，用于表達不同實體或因素之間的關系。圖中的關系使得基于對象之間的交互和連通性來分析場景的詳細結構和動態成為可能，例如復雜系統的運行原理和模式，為聚類、分類和預測提供了有價值的見解。然而，隨著關系數量的增加，圖的大小和復雜性也會增加，使得計算、分析和存儲變得困難。此外，包含錯誤或冗余的關系可能會進一步降低模型性能。因此，消除不必要的關系并提取重要關系對于有效的基于圖的任務至關重要[4]。Wang等人[5]研究了場景圖在圖像字幕生成中的作用，評估了使用場景圖解析器生成的字幕與使用實際場景圖生成的字幕之間的差異。他們的結果表明，字幕生成性能并未顯著下降，這表明性能瓶頸在于字幕生成模型本身，而非場景圖的準確性。作者強調，需要擴展場景圖中的對象和關系類別以提升字幕生成性能。Yao等人[6]提出了一種用于圖像字幕生成的視覺關系搜索框架。該方法通過圖卷積神經網絡（GCN）和長短期記憶（LSTM）模型整合了對象之間的語義和空間關系。通過Faster R-CNN提取的關系被建模為圖，然后使用GCN豐富對象表示，并由LSTM解碼以生成字幕。然而，GCN-LSTM架構結構復雜，可能導致較高的計算成本和較長的訓練及推理時間。

考慮到這些方面，本研究旨在建立一個基于關系挖掘的場景圖的圖像字幕生成框架。該框架使用對象檢測結果生成初始場景圖，然后應用關系挖掘來最小化不必要的關系，并通過分配適當的權重來強調語義上重要的關系，從而實現對對象交互的準確分析。此外，還使用基于概率的束搜索策略來生成具有多種解釋的準確字幕。本研究的貢獻可以總結如下：

•

利用場景圖的結構信息：使用場景圖表示對象及其復雜關系。這一框架能夠提取圖像中對象的結構和語義信息，支持更連貫的字幕生成。

•

通過關系挖掘提高召回率：關系挖掘為檢測模型提取的關鍵對象分配更高的權重，增加了這些對象在生成的字幕中出現的概率，從而提高了字幕生成的召回率。

•

通過冗余關系剪枝簡化圖：使用關聯規則挖掘（ARM）過濾掉無關或低重要性的關系，從而構建出保留關鍵語義關系同時最小化圖復雜性和信息損失的優化場景圖。

•

提高關系推理的效率和準確性：所提出的方法通過圖劃分減少了計算開銷，并實現了更精確的關系推理，從而提高了處理速度和對場景中復雜對象交互的建模精度。

最近的研究還展示了結合視覺-語言先驗的潛力，例如在水下成像和字幕生成中。具體來說，WaterCycleDiffusion利用視覺-文本融合來指導水下圖像增強，即使在不利條件下也能生成自然的顏色和細膩的紋理[7]。類似地，AquaSketch整合了跨尺度信息融合來增強水下場景的語義基礎，取得了良好的性能[8]。此外，Li等人[9]提出了一個基于大型基礎模型的框架，利用區域感知策略顯著提高了復雜水下環境中的字幕生成性能。這些進展強調了在語言生成之前確保關系準確性和圖簡化的重要性，這與本文提出的關系挖掘方法的原則是一致的。

本文的其余部分組織如下：第2節描述了使用場景圖和關聯規則超圖劃分（ARHP）進行關系提取的圖像字幕生成。第3節概述了使用基于超邊的關系提取進行場景圖優化的過程。第4節展示了性能評估的結果。第5節提出了結論性意見。

章節摘錄

使用場景圖的圖像字幕生成

隨著人工智能的進步，研究人員積極探討了計算機視覺和自然語言處理的集成。圖像字幕生成是一個典型任務，它使用卷積模型分析圖像，基于從圖像中提取的特征訓練自然語言生成模型，并生成圖像的描述。典型的圖像字幕生成框架包括圖像編碼階段、句子生成模型和注意力機制

使用基于超邊的關系提取進行場景圖優化

在圖像字幕生成中，通過集成計算機視覺和自然語言處理自動生成字幕。圖像字幕生成通過表達和描述嵌入的視覺信息，提高了對圖像的理解和解釋能力。圖像字幕使搜索引擎能夠索引內容并評估關鍵詞的相關性，從而提高了圖像搜索的準確性。圖2展示了基于關系挖掘的場景圖優化過程。

A

通過關系挖掘優化場景圖

在本研究中，使用配備了AMD Ryzen 9 5990×12核處理器、NVIDIA GeForce RTX 3090 GPU、96GB RAM、Ubuntu 18.04.6和Python 3.7的系統進行基于元學習的場景圖字幕生成。采用了PyTorch 1.7.1及相關庫。

用于字幕生成的BERT和GPT模型基于BERT-base和GPT-2基礎模型。主要超參數如下：嵌入維度：768，Transformer塊數量：12，注意力機制數量：

結論

圖像字幕生成通過整合計算機視覺和自然語言處理生成描述圖像的句子。通過將視覺信息轉換為文本，圖像字幕生成提高了信息的可訪問性。此外，由于語法上重要的句子可以有效描述圖像，從而提高了搜索質量。這使得場景能夠得到語義表達，其中節點對應于對象，邊表示它們之間的關系。然而，場景圖

CRediT作者貢獻聲明

Kyungyong Chung：驗證、監督、方法論。Ji-Won Baek：可視化、驗證、資源、方法論。

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文報告工作的財務利益或個人關系。

Ji-Won Baek于2017年獲得韓國尚志大學計算機信息工程系的學士學位。她曾在Infiniq有限公司的數據管理部門工作。她分別于2020年和2024年在韓國京畿大學計算機科學系獲得碩士和博士學位。她目前是京畿大學數據挖掘實驗室的研究員。她的研究興趣包括數據挖掘、數據管理和知識

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號