69精品人人人,国产v在线,www.18av

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

用于照片中桌面推理的基準和方法

《Pattern Recognition》：A Benchmark and Method for Photographed Table Reasoning

【字體：大中小】 時間：2026年02月28日 來源：Pattern Recognition 7.6

編輯推薦：

　　多模態模型在真實照片表格推理中面臨顯著性能差距，本研究構建首個大規模PCTR-16K數據集（含4989張照片表格及16318個問題），并提出SCoT框架及7個表格結構理解任務，使LLaVA-Llama3.1在PCTR-16K上準確率從44.58%提升至64.11%。

康曉強|王子木|子曉晨|金曉波|黃開柱|尹飛|王秋風

西安交通大學利物浦大學先進技術學院，中國蘇州

摘要

隨著大型語言模型（LLMs）和多模態LLMs（MLLMs）的進步，表格推理取得了顯著進展。然而，大多數現有研究主要集中在文本或渲染后的表格上，而這些表格與現實世界中拍攝到的表格存在顯著差異，尤其是在光照不均、模糊或視角傾斜等次優條件下。這種差異導致當前的MLLMs在現實場景中的應用受到限制。為了解決這一關鍵問題，我們首次開展了關于拍攝表格的多模態推理的全面研究。我們提出了一個新的數據集Photographed Chinese Table Reaisoning（PCTR-16K），其中包含4,989張拍攝的表格和16,318個問題，涵蓋9個主題和3個難度級別。該數據集是首個專門為評估在真實條件下拍攝的表格上的推理能力而設計的基準測試集。為了提高MLLMs對拍攝表格的推理能力，我們提出了結構感知鏈式思維（SCoT）方法，將表格識別和推理統一為一個端到端的生成過程。為了增強SCoT所需的結構感知能力，我們在微調過程中進一步加入了七個輔助的表格結構理解（TSU）任務。這些任務在表格布局和語義的多個維度上提供了細粒度的監督。在各種MLLMs上的廣泛實驗表明，我們提出的SCoT和多視圖TSU任務顯著提高了對拍攝表格的識別和推理能力。例如，LLaVA-Llama3.1在PCTR-16K基準測試中的準確率提高了19.53%（從44.58%提高到64.11%），證明了其在真實世界表格推理中的有效性。該數據集將在https://github.com/PremiLab-Math/PCTR-16k上公開。

引言

表格數據是表示結構化信息最普遍的格式之一，在從科學研究[1]和金融[2]到教育[3]和商業智能[4]等多個領域發揮著重要作用。對于模型來說，有效地理解和推理表格數據仍然具有挑戰性，因為這需要解釋結構化的布局、異構的內容類型以及復雜的數值關系。大型語言模型（LLMs）和多模態LLMs（MLLMs）的最新進展在表格推理方面展現出了巨大的潛力，推動了該領域的進步[3]，[5]。

現有的表格推理研究大多基于文本表示，其中表格被序列化為特定的格式。像WTQ [6]和FeTaQA [7]這樣的經典基準測試通常依賴于HTML結構。為了處理分層數據或混合內容，HybridQA [8]和HiTab [9]等數據集采用了JSON格式。最近，TabMWP [10]和TabFact [11]采用了輕量級的Markdown表示方式，以提高與LLMs的兼容性（見圖1中的左側表格）。雖然這些表示方式簡單易處理，但它們無法保留人類直觀感知的視覺信息。與文本表格推理并行，文檔分析社區長期以來一直重視視覺表格表示。大規模數據集如TableBank [12]和PubTabNet [1]在這一領域發揮了重要作用。此外，還提出了用于表格檢測[13]和端到端結構識別[14]的強大方法。近年來，研究社區開始考慮在實際條件下由相機拍攝的“野生”表格，這得益于TAL [15]、WTW [16]和TabRecSet [17]等數據集的支持。最近的研究還探索了多模態表格推理。例如，鄭等人[5]通過大規模指令調優來提升通用能力，而Kim等人[18]建立了視覺問答的基準測試。然而，這些研究中使用的表格都是高質量渲染或合成的圖像（見圖1中的中間表格）。實際上，表格經常在光照不均、模糊或視角傾斜等次優條件下被拍攝（見圖1中的右側表格，更多示例見圖4）。這些視覺退化對文檔對齊和識別任務構成了嚴重挑戰[19]。這些因素往往會在表格識別過程中引入錯誤，進而影響推理過程。這種差異在實際應用中導致了性能的大幅下降。

為了解決這一差距，我們提出了一個針對拍攝表格的多模態推理任務，其中表格是在真實條件下拍攝的，這對有效的推理提出了重大挑戰。此外，我們開發了一個新的數據集Photographed Chinese Table Reaisoning（PCTR-16K），其中包含4,989張拍攝的表格和16,318個問題，涵蓋九個主題和三個難度級別。與現有的表格推理數據集相比，PCTR-16K具有以下特點：

(1)

真實的拍攝表格。 PCTR-16K是首個專門針對拍攝表格的多模態推理的數據集。所有表格都是在包含視覺噪聲（例如，光照變化、視角傾斜和模糊）的真實條件下拍攝的。

(2)

多樣且具有挑戰性的問題。 PCTR-16K包含九個主題，問題類型多樣，難度級別分為三個級別，以模擬現實世界場景，主要來源于學生作業和考試試卷。

(3)

全面的注釋。 PCTR-16K中的每個樣本都包含一個問題、答案、主題、問題類型、難度級別以及逐步解決方案，為模型訓練和評估提供了詳細的注釋。

為了解決拍攝表格的推理問題，我們提出了結構感知鏈式思維（SCoT），這是一種將表格識別和推理無縫整合到統一過程中的端到端方法。SCoT不是將它們視為獨立步驟，而是將任務構建為一個單一的生成序列，模型首先生成表格的結構化文本表示（例如Markdown），然后在此基礎上進行逐步推理（見圖6）。這種方法使得在訓練過程中可以同時優化感知和推理能力。為了進一步提高SCoT的識別能力，我們引入了七個表格結構理解（TSU）任務，例如表格大小檢測和單元格提取。

我們在各種MLLMs上進行了廣泛的實驗，包括閉源模型（例如OpenAI o4-mini和Gemini 2.5 Pro）和開源模型（例如LLaVA [20]、Qwen2-VL [21]和MiniCPM-V [22]），在PCTR-16K和其他現有數據集上進行了測試。如圖1所示，盡管人類在所有表格推理任務上的表現相似（>90%），但MLLMs在拍攝表格上的推理難度要大得多。相比之下，模型在基于文本或高質量渲染的表格上的推理表現相當甚至更優，這突顯了創建拍攝表格推理數據集的重要性。為了證明我們提出的SCoT和七個多視圖TSU任務的有效性，我們進行了全面的消融研究。結果顯示，在具有挑戰性的多模態條件下，表格感知和推理能力得到了顯著提升。例如，LLaVA-Llama3.1在PCTR-16K基準測試中的準確率從44.58%提高到了64.11%。此外，我們的方法將LLaVA-Llama3.1和DeepSeek-VL的表格結構解析性能分別提高了7.43%和12.96%，至77.03%和93.22%。

我們的主要貢獻可以總結如下：

•

我們首次開展了關于拍攝表格的多模態推理的全面研究，為研究設置和實際應用之間的差距架起了橋梁。

•

我們構建了一個專門的拍攝表格推理數據集PCTR-16K。它包含4,989張拍攝的中文表格和16,318個問題，涵蓋九個主題和三個難度級別，為評估MLMMs在這項任務上的表現提供了全面的分析。

•

我們提出了一種結構感知鏈式思維（SCoT）方法，以增強MLMMs的表格推理能力。我們還在MLMMs的微調過程中引入了七個多視圖表格結構理解（TSU）任務。

•

PCTR-16K基準測試揭示了閉源和開源MLMMs在現實場景中的顯著性能差異。在各種MLMMs上的廣泛實驗驗證了我們SCoT和TSU任務的有效性，展示了持續的改進，并提供了詳細的失敗模式分析，以指導未來的研究方向。

章節片段

表格識別

表格識別是計算機視覺和文檔理解中的基本任務，涉及一系列子任務，包括表格檢測、結構識別和內容提取。早期研究主要集中在從數字生成的文檔（如PDF或HTML頁面）中識別表格。PubTabNet [1]、FinTabNet [23]和TableBank [12]提供了用于表格檢測和結構識別的大規模注釋數據集，

數據集

在這項工作中，我們擴展了現有的表格識別數據集，以解決拍攝表格的多模態推理問題�，F有的表格推理數據集主要關注文本表示（例如HTML、Markdown）或高質量渲染的圖像，這些方法無法捕捉到現實世界場景的挑戰。為了彌合這一差距，我們構建了Photographed Chinese Table Reasoning（PCTR-16K）數據集，其中包含拍攝的表格、相關問題和全面的

方法論

為了解決拍攝表格的多模態推理的復雜性，我們提出了兩種協同策略：結構感知鏈式思維（SCoT）（§4.1）和七個多視圖表格結構理解（TSU）任務（§4.2），專門用于增強多模態表格推理。我們的方法采用了一個端到端的學習框架，同時優化表格識別和推理，確保即使在具有挑戰性的真實世界視覺場景下也能保持強大的性能。

實驗設置

模型我們評估了各種閉源和開源MLMMs在PCTR-16K上的性能。閉源模型包括Gemini 2.5 Pro [38]和OpenAI o4-mini²。評估的開源模型包括MiniGPT-4 [39]、DeepSeek-VL [40]、Qwen-VL [41]、Qwen2-VL [21]、InternLM-XComposer (IXC) [42]、IXC 2 [43]、mPLUG-Owl2 [44]、mPLUG-DocOwl 1.5 [45]、LLaVA v1.5 [46]、LLaVA-Llama3.1、Vary-toy [47]、Monkey [48]和MiniCPM-V 2.6 [22]

局限性

盡管我們的工作有所貢獻，但我們承認未來研究中需要解決幾個局限性：

數據集分布不平衡我們的PCTR-16K數據集在多個維度上存在類別不平衡。數學問題約占數據集的70%，而其他主題（如地球科學和經濟學）的代表性較低。同樣，71.9%的問題被歸類為簡單問題，只有3.5%被歸類為難題。這種不平衡可能會影響

討論

在本節中，我們解釋了實驗結果的意義，并討論了它們如何解決多模態表格推理的挑戰。我們還概述了未來研究的方向。

結果解讀我們的實驗揭示了關于野外表格推理性質的四個關鍵見解。首先，最先進的MLMMs與人類表現之間存在顯著差距。盡管人類在基準測試中的準確率接近完美（96.15%），即使是頂級閉源模型

結論

我們推出了PCTR-16K，這是首個專門針對拍攝表格的多模態推理的大規模基準測試集。通過模擬現實世界條件（如光照不均和視角扭曲），我們揭示了現有MLMMs的局限性。為了解決這個問題，我們提出了結構感知鏈式思維（SCoT）框架以及輔助的表格結構理解（TSU）任務。廣泛的實驗表明，我們的方法顯著提高了感知和

未引用的引用

缺失的引用表格A.11。

CRediT作者貢獻聲明

康曉強：寫作 – 審稿與編輯，撰寫原始草稿，可視化，軟件，資源，項目管理，方法論，調查，資金獲取，正式分析，數據管理，概念化。王子木：寫作 – 審稿與編輯。子曉晨：數據管理。金曉波：監督。黃開柱：監督。尹飛：監督。王秋風：寫作 – 審稿與編輯，監督。

利益沖突聲明

作者聲明他們沒有已知的利益沖突或個人關系可能影響本文所述的工作。

致謝

我們感謝所有匿名審稿人的寶貴意見。這項工作得到了國家自然科學基金（編號：62436009和62276258）、江蘇省科技計劃BK20251812、頂尖人才獎勵項目（RDF-TP-0019）以及多模態人工智能系統國家重點實驗室開放研究基金的支持。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號