久久福利影院,一区二区三区av,人妻无码一卡

評估大語言多模態模型在低資源普什圖語光學字符識別中的性能：PsOCR數據集的構建與基準測試

《Ain Shams Engineering Journal》：PsOCR: Benchmarking large multimodal models for optical character recognition in low-resource pashto language

【字體：大中小】 時間：2026年03月02日 來源：Ain Shams Engineering Journal 5.9

編輯推薦：

　　為解決低資源語言光學字符識別（OCR）的數據稀缺與技術瓶頸，本研究針對普什圖語（Pashto）構建了首個大規模合成數據集PsOCR，并系統評估了Llama、GPT-4o、Gemini等前沿大語言多模態模型（LMMs）的零樣本（zero-shot）OCR能力。研究發現，Gemini表現最佳，開源模型中Qwen-7B脫穎而出，為提升類似波斯-阿拉伯文字腳本的OCR性能提供了關鍵見解和基準資源。

隨著數字化轉型的深入，將海量紙質和圖片文檔轉化為可編輯、可檢索的文本成為一項基礎而關鍵的任務，這項技術便是光學字符識別（OCR）。對于英文、中文等高資源語言，OCR技術已相當成熟，準確率很高。然而，全球有超過7000種語言，其中許多“低資源語言”由于缺乏大規模標注數據，其OCR性能遠不盡如人意。普什圖語便是這樣一個典型代表：作為阿富汗的官方語言和巴基斯坦的第二大語言，有超過5000萬人使用，但其文字屬于復雜的波斯-阿拉伯文字腳本家族。這種文字從右向左書寫，字母在詞中不同位置有不同形態，大量使用連字和變音符號，且詞邊界模糊。這些特性使得傳統OCR引擎和依賴大量標注數據的深度學習方法在該語言上舉步維艱。數據的極度稀缺，成為橫亙在技術發展與實際應用之間的一道高墻。

為了打破這一僵局，來自華南理工大學智能制造研究院吳賢明智能製造學院的研究人員Ijazul Haq、Yingjie Zhang和Muhammad Saqib開展了一項開創性研究。他們意識到，合成數據是解決低資源語言數據荒的有效途徑。于是，他們創造性地構建了名為“PsOCR”的大規模合成普什圖語OCR數據集。這個數據集體量驚人，包含100萬張圖像，并提供了單詞、行和文檔三個級別的精細標注。為了模擬真實世界的復雜性，研究團隊在數據生成中引入了前所未有的多樣性：涵蓋了1000種獨特的字體家族、變化的字體大小（11-30px）、豐富的色彩方案（包括明暗主題，約6.6萬種顏色組合）以及多種文檔布局（如文本對齊方式、行高、內邊距等）。如此龐大且多樣的數據集，為訓練和評估OCR模型提供了寶貴的資源。基于此，研究人員進一步精心策劃了一個包含1萬張圖像的基準測試子集，用于系統評估當前最先進的大語言多模態模型在普什圖語OCR上的零樣本能力。

這項研究評估的模型陣容堪稱“全明星”，包括四個開源模型：Meta的Llama-3.2-11B-Vision-Instruct、微軟的Florence-2-large、以及阿里巴巴的通義千問Qwen2.5-VL的3B和7B版本；以及四個專有（閉源）模型：X-AI的Grok-2-vision、Anthropic的Claude-3-7-Sonnet、OpenAI的GPT-4o以及谷歌的Gemini-2.0-flash。所有評估均在零樣本設置下進行，意味著模型未經任何針對普什圖語的專門訓練或微調，直接接受測試，以檢驗其固有的跨語言OCR潛力。

為了全面衡量模型性能，研究采用了雙軌制評估指標。一方面是衡量轉錄精確度的傳統OCR指標：字符錯誤率（CER）和詞錯誤率（WER），數值越低越好。另一方面是衡量文本整體相似度的自然語言處理指標：BLEU、METEOR和詞袋（BoW）相似度，數值越高越好。

實驗結論清晰而富有啟發性。在眾多模型中，谷歌的Gemini展現了最強的零樣本OCR能力，取得了最低的CER（0.10）和WER（0.31），以及在文本相似度指標上的最高分，綜合表現最佳。在專有模型中，GPT-4o和Claude也表現出色。特別值得一提的是，在開源模型陣營中，阿里巴巴的通義千問Qwen-7B脫穎而出，其性能（CER 0.34， WER 0.73）甚至接近了一些專有模型，成為了開源領域的一個強勁基線。相比之下，Llama和Grok模型在本任務中錯誤率較高。所有模型都呈現出一個共同趨勢：WER普遍高于CER，這揭示了即使字符識別相對準確，但在普什圖語這種連筆書寫、詞邊界模糊的語言中，正確分割和識別完整的單詞仍然是更大的挑戰。

這項研究的重要意義在于，它首次為低資源普什圖語OCR建立了大規模公共數據集和系統化評估基準，填補了該領域的空白。它首次對主流LMMs在該任務上的零樣本能力進行了橫向對比，為研究者和開發者選擇模型提供了關鍵依據。結果表明，當前的LMMs，尤其是Gemini和Qwen-7B，已經對波斯-阿拉伯文字腳本展現出了令人印象深刻的識別潛力，這為未來不依賴海量標注數據、利用大模型先驗知識解決低資源語言OCR問題指明了新方向。該論文已發表在《Ain Shams Engineering Journal》上。

研究人員為開展此項研究，主要采用了以下幾項關鍵技術方法：首先，通過整合Common Crawl網絡爬蟲數據、開源網站內容及既有文本資源，構建了大規模的普什圖語文本語料庫，并進行了清洗和分塊預處理。其次，利用Python腳本將文本塊自動轉換為HTML頁面，并通過隨機應用層疊樣式表（CSS）引入字體、顏色、大小、布局等多樣性，再使用Selenium庫渲染并截圖，生成了100萬張合成圖像。最后，針對選定的七個LMMs（四個開源，四個專有），在零樣本設置下通過精心設計的提示詞（prompt）進行API調用或本地推理，使用字符錯誤率（CER）、詞錯誤率（WER）及BLEU等多種指標，系統評估了它們在該合成數據集基準子集上的OCR性能。

研究結果

1. 模型性能對比

實驗數據清晰揭示了各模型的表現差異。在轉錄準確性方面，Gemini以CER 0.10和WER 0.31位居榜首。GPT-4o（CER 0.30， WER 0.60）和Claude（CER 0.36， WER 0.67）緊隨其后。在開源模型中，Qwen-7B表現最佳（CER 0.34， WER 0.73），而Qwen-3B、Florence和Llama依次遞減。Grok模型錯誤率最高。文本相似度指標的結果趨勢與此一致，Gemini同樣獲得最高分。這表明，在零樣本設置下，專有模型總體優于開源模型，但Qwen-7B顯著縮小了這一差距。

2. 深入結果分析

通過分析不同圖像屬性對模型性能的影響，研究獲得了更細致的發現：

•
圖像屬性影響：圖像文件大小和寬高比的影響微乎其微。字體大小則有明確影響，所有模型在較大字體上表現更好。行高是影響最大的因素之一，過小的行間距（≤20px）會嚴重損害Qwen、Claude和GPT-4o等模型的性能。文本對齊方式影響不大，但符合普什圖語從右向左書寫習慣的“右對齊”和“兩端對齊”略好于“左對齊”。文本長度對大多數模型影響較小，但GPT-4o在長文本上性能下降。主題（明/暗）和顏色對比度的影響不顯著。
•
字體家族的顯著影響：字體多樣性是影響OCR性能的最強因素。模型在不同字體上的表現波動很大，這凸顯了字體變化是普什圖語OCR面臨的主要挑戰之一。研究還對比了模型在表現最好的前十種字體上的性能。

研究結論與意義

本研究成功構建了首個面向低資源普什圖語的大規模合成OCR數據集PsOCR及相應的評估基準，并首次系統評估了前沿LMMs在該任務上的零樣本性能。核心結論是，谷歌的Gemini模型展現了最佳的零樣本普什圖語OCR能力，而開源的Qwen-7B模型是其中表現最出色的，為相關研究和應用提供了強大的開源基礎。

研究的意義是多層次的。在實踐層面，PsOCR數據集的發布極大緩解了該領域的數據稀缺問題，為開發與評估普什圖語OCR模型提供了關鍵資源。在技術洞察層面，研究揭示了LMMs在處理復雜波斯-阿拉伯文字腳本時已具備顯著的零樣本潛力，特別是Gemini和Qwen-7B的表現，證明了通過利用大模型的多語言和多模態先驗知識，可以繞過對語言特定標注數據的嚴重依賴，為低資源語言OCR提供了新的解決方案范式。同時，研究也明確了當前模型面臨的挑戰，如詞錯誤率普遍高于字符錯誤率，以及對某些字體和過小行間距的敏感性，這為未來的模型改進指明了方向。

討論部分指出了本研究的局限性，例如數據集僅包含合成文本、背景單一、未添加圖像扭曲增強等，這可能會影響模型在真實復雜場景下的魯棒性。基于這些工作，作者團隊展望了未來的研究方向，包括開發普什圖語視覺問答（VQA）數據集、構建大規模手寫普什圖語OCR數據集，以及在PsOCR數據集中增加更真實的背景圖案和光照條件，以進一步提升數據集的真實性和模型的實用價值。這項工作為推進波斯-阿拉伯文字腳本乃至其他低資源語言的文檔分析與理解奠定了堅實的基礎。

熱點排行

新聞專題