TSRFormer:復雜場景的表格結(jié)構(gòu)識別新利器
如今,各行各業(yè)正在向數(shù)字化轉(zhuǎn)型,海量的文檔型數(shù)據(jù)也源源不斷地生成。用人工處理這些蘊含著豐富信息的文檔,存在如耗時長、成本高、易出錯等缺陷,在實際應用中難以高效執(zhí)行。因此,社會對于自動化文檔處理技術(shù)的需求日益增加,智能文檔處理(IDP)成為了近幾年的熱點。與此同時,市場上也涌現(xiàn)出了許多相關(guān)產(chǎn)品,例如微軟就提供了全方位的 IDP 服務及解決方案(https://adoption.microsoft.com/intelligent-document-processing/)。如圖1所示,智能文檔處理通過光學字符識別(OCR)、文檔圖像分析、計算機視覺,以及自然語言處理等技術(shù),將復雜的非結(jié)構(gòu)化文檔數(shù)據(jù)轉(zhuǎn)變?yōu)槟鼙挥嬎銠C直接理解和使用的結(jié)構(gòu)化數(shù)據(jù),從而幫助企業(yè)或個人更加高效地獲取文檔中的有用信息。
圖1:智能文檔處理(IDP)的流程示意圖
在各類文檔中,表格作為一種高效的信息表達形式,通常被人們用來呈現(xiàn)結(jié)構(gòu)化的數(shù)據(jù),例如公司財報、****、****流水、實驗數(shù)據(jù)、醫(yī)院檢驗報告等等。如何抽取及理解表格的技術(shù)一直都是 IDP 中的重要組成部分。
表格抽取技術(shù)解決的主要問題是如何自動地將圖像中的表格數(shù)字化,其包含兩個子任務:表格檢測和表格結(jié)構(gòu)識別。其中,表格結(jié)構(gòu)識別旨在從表格的圖像中還原表格的結(jié)構(gòu)信息,包括每個單元格的坐標位置以及每個單元格所屬的行列信息。如圖2所示,在實際場景中,表格結(jié)構(gòu)識別是一個極具挑戰(zhàn)性的問題。其挑戰(zhàn)的難度主要在于表格的結(jié)構(gòu)與內(nèi)容的復雜多樣性,例如存在完全無邊界和實線的表格、包含許多空白單元格或者跨行跨列單元格的表格、行列之間存在大片空白區(qū)域的表格、嵌套的表格、密集的大表格、單元格包含多行文字內(nèi)容的表格等等。不僅如此,在相機拍攝的場景中,有些表格的邊框可能因拍攝角度而傾斜或彎曲,這都大大增加了表格結(jié)構(gòu)識別的難度。
圖2:表格圖像的多樣性與復雜性(左右滑動查看更多)
近年來,表格結(jié)構(gòu)識別領(lǐng)域受到了學術(shù)界與工業(yè)界的廣泛關(guān)注,其中涌現(xiàn)出了大量研究成果。但這些研究成果的視角大多僅限于簡單的應用場景,例如 PDF 或掃描文檔中橫平豎直的表格或分割線均為實線的表格,而對于圖2中這些在實際場景中經(jīng)常出現(xiàn)的情況,尤其是傾斜、彎曲且沒有實線的表格關(guān)注度較低。因此,現(xiàn)有的算法距離完全解決實際場景中的表格識別問題還存在很大差距。為了讓表格識別技術(shù)適用于更廣泛的應用場景,微軟亞洲研究院的研究員們提出了一種新的表格結(jié)構(gòu)識別算法 TSRFormer[1],該算法能夠較好地識別復雜場景中不同類型的表格。
TSRFormer: 提供表格結(jié)構(gòu)識別新思路
現(xiàn)有的表格結(jié)構(gòu)識別算法大致分為三種范式:編碼-解碼范式、自底向上范式和拆分-合并范式。編碼-解碼范式下的模型在輸入表格圖像后可以直接預測表示表格結(jié)構(gòu)的編碼序列(如 HTML、LaTeX 等)。該范式即使在識別較為容易的橫平豎直表格的任務中,仍然需要遠超于其他范式的訓練數(shù)據(jù)才能產(chǎn)出較好的效果。若要進一步支持傾斜或彎曲的表格,則還需額外收集大量的數(shù)據(jù),因此研發(fā)成本較高。此外,目前基于該范式的方法在處理單元格較為密集的大表格時,精度相對較低。
自底向上范式一般需要依賴額外的模塊預先檢測文本或單元格作為基礎單元,再預測這些基礎單元是否屬于同一行、列或單元格從而定位表格結(jié)構(gòu)。所以該范式難以處理包含大量空白單元格或空行空列的表格。
不同于以上兩種范式,微軟亞洲研究院的研究員們發(fā)現(xiàn)基于拆分-合并范式的方法具有更強的可擴展性,在復雜場景中只需要較少的訓練數(shù)據(jù)就能達到很高的精度,而且可以魯棒地處理包含空白單元格以及空行空列的表格。因此,基于該范式研究員們提出了 TSRFormer。如圖3所示,對于輸入的表格圖像,TSRFormer 先由拆分模塊預測出所有行、列的表格分割線,求交點后,生成 N x M 個單元格,再由合并模塊預測相鄰單元格是否需要合并從而恢復出跨多行、多列的單元格。
圖3:TSRFormer 的整體結(jié)構(gòu)圖
在以往基于拆分-合并范式的方法中,預測拆分模塊的表格線一般通過圖像分割模型結(jié)合從分割圖中提取表格分割線的后處理模塊完成(如[2][3]等),而基于規(guī)則設計的后處理模塊難以處理低質(zhì)量的分割圖,這嚴重降低了模型針對諸如傾斜、彎曲的表格識別的精度以及泛化能力。不同于既有設計,TSRFormer 提出了一種不需要后處理模塊的全新思路:通過直接回歸的方式來預測分割線。具體來說,該方法采用每條分割線上的若干采樣點來表示該分割線,并讓模型直接回歸每條分割線上采樣點的坐標,從而得到分割線的位置信息。
為了讓 TSRFormer 能夠精確且高效地預測表格分割線,研究員們還提出了一套新的基于兩階段 DETR[4] 的分割線回歸算法:SepRETR。如圖4所示,在第一階段中,SepRETR 先用參考點預測模塊,為每一條表格分割線預測出一個參考點(reference point);在第二階段,由這些參考點的視覺以及空間信息組成的特征向量集合作為查詢特征(query)輸入進一個****(Transformer decoder)來回歸對應的完整分割線。
圖4:基于 SepRETR 的表格分割線預測模型(此處以行分割線為例)
在此基礎上,研究員們進一步提出了兩個改進算法來提升模型性能:(1)提出了基于先驗增強的匹配策略來解決原始 DETR[5] 訓練收斂慢的問題;(2)僅采樣少量像素的特征作為****交叉注意力(cross attention)模塊的輸入,該方案可以使模型事半功倍,利用較少的計算量即可達到高定位精度。
實驗結(jié)果及可視化效果
目前,學術(shù)界的絕大部分公開數(shù)據(jù)集都只包含 PDF 或者掃描文檔圖像中完全橫平豎直的表格(如 SciTSR[6]、PubTabNet[7] 等)。與實際應用場景相比,這類數(shù)據(jù)集較為簡單,不能涵蓋日常生活中的所有表格類型。近一年,復雜場景中的表格結(jié)構(gòu)識別問題逐漸受到關(guān)注,例如去年新發(fā)布的 WTW 數(shù)據(jù)集[8]就開始考慮實際自然場景中的表格。在該數(shù)據(jù)集中,由于相機拍攝引起的干擾,一些表格會出現(xiàn)傾斜或彎曲,這大大增加了表格結(jié)構(gòu)識別問題的難度。但 WTW 數(shù)據(jù)集只考慮了分割線均為實線的表格,而沒有包含無實線的表格。為了能夠更全面地測試模型在各類場景下的性能,研究員們收集了一個更加復雜的數(shù)據(jù)集,該數(shù)據(jù)集包含了各式各樣復雜場景的樣本,例如結(jié)構(gòu)復雜、包含大量空單元格或長跨行跨列單元格的無實線表格,以及傾斜甚至彎曲的表格等等。
研究員們首先在三個較大規(guī)模的公開數(shù)據(jù)集 SciTSR、PubTabNet 以及 WTW 上驗證了 TSRFormer 的性能。從表1、表2以及表3的結(jié)果可以看出,無論是在橫平豎直的簡單場景(SciTSR、PubTabNet)還是在分割線均為實線的自然場景(WTW)表格識別任務上,TSRFormer 均比現(xiàn)有的方法表現(xiàn)得更加優(yōu)秀。
表1:TSRFormer 與現(xiàn)有方法在 SciTSR 上的性能對比
表2:TSRFormer 與現(xiàn)有方法在 PubTabNet 上的性能對比(其中 TEDS[7] 指標同時考慮表格結(jié)構(gòu)識別和表格內(nèi)容 OCR 識別的精度,而 TEDS-Struct[10] 僅評測表格結(jié)構(gòu)識別,因此后者更適用于公平比較表格結(jié)構(gòu)識別模型的精度)
表3:TSRFormer 與現(xiàn)有方法在 WTW 上的性能對比
為了進一步驗證 TSRFormer 的有效性,研究員們在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集上開展了實驗,并將 TSRFormer 與另外兩個基于拆分-合并范式的代表算法——SPLERGE[2] 和 RobusTabNet[3],進行了對比。為了使對比更加公平,在實現(xiàn)這三個方法的時候僅有表格分割線預測的部分不同,其余部分模型結(jié)構(gòu)均保持一致。從表4可以看出,由于 SPLERGE 假設表格是橫平豎直的,其在同樣是橫平豎直場景的數(shù)據(jù)集 SciTSR 和 PubTabNet 上都能取得接近 SOTA 的結(jié)果,但在包含傾斜甚至彎曲的內(nèi)部數(shù)據(jù)集上則大幅度落后于 TSRFormer,F(xiàn)1-score 相差了11.4%。圖5的可視化效果展示了 SPLERGE 與 TSRFormer 在復雜場景中的明顯差距。
表4:TSRFormer 與 SPLERGE 在多個數(shù)據(jù)集上的性能對比
圖5:TSRFormer(紅)與 SPLERGE(藍)的可視化效果對比
在表5的消融實驗中,研究員們將基于直接回歸的 TSRFormer 與目前基于圖像分割的最優(yōu)方案 RobusTabNet 進行了對比。TSRFormer 與 RobusTabNet 均能處理傾斜或彎曲的表格。根據(jù)表5的實驗結(jié)果,在更具挑戰(zhàn)性的內(nèi)部數(shù)據(jù)集中,相比 RobusTabNet,TSRFormer 的 F1-score 高出2.9%。關(guān)于消融實驗的其他細節(jié),可見論文[1]。
表5:TSRFormer 與 RobusTabNet 在內(nèi)部數(shù)據(jù)集上的對比,以及各模塊的消融實驗
圖6中的可視化結(jié)果展示了基于直接回歸方法的優(yōu)勢。對于圖6這種單元格密集、彎曲且含有大面積空白區(qū)域的困難樣本,基于圖像分割的結(jié)果并不魯棒,這使得后續(xù)的后處理模塊難以提取出正確的分割線。而與之相反,基于直接回歸思想的 TSRFormer 并不需要任何后處理模塊,對表格中的數(shù)據(jù)和內(nèi)容識別得更為精確。
原始表格RobusTabNet 的可視化結(jié)果TSRFormer 的可視化結(jié)果
圖6:TSRFormer 與 RobusTabNet 的可視化結(jié)果對比(左右滑動查看更多)
最后,圖7展示了 TSRFormer 在多個場景表格圖像上的可視化結(jié)果,可以看到該方法對于大部分復雜場景表格的識別呈現(xiàn)高魯棒性。
圖7:TSRFormer 在各個數(shù)據(jù)集上的可視化結(jié)果(左右滑動查看更多)。(a-b)來自 SciTSR,(c-d)來自 PubTabNet,(e-h)來自 WTW,以及(i-l)來自內(nèi)部數(shù)據(jù)集
未來的挑戰(zhàn)
雖然 TSRFormer 在識別大部分場景的表格圖像中取得了可喜成果,但要完全解決所有場景的表格結(jié)構(gòu)識別問題道阻且長。主要問題在于,目前的算法只考慮了視覺圖像單一模態(tài)的信息,而對于內(nèi)容極為復雜的表格,例如單元格包含多行文字內(nèi)容或存在極長且無實線的跨行跨列單元格,不僅需要利用圖像信息,還需要充分理解圖中文字的語義后,才能正確地識別表格結(jié)構(gòu)。此外,現(xiàn)有的方法仍然無法解析多層級的嵌套表格。微軟亞洲研究院的研究員們將不斷推進表格結(jié)構(gòu)識別的性能,也歡迎同行共同交流、探索該領(lǐng)域更好的技術(shù)!
參考文獻:
[1] Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo. TSRFormer: Table structure recognition with Transformers. In ACM Multimedia, 2022.
[2] Chris Tensmeyer, Vlad I. Morariu, Brian Price, Scott Cohen, Tony Martinez. Deep splitting and merging for table structure decomposition. In ICDAR, 2019.
[3] Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo. Robust table detection and structure recognition from heterogeneous document images. Pattern Recognition, 2023.
[4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for end-to-end object detection. In ICLR, 2021.
[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-end object detection with Transformers. In ECCV, 2020.
[6] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, XianLing Mao. Complicated table structure recognition. arXiv:1908.04729, 2019.
[7] Xu Zhong, Elaheh ShafieiBavani, Antonio Jimeno Yepes. Image-based table recognition: Data, model, and evaluation. In ECCV, 2020.
[8] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia. Parsing table structures in the wild. In ICCV, 2021.
[9] Sachin Raja, Ajoy Mondal, CV Jawahar. Table structure recognition using top-down and bottom-up cues. In ECCV, 2020.
[10] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu. LGPMA: Complicated table structure recognition with local and global pyramid mask alignment. In ICDAR, 2021.
[11] Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. Show, read and reason: Table structure recognition with flexible context aggregator. In ACM Multimedia, 2021.
[12] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In WACV, 2021.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。