Zineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng, Cha Zhang, Mohit Bansal
1. どんなもの?
文書画像に対して T5 のように生成タスクを行うモデルを提案
テキスト情報(OCR テキスト)・視覚情報(文書画像)・レイアウト情報(OCR 座標)の三つのモダリティを Encoder-Decoder の枠組みでモデル化
注釈無しデータ(11M)、注釈ありデータ(11タスク・1.8M)を用いて、生成タスクとして事前学習
Document Understanding Benchmark (DUE) を含む九つのタスクで SoTA を達成
2. 先行研究と比べてどこがすごい?
先行研究のアプローチ
画像エンコーダの視覚表現をテキスト情報とマルチモーダルエンコーダに入力
テキスト情報と視覚情報を共同のマルチモーダルエンコーダに入力
レイアウト情報とテキスト情報のみを入力とする
LAMBERT / XYLayoutLM / BROS / StructuralLM / LILT
先行研究の問題
テキスト情報と視覚情報を分離したものとしてモデルに入力しており、 文書データにおけるモダリティ間の明示的な関係性を十分にモデル化できていない
下流タスク用のヘッドなどタスク別にマニュアルデザインが必要
従来の自己教師学習では単一モダリティの学習に対してデザインされる
本研究のすごい点
レイアウト情報に基づいてテキスト情報と視覚情報を明示的に紐付け
各タスクを生成タスクという一つの枠組みに落とし込むことで、 プロンプトの変更のみで様々なタスクに対応
複数のモダリティの学習を目的とした自己教師学習のデザイン
3. 技術や手法のキモはどこ?
モデル
エンコーダ
UDOP(T5-large Encoder)
レイアウト情報に基づいて統合された視覚情報とテキスト情報をエンコード
UDOP-Dual(本記事では省略)
テキストエンコーダ(テキスト情報+レイアウト情報)と画像エンコーダ(視覚情報)を独立
デコーダ
Text-Layout Decoder (T5-large Decoder)
テキストとレイアウトのトークンを逐次的に生成
Vision Decoder (MAE-large Decoder)
テキストとレイアウト情報から画像のピクセル値を直接生成
入力
(文書画像)エンコードされたパッチ数 * D次元の視覚表現
(OCRトークン)ルックアップテーブルによるトークン数 * D次元のテキスト表現
(OCRレイアウト)各 OCR トークンに対する BBox の 4 次元座標
出力
事前学習タスクに応じたトークン系列 or 画像
3.1. モダリティ間の関連する意味表現をどのようにモデル化した?
OCR トークンのテキスト表現とパッチ領域の視覚表現をエンコーダに入力
OCR トークン Si の BBox の中心点がパッチ領域 Vj に含まれる場合、そのトークンのテキスト表現とパッチ領域の視覚表現を和演算
Position Bias (TILT) を導入
3.2. 多様なドメインを含むモダリティ情報をどのように学習した?
九つの事前学習タスクを生成タスクに落とし込む
レイアウト情報は BBox の連続座標を [0, 1] に正規化し、ボキャブラリサイズ分に分割することでレイアウトトークンに変換(homogeneous vocabulary) 例:BBox = (0.1, 0.2, 0.5, 0.6), vocab_size = 500 → <50><100><250><300>
教師ありタスクで使用するデータに対しては自己教師の設定を適用せず、自己教師タスクでは IIT-CDIP Test Collection 1.0 データを用いる
Layout Modeling
テキストトークンをタグで指定、指定したテキストのレイアウトトークンを出力(75% 指定率)
Visual Text Recognition
テキストトークンをレイアウト情報でマスク、マスク箇所のテキストトークンを出力(50% マスク率)
Joint Text-Layout Recognition
テキストトークンを特殊トークンでマスク、マスク箇所のテキストとレイアウトを出力(15% マスク率)
Masked Image Reconstruction
文書にはアルファベット・数字・記号が多く含まれることから、マルチモーダルエンコーダからの出力表現と文字レベルの埋め込みとの連結表現に対するクロスアテンションを Vision Decoder に導入
UDOP からの出力には、マスクされていないパッチ領域の情報のみが含まれているため、画像デコーダの入力にはマスク対象か否かを判別する二種類の学習可能なプレースホルダの系列を入力する
Classification
RVL-CDIP データを用いて 16 の文書カテゴリを出力
Layout Analysis
PubLayNet データを用いて、タイトル・パラグラフなどのレイアウトカテゴリを出力
Information Extraction
テキストクエリを入力として、対応するエンティティとレイアウト情報を出力
DocBank, Kleister Charity (KLC), PWC, DeepForm を使用
Question Answering
質問に対して、適切な解答を出力
WebSRC, VisualMRC, DocVQA, InfographicsVQA, WikiTableQuestions (WTQ) を使用
Document NLI
TabFact データを用いて、文書内の二文の含意関係を出力
4. どうやって有効だと検証した?
定量評価(DUE Benchmark)
七つの文書画像タスクにおいて SoTA を達成
定量評価(FUNSD, CORD, RVL-CDIP)
訂正評価(文書画像編集・生成)
編集領域をマスクして、入力するテキストとレイアウトを指定することで、高解像度かつ一貫したフォント・サイズ・スタイル・向きで指定情報を出力
訂正評価(Masked Image Reconstruction)
マスク率を高く設定してもテキスト・レイアウト情報から文書画像を復元できる
アブレーション評価(学習目的別)
自己教師学習 + 教師あり学習が効果的であることを示した
5. 議論はある?
Visually-rich Document Understanding においても T5 のような生成モデルが一定の効果を示すという知見
InfographicsVQA, WTQ, TabFact において SoTA を達成したが、図表情報やセル間の情報を明示的に考慮していないため改善の余地あり
Visual Text Recognition では、従来のテキスト認識のロス関数と大きく異なるため議論の余地あり
学習時にテキストの向きの情報を明示的に考慮していないが、文書画像編集の訂正評価では横向きの文字が出力できているのはなぜ?
テキストブロックの読み順を考慮することで改善の余地ありか
Comments