1. どんなもの?
WEB から収集した画像+ alt テキストペアを用いて、レンダリングしたテキストと画像の対照学習を行う CLIPPO を提案。
VQA においては CLIP より性能が良く、画像分類・テキスト画像検索では(パラメータサイズが大きいものだと)CLIP より高い性能を示す。また GLEU 評価も行い、CLIP より高い性能を示す。
レンダリングしたテキストと画像のペアに加えて、C4 からサンプルしたテキスト-テキストペア(連続する二文・翻訳対・単語ドロップ対)を対照学習のバッチに加えることで、GLEU 評価が向上し、言語ベースのモデルである PIXEL と同等以上の性能を達成。テキストペアの追加がモダリティギャップを埋めることも言及。
2. 先行研究と比べてどこがすごい?
タスク・モダリティ特有のモデルに対して下流タスクへの導入コストが低い。
画像・テキストエンコーダが独立している CLIP に比べてモデルサイズが小さい。
テキストはレンダリングするため言語依存のトークナイザが不要。
3. 技術や手法のキモはどこ?
CLIPPO はテキストをレンダリングして画像として扱う
1T-CLIP(画像・テキストエンコーダのモデルパラメータを共有した CLIP モデル)では、 モデルパラメータが半減する一方で、若干精度が低下してしまう。
1T-CLIP ではモデル入力時はテキストと画像を別物として扱う一方で、 CLIPPO ではモデル入力時からテキストと画像を同一モダリティとして扱う
GNU Unifont bitmap font を使用
言語ベースの対照学習
文法的な正しさを保証しない alt テキストから言語理解能力を学習することは限界がある
テキストコーパスから抽出した ①連続した二文 ②異なる言語の翻訳対 ③単語ドロップした文のペア を正例として対照学習のバッチに追加
4. どうやって有効だと検証した?
モデル
CLIP (Radford+'21)
CLIP* T5-en SentencePiece tokenizer を用いて、CLIPPO と同一設定でゼロから学習した CLIP モデル
1T-CLIP
CLIPPO (ViT-B/16) バッチサイズ 10240、学習ステップ 250K で学習(なお言語ベースの対照学習を追加した設定では、ステップ数*データサイズが同一になるようにステップ数をスケーリング)
データセット
WebLI 10B 画像と12B alt テキスト(109 言語)で構成
C4, WMT-19 言語ベースの対照学習で使用
ImageNet (few-shot Classification), MS-COCO, Flickr30K (Image-Text Retrieval)
CLIP のパラメータ数の半分で、同程度以下の性能を示した
1T-CLIP に対して CLIPPO は僅かに性能が低下(多言語でも同様 → Tab.6)
C4 データを加えると性能低下
固定バッチサイズのため、テキストペア数が増加した分、画像-テキストペアが減少した
VQAv2
1T-CLIP, CLIP* に対して CLIPPO が大幅に性能を改善
言語ベースの対照学習を追加すると CLIPPO に対して僅かに性能改善
ピクセル数を 384 に増やすと性能向上
クロスエンコーダの VILT B/32 と同等以上の性能を示した
GLEU ベンチマーク
パラメータ共有した 1T-CLIP, CLIPPO が CLIP* に対して言語理解能力が高い
alt テキストを用いる WebLI では、文法的な正しさを評価する CoLA の精度が低い
C4 からテキストペアを追加すると、GLUE スコアが向上
テキストペアが 50% の場合、PIXEL の性能と同程度(画像タスクとのトレードオフあり)
(学習データサイズが異なるが)CLIPPO をテキストペアのみで学習させた場合、PIXEL を大きく凌駕
アブレーション評価(CLIPPO におけるパラメータ共有別)
入力パッチの埋め込み(embeddings)と出力ヘッダ(heads)を画像とテキストで別々のものを使用しても 分類・検索タスクへの影響がほとんどみられない
Liang+'22 によるマルチモーダルギャップの可視化
CLIPPO は CLIP∗ より若干低いギャップ値を示している
テキストペアでの対照学習を行うと、クラスタリング構造がなくなる
テキストペアの対照損失がテキスト表現の散開を促進することで、埋め込み構造が変化した可能性
5. 議論はある?
学習方法が一つに関わらず、ピクセルベースの対照学習が効果的であるという知見
モダリティ間のギャップを埋めるという話は分かるが、VQA や GLEU などで効果的であるのはなぜ?(分布仮説とは?)
text-aware なタスク(STVQA, OCR-VQA, TextOCR, TextVQA, TextCaps, DocVQA, InfographicsVQA など)でどのような効果があるのか興味
レンダリングする際のフォントやテキストサイズ、レイアウトなどがどのような影響を与えるのか?
シーンテキストが読めるようになるのか?
Comments