Xu+'22 - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval (ACL)

https://arxiv.org/abs/2203.06169)

1. どんなもの?

  • 教師なし事前学習によるテキスト検索モデル LaPraDoR (Large-scale Pretrained Dense Zero-shot Retriever) の提案。BEIR ベンチマークにおいて SoTA を達成。

2. 先行研究と比べてどこがすごい?

  • Training Efficiency

    • 負例数が多いほど高い検索性能を示すことが一般的に知られているが、本研究ではバッチサイズを大きくする代わりにキャッシュを用いた Iterative Contrastive Learning (ICoL) を提案
  • Versatility

    • マルチドメインの C4 を用いて学習
    • 汎化性を高めるため、クエリ→文書 だけでなく、[tex: 22] パターンの検索を組み合わせる
    • BM25 を密検索と結びつけるための Lexicon-Enhanced Dense Retrieval (LEDR) を提案。

3. 技術や手法のキモはどこ?

  • 正例の作成

    • Inverse Cloze Task (Lee+'19): 文書からランダムに選択した文をクエリとして、その他の文を正例とみなす。クロスモダリティに対して使用し、負例はキャッシュされたキューからサンプルしたものを使用する。
    • Dropout as Positive Instance (Gao+'21): 同一文に対して異なる drop mask を適用した二つの出力を正例とみなす。同一モダリティに対して使用し、負例はランダムサンプルしたものを使用する。

  • Iterative Contrastive Learning f:id:catshun:20220317193948p:plain

    • クエリエンコーダの学習(文書エンコーダは凍結):
      • query-to-query ( \mathcal{L_{qq}}):正例は異なる drop mask を適用した文、負例はランダムにサンプルした文を使用。 f:id:catshun:20220317194502p:plain
      • query-to-document ( \mathcal{L_{qd}}):正例は ICT により作成された文書、負例はキャッシュされたキューに含まれている文書からサンプルした文書を使用。
    • 文書エンコーダの学習(クエリエンコーダは凍結):
      • document-to-document ( \mathcal{L_{dd}}):正例は異なる drop mask を適用した文、負例はランダムにサンプルした文を使用。
      • document-to-query ( \mathcal{L_{dq}}):正例は ICT により作成された文書、負例はキャッシュされたキューに含まれている文書からサンプルした文書を使用。
    • 負例にはインバッチネガティブを使用する。

  • キャッシュ

    • Wu+'18 に基づき、GPU 間で共有されるキューを使用。
    • キューに格納されるモダリティは凍結されたエンコーダを使用するため勾配を必要としない。

  • Lexical-Enhanced Dense Retrieval

    • 推論時に Dense Retrieval の類似度と BM25 のスコア値(q∩d のトークンに対する総和)の積を最終スコアとして使用。
    • Dense Retrieval で難しいとされていた汎化性について、BM25 を使用することで補完する。

4. どうやって有効だと検証した?

  • モデル:BERT を用いた Bi-Encoder

f:id:catshun:20220317202348p:plain

Contrastive Strategies

f:id:catshun:20220317202038p:plain

Lexicon-Enhanced Dense Retrieval

f:id:catshun:20220317202304p:plain

Unsupervised Methods

f:id:catshun:20220317202231p:plain

5. 議論はある?

  • ICT を使用しているので、エンコーダ間のパラメータ共有が有効かも?
  • 同一モダリティに対する NCE については、様々な手法が考えられそう
    • Huang+'21 - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models (NAACL) [ACL Anthology]
  • サンプリング方法がランダムなので、改善の余地あり
  • キャッシュを用いた負例の使用、様々なモダリティ間のマッチング、これらの話は詳細なマッチングを使用するモデルでも応用できそう。
  • LEDR についても改善の余地あり(第二回 AI 王の一位解法のクロスエンコーダによるリランキングなども使用できそう)

6. 次に読むべき論文は?