Xu+'22 - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval (ACL)
https://arxiv.org/abs/2203.06169)
1. どんなもの?
- 教師なし事前学習によるテキスト検索モデル LaPraDoR (Large-scale Pretrained Dense Zero-shot Retriever) の提案。BEIR ベンチマークにおいて SoTA を達成。
2. 先行研究と比べてどこがすごい?
Training Efficiency
- 負例数が多いほど高い検索性能を示すことが一般的に知られているが、本研究ではバッチサイズを大きくする代わりにキャッシュを用いた Iterative Contrastive Learning (ICoL) を提案
Versatility
3. 技術や手法のキモはどこ?
正例の作成
- Inverse Cloze Task (Lee+'19): 文書からランダムに選択した文をクエリとして、その他の文を正例とみなす。クロスモダリティに対して使用し、負例はキャッシュされたキューからサンプルしたものを使用する。
- Dropout as Positive Instance (Gao+'21): 同一文に対して異なる drop mask を適用した二つの出力を正例とみなす。同一モダリティに対して使用し、負例はランダムサンプルしたものを使用する。
Iterative Contrastive Learning
- クエリエンコーダの学習(文書エンコーダは凍結):
- query-to-query ():正例は異なる drop mask を適用した文、負例はランダムにサンプルした文を使用。
- query-to-document ():正例は ICT により作成された文書、負例はキャッシュされたキューに含まれている文書からサンプルした文書を使用。
- 文書エンコーダの学習(クエリエンコーダは凍結):
- document-to-document ():正例は異なる drop mask を適用した文、負例はランダムにサンプルした文を使用。
- document-to-query ():正例は ICT により作成された文書、負例はキャッシュされたキューに含まれている文書からサンプルした文書を使用。
- 負例にはインバッチネガティブを使用する。
- クエリエンコーダの学習(文書エンコーダは凍結):
キャッシュ
Lexical-Enhanced Dense Retrieval
- 推論時に Dense Retrieval の類似度と BM25 のスコア値(q∩d のトークンに対する総和)の積を最終スコアとして使用。
- Dense Retrieval で難しいとされていた汎化性について、BM25 を使用することで補完する。
4. どうやって有効だと検証した?
- モデル:BERT を用いた Bi-Encoder
Contrastive Strategies
Lexicon-Enhanced Dense Retrieval
Unsupervised Methods
5. 議論はある?
- ICT を使用しているので、エンコーダ間のパラメータ共有が有効かも?
- 同一モダリティに対する NCE については、様々な手法が考えられそう
- Huang+'21 - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models (NAACL) [ACL Anthology]
- サンプリング方法がランダムなので、改善の余地あり
- キャッシュを用いた負例の使用、様々なモダリティ間のマッチング、これらの話は詳細なマッチングを使用するモデルでも応用できそう。
- LEDR についても改善の余地あり(第二回 AI 王の一位解法のクロスエンコーダによるリランキングなども使用できそう)
6. 次に読むべき論文は?
Inverse Cloze Task
- Lee+'19 - Latent Retrieval for Weakly Supervised Open Domain Question Answering (ACL) [ACL Anthology][[arXiv]
- Chang+'20 - Pre-training tasks for embedding-based large-scale retrieval (ICLR) [arXiv]
Dropout as Positive Instance
- Gao+'21 - SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP) [ACL Anthology][arXiv]
他
- Izacard+'21 - Contriever: Towards Unsupervised Dense Information Retrieval with Contrastive Learning [arXiv]