catshun’s blog

Zhang+'22 - Multi-View Document Representation Learning for Open-Domain Dense Retrieval (ACL)

https://arxiv.org/abs/2203.08372

1. どんなもの？

文書を multi-view として表現する Dense Retrieval 手法を提案。SQuAD, NQ, TriviaQA における検索性能で SoTA を達成。

2. 先行研究と比べてどこがすごい？

文書を一つのベクトルで表現する従来手法に対して、文書から複数の意味表現を獲得することで、詳細な表現のアラインメントを学習。
ColBERT や PolyEncoder, DRPQ などの手法とは異なり、直接的な近傍探索が可能。

3. 技術や手法のキモはどこ？

f:id:catshun:20220317205809p:plain
f:id:catshun:20220318121635p:plain

[CLS] トークンの代わりに、ランダムに初期化された複数の [VIE] トークンを使用する。各 [VIE] トークンに対して、質問の [VIE] トークンとの内積値を計算し、その最大値を global 類似度とする。viewer の数はハイパーパラメータ。
multi-view 埋め込み空間の uniformity を改善するため、Local Uniformity Loss を提案。最大値となる [VIE] に対して近づける & その他の [VIE] に対して遠ざけるように学習を行う。
温度パラメータは以下のように設定。t は学習エポック数。

4. どうやって有効だと検証した？

f:id:catshun:20220318124013p:plain

Viewer 数

f:id:catshun:20220318124144p:plain

アブレーション

f:id:catshun:20220318124308p:plain

5. 議論はある？

Xu+'22 - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval (ACL) - catshun’s blog

6. 次に読むべき論文は？

Luan+'21 - Sparse, Dense, and Attentional Representations for Text Retrieval (TACL) [ACL Anthology][arXiv]