Luo+'22 - Choose Your QA Model Wisely: A Systematic Study of Generative and Extractive Readers for Question Answering
https://arxiv.org/abs/2110.06393
1. どんなもの?
- QA タスクで用いられる reader において生成型・抽出型の比較。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
抽出型 Reader
- 質問・文書のトークンを入力とし、解答のスパンを抽出する。二層の線形層を用いる。
- 二種類のモデルを使用:
生成型 Reader
- 解答を直接生成。推論時は貪欲探索。
4. どうやって有効だと検証した?
評価データと文書長ヒストグラム
その他の実験設定
- 4.3 節 / Appendix.B に実験設定あり。
- 入力形式:
- 抽出型 reader:
{Q [SEP] C}
- 生成型 reader:
{question: Q [SEP] context: C}
- 抽出型 reader:
- 生成モデルにおける max_length は 16(性能差はほとんどない)
文書長に対する効果
- seq_max_length を 512 で学習、推論時は表にある三種類。ドメイン内外において、それぞれの平均値を記載(Tab.10-12 に詳細あり)。
アーキテクチャ比較
抽出型 reader 同士の比較:E-Extractive v.s. ED-Extractive
- 抽出型 reader においては、decoder がほとんど性能に寄与しない。BART では不要、T5 では若干の性能改善があるが、モデルパラメータ数を鑑みると不要っぽい。
Enc-Dec における抽出型・生成型の比較:ED-Extractive v.s. ED-Generative
- モデルパラメータサイズは同等。single-task / multi-task (OOD) における BART を除いて、生成型モデルが良い性能。
E-Extractive v.s. ED-Generative
- T5 では生成型モデルが優勢(抽出型モデルはパラメータ数が少ない)。一方で BART では抽出型モデルが優勢。
モデル比較 (WIP)
入力長 (WIP)
低頻度語
- 低頻度語に対しては抽出型 reader が効果的。生成型モデルを使用する場合は、Answer Post-Processing が必要になりそう。
- 特に T5 では低頻度語が
<unk>
になってしまうことが性能悪化の原因。
5. 議論はある?
- T5, BART の生成型・抽出型における性能差は、事前学習タスクに依存している?
- 各モデルの解答傾向(アンサンブルの結果)が気になる。
- T5 の
<unk>
問題については、拡張法(第二回 AI 王で ICS Lab. チームがやっていたようなトークナイズにおける複数パターンのトークンを用いる工夫が有効そう) - Zhu+'21 - Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering では、抽出型 reader をさらに二つのタイプで分類している(検索した関連文書を独立・共同で処理)。
6. 次に読むべき論文は?
Cheng+'21 - UnitedQA: A Hybrid Approach for Open Domain Question Answering (ACL/IJCNLP) [ACL Anthology][arXiv]
Zhu+'21 - Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering
Ni+'21 - Large Dual Encoders Are Generalizable Retrievers [arXiv]
Izacard+'20 - Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (EACL) [ACL Anthology][arXiv][GitHub]