catshun’s blog

Luo+'22 - Choose Your QA Model Wisely: A Systematic Study of Generative and Extractive Readers for Question Answering

https://arxiv.org/abs/2110.06393

1. どんなもの？

QA タスクで用いられる reader において生成型・抽出型の比較。

2. 先行研究と比べてどこがすごい？

システマチックな比較としては初の試み（アーキテクチャの違いやパラメータ数の違いから比較が困難であった）

3. 技術や手法のキモはどこ？

f:id:catshun:20220318210828p:plain

抽出型 Reader

質問・文書のトークンを入力とし、解答のスパンを抽出する。二層の線形層を用いる。
二種類のモデルを使用：
- E-Extractive reader：エンコーダのみで構成。RoBERTa, ELECTRA, T5, BART を使用。
- ED-Extractive reader：エンコーダ・デコーダで構成。デコーダは各トークン表現を回帰的に出力する。T5, BART を使用。

生成型 Reader

解答を直接生成。推論時は貪欲探索。

4. どうやって有効だと検証した？

評価データと文書長ヒストグラム

MRQA ベンチマーク：様々なドメインデータ。マルチホップもある。

その他の実験設定

4.3 節 / Appendix.B に実験設定あり。
入力形式：
- 抽出型 reader：{Q [SEP] C}
- 生成型 reader：{question: Q [SEP] context: C}
生成モデルにおける max_length は 16（性能差はほとんどない）

文書長に対する効果

seq_max_length を 512 で学習、推論時は表にある三種類。ドメイン内外において、それぞれの平均値を記載（Tab.10-12 に詳細あり）。
- (1) 推論長 512 の場合：ELECTRA が最適（single task: ドメイン内、multi-task: 両ドメイン）
- (2) 全ての場合において、文書長が長いほど良い性能
- (3) T5 は文書長に影響しやすい。

アーキテクチャ比較

抽出型 reader 同士の比較：E-Extractive v.s. ED-Extractive

抽出型 reader においては、decoder がほとんど性能に寄与しない。BART では不要、T5 では若干の性能改善があるが、モデルパラメータ数を鑑みると不要っぽい。

Enc-Dec における抽出型・生成型の比較：ED-Extractive v.s. ED-Generative

モデルパラメータサイズは同等。single-task / multi-task (OOD) における BART を除いて、生成型モデルが良い性能。

E-Extractive v.s. ED-Generative

T5 では生成型モデルが優勢（抽出型モデルはパラメータ数が少ない）。一方で BART では抽出型モデルが優勢。

モデル比較 (WIP)

f:id:catshun:20220318221539p:plain

入力長 (WIP)

f:id:catshun:20220318221939p:plain

低頻度語

低頻度語に対しては抽出型 reader が効果的。生成型モデルを使用する場合は、Answer Post-Processing が必要になりそう。
特に T5 では低頻度語が <unk> になってしまうことが性能悪化の原因。

5. 議論はある？

T5, BART の生成型・抽出型における性能差は、事前学習タスクに依存している？
各モデルの解答傾向（アンサンブルの結果）が気になる。
T5 の <unk> 問題については、拡張法（第二回 AI 王で ICS Lab. チームがやっていたようなトークナイズにおける複数パターンのトークンを用いる工夫が有効そう）
Zhu+'21 - Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering では、抽出型 reader をさらに二つのタイプで分類している（検索した関連文書を独立・共同で処理）。

6. 次に読むべき論文は？

Cheng+'21 - UnitedQA: A Hybrid Approach for Open Domain Question Answering (ACL/IJCNLP) [ACL Anthology][arXiv]
Zhu+'21 - Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering
Ni+'21 - Large Dual Encoders Are Generalizable Retrievers [arXiv]
Izacard+'20 - Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (EACL) [ACL Anthology][arXiv][GitHub]