Luo+'22 - Choose Your QA Model Wisely: A Systematic Study of Generative and Extractive Readers for Question Answering

https://arxiv.org/abs/2110.06393

1. どんなもの?

  • QA タスクで用いられる reader において生成型・抽出型の比較。

2. 先行研究と比べてどこがすごい?

  • ステマチックな比較としては初の試み(アーキテクチャの違いやパラメータ数の違いから比較が困難であった)

3. 技術や手法のキモはどこ?

f:id:catshun:20220318210828p:plain

抽出型 Reader

  • 質問・文書のトークンを入力とし、解答のスパンを抽出する。二層の線形層を用いる。 f:id:catshun:20220318204957p:plain
  • 二種類のモデルを使用:
    • E-Extractive reader:エンコーダのみで構成。RoBERTa, ELECTRA, T5, BART を使用。
    • ED-Extractive reader:エンコーダ・デコーダで構成。デコーダは各トークン表現を回帰的に出力する。T5, BART を使用。

生成型 Reader

  • 解答を直接生成。推論時は貪欲探索。 f:id:catshun:20220318210222p:plain

4. どうやって有効だと検証した?

評価データと文書長ヒストグラム

その他の実験設定

  • 4.3 節 / Appendix.B に実験設定あり。
  • 入力形式:
    • 抽出型 reader:{Q [SEP] C}
    • 生成型 reader:{question: Q [SEP] context: C} f:id:catshun:20220318213345p:plain
  • 生成モデルにおける max_length は 16(性能差はほとんどない) f:id:catshun:20220318213630p:plain

文書長に対する効果

  • seq_max_length を 512 で学習、推論時は表にある三種類。ドメイン内外において、それぞれの平均値を記載(Tab.10-12 に詳細あり)。
    • (1) 推論長 512 の場合:ELECTRA が最適(single task: ドメイン内、multi-task: 両ドメイン
    • (2) 全ての場合において、文書長が長いほど良い性能
    • (3) T5 は文書長に影響しやすい。 f:id:catshun:20220318211407p:plain

アーキテクチャ比較

抽出型 reader 同士の比較:E-Extractive v.s. ED-Extractive

  • 抽出型 reader においては、decoder がほとんど性能に寄与しない。BART では不要、T5 では若干の性能改善があるが、モデルパラメータ数を鑑みると不要っぽい。 f:id:catshun:20220318214937p:plain

Enc-Dec における抽出型・生成型の比較:ED-Extractive v.s. ED-Generative

  • モデルパラメータサイズは同等。single-task / multi-task (OOD) における BART を除いて、生成型モデルが良い性能。 f:id:catshun:20220318215858p:plain

E-Extractive v.s. ED-Generative

  • T5 では生成型モデルが優勢(抽出型モデルはパラメータ数が少ない)。一方で BART では抽出型モデルが優勢。 f:id:catshun:20220318220626p:plain

モデル比較 (WIP)

f:id:catshun:20220318221539p:plain

入力長 (WIP)

f:id:catshun:20220318221939p:plain

低頻度語

  • 低頻度語に対しては抽出型 reader が効果的。生成型モデルを使用する場合は、Answer Post-Processing が必要になりそう。
  • 特に T5 では低頻度語が <unk> になってしまうことが性能悪化の原因。 f:id:catshun:20220318223331p:plain

5. 議論はある?

  • T5, BART の生成型・抽出型における性能差は、事前学習タスクに依存している?
  • 各モデルの解答傾向(アンサンブルの結果)が気になる。
  • T5 の <unk> 問題については、拡張法(第二回 AI 王で ICS Lab. チームがやっていたようなトークナイズにおける複数パターンのトークンを用いる工夫が有効そう)
  • Zhu+'21 - Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering では、抽出型 reader をさらに二つのタイプで分類している(検索した関連文書を独立・共同で処理)。

6. 次に読むべき論文は?