catshun’s blog

Oguz+'22 - UniK-QA: Unified Representations of Structured and Unstructured Knowledge for Open-Domain Question Answering (NAACL-HLT)

1. どんなもの？

オープンドメイン質問応答において、様々な知識ソース（テキスト、表、リスト、KB）を扱うための統合手法を提案。
KBQA タスクで大幅な性能改善、NQ・WebQuestions で SoTA を達成。

2. 先行研究と比べてどこがすごい？

先行研究では (1) 構造化知識ベースを用いた KBQA、および (2) テキストベースにおけるオープンドメイン質問応答タスク TextQA を別タスクとすることが一般的。テキストを知識グラフに組み込む手法 (Sun+'18; Lu+'19)も研究されているが、性能はあまり良くない。
本研究では、複数のサブシステムを保有したり、テキストを知識グラフに組み込んだりするのではなく、構造データをテキスト形式に変換することで構造化データを Transformer を用いた retriever-reader (DPR-FiD) 型システムで扱えるようにする。
- テキストやリストから構成される 27M の文書 + 456K の Wikipedia テーブル + Freebase および Wikidata から取得される 3B の知識ベース

3. 技術や手法のキモはどこ？

3.1. UniK-QA

retriever-reader (DPR-FiD) システムを使用
- DPR 学習時は、Xiong+'21 のようにハード負例を学習ステップごとに選択する
- FiD では T5-large を用い、100 文書から解答を生成する

3.2. 知識ベースの統合

RDF triple を [subj] [pred] [obj] の形で変換する
- ~~template-based linearization~~：数十万種類の関係に対してテンプレートを用意するのは高コスト
- ~~model-based linearization~~：学習コストが加算 + 検索の再現性が低くなる
数十億単位の KB 全体をインデックス化することを回避するために、関係の検索を二段階で実装：
- (1) entity linking システム（Freebase: Yih+'15, Wikidata: Li+'20）を用いて、各質問に対して検索されたエンティティの high-recall 2-hop neighborhood を絞り込み (2) DPR を用いて更に検索。

3.3. リスト・テーブルの統合

リストについては、単にテキスト文書の一部として保持（することで検索性能が向上）
テーブル（表+info-boxes）は NQ データが取得したものを使用し、入れ子テーブルは独立単位に抽出、また一行の表および service 表を除去。
テーブルは以下二種類でテキスト化：
- (1) template-like encoding (Chen+'20):
- (2) 同じ行のセル値をカンマで連結、複数行を改行で連結（100 トークンのチャンクに分割し、各チャンクにヘッダを含める）
- ~~Yin+'20~~; Chen+'20

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？