Aug. 29, 2022
PLM 이용 성능 굿
but, there are differences between the distribution of tables and plain texts.
therefore, PLM을 바로 T2S task에 fintuning 하는 것은 성능이 좋지 않음
위 문제점을 개선하기 위해
Tabular Language Models(TaLMs)을 build
table과 text를 동시에 encoding하는 모델
PLM보다 성능이 좋았다 함
e.g.
1) TaBERT: MLM, masked column prediction(MCP) 이용해서 training
2) TaPas: extend BERT by additional positional embedding + adding two classification layers to choose table cells
3) Grappa: grammar augmented pre-training framework / SOTA 달성
TaLM을 pre-train 하기 위한 data construction에서
table 데이터 수집은 쉬움
but, NL questions과 table에 corresponding한 SQL query 모으기가 어려움
[Limitation]
1.
WikiSQL - simple question-SQL pairs, single table을 사용
Spider - complicated SQL query and databases with multiple tables을 사용했지만, 샘플 수가 겁나 적음
* how to construct T2S corpora with high quality, large-scale quantity and high diversity is essential
2.
현재까지 T2S에 사용된 table들은 행, 열의 수가 고작 10개 이하
but, 실무 데이터는 행, 열이 몇 천개
* how to encode a long sequence of table scemas is crucial
3.
most T2S models first convert the 2D table into the linearized 1-D sequence
-> cannot capture the structural information of 2D tables
*how to effectively encode the structural information of tabular data
4.
High performance requires robust performance on noisy inputs
e.g. Spider-SYN's synonym substitution
*stabilizing the T2S models by making them more robust to different perturbations is necessary