A survey on Text-to-SQL Parsing

2024. 5. 2. 18:41·Paper Review

Aug. 29, 2022

PLM 이용 성능 굿
but, there are differences between the distribution of tables and plain texts.
therefore, PLM을 바로 T2S task에 fintuning 하는 것은 성능이 좋지 않음

위 문제점을 개선하기 위해
Tabular Language Models(TaLMs)을 build
table과 text를 동시에 encoding하는 모델
PLM보다 성능이 좋았다 함
e.g.
1) TaBERT: MLM, masked column prediction(MCP) 이용해서 training
2) TaPas: extend BERT by additional positional embedding + adding two classification layers to choose table cells
3) Grappa: grammar augmented pre-training framework / SOTA 달성

TaLM을 pre-train 하기 위한 data construction에서
table 데이터 수집은 쉬움
but, NL questions과 table에 corresponding한 SQL query 모으기가 어려움


[Limitation]

1.
WikiSQL - simple question-SQL pairs, single table을 사용
Spider - complicated SQL query and databases with multiple tables을 사용했지만, 샘플 수가 겁나 적음
* how to construct T2S corpora with high quality, large-scale quantity and high diversity is essential

2.
현재까지 T2S에 사용된 table들은 행, 열의 수가 고작 10개 이하
but, 실무 데이터는 행, 열이 몇 천개
* how to encode a long sequence of table scemas is crucial

3.
most T2S models first convert the 2D table into the linearized 1-D sequence
-> cannot capture the structural information of 2D tables
*how to effectively encode the structural information of tabular data

4.
High performance requires robust performance on noisy inputs
e.g. Spider-SYN's synonym substitution
*stabilizing the T2S models by making them more robust to different perturbations is necessary

'Paper Review' 카테고리의 다른 글
  • [PAPER] Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
  • [PAPER] A decoder-only foundation model for time-series forecasting
  • LLMs in Chemistry
  • 최근 LLM 모델
Sungyeon Kim
Sungyeon Kim
goldstaryeon@sookmyung.ac.kr
Sungyeon Kim
Sungyeon Kim
Sungyeon Kim
전체
오늘
어제
  • 분류 전체보기 (608) N
    • Paper Review (30)
    • Research Record (9)
    • Study Record (143)
      • Cybersecurity (79)
      • AI Data Science (28)
      • Computer Science (24)
      • Linear Algebra (6)
      • SQL (5)
      • LaTeX (1)
    • English Transcription (256)
    • 한글 필사 (94) N
    • 날것 그대로의 생각들 (72)

인기 글

최근 댓글

최근 글

hELLO· Designed By정상우.v4.5.3
Sungyeon Kim
A survey on Text-to-SQL Parsing
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.