최근 LLM 모델

2024. 4. 1. 19:48·Paper Review

1. Bloom (2022)

1) 오픈소스

2) 176B parameters

3) decoder-only Transformer

4) trained on the ROOTS corpus 

 

2. OPT (2022)

1) 오픈소스

2) a suite of decoder-only pre-trained transformers

3) 125M ~ 175M parameters

4 OPT-175B is comparable to GPT-3, while requiring only 1/7th the carbon footprint

 

3. Mistral 7B (2023)

1) 7B parameters

2) Llama 1, 2 이김

3) transformer based

4) grouped-query attention (GQA)

5) sliding window attention (SWA)

 

4. DeciLM 6B (2023)

1) 오픈소스

2) 5.7B parameters

3) decoder-only transformer

4) grouped-query attention (GQA)

4) Llama 2-7B 이김

 

5. Baichuan 2 (2023)

1) large-scale multilingual 

2) 7B, 13B

 

6. GLM (2023)

1) 오픈소스

2) bilingual (English, Chinese)

3) 130B

4) GPT-3 이김

 

7) Rhea-72b

1) 오픈소스

2) 72B

3) Self-Generated Dataset Creation Method (SGD): 생성된 문장이 정답 문장과 다르면 추가

4) 지금 huggingface llm leaerboard 1위

5) transformer based

 

 

'Paper Review' 카테고리의 다른 글
  • A survey on Text-to-SQL Parsing
  • LLMs in Chemistry
  • Dual emotion based fake news detection: A deep attention-weight update approach
  • [PAPER REVIEW 231231] Bi-sense Emoji Embedding
Sungyeon Kim
Sungyeon Kim
goldstaryeon@sookmyung.ac.kr
Sungyeon Kim
Sungyeon Kim
Sungyeon Kim
전체
오늘
어제
  • 분류 전체보기 (612) N
    • Paper Review (30)
    • Research Record (9)
    • Study Record (143)
      • Cybersecurity (79)
      • AI Data Science (28)
      • Computer Science (24)
      • Linear Algebra (6)
      • SQL (5)
      • LaTeX (1)
    • English Transcription (257) N
    • 한글 필사 (97) N
    • 날것 그대로의 생각들 (72)

인기 글

최근 댓글

최근 글

hELLO· Designed By정상우.v4.5.3
Sungyeon Kim
최근 LLM 모델
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.