서울대 조요한 교수님 Conversational AI 6강 정리
1. 기존의 LM은 그저 text autocomplete에 집중
2. but, dialogue system의 목적은 text autocomplete이 아님.
3. therefore, train LM to follow instructions
1. Instruction tuning
Pretrain-finetune(BERT, T5) -> Prompting(GPT-3) -> Instruction tuning (FLAN)
2. FLAN (Finetuned Language Net)
- Backbone: Pre-trained LaMDA-137B (LaMDA-PT)
- text completion과 비슷한 task는 instruction tuning 큰 효과 없음 / 반대는 효과 좋음
- 모델 size가 68B 이하면 instruction tuning이 악영향 미침. / 68B 이상이면 큰 효과
-> 68B 이하일 때 instruction tuning하면 원래 language ability를 잃음
3. InstructGPT
1) Instruct answer pair 만들고 (사람들이 api 어떤 용도로 사용했는지 분석 / 사람이 직접 라벨링)
-> generation(45.6%), open QA(12.4%), brainstorming(11.2%) 가장 많이 사용하더라
2) train a reward model
*SFT = supervised finetuning
3) Fine-tune the SFT model using PPO (RLHF)
* PPO: reinforcement learning 개념
휴먼 피드백으로 강화 학습
[찾아보기]
PPO가 뭔지
서울대 조요한 교수님 Conversational AI 6강 정리
1. 기존의 LM은 그저 text autocomplete에 집중
2. but, dialogue system의 목적은 text autocomplete이 아님.
3. therefore, train LM to follow instructions
1. Instruction tuning
Pretrain-finetune(BERT, T5) -> Prompting(GPT-3) -> Instruction tuning (FLAN)
2. FLAN (Finetuned Language Net)
- Backbone: Pre-trained LaMDA-137B (LaMDA-PT)
- text completion과 비슷한 task는 instruction tuning 큰 효과 없음 / 반대는 효과 좋음
- 모델 size가 68B 이하면 instruction tuning이 악영향 미침. / 68B 이상이면 큰 효과
-> 68B 이하일 때 instruction tuning하면 원래 language ability를 잃음
3. InstructGPT
1) Instruct answer pair 만들고 (사람들이 api 어떤 용도로 사용했는지 분석 / 사람이 직접 라벨링)
-> generation(45.6%), open QA(12.4%), brainstorming(11.2%) 가장 많이 사용하더라
2) train a reward model
*SFT = supervised finetuning
3) Fine-tune the SFT model using PPO (RLHF)
* PPO: reinforcement learning 개념
휴먼 피드백으로 강화 학습
[찾아보기]
PPO가 뭔지