서울대 조요한 교수님 Conversational AI 13강 정리
inconsistency of dialogue systems
를 해결하기 위해
persona-grounded dialogue systems!!
= agent에게 캐릭터 부여
*Persona
1) Background facts or profiles
2) personality traits
3) Linguistic behavior
4) interaction style
-> persona는 다양한 측면에서 나타날 수 있다.
1. Background Facts
1) dataset - personaChat
2) ranking models
(1) Ranking Profile Memory Network
-> ranking loss 사용 (true response score, negative response score 이용해서)
(2) key-Value Profile Memory Network
persona-incorporated dialogue context랑 유사한
dialogue context를 training data 안에서 찾아서
해당 dialogue context랑 짝궁인 response pairs와 합침
-> aggregate response
얘를 candidate responses들이 유사도 구해서 하나 고르기
3) Generative Models
(1) seq2seq를 업그레이드해서 generative profile memory network 만듦
4) evaluation
persona 사용하면 모델 fluency, consistency 는 올라가지만
engagingness 는 낮아짐.
-> 답변이 persona-related topics으로 제한돼서 사람이 느끼기에 재미없다 느낌
2. Episodic Memories
- 사람의 메모리의 한 종류
- 경험에 대한 기억 (글자, 이미지로 표현)
= image-sentence pairs
이 pairs를 어떻게 dialogue에 grounding 시킬까?
1) MPChat
personaChat보다 더 많은
experience-related verb를 가짐.
made, got, found, finished
2) response ranking
3) CLIP
image-text pairs를 가져오고
text encoder (Transformer)
image encoder (ViT)를
각각 거쳐서 임베딩 구하고
대각선 내적만 score가 높게끔 학습시키기
= pair의 유사도를 높이는 방향으로
= 유사한 이미지, 텍스트 pairs는 임베딩도 유사해진다.
4) evaluation
R@1 = recall 엣 원 = hits@1
3. Personality Traits
speaker's emotion depends on their personality traits
다음 발화의 emotion을 personality traits을 이용해서 예측하자
= personality traits을 그라운딩 시키자!
1) Big Five - personality traist
(1) openness: curious, creative
(2) conscientiousness: 사려깊음
(3) extraversion: 사회성
(4) agreeableness: 친절한, 협조적
(5) Neuroticism: sad, moody, emotionally unstable
2) VAD Model - emotions
(1) Valence: pos vs neg
(2) Arousal: High intense vs low intense
(3) Dominance: in control vs controlled by
3) PELD - dataset
Personality EmotionLines Dataset
- 기존에 있는 dataset들 combine 해서 구축
emotion으로 성격 계산하는 공식
전반적인 성능은 딱히 좋지 않음
= emotion 예측이 어렵다!