Study Record/AI Data Science

1. IQR(Interquartile Range) 방법- IQR = 데이터의 1사분위수(Q1)와 3사분위수(Q3) 사이의 범위- 이상치 = IQR을 벗어나는 값 = Q1−1.5×IQR 아래 or Q3+1.5×IQR 위인 값 2. Z-Score 방법- Z = ( x - 평균 ) / 표준편차- Z-Score = 데이터가 평균으로부터 얼마나 떨어져 있는지를 표준 편차 단위로 나타낸 방법- 이상치 = Z-Score가 +3 위 or -3 아래인 값 3. Box Plot 분석- Box Plot = 데이터의 중앙값, 사분위수, 이상치를 시각적으로 표현한 그래프- 이상치 = 그래프에서 동그란 점들 4. Scatter Plot 분석- 두 개의 연속형 변수를 시각화한 산점도를 통해 이상치 찾기- 이상치 = 대부분의 데이터..
1. Accuracy- 전체 샘플 중 올바르게 예측된 샘플의 비율- 데이터가 균형적인 경우에 유용 2. Precision- 양성으로 예측한 샘플 중 실제 양성인 비율- 위양성(FN)이 중요한 경우에 유용, 즉 음성을 양성으로 잘못 예측했을 때 큰 문제가 되는 경우. 3. Recall- 실제 양성인 샘플 중 모델이 올바르게 양성을 예측한 비율- 위음성(FN)이 중요한 경우에 유용, 즉 실제 양성을 찾아내지 못했을 때 큰 문제가 되는 경우. 4. F1-Score- Precision과 Recall의 조화 평균- 모델이 양성을 잘 찾아내면서도, 음성을 양성으로 잘못 예측하는 것을 최소화하고 싶을 때 적합. 5. AUC- ROC 아래 면적. 0.5 ~ 1 사이값- 1에 가까울수록 좋음- 모델이 양성과 음성을 얼마..
0. 클래스 불균형 문제란?- 분류 문제에서 다수 클래스와 소수 클래스 간의 데이터 샘플 수가 매우 차이나는 상황을 의미- 모델이 다수 클래스에 편향 학습되기 쉬움 = 소수 클래스 정보 무시  이를 해결하기 위해 1. 샘플링 기법 1) 오버샘플링- 소수 클래스의 샘플 수를 인위적으로 늘리는 방법- 단점: 과적합 위험 (1) SMOTE (스모트)- 소수 클래스의 각 샘플과 그 샘플의 가까운 이웃 중 하나를 선택하여 두 샘플 사이의 벡터 차이를 계산 후, 그 차이의 일정 비율 만큼 떨어진 지점에 새로운 샘플 생성.- 장점: 데이터의 다양성 확보 가능. (2) ADASYN (애다신)- 스모트의 변형 기법. 소수 클래스 중에서도 분포가 밀집되지 않은 데이터를 더 많이 생성함.- 장점: 소수 클래스에서 더 예측이..
1. 그리드 탐색- 모든 조합 탐색- 장점: 모든 조합을 시도하기에 최적의 값 거의 항상 찾음- 단점: 시간 오래 걸림. 계산 비용 어마어마. 2. 랜덤 탐색- 무작위 조합 시도 (모든 조합 x)- 장점: 그리드보다 적은 시간 소요. = 효율적 탐색- 단점: 최적의 값 찾지 못할 수도 있음 3. 베이지안 최적화- 이전에 시도한 조합의 결과를 기반으로, 새로운 하이퍼파라미터 값 확률적 추천- 장점: 더 적은 시도로 최적의 값 찾을 수 있음- 단점: 구현 복잡. 더 많은 계산 리소스 필요할 수도. 4. 진화 알고리즘- 초기 하이퍼파라미터 값에서 시작. 교배 및 돌연변이를 통해 하이퍼파라미터 값을 진화시킴.- 장점: 자동으로 최적의 값 찾아가며 여러 변형 시도 가능- 단점: 계산 시간 오래 걸릴 수도.
롤 데이터 분석 연구의 일환으로 공부한 내용 정리 1. Size - 150 is an optimal size for a human group - 280 is the average size of acquaintance networks in U.S. 2. Density - the number of connections in the network - it is a key attribute of a network and should always be included as a covariate in analyses testing the effects of other structural properties -> because there is an inverse relationship between size and ..
1. 로그1) 자연로그(ln): 밑이 e2) 상용로그: 밑이 10*e = 약 2.718 2. 로그 변환 효과1) 데이터 스케일 축소- e.g., [1, 10, 100, 1000] -> [0, 1, 2, 3]- 곱하기 10의 곱셈 관계를 -> 더하기 1의 덧셈 관계로 변환- 데이터 분포를 균등하게 만들어줌  3. 로짓 변환 효과 1) 확률(p): 0 ~ 1 2) 오즈(Odds): -  p / (1 - p)- 확률을 오즈로 바꾸는 것 = 그 일이 일어날 가능성과 일어나지 않을 가능성을 비교하는 것- e.g., 앞면이 나올 확률이 0.5일 때 오즈는 0.5 / (1 - 0.5) = 1. 즉, 일어날 가능성과 일어나지 않을 가능성이 동일하다고 해석. - odds는 0 ~ +무한대 값을 가짐- e.g., p = ..
Task-oriented dialogue systems 1. Ontology1) intent -> call을 할 수 있는 하나의 함수의 mapping2) slot -> intent를 수행하기 위한 attribute = 함수 파라미터3) slot value -> 함수 인자4) service -> a category of related intents5) domain -> a category of knowledge or activity or services*domain과 service를 구분하지 않는 경우도 있음 2. FrameworkNLU(Natural Language Understanding-> DST(Dialogue State Tracking)-> DP (Dialogue Policy)-> NLG (Nat..
서울대 조요한 교수님 Conversational AI 13강 정리 inconsistency of dialogue systems를 해결하기 위해persona-grounded dialogue systems!!= agent에게 캐릭터 부여 *Persona1) Background facts or profiles2) personality traits3) Linguistic behavior4) interaction style-> persona는 다양한 측면에서 나타날 수 있다. 1. Background Facts 1) dataset - personaChat2) ranking models (1) Ranking Profile Memory Network-> ranking loss 사용 (true response scor..
ChatGPT api 사용료는 모델 응답 뿐만 아니라 프롬프트에서도 나간다!프롬프트 글자수도 고려해야 함 개체명 인식 = NER 위키피디아 api 이용한 knowledge grounded 챗봇 -> 엄청 유용한 듯 ChatGPT as an Annotator 학습은 gpu에 해야 되지만inference는 cpu에서도 충분히 돌아감-> 처음 알았다...!
서울대 조요한 교수님 Conversational AI 12강 정리 외부 knowledge에 grounding 시키기! 1. Knowledge in Text knowledge finetuning wizard of wikipedia - chit-chat dataset -> 되게 많이 쓰임 1) end-to-end generative model[질문] loss 계산에서 보통 람다값을 몇으로 설정하나요? response loss랑 knowledge loss 중 무엇에 비중을 더 두는지 2) two-stage generative model end-to-end보다 성능 좋았다! knowledge dropout이 성능 더 높였다 knowledge incorporation != human liking 2. Knowle..
서울대 조요한 교수님 Conversational AI 10강 정리 1. ChatGPT기존 instructGPT 학습 방식이랑 비슷한데이걸 전부 대화 데이터 형태로SFT(supervised fine tuned model) + RM(Reward model) -------11강 정리 grounding = dialogue system이 내부 지식만을 이용하는 게 아니라 외부 지식을 이용해서 액션을 취하도록 하는 것. 이번 강의는 tool로 grounding 하는 방법 알아보기 1. Fine-tuning- fine-tune a LM on data that teach how to use external tools while generating a response- each instance specifies1) a ..
서울대 조요한 교수님 Conversational AI 9강 정리 1. DialoGPT2020년 개발GPT-2를 conversational data에 학습no fine-tuning 1) pre-training 데이터셋 = reddit 데이터 속 (post + comment + comment의 comment)를 하나의 dialogue로 간주 2) Inference(1) Greedy Decoding = 가장 확률 높은 애 내뱉는-> 문제점: 앞쪽 단어 등장 확률이 낮으면 전체적으로 좋은 response임에도 불구하고 output으로 나올 수 없음(2) Beam Search = after each decoding step, keep at most K (partial) responses with the highe..
Sungyeon Kim
'Study Record/AI Data Science' 카테고리의 글 목록