1. 로그
1) 자연로그(ln): 밑이 e
2) 상용로그: 밑이 10
*e = 약 2.718
2. 로그 변환 효과
1) 데이터 스케일 축소
- e.g., [1, 10, 100, 1000] -> [0, 1, 2, 3]
- 곱하기 10의 곱셈 관계를 -> 더하기 1의 덧셈 관계로 변환
- 데이터 분포를 균등하게 만들어줌
3. 로짓 변환 효과
1) 확률(p): 0 ~ 1
2) 오즈(Odds):
- p / (1 - p)
- 확률을 오즈로 바꾸는 것 = 그 일이 일어날 가능성과 일어나지 않을 가능성을 비교하는 것
- e.g., 앞면이 나올 확률이 0.5일 때 오즈는 0.5 / (1 - 0.5) = 1. 즉, 일어날 가능성과 일어나지 않을 가능성이 동일하다고 해석.
- odds는 0 ~ +무한대 값을 가짐
- e.g., p = 0.0...01 -> odds = 0.0...01 / 0.999... ≈ 0.00..001
p = 0.999... -> odds = 0.999... / 0.0...01 = 999...
3) 로그 변환:
- 오즈에 로그 취하면, -무한대 ~ +무한대 값을 가지게 됨
- e.g., log(0.01) ≈ -4.6
log(99) ≈ 4.6
4) 요약
확률이 0 ~ 1일 때
오즈로 변환하면 0 ~ +무한대
로그를 취하면 -무한대 ~ +무한대 (실수의 모든 범위)
-> 로짓 변환은 확률 값을 더 넓은 범위로 변환한다.
-> 이는 데이터 분석과 모델링을 용이하게 만듦