빅데이터 해커톤에서 배운 것들

2024. 7. 13. 21:34·날것 그대로의 생각들

2024.07.12. ~ 2024.07.13.

 

어제 오늘 빅데이터 해커톤에 참여하며 데이터 분석 관련해서 많은 것을 배우고 깨달았는데

또 내.. 까마귀 기억력으로 금새 까먹어버릴까봐 지금 바로 핵심만 정리해보고자 한다.

이걸 기반으로 이따가 일기에서 좀 더 구체적으로 사적인 생각 포함해가며 적을 것.

 

1. 예전에도 느꼈듯이 전체 데이터 분석 과정에서 데이터 수집과 EDA 과정은 핵심이다. 정말정말 중요하다. 

어떤 모델을 쓰느냐, 해당 모델의 알고리즘은 어떻게 구성되어 있느냐를 아는 것보다

데이터를 손수 파헤쳐 보며 숫자들을 지긋이(?) 바라보고 관계성, 큰 그림을 그릴 줄 아는 능력이 정말 필요하다.

그리고

내가 잘못 생각하고 있었던 부분이

나는 EDA 과정이 본격적인 머신러닝 모델을 가져오기 전에 데이터 분포랑 흐름을 파악하는 사전 조사 단계 쯤으로 생각을 했었는데

아니다. 절대 아니다.

머신러닝 모델을 가져오고나서도

EDA는 계속된다. -> '오류분석'

나는 머신러닝 모델의 성능이 안 좋으면 파라미터를 수정하거나, 데이터를 더 수집하거나 모델을 교체할 방법만 생각했왔었는데

멘토님께서 새로운 접근법을 알게 해주셨다.

데이터를 직접 뜯어보며 성능이 안 좋게 나오는 이유를 직접 분석하고

해석 접근법부터 바꿔보는 것.

예를 들어 회귀분석으로 해결하려던 문제를 분류 문제로 바꿔서 해석 자체를 바꾸는 접근법을 선택한다든가

-> 앞으로 혼자서 좀 여러 데이터셋을 다운받고 뜯어보는 연습을 하면 좋을 것 같다.

 

2. 잘한 부분 = 손수 데이터 만든 거

사실 밤새면서 수작업으로 데이터 만들면서도

웹스크롤링으로 함수 돌리면 훨씬 빨리 만들 수 있을텐데

웹스크롤링이 정 안되면 될 방법을 계속 찾는 게 나을 뻔 했나? 하며 오만가지 생각과 함께 데이터를 제작했었는데

멘토님과 심사위원분들은 이부분을 되게 좋게 봐주신 것 같았다.

그래서 앞으로도 어떤 데이터를 수집해야 되는데 해당 데이터 수집이 어려운 상황일 때

어제 했던 것처럼 나만의 기한을 정해두고 최대한 프로그래밍으로 데이터를 제작할 수 있는 방안을 찾아본다음

안되면 그때부터 손수 제작하기 -> 노래 들으면서... (노래 안 들으면서 하면 졸더라..)

 

3. 정성 + 정량적인 방법을 섞은 것도 좋게 봐주셨다.

이건 그냥 내가 앞으로 나아갈 융합 연구의 방향성을 구체화하면서

사회과학연구의 장점인 정성적 연구에 머신러닝의 정량적 인사이트를 섞어 나만의 독창적인 연구 방법론을 만들고 싶다라는 생각에서 출발했던 거고

실제로 적용해본 건 이번 해커톤이 처음이었는데

내 의도가 먹혔는지 교수님이 다른 팀 피드백 시 언급해주셔서 기분이 좋았다

앞으로도 정성 + 정량 접근 방법을 계속 사용해보면서

더욱 구체화해야겠다.

 

4. 나는 항상 발표 구성을 할 때 마무리를 우리가 수행한 과제의 인사이트로 마무리하는 버릇이 있었고

한계점?을 언급하는 건 깊게 생각해본 적이 없었는데

멘토님과 교수님들 덕분에 오늘 처음으로 한계점 = 개선 방향 언급의 중요성을 알게되었다.
"이런이런 부분이 부족했고 다음 과제에서 이렇게이렇게 채워나가면 좋을 것 같다"

생각해보면 논문도 항상 이렇게 끝나는데

왜 발표도 이렇게 마무리지어볼 생각은 못했던 것인지..

앞으로 까먹지 말고 가장 마지막에 언급해줘야할 것 같다.

 

5. 나는 준비 시간이 촉박한 상태로 즉석 발표를 하다보면 살짝 그룹과외? 강의?하는 마음으로 해서..

자꾸 설명이 딥하고 길어진다.

따라서 앞으로 ppt를 만들 때

급하게 발표를 해야 하는 상황이라면

최대한 ppt 장수를 줄이는 게 좋을 것 같다.

핵심을 파악해서 요약해내는 능력을 더욱 길러야 한다.

 

---

[추가]

 

6. 베이스라인 설정

7. 팀 커뮤니케이션

8. 어떤 데이터는 어떤 머신러닝 모델에 넣어야 적합한지

9. 데이터 선정의 이유 설명 명확하게

-> e.g. 시청률 데이터가 없었기 때문에 대리변수로 '좋아요 수' 를 선택

-> 위는 진짜 아쉬웠다... 시청률 데이터 이미 찾아 보고 없어서 좋아요 수 선택했던 건데 발표를 즉석으로 하다보니 언급을 까먹어버렸다... 교수님께서 '시청률을 찾아봤으면 더 좋았을 것 같다'라는 조언을 해주셨을 때도... 너무 친절하고 예쁜 미소로 다정하게 얘기해주셔서..... 나도 반박하지 못하고 "....조언 감사합니다 ㅎㅎㅎ!!!" 해버렸다.. 담에 발표할 때는 모든 설정 하나하나에 이유 설명하는 거 까먹지 말기.

 

'날것 그대로의 생각들' 카테고리의 다른 글
  • 2024.08.05.
  • 책임감
  • .
  • Work Ethic
Sungyeon Kim
Sungyeon Kim
goldstaryeon@sookmyung.ac.kr
Sungyeon Kim
Sungyeon Kim
Sungyeon Kim
전체
오늘
어제
  • 분류 전체보기 (610) N
    • Paper Review (30)
    • Research Record (9)
    • Study Record (143)
      • Cybersecurity (79)
      • AI Data Science (28)
      • Computer Science (24)
      • Linear Algebra (6)
      • SQL (5)
      • LaTeX (1)
    • English Transcription (256)
    • 한글 필사 (96) N
    • 날것 그대로의 생각들 (72)

인기 글

최근 댓글

최근 글

hELLO· Designed By정상우.v4.5.3
Sungyeon Kim
빅데이터 해커톤에서 배운 것들
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.