운동을 하지 말아야 하는 이유
결론
적은 데이터는 현실과 동 떨어진 결과가 나오게 된다. 농담조로 글을 작성하였지만 데이터를 가지고 유의미한 결과를 도출해도 데이터의 양이 충분한지, 상관 관계를 인과 관계로 잘못 해석하지 않았는지 등을 고려해야한다는 것을 적고 싶었다.
데이터 셋
직업 | 향년 |
---|---|
러닝머신 발명가 | 54세 |
Gym 발명가 | 57세 |
세계 보디빌딩 챔피언 | 41세 |
마라도나(축구선수) | 60세 |
KFC 발명가 | 94세 |
누텔라 브랜드 발명가 | 88세 |
윈스턴(담배 제조사) | 102세 |
아편 발명가 | 116세 |
헤네시 코낙 발명가 | 98세 |
데이터 분석 결과
건강하다는 일 을 할수록 수명이 짧다.
건강하지 않다는 일 을 할수록 수명이 길다.
적은 데이터의 문제점
위 데이터처럼 소규모로 데이터를 모을 경우 현실을 반영하지 못하는 결과가 도출되곤한다. 저 데이터가 실제로 일어난 사실을 왜곡해서 적은 것은 아니지만 데이터의 양이 충분하지 않다면 현실을 반영하지 못한다.
적은 데이터의 문제는 크게 4가지 문제를 발생시킨다.
- 이상치(Outliers) - 이상치는 data set 에서 크게 벗어나는 표본이다.
- 오버피팅(Overfitting) - 모델이 training set 일 때는 잘 동작하지만, test set 일 때는 성능이 좋지 않다.
- Sampling Bias - dataset 이 현실을 반영하지 못하다.
- Missing Values - 샘플이 완전하지 않아 일부 feature 가 누락될 수 있다.
해결 방안
Andrew Ng suggests that the best solution to overfitting is getting more data and using regularization.
앤드류 응은 overfitting 을 해결하는 가장 좋은 방법으로 더 많은 데이터를 얻고 정규화를 사용하는 것이라고 제안한다.
아주 간단하다. 데이터를 골고루 늘리면 된다. 그럼 대체로 운동을 할수록 수명이 길며 건강 관리를 하지 않을수록 수명이 짧다는 결과가 나올 것이다.
참고 1: Is a Small Dataset Risky?
참고 2: How to deal with underfitting and overfitting in deep learning