데이터 블로그 챌린지 Day 5

운동을 하지 말아야 하는 이유

5-1.jpeg 5-2.jpeg

결론

적은 데이터는 현실과 동 떨어진 결과가 나오게 된다. 농담조로 글을 작성하였지만 데이터를 가지고 유의미한 결과를 도출해도 데이터의 양이 충분한지, 상관 관계를 인과 관계로 잘못 해석하지 않았는지 등을 고려해야한다는 것을 적고 싶었다.

데이터 셋

직업 향년
러닝머신 발명가 54세
Gym 발명가 57세
세계 보디빌딩 챔피언 41세
마라도나(축구선수) 60세
KFC 발명가 94세
누텔라 브랜드 발명가 88세
윈스턴(담배 제조사) 102세
아편 발명가 116세
헤네시 코낙 발명가 98세

데이터 분석 결과

건강하다는 일 을 할수록 수명이 짧다.

건강하지 않다는 일 을 할수록 수명이 길다.

적은 데이터의 문제점

위 데이터처럼 소규모로 데이터를 모을 경우 현실을 반영하지 못하는 결과가 도출되곤한다. 저 데이터가 실제로 일어난 사실을 왜곡해서 적은 것은 아니지만 데이터의 양이 충분하지 않다면 현실을 반영하지 못한다.

적은 데이터의 문제는 크게 4가지 문제를 발생시킨다.

  1. 이상치(Outliers) - 이상치는 data set 에서 크게 벗어나는 표본이다.
  2. 오버피팅(Overfitting) - 모델이 training set 일 때는 잘 동작하지만, test set 일 때는 성능이 좋지 않다.
  3. Sampling Bias - dataset 이 현실을 반영하지 못하다.
  4. Missing Values - 샘플이 완전하지 않아 일부 feature 가 누락될 수 있다.

해결 방안

Andrew Ng suggests that the best solution to overfitting is getting more data and using regularization.

앤드류 응은 overfitting 을 해결하는 가장 좋은 방법으로 더 많은 데이터를 얻고 정규화를 사용하는 것이라고 제안한다.

아주 간단하다. 데이터를 골고루 늘리면 된다. 그럼 대체로 운동을 할수록 수명이 길며 건강 관리를 하지 않을수록 수명이 짧다는 결과가 나올 것이다.

참고 1: Is a Small Dataset Risky?

참고 2: How to deal with underfitting and overfitting in deep learning


실용주의 프로그래머 Topic 46

Topic 46 불가능한 퍼즐 풀기

데이터 블로그 챌린지 Day 6

데이터 두 가지 접근법 및 수리 모델의 역할

NCloud LB & SourcePipeline 구축하기
tech collection 서비스 성능 개선하기
Selenium 복권 구매 자동화 만들어보기
디자인 패턴
책 리뷰
블로그 챌린지