데이터 방

데이터 전처리 기초

임월드 2019. 6. 26. 02:46
반응형

 

어떤 데이터를 가지고 분석을 하기 전에

가장 먼저 해야 할 것이 데이터 전처리다. (data cleaning 혹은 data preprocessing)

데이터 내의 정보는 그 자체로 raw(날 것) 데이터이기 때문에 

분석에 필요하지 않은 정보가 담겨 있을 수도 있고

기록된 형식들이 통일되어 있지 않은 경우가 많다. (ex. 스타벅스/ starbucks/ STARBUCKS) 

한마디로 정리가 되어 있지 않다.

데이터 전처리를 통해 데이터를 이쁘게 가공하는 과정이 필요하다. 

 

내가 <살 찌우기 프로젝트> 분석을 진행하면서 거쳤던 

전처리를 정리해봤다. 

주피터 노트북으로 실행했고 설명도 같이 있다.

*pc화면에서 보시기를 권합니다.*

github 소스코드 : https://github.com/seeinger/gain_weight_pjct

데이터에 담긴 정보에 따라 전처리 방식도 달라지므로 

데이터(컬럼)에 대한 이해가 필수다. 

 

 

위에서 테이블을 보면 날짜가 2019.4.8 형태로 적힌 것을 알 수 있다.

우리가 보기엔 날짜이지만 파이썬은 날짜로 인식하지 못 한다.   

 

 

분석 할 때 필요하지 않은 컬럼은 일단 빼고 시작하는 것이 낫다. 

어떤 컬럼이 필요하지 않은지 모른다면

자신이 무엇을 분석하고 무엇을 알아내고 싶은지 생각할 시간이 더 필요하다.

분석을 일단 시작하고 후에 제거하는 것도 방법이다.

 

 

NaN값을 '잘' 처리하는 것은 매우 중요하다. 

어쨌든 임의로 값을 넣는 것이기 때문에 어떤 때는 NaN값 그대로 두는 것이 낫다.

NaN값이 얼마 없다면 평균을 넣는게 일반적이고 

그 외는 컬럼의 특성을 따져 처리한다.

 

 

 

 

위의 컬럼들과 체중 컬럼의 NaN값 처리 방식이 다르다.

 

 

 

 

NaN값 처리는 일단 여기까지.

 

 

 

 

 

 

 

보통 중요한 컬럼일수록 왼쪽에 위치한다. 

 

이렇게 기초적인 전처리 과정이 끝났다.

나머지 전처리는 필요할 때 마다 하면 된다. 

반응형