본문 바로가기

책방/비문학

<헬로 데이터 과학> 김진영 5.0

반응형

 

최근에 데이터 분석에 관심을 갖게 되면서 브런치를 통해 김진영데이터 과학자를 알게 되었다.

당장 서점의 컴퓨터 과학 코너만 가도 널리고 널린 게 데이터 분석 책이다.

물론 모든 저자들이 진심과 열성을 다해 자신의 책을 썼겠지만

내가 브런치를 통해 읽은 그의 글에는 유난히 데이터를 향한 열정과 삶에 대한 사랑이 녹아 있었다.

 

 

그의 브런치, 블로그, 책을 읽을 때 마다

이상하게 그의 글을 읽는 것만으로 그가 어떤 사람인지 알 것만 같은 느낌이 든다.

그의 글에는 항상 진심이 느껴진다.

 

 

데이터 과학에 관심을 갖고 있는 사람이라면 꼭! ! 강력 추천 x 100 한다.

 

 

이 책은 철자 그대로 우리 모두가 할 수 있는 생활 데이터 분석을 안내한다.

 

 

목차를 살펴보자.

 

chapter 1. 데이터 과학 입문

chapter 2. 데이터 과학에 유용한 도구

 chapter 3. 문제 정의와 데이터 수집 및 준비

chapter 4. 데이터 분석과 스토리텔링

chapter 5. 개인 데이터로 공부하는 데이터 과학

chapter 6. 공개 데이터로 공부하는 데이터 과학

 chapter 7. 입문을 넘어서 : 데이터 과학자의 길

 

 

모든 장의 내용이 흥미롭고 유용했지만

여기서 나는 chapter 1의 일부를 소개하고자 한다.

 

 

데이터 과학이란?

 

자신이 발견한(혹은 해결하고 싶은) 문제를

측정가능한 형식으로 데이터화하고

이를 통해 유의미한 패턴을 발견하여

문제를 개선하는 것이다.

 

 

아래서 다시 한번 데이터 과학을 정의 할텐데

그 때는 이 문장이 어렵게만 다가오진 않을 것이다.

 

 

'측정가능한', '데이터화', '패턴', '문제 개선' 등의 용어들이

막연하게 들리고 그래서 도대체 어떻게 하란 말인지

의문이 든다.

 

 

여기에 시작하는 방법이 있다.

 

 

<데이터 과학을 시작하는 방법 >

 

 

문제 정의에서 시작하라 :

무작정 데이터부터 모으는 오류를 범하지 말자.

문제 정의를 정확히 해야 어떤 데이터를 얼마나 모아야 할지,

데이터를 가지고 무엇을 해야 할지 판단 할 수 있다.

(내가 관심있는 분야에 관한 궁금증이나 평소에 담아뒀던 의문들은 무엇일까?)

 

스몰데이터로 시작하라 :

문제 해결에 초점을 맞추면 많은 데이터가 필요하지 않다.

최소한의 데이터로 시작해

필요할 때마다 하나씩 늘려나가는 방법을 이용하자.

 

 

주변에 있는 도구로 시작하라 :

엑셀로 시작하자.

웬만한 분석은 모두 가능하다.

좀 더 고급 도구인 R도 알아놓으면 좋다.

(엑셀에 계산과 시각화 기능이 있다. 개인적으로는 파이썬이

배우기 쉬운것 같다.)

 

 

간단한 분석 기법으로 시작하라 :

 복잡한 수학 공식과 통계 기법이 필수는 아니다.

대부분의 문제는 신뢰구간의 계산과 같은 간단한 통계 기법으로 해결할 수 있다.

(이 책 후반에서 자세히 설명해 줌)

 

 

데이터 과학을 시작하는 방법에 대해 간단히 정리해보았다.

이는 전문가가 아닌 일반 사람에게 해당되는 내용이긴 하지만

데이터 과학자의 길을 진지하게 걸어가고 싶은 사람에게도

필요한 시작 단계가 아닐까 생각이 든다.

 

 

본격적으로 chapter 1 이 시작된다.

 

 

<데이터 과학 입문>

 

첫 장에서 저자가 하는 말이다

 

“이 장의 목표는 데이터에 대한 오해를 극복하고 데이터 과학에 대한 올바른 개념을 정립하는 것이다.

....

그리고 데이터 과학을 시작하기 위한 올바른 마음가짐과 방법에 대해 설명한다.”

 

 

데이터 과학 = 기술’?

과연 데이터 과학은 기술로만 움직이는 영역일까?

데이터 과학자에게 물론 기술은 중요하다

하지만 어디까지나 기술은 도구일 뿐이다.

 

제일 중요한 것은, 바로

마음가짐이다.

 

 

데이터 과학을 시작하기 전에 가져야 할 마음가짐,

이를 데이터 마인드라고 한다.

 

 

데이터 마인드 :

 데이터화 할 수 있는 현상에 항상 관심을 갖고

데이터를 사용해 이를 개선할 수 있도록 지속적으로 고민하는 자세.

 

 

데이터 과학에서 가장 매력적인 부분이 아닐까.

 

 

저자가 말하는 데이터 마인드란 다음과 같다.

 

1. 현상에서 데이터를 발견한다.

2. 이를 통해 현상을 제대로 이해한다.

3. 좀 더 나아가 현상을 개선하고자 한다.

 

 

본질은 무엇인가?

바로 현상을 데이터로 바라보는 마음,

문제를 제대로 이해하고 그것을 개선하고자 하는 탐구심이다.

그런 의지와 욕구 없이 무작정 기술만 쌓아 데이터를 다룬다는 것은

분석을 위한 분석밖에 되지 않을 것이다.

 

 

프랭클린 다이어리

 

올바른 데이터 마인드를 가진 사람들의 사례가 나와 있다.

그 중에 좋은 일례로 다이어리로 유명한 벤자민 프랭클린이 있다.

벤자민 프랭클린의 표와 일지

 

그는 자신이 매일 지키고자 하는 13가지 덕목을 정하고

 

이를 지켰는지 표를 만들어 매일 기록해

자신의 인격을 완성시키려고 평생 애썼다.

 

자신이 기록한 일지를 통해 의미 있는 현상과 패턴을 발견해

문제를 분석하고 실천하며 실제로 자신의 삶을 개선해나갔다.

난해한 프로그래밍이나 유려한 기술은 필요하지 않았다.

 


 

데이터 습관

 

데이터 마인드를 네 개로 쪼개면 다음과 같다.

수집 마인드

분석 마인드

실천 마인드

공유 마인드

 

네 가지를 통해

데이터 마인드 습관을 키운다.

 

 

수집 마인드 :

생활 속에서 데이터와 문제를 발견하는 습관.

자신에게 중요한 모든 현상은 어떤식으로든 흔적을 남긴다.

그 흔적을 찾으면 어떤 현상도 측정될 수 있다.

 

(ex_ 나는 체중 증가에 관심이 있다. 어떻게 해야 체중이 증가 되는지 정확히 모르지만

체중에 영향이 미칠것으로 예상되는 요소들을 정해 매일 기록한다.

'하루 섭취 칼로리', '식사+간식 횟수', '근력 운동 유무' 등)

 

 

분석 마인드 : 

수집을 했다면 이를 가지고 다양한 관점에서 바라보고 적절한 결론을 유도하는 것.

자신의 데이터가 아닌 공공 데이터를 가지고

사회 현상 등에 대한 자신만의 추론을 해보는 것도 좋은 방법.

공공데이터도 비판적으로 바라볼 수 있어야 한다.

 

(ex_ 수집한 데이터를 가지고

내가 예상했던 요소들간의 상관관계를 분석해

실제로 체중 증가와 관련이 있는지 결론을 도출한다.

엑셀과 R로 하는 분석 방법이 책에 나와있다.)

 

 

실천 마인드 : 

결론을 냈다면 이를 실천에 옮겨 가치를 얻어내는 과정.

내가 예상한 대로 결론이 나오지 않았더라도 객관적으로 이를 판단하고

실행에 옮길 수 있는 자세가 필요함.

실천한다고 해서 문제 해결이 끝나는 것이 아님.

언제든 분석 단계 에서 내린 결론이 틀릴 수 있음을 인지하고 계속 되돌아보아야 한다.

 

(ex_ 수집된 데이터를 통해 나는 하루 권장 칼로리에 현저히 못미치게

섭취한다는 사실을 알았다.

체중 증가와 상관 관계를 그리는 그래프를 찾고 해당 요소를 찾아

액션플랜을 수립한다. 

가설 -> 검증 -> 실천 -> 결론

의 순환을 계속해서 따른다.)

 

공유 마인드 :

데이터 자체는 완벽하지 않다.

문제 해결 과정에서 어려움이 따를 수밖에 없는데,

이를 극복하는 가장 좋은 방법이

자신의 문제 해결 과정을 남들과 공유하는 것이다.

투명한 프로세스와 더불어 개인의 한계를 협업을 통해 극복할 수 있다.

 

(ex_ 나와 같은 목적을 가진 사람들과 적극 소통한다.

이미 체중증가에 성공한 사람의 사례를 살펴보고 그것을 기본 지표로 삼을 수도 있다. )

 


 

마무리, 이 책을 읽어야 하는 이유

 

 

이 장을 읽고 (저자의 의도대로) 나도 데이터 과학을 시작할 수 있다는 자신감을 갖게 되었다.

실제로 이 책을 읽고 나만의 데이터 분석 프로젝트를 시작했다.

그동안 데이터 과학자라는 직업은 이름이 주는 무게만큼

굉장히 고도의 기술력이 있어야지만 할 수 있다고 생각했다.

 

 

하지만 데이터 마인드 즉 주변 현상에 대한 호기심과 탐구심,

그리고 개선하려는 의지와 같은 내면의 힘이 올바른 데이터 분석의 시작이라는 것을 알았고

이 사실이 나에게 굉장한 매력으로 다가왔다.

사실 내가 데이터 과학에 관심이 생긴 것도 이 이유에서였다.

 

 

이 책에서 통계적 추론의 원리에 대해서도 다루는데,

데이터에 관심이 없었으면 평생 들어보지도 않았을 용어들과 원리들이 나의 뇌를 휘젓고 다녔다.

거대한 장벽을 마주한 기분이었다.

이 책은 입문서이기 때문에 데이터 과학을 시작하려면 기본적으로 알아야 하는 내용일 것이기에

마음을 다잡고 시간을 들여서라도 탐독해 볼 생각이다.

 


 

데이터 과학은 '불확실함'과의 싸움이다

 

문학책에만 파묻혀 대학 시절을 보낸, 완전히 인문학도였던 나에게

데이터 과학은 낯섦과 익숙함의 반복이다.

정말 알다가도 모르겠다.

지구에 365일 살고 있지만 우주는 늘 낯선 것처럼 말이다.

 

 저자가 남긴 중요한 말이 하나 더 있다.

 데이터 분석에는 끝이 없다는 것.

늘 불확실성과 싸워야 한다는 것.

 완벽히 알려고 하는 욕심을 좀 거두고

알아가는 과정 자체를 즐길 줄 알아야겠다는 생각이 든다.

 

 

데이터 과학을 시작하기 전에 갖추어야 할 데이터 마인드에 대해 알아보았다.

 

파이선과 SQL 서적을 들춰보기 전에

'내가 해결하고 싶은 문제' 무엇인지 

 고민해보자.

 

그의 브런치와 블로그에 사례와 더불어

더욱 자세한 내용이 나와 있습니다.

 

'생활 데이터, 오늘 당장 시작하기' https://brunch.co.kr/@lifidea/14

 

생활 데이터, 오늘 당장 시작하기

생활 데이터 활용을 시작하는 네 가지 방법: 문제, 데이터, 도구, 분석 | 지난 글에서 생활 데이터라는 트렌드, 그리고 그 중요성과 가치를 알아보았다. 많은 분들이 생활 데이터의 필요성에 대해 공감하셨는지 필자의 글에 좋은 반응을 보이셨고, 페이스북의 생활데이터 그룹에는 벌써 많은 분들이 활발히 활동하고 있다. 지난주에는 아파트 매매량 분석에 관한 전희원 님의 발표로 2차 정모를 성황리에 마쳤다.  우리나라에도 데이터를 실천으로

brunch.co.kr

 

반응형