반응형

데이터 방 11

판다스로하는 데이터분석 - DataFrame의 기본기능

판다스의 핵심이자 가장 기본인 DataFrame을 배워보자. DataFrame 생성하는 것부터, 어떤 기능들이 있는지 살펴볼 예정이다. 판다스로 하는 데이터분석의 시작 - DataFrame 1. DataFrame 생성하기 data = [['2020-01-01','150','google'],['2020-01-02','120','naver'], ['2020-01-03','110','naver'],['2020-01-04','125','daum'], ['2020-01-04','117','google']] 데이터프레임은 기본적으로 엑셀과 같은 테이블 형태다. 직접 데이터프레임을 만들 때에는 이렇게 행과 열의 수가 맞도록 리스트를 작성해주면 된다. data = pd.DataFrame(data) 데이터프레임으로 만들..

데이터 방 2020.05.10

판다스로하는 데이터분석 - Series와 DataFrame

약 2달간 'DSschool 이라는 데이터 사이언스 학원에서 강의를 들었었다. 수강을 한지 1년이 지났고 관련 분야에 몸을 담고있지도 않지만, 데이터 분석을 처음 배웠을 때 그 세계의 쇼킹함을 지금도 잊지 못하고 있다. 단순히 데이터분석 직종을 알게된 것이 아니라 세상을 바라보는 하나의 세계관을 배운 것이다. 끊임없이 의심하고 돌아보며, 객관적인 자료와 근거있는 상상력을 동원해 현상을 예측하고 분석하는 과정이 데이터분석의 굉장한 매력포인트다. 꼭 이 분야에서 일하지 않더라도 데이터분석을 배워놓으면 분명 삶의 질 또한 올라가리라 확신한다. 학원에서 배운 내용을 바탕으로, 기초부터 되짚어보는 과정을 밟아볼까 한다. 안하니 자꾸 까먹는다 ㅠㅠ 판다스로 하는 데이터분석의 시작, series와 dataframe ..

데이터 방 2020.05.10

매일 파이썬 _ 계산기 만들기

계산정보를 입력하세요: 더하기 2 3 계산결과 : 5 위와 같이 나오게 함수 프로그램 만들기 1. 계산 방법을 입력했을 때 그에 맞는 계산을 하도록 함수짜기 def calc(type, a, b): if type == '더하기': return a+b elif type == '빼기': return a-b elif type == '나누기': return a/b elif type == '곱하기': return a*b 2. 입력값을 받는 함수 만들기 a = input("계산정보를 입력하세요: ") 참고로 input의 결과값은 무조건 문자열(string)이다. 위의 a를 split해보면 다음과 같은 결과가 나온다. a.split() print(a) 계산정보를 입력하세요 : 더하기 2 3 ['더하기','2','3']..

데이터 방 2020.01.17

자기 분석 프로젝트

나를 주제로 분석을 했다. 이를 공유하고자 한다. 검사지 유형의 성향 파악 테스트가 지닌 오류 MBTI는 볼 때마다 결과가 다르게 나온다고 한다. 사람 성향이 조금씩 달라지기 때문이다. 나 또한 (10년 전 ISTJ -> 지금은 ENTP) 완전 바꼈다. 하지만 이 결과를 곧이 곧대로 믿어서는 안 된다. 왜냐하면 이런 검사지를 바탕으로 나를 알아보는 방법에는 오류가 있기 때문이다. 검사지 자체가 잘못된 방법이라는 것이 아니라 검사지에 답하는 우리가 인간이라는 점 때문에 나타나는 오류다. 우리는 질문을 읽고 보기를 선택할 때 정말 나의 모습이라고 해당되는 답변에 체크하기도 하지만, 무의식 중에 내가 되고 싶은 모습에 체크하기도 한다. 또한 검사지에서 묻는 질문과 관련해 경험이 없는 경우, 추측으로 답변할 수..

데이터 방 2019.09.18

워드 클라우드 만들기 (주피터노트북 _ 파이썬)

워드 클라우드를 만들었다. 2010- 2018년까지 썼던 나의 일기를 데이터로 워드 클라우드를 만들어봤다. 물론, 일기는 종이에 썼고 스프레드 시트에 다 옮겨 적었다. 꽤 오래 걸렸다... 워드 클라우드를 두 종류를 나눠서 만들었다. 1. 감정 별로 나누어 만든 워드클라우드 (tagxedo 사이트 이용) 2. 연도 별 긍정vs부정으로 나누어 만든 워드클라우드 (파이썬 이용) 내가 오늘 정리한 것은 파이썬로 하는 워드 클라우드다. 2번! 연도별, 긍정vs부정으로 나누어 정리했다. 워드 클라우드 시작하기 (konlpy가 설치되었다는 전제하에) 1) 패키지 불러오기 from konlpy.tag import Twitter from collections import Counter Twitter는 konlpy의 여..

데이터 방 2019.07.30

판다스 데이터 시각화 종류 (기초) _ matplotlib(seaborn)

(python에 있는 시각화 패키지 seaborn을 이용합니다) 데이터 불러오기 저는 캐글에 있는 타이타닉의 train.csv 데이터를 가지고 시각화 해보겠습니다. (타이타닉 데이터 다운로드하기) Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 데이터 정보 : 타이타닉 사고 당시 생존자(Survived=1)와 사망자(Survived=0)의 정보가 나와있는 데이터입니다. 시각화 준비하기 시각화 패키지를 사용하기 위한 기본 세팅입니다. 사용할 데이터가 한글로 이루어져 있을 경우 아래와 같이 설정해주어야 합니다. 저는 윈도우 ..

데이터 방 2019.07.25

체중 변화 분석 ( +판다스 데이터 시각화)

나의 체중을 관리하면서 (체중 증량하기) 체중과 칼로리 이외에 체중과 관련이 있을것으로 예상되는 요소들을 같이 수집했다. 요소들은 다음과 같다. 밀가루 / 식사 및 간식 섭취 횟수 / 음식의 질(초록, 노랑, 빨강) / 장활동 / 걸음수 1. 칼로리와 체중 변화 제일 먼저 살펴볼 것은 칼로리에 따른 체중 증량 유무다. is_gained가 True(주황색) = 체중이 0.1kg이라도 증가한 날 is_gained가 False (파란색) = 체중이 증가하지 않거나 감소한 날 이 그래프는 체중이 증가하거나 그렇지 않은 날의 전체 건수를 보여주는데, 칼로리 섭취량에 따라 건수를 세분화했다. gained_weight = 증가한 체중(kg) 칼로리 섭취량이 높을 수록 살이 찐다는 것을 알 수 있다. 2. 음식의 질과..

데이터 방 2019.07.09

데이터 분석 (체중관리 3차)

문제 정의 : 나는 왜 살이 안 찔까? 나는 대학교 1학년을 마치고 난 후부터 1년 사이에 9kg가 빠져 지금까지 살이 다시 찌지 않는 상태에 있다. (데이터 분석을 시작하면서 조금씩 찌고 있기는 하다) 건강검진을 받았지만 아무 이상이 없게 나왔고 지금까지 이유를 모른다. 이유를 모른다고 해서 이유가 없는 것은 아니다. 하지만 이유를 모른다고 해서 다신 살을 찔 수 없는 것도 아니다. 나만의 가설과 분석, 실천으로 조금씩 체중 증가에 변화를 가져오고 있다. 7월이 되었다. 1차에서는 나의 평소 섭취 칼로리 분석했고 권장 칼로리보다 훨씬 못 미치게 섭취한다는 사실을 알았다. 2차에서는 평소보다 섭취량을 늘린 결과와 그 외 다양한 상관관계를 분석해 보았다. 3차에서는 6월 결과에 대해 분석해본다. 기간을 나..

데이터 방 2019.07.07

데이터 전처리 기초

어떤 데이터를 가지고 분석을 하기 전에 가장 먼저 해야 할 것이 데이터 전처리다. (data cleaning 혹은 data preprocessing) 데이터 내의 정보는 그 자체로 raw(날 것) 데이터이기 때문에 분석에 필요하지 않은 정보가 담겨 있을 수도 있고 기록된 형식들이 통일되어 있지 않은 경우가 많다. (ex. 스타벅스/ starbucks/ STARBUCKS) 한마디로 정리가 되어 있지 않다. 데이터 전처리를 통해 데이터를 이쁘게 가공하는 과정이 필요하다. 내가 분석을 진행하면서 거쳤던 전처리를 정리해봤다. 주피터 노트북으로 실행했고 설명도 같이 있다. *pc화면에서 보시기를 권합니다.* github 소스코드 : https://github.com/seeinger/gain_weight_pjct ..

데이터 방 2019.06.26

데이터 분석 (체중 관리 2차)

문제정의 : 나는 왜 살이 안 찔까? 나의 하루 평균 섭취 칼로리에 적지 않은 충격을 받은 뒤 (1487kcal...) 1800kcal이상 먹기를 5/14일부터 시작했다. 나의 가설은 딱 하나 높은 칼로리->체중증가 딱 이것 하나만 지키려고 노력했다. 매일 1800kcal이상을 넘기진 못했지만 의식적으로 많이 먹으려고 노력했다. (여성 권장칼로리에 못 미치지만 한번에 2000kcal로 늘리는 것이 무리라 판단되어 일단 1800kcal로 정했다.) 그리고 실천한지 3주가 지났다. 검증해보자! [가설1] 지난 한 달(4/8-5/13)보다 지난 3주간 (5/14-6/5) 평균 몸무게가 더 높을 것이다. [검증] 먼저, 지난 한 달 평균이다. 칼로리: 1487kcal 체중(아침): 38.8kg 체중(저녁):39..

데이터 방 2019.06.07
반응형