본문 바로가기

문송충의 코딩하기/파이썬 데이터 분석39

공공데이터 Open API를 활용한 국내 코로나 확진자 수 가져오기 feat 파이썬 코로나가 다시 미쳐 돌아가고 있다. 거의 끝났다 싶었는데 다시 확진자 수가 폭증하고 있고, 이에 따라 나도 계속해서 재택근무를 하고 있다. 일이 크게 없어서 파이썬으로 코로나 확진자 수가 일별로 어떻게 되는지 공공데이터 API를 통해서 가져와 보도록 하겠다. 뭐 예전 글에서도 공공데이터 갖고 한 분석 내용이 있기 때문에 크게 어려운 점은 없다. 아래 내가 작성한 코드 잘 따라 하면 된다. 1. 공공데이타 API Key 발급 항상 그랫듯이 아래 사이트에 들어간 다음 활용신청을 통해 API 사용할 수 있는 Key 값을 받아야 된다. 발급만 받으면 그 자리에서 바로 활용이 가능하다. 아래 링크에서 신청하기 바란다. https://data.go.kr/tcs/dss/selectApiDataDetailView.do.. 2020. 9. 1.
파이썬으로 슈카월드 유튜브 조회/좋아요/댓글 수 가져오기 저번 시간에 이어서 내 최애 유튜버 슈카월드 유튜브 채널에 대해 분석해보겠다. 아래 코드를 돌리면 슈카월드 채널에 있는 모든 동여상의 제목과 해당되는 Video ID값을 구할 수 있을 것이다. Video ID값이 필요한 이유는 이게 있어야 각 동영상별 좋아요 수, 조회 수 등 상세 데이터 지표를 뽑을 수 있기 때문이다. 내가 구한 슈카월드 채널의 동영상 수는 665개로 확인되었다. from googleapiclient.discovery import build from googleapiclient.errors import HttpError from oauth2client.tools import argparser DEVELOPER_KEY = "~" #유튜브 API 키 값 YOUTUBE_API_SERVICE_.. 2020. 8. 22.
슈카월드 유튜브 채널 파이썬으로 분석하기 유튜브에서 가장 애청하고 있는 슈카월드 채널에 대해 파이썬으로 분석해보도록 하겠다. 저번 시간과 동일하게 Youtube에서 제공하고 있는 API 키 값을 사용해서 슈카월드 채널 내 동영상 수 현황을 알아보도록 하겠다. 오늘 이 분석을 바탕으로 상세한 코멘트 수, 조회수, 좋아요 수 등 상세한 지표 데이터 추출을 다음 시간에도 이어갈 수 있도록 하겠다. 그럼 바로 코딩으로 넘어가도록 하겠다. 1. 슈카월드 채널 ID 값 구하기 우선 슈카월드 채널의 ID 값을 구해야 하는데, 이는 저번 시간에서 활용한 Youtube API 내 Search 함수를 사용하면 얻을 수 있다. 슈카월드 검색했을 때 결과 데이타 중 가장 먼저 나오는 값이 바로 채널 관련 정보일 것이다. 딕셔너리 데이터 타입을 아래 마지막 코드 줄처.. 2020. 8. 19.
파이썬으로 유튜브 슈카월드 검색 결과 가져오기 제곧내다. 파이썬을 활용해서 유튜브에서 "슈카월드"라는 유튜버를 검색했을 때 검색 결과, 즉 어떤 비디오가 나오는지 가져와보도록 하겠다. 이번 크롤링 시간에는 Selenium이나 requests 방식으로는 불가능하고 Youtube에서 제공하고 있는 Youtube API를 통해서 검색 결과를 긁어오겠다. Youtube Search 결과에 대한 가이드 내용은 아래 링크에서 자세히 설명되어 있으니 참고 바란다. https://developers.google.com/youtube/v3/docs/search/list Search: list | YouTube Data API | Google Developers API 요청에 지정된 쿼리 매개변수와 일치하는 검색결과의 모음을 반환합니다. 기본적으로 검색결과의 집합은 .. 2020. 8. 14.
파이썬으로 국내 성, 연령별 코로나 확진자 수 크롤링 저번 네이버 증권 크롤링에 이어 두 번째 크롤링 시간이다. 이번 시간도 저번과 같이 굉장히 쉽다. 코드 몇 줄이면 우리가 원하는 데이터를 바로 가져올 수 있다. 어떤 데이터를 가져올까라고 고민하던 중 아무래도 관심을 많이 가질만한 주제가 코로나이기 때문에 코로나 상황을 파이썬으로 가져와 간단히 분석하는 코드를 작성해보고자 한다. 데이터를 가져올 소스는 바로 질병관리본부에서 운용하는 "코로나바이러스감염증-19" 사이트이다. 네이버에 코로나 검색할 경우 가장 먼저 나오는 사이트이다.(아래 첫 번째 이미지 참고) 사이트 상단 메뉴바에서 발생동향 -> 국내 발생 동향으로 들어가면 우리가 필요로 하는 다양한 국내 발생 코로나 현황이 나온다.(두 번째 이미지 참고) 1. 코로나 데이터 크롤링 파이썬에서 가장 많이 .. 2020. 7. 27.
네이버 증권 페이지에서 현대차 주요 투자 지표 가져오는 법 With Python 오늘은 간단하게 네이버 증권 페이지에서 현대차 주요 투자 지표를 크롤링하는 방법에 대해서 설명하고자 한다. 네이버 증권 사이트에서 특정 종목을 검색하면 오른쪽 상단에 아래와 같이 주요 지표들이 나오는데 오늘은 이것을 파이썬으로 크롤링 해보도록 하겠다. 코드는 어려울 것 하나도 없다. 1. 종목 코드 가져오기 우선 가져오고자 하는 종목의 코드를 갖고 와야되는데 이거는 갓 Pandas의 도움만 있으면 쉽게 해결된다. 판다스로 아래 거래소 링크를 읽으면 국내 상장된 종목들의 정보를 다 데이터 프레임화 돼서 가져오게 된다. import pandas as pd df=pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download',header.. 2020. 7. 25.
공공데이터 API를 활용한 국민연금 분석하기 #1 With Python 이번 시간에는 공공데이터 API를 통해 국민연금 수급 현황에 대해 분석해보고자 한다. 어떤 걸 처음으로 분석할까 고민하다가 첫 시간이다 보니 조금 간단한 내용으로 시작해보겠다. 시도 별로 국민연금 수급 현황을 한 번 API를 뽑아보고 시도 간의 현황이 어떤지 비교해보겠다. 주관적인 생각이지만 보통 60세부터 국민연금을 받기 시작함으로 이번 글에서 뽑고자 하는 결과물은 나이 기준 60세에 시도 별로 국민연금 수급 현황이 어떻게 다른지 한번 분석해보고자 한다. 이번 API에서 요청할 때 시도 코드, 국민연금 수급 연령, 국민연금 종류만 선택해서 뽑도록 하겠다. 1. API KEY 신청 공공데이터 사이트에 "국민연금 수급현황" 를 검색하고 활용 신청하면 모든 준비가 끝났다. 2. Python Code 다음 내.. 2020. 7. 23.
Dart 전자공시시스템 API를 통해 현대자동차 Data 가져오기 With Python #2 - 재무상태표 이번 글에서는 저번 시간에 이어서 Dart API를 통해 현대자동차의 재무상태표 데이터를 가져오고, 대표적인 기업 건전성 판단 지표인 유동비율, 부채비율, 자본 유보율을 계산해보도록 하겠다. 저번 손익계산서 부분과 코딩상에서는 큰 차이가 없다. 다만 지표를 하나하나 집계해야 되기에 좀 번거로운 점이 있지만, 크게 어려울 것은 없다. 바로 코드 설명하도록 하겠다. 1. 지난 글과 동일하게 우선 API를 통해 현대자동차의 2014년부터의 재무 상태표를 가져오도록 하겠다. import dart_fss as dart import pandas as pd import matplotlib.pyplot as plt #분석 종목 확인하기 api_key='~' #api_key 입력 dart.set_api_key(api_k.. 2020. 7. 20.
Dart 전자공시시스템 API를 통해 현대자동차 재무 Data 가져오기 With Python #1 - 손익계산서 항상 주식 종목 분석을 할 때 가장 귀찮은 점이 바로 재무지표 확인하는 것이다. Dart, 네이버 증권 사이트 들어가서 하나하나 체크하는 게 너무 번거로웠다, 그런 불편한 부분 때문에 이번 분석 프로젝트를 시작했다. 이번 프로젝트는 조금 장기적으로 가져가려고 한다. 종목코드/회사 명만 입력하면 분석에 필요한 지표/데이터가 포함된 액셀이 자동으로 다운로드할 수 있도록 하는 것이 이번 프로젝트에 최종 목표 결과물이라고 볼 수 있겠다. 종목 분석할 때 다른 거 다 필요 없이 이 액셀만 가지고 할 수 있도록 만들어보겠다. 종목 분석 시 보는 재무 지표가 다양하기 때문에 이번 글에서는 가장 주요한 손익계산서를 Dart 전자 공시 시스템에서 가져와보도록 하겠다. 그리고 간단하게 정리하고 매출액, 영업이익을 가지고 .. 2020. 7. 16.
공공데이터 Open API를 통해 삼성전자 주주 구성 분석하기 With Python 주린이로서 오늘도 역시 주식과 관련된 데이타를 분석해보고자 한다. 삼성전자 주식을 갖고 있는 주주들에 대해 간단하게 분석하고 자 하는데 주된 내용은 다음과 같다. 1. 주식 수 기준 주주 수 분포도 2 성별 별 주주 분포 3. 연령 별 주주 분포 위에 있는 내용을 각각 Open API로 추출해서 시각화까지해서 마무리하고자 한다. 별 의미 없는 내용일 수 있지만 나한테는 어느정도 궁금했던 내용이었다. 그럼 바로 시작하겠다. 1. 공공데이터 Open API key 값 받기 오늘 사용할 데이터는 바로 공공데이터이다. 정부에서 운영하는 사이트만큼 다양한 데이터를 제공하고 있다. 추후 분석 프로젝트에서도 해당 사이트를 많이 이용할 예정이다. 오늘 분석에 활용될 데이터는 아래 링크로 확인 바란다. https://d.. 2020. 7. 15.
카카오 API를 활용한 동네 브랜드별 편의점 점포 수 구하기 with Python 저번 Folium을 통해 분석한 것과 비슷한 내용의 분석이다. 이번에는 제목 그대로 내가 살고 있는 주소 반경 30km 내 편의점이 몇개가 있고, 브랜드별로 어떻게 구성이 되어있는지 카카오 지도 API를 통해 살펴보고자 한다. 코드를 보면 굉장히 간단하다. 따로 패키지를 임포트할 것도 없다. 그럼 바로 시작하겠다. 1. 내 주소 위도/경도 구하기 우선 내가 살고 있는 집 주소의 위도/경도를 구해야되는데 이것 또한 마찬가지로 카카오 API를 사용할 것이다. 아래처럼 addr이라는 변수에다가 살고 있는 집 주소를 추가해서 돌리면 주소에 맞는 위도/경도가 나올 것이다. import json import requests import pandas as pd addr='인천시 남동구 운연천로11' url = 'ht.. 2020. 7. 14.
주가와 검색량(Queries)의 상관 관계 분석 주식 투자를 좋아하는 주린이으로서 이런 분석은 꼭 해보고 싶었다. 바로 주가와 검색량 간의 상관관계이다. 검색이 많이 이루어질수록 주가도 함께 오르지 않을까라는 의문을 갖고 있었는데 이번 기회에 이 것을 입증하고자 한다. 이번 분석 예제로 사용할 기업은 바로 애증의 현대차이다. 현대차 12층에 물려있긴 하지만 언제간 떡상하기를 기도하면서 이번 분석을 시작하고자 한다. 1. 검색량(Queries) 플랫폼 검색량을 추출할 시 사용할 수 있는 플랫폼?은 2곳이 있는데 하나는 바로 구글 트렌드이고 다른 하나는 네이버 데이터랩의 검색량 트렌드이다. 둘 다 내가 자주 사용하는 검색량 툴이긴 하지만 주식 분석에서는 투자자들은 네이버를 더 많이 사용하지 않을까라는 생각에 이번 분석에서는 네이버 데이터랩을 사용하도록 하.. 2020. 7. 13.