본문 바로가기

데이터 분석22

파이썬으로 슈카월드 유튜브 조회/좋아요/댓글 수 가져오기 저번 시간에 이어서 내 최애 유튜버 슈카월드 유튜브 채널에 대해 분석해보겠다. 아래 코드를 돌리면 슈카월드 채널에 있는 모든 동여상의 제목과 해당되는 Video ID값을 구할 수 있을 것이다. Video ID값이 필요한 이유는 이게 있어야 각 동영상별 좋아요 수, 조회 수 등 상세 데이터 지표를 뽑을 수 있기 때문이다. 내가 구한 슈카월드 채널의 동영상 수는 665개로 확인되었다. from googleapiclient.discovery import build from googleapiclient.errors import HttpError from oauth2client.tools import argparser DEVELOPER_KEY = "~" #유튜브 API 키 값 YOUTUBE_API_SERVICE_.. 2020. 8. 22.
슈카월드 유튜브 채널 파이썬으로 분석하기 유튜브에서 가장 애청하고 있는 슈카월드 채널에 대해 파이썬으로 분석해보도록 하겠다. 저번 시간과 동일하게 Youtube에서 제공하고 있는 API 키 값을 사용해서 슈카월드 채널 내 동영상 수 현황을 알아보도록 하겠다. 오늘 이 분석을 바탕으로 상세한 코멘트 수, 조회수, 좋아요 수 등 상세한 지표 데이터 추출을 다음 시간에도 이어갈 수 있도록 하겠다. 그럼 바로 코딩으로 넘어가도록 하겠다. 1. 슈카월드 채널 ID 값 구하기 우선 슈카월드 채널의 ID 값을 구해야 하는데, 이는 저번 시간에서 활용한 Youtube API 내 Search 함수를 사용하면 얻을 수 있다. 슈카월드 검색했을 때 결과 데이타 중 가장 먼저 나오는 값이 바로 채널 관련 정보일 것이다. 딕셔너리 데이터 타입을 아래 마지막 코드 줄처.. 2020. 8. 19.
파이썬으로 유튜브 슈카월드 검색 결과 가져오기 제곧내다. 파이썬을 활용해서 유튜브에서 "슈카월드"라는 유튜버를 검색했을 때 검색 결과, 즉 어떤 비디오가 나오는지 가져와보도록 하겠다. 이번 크롤링 시간에는 Selenium이나 requests 방식으로는 불가능하고 Youtube에서 제공하고 있는 Youtube API를 통해서 검색 결과를 긁어오겠다. Youtube Search 결과에 대한 가이드 내용은 아래 링크에서 자세히 설명되어 있으니 참고 바란다. https://developers.google.com/youtube/v3/docs/search/list Search: list | YouTube Data API | Google Developers API 요청에 지정된 쿼리 매개변수와 일치하는 검색결과의 모음을 반환합니다. 기본적으로 검색결과의 집합은 .. 2020. 8. 14.
[NBA] 크리스 폴(Chirs Paul) 분석 With Python #4 저번 시간에 이어서 이번에도 파이썬을 통해 내가 가장 좋아하는 포인트 가드 크리스 폴이라는 선수를 분석하고자 한다. 저번 상대팀 별로 크리스 폴의 스텟을 비교했다면 이번에는 더 크게 NBA 동부, 서부 별로 크리스 폴 활약 스텟을 보고자 하고, 그다음으로는 지금까지 크리스 폴이 소속했던 팀 별 커리어 하이 스텟이 어떤지 보고자 한다. 크리스 폴이 상대팀 별로 어떤 커리어 하이 기록을 찍었는지 보기 위해서다. 이번에도 저번과 동일하게 농구 통계 사이트 Basketball-Reference 사이트에서 데이터를 가져와 분석하겠다. 크리스 폴이 서부에 강했는지 아님 동부에 강했느지 그리고 커리어 하이 기록은 어떤 팀 상대로 기록했느지 알아보고자 한다. 분석 내용: NBA Western/Eastern 컨퍼런스 팀.. 2020. 8. 11.
[NBA]크리스 폴(Chris Paul) 선수 분석 #3 저번 시간에 이어서 최애 선수 크리스 폴에 대한 분석을 해보도록 하겠다. 이번에는 크리스 폴이 2005년 데뷔 이후 뛴 모든 경기 기록을 Basketball_Reference 사이트에서 크롤링해와서 다음과 같은 분석을 해보겠다. Basketball_reference 사이트는 NBA 팬들이라면 모두 알고 있는 NBA 데이터 사이트로 특히 선수 하나하나의 경기별 상세 데이터를 제공하고 있다. 진짜 선수에 대한 세부적인 지표까지 제공할 수 있어서 크리스 폴 선수 분석은 한 #10까지 이어질 수 있지 않을까 생각이 든다. 크리스 폴 커리어 내 홈, 어웨이 경기에 따른 평균 스탯 비교 상대팀별 평균 스탯 차이 비교 크리스 폴이 홈, 원정에 따라 기복이 있는 선수인지, 어떤팀한테는 강했고 어떤 팀한테는 경기력이 안.. 2020. 8. 6.
NBA 크리스 폴 선수 파이썬으로 분석하기 #2 저번 시간에 이어서 최애 선수 크리스 폴이라는 선수에 대해 분석을 해보고자 한다. 저번 시간과 동일하게 단순 스탯 사이트에서 보여주는 득점, 어시스트, 스틸 이외 주요하게 보는 스탯 지표를 계산해서 시각화를 해보도록 하겠다. 크리스 폴 선수가 얼마나 효율적인 선수인지를 보고자 하는데, 여기서 볼 지표는 슈팅 효율 지표 '180 클럽'과 'TS', 패스 효율 지표 'AST/TO'이다. 여기서 해당 지표가 낯선 분들을 위해 아래와 같이 해당 지표 수식을 구해 왔다. 180 클럽: 3점 슛 성공률 + 자유투 성공률 + 2점 야투 성공률 AST/TO: Assits / Turnover TS: (총 득점) / [2 * {야투 시도+(0.44 * 자유투시도)}] 180 클럽이나 TS 지표인 경우는 이 선수가 얼마나 .. 2020. 8. 4.
NBA 크리스 폴 선수의 평균 득점/어시스트/스틸 수 추이 분석 With 파이썬 축구 다음으로 좋아하는 스포츠가 농구이고, 그중에서도 NBA 그리고 그중에서도 그 유명한 그그컨(그래서 그분 컨파 진출하심?) 크리스 폴이라는 선수를 좋아한다. NBA 선수에 대해 다양한 분석을 이번 글을 시작으로 해보고자 한다. 아직까지 상세한 데이터를 찾지를 못해서 이번 시간에는 ESPN NBA 스탯 사이트에서 크리스 폴의 데뷔 이후 스텟 기록들을 파이썬 크롤링해서 간단하게 시각화하도록 하겠다. 크리스 폴은 NBA의 대표적인 1번 포인트 가드 포지션으로 중요시하게 보는 지표인 경기당 평균 득점, 어시스트, 스틸을 시즌 별 추이가 어떤지 분석해보겠다. 이번 크롤링에도 pandas 패키지에 있는 read_html 함수를 사용하도록 하겠다. NBA ESPN 사이트에 들어가면 선수 별로 Stats을 보여주는.. 2020. 8. 3.
네이버 증권 페이지에서 현대차 주요 투자 지표 가져오는 법 With Python 오늘은 간단하게 네이버 증권 페이지에서 현대차 주요 투자 지표를 크롤링하는 방법에 대해서 설명하고자 한다. 네이버 증권 사이트에서 특정 종목을 검색하면 오른쪽 상단에 아래와 같이 주요 지표들이 나오는데 오늘은 이것을 파이썬으로 크롤링 해보도록 하겠다. 코드는 어려울 것 하나도 없다. 1. 종목 코드 가져오기 우선 가져오고자 하는 종목의 코드를 갖고 와야되는데 이거는 갓 Pandas의 도움만 있으면 쉽게 해결된다. 판다스로 아래 거래소 링크를 읽으면 국내 상장된 종목들의 정보를 다 데이터 프레임화 돼서 가져오게 된다. import pandas as pd df=pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download',header.. 2020. 7. 25.
공공데이터 API를 활용한 국민연금 분석하기 #1 With Python 이번 시간에는 공공데이터 API를 통해 국민연금 수급 현황에 대해 분석해보고자 한다. 어떤 걸 처음으로 분석할까 고민하다가 첫 시간이다 보니 조금 간단한 내용으로 시작해보겠다. 시도 별로 국민연금 수급 현황을 한 번 API를 뽑아보고 시도 간의 현황이 어떤지 비교해보겠다. 주관적인 생각이지만 보통 60세부터 국민연금을 받기 시작함으로 이번 글에서 뽑고자 하는 결과물은 나이 기준 60세에 시도 별로 국민연금 수급 현황이 어떻게 다른지 한번 분석해보고자 한다. 이번 API에서 요청할 때 시도 코드, 국민연금 수급 연령, 국민연금 종류만 선택해서 뽑도록 하겠다. 1. API KEY 신청 공공데이터 사이트에 "국민연금 수급현황" 를 검색하고 활용 신청하면 모든 준비가 끝났다. 2. Python Code 다음 내.. 2020. 7. 23.
주가와 검색량(Queries)의 상관 관계 분석 주식 투자를 좋아하는 주린이으로서 이런 분석은 꼭 해보고 싶었다. 바로 주가와 검색량 간의 상관관계이다. 검색이 많이 이루어질수록 주가도 함께 오르지 않을까라는 의문을 갖고 있었는데 이번 기회에 이 것을 입증하고자 한다. 이번 분석 예제로 사용할 기업은 바로 애증의 현대차이다. 현대차 12층에 물려있긴 하지만 언제간 떡상하기를 기도하면서 이번 분석을 시작하고자 한다. 1. 검색량(Queries) 플랫폼 검색량을 추출할 시 사용할 수 있는 플랫폼?은 2곳이 있는데 하나는 바로 구글 트렌드이고 다른 하나는 네이버 데이터랩의 검색량 트렌드이다. 둘 다 내가 자주 사용하는 검색량 툴이긴 하지만 주식 분석에서는 투자자들은 네이버를 더 많이 사용하지 않을까라는 생각에 이번 분석에서는 네이버 데이터랩을 사용하도록 하.. 2020. 7. 13.