본문 바로가기
문송충의 코딩하기/Kaggle

[파이썬 데이터 분석] - Kaggle에 있는 넷플릭스 관련 데이터셋 활용한 데이터 분석

by 동장군님 2020. 11. 15.
728x90
반응형

Kaggel Datasets - Netflix Movies and TV Shows

이번 포스팅에서는 Kaggle에 있는 넷플릭스 데이터셋을 갖고 분석해보도록 하겠다. 데이터셋이 크게 복잡하지 않고 데이터 컬럼도 그렇게 많지 않아 다루기 어렵지 않다. 지난 포스팅와 같이 간단히 데이터를 가지고 시각화를 하겠다.

 

 

www.kaggle.com/shivamb/netflix-shows

 

Netflix Movies and TV Shows

Movies and TV Shows listings on Netflix

www.kaggle.com

 

Datasets

 

 

 

 

 

 

 

 

 

실제 개봉 연도별 콘텐츠 수

넷플릭스에 있는 콘텐츠들은 언제 개봉한 콘텐츠들이 많은지 알아보기 위한 코드다. 확실히 2015년 이후 개봉한 콘텐츠가 넷플릭스에 많이 포함돼있음을 확인할 수 있다.

 

year=pd.DataFrame(df.groupby('release_year').count()['title'])
year.columns=['contents_counts']
year=year.sort_index()
year=year[year.index>=1980]

import matplotlib.pyplot as plt

plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))

plt.plot(year['contents_counts'])
plt.title('콘텐츠 개봉년도')
plt.legend(['콘텐츠 수'],loc='upper left')

plt.show()

 

 

 

 

넷플릭스 영화, TV쇼 비중

그 다음으로는 넷플릭스 내 영화, TV 쇼 비중을 파이차트로 그려서 알아보도록 하겠다. 분석 결과 확실히 예상했듯이 영화 콘텐츠가 많은 상황이다.

 

movies=df.groupby('type').count()['title'][0]/len(df)
shows=df.groupby('type').count()['title'][1]/len(df)
plt.rcParams["figure.figsize"] = (16,16)
plt.pie([movies,shows], labels=['Movies','TV Shows'], autopct='%1.1f%%', shadow=True, startangle=90)

 

 

 

연도별 콘텐츠 추가한 개수 

마지막으로 넷플릭스가 연도별로 콘텐츠를 추가한 개수를 확인해보자. 역시 최근 몇 년 사이 안에 넷플릭스가 엄청난 투자로 콘텐츠 수를 늘리고 있는 점을 확인할 수 있다.

 

import datetime
df2=df.dropna(subset=['date_added'])
df2['year_added']=df2['date_added'].apply(lambda x: x[-4:] )
year_df=pd.DataFrame(df2.groupby('year_added').count()['type'])
year_df.columns=['콘텐츠 추가 개수']

plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))

plt.bar(year_df.index,year_df['콘텐츠 추가 개수'])
plt.ylim(0,3000)
plt.title('연도녈 콘텐츠 추가 개수')

for x,y in enumerate(list(year_df['콘텐츠 추가 개수'])):
    plt.text(x, y, y, fontsize=13, color='#ff0000', 
                    horizontalalignment='center', verticalalignment='bottom')

plt.show()

 

 

 

이번 포스팅에서는 Kaggle 에 있는 넷플릭스 관련 데이터 셋을 갖고 분석해보았다. 끝

 

728x90
반응형

댓글