728x90
Kaggel Datasets - Netflix Movies and TV Shows
이번 포스팅에서는 Kaggle에 있는 넷플릭스 데이터셋을 갖고 분석해보도록 하겠다. 데이터셋이 크게 복잡하지 않고 데이터 컬럼도 그렇게 많지 않아 다루기 어렵지 않다. 지난 포스팅와 같이 간단히 데이터를 가지고 시각화를 하겠다.
www.kaggle.com/shivamb/netflix-shows
Datasets
실제 개봉 연도별 콘텐츠 수
넷플릭스에 있는 콘텐츠들은 언제 개봉한 콘텐츠들이 많은지 알아보기 위한 코드다. 확실히 2015년 이후 개봉한 콘텐츠가 넷플릭스에 많이 포함돼있음을 확인할 수 있다.
year=pd.DataFrame(df.groupby('release_year').count()['title'])
year.columns=['contents_counts']
year=year.sort_index()
year=year[year.index>=1980]
import matplotlib.pyplot as plt
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))
plt.plot(year['contents_counts'])
plt.title('콘텐츠 개봉년도')
plt.legend(['콘텐츠 수'],loc='upper left')
plt.show()
넷플릭스 영화, TV쇼 비중
그 다음으로는 넷플릭스 내 영화, TV 쇼 비중을 파이차트로 그려서 알아보도록 하겠다. 분석 결과 확실히 예상했듯이 영화 콘텐츠가 많은 상황이다.
movies=df.groupby('type').count()['title'][0]/len(df)
shows=df.groupby('type').count()['title'][1]/len(df)
plt.rcParams["figure.figsize"] = (16,16)
plt.pie([movies,shows], labels=['Movies','TV Shows'], autopct='%1.1f%%', shadow=True, startangle=90)
연도별 콘텐츠 추가한 개수
마지막으로 넷플릭스가 연도별로 콘텐츠를 추가한 개수를 확인해보자. 역시 최근 몇 년 사이 안에 넷플릭스가 엄청난 투자로 콘텐츠 수를 늘리고 있는 점을 확인할 수 있다.
import datetime
df2=df.dropna(subset=['date_added'])
df2['year_added']=df2['date_added'].apply(lambda x: x[-4:] )
year_df=pd.DataFrame(df2.groupby('year_added').count()['type'])
year_df.columns=['콘텐츠 추가 개수']
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))
plt.bar(year_df.index,year_df['콘텐츠 추가 개수'])
plt.ylim(0,3000)
plt.title('연도녈 콘텐츠 추가 개수')
for x,y in enumerate(list(year_df['콘텐츠 추가 개수'])):
plt.text(x, y, y, fontsize=13, color='#ff0000',
horizontalalignment='center', verticalalignment='bottom')
plt.show()
이번 포스팅에서는 Kaggle 에 있는 넷플릭스 관련 데이터 셋을 갖고 분석해보았다. 끝
728x90
반응형
'문송충의 코딩하기 > Kaggle' 카테고리의 다른 글
[파이썬 데이터 분석] - Kaggle 구글 플레이 스토어 앱 데이터셋 분석 (0) | 2020.11.14 |
---|
댓글