본문 바로가기
문송충의 코딩하기/Kaggle

[파이썬 데이터 분석] - Kaggle 구글 플레이 스토어 앱 데이터셋 분석

by 동장군님 2020. 11. 14.
728x90
반응형

[파이썬 데이터 분석] - Kaggle 구글 플레이 스토어 앱 데이터셋 분석

www.kaggle.com/lava18/google-play-store-apps

 

Google Play Store Apps

Web scraped data of 10k Play Store apps for analysing the Android market.

www.kaggle.com

 

이번 포스팅을 시작으로 캐글에서 제공하고 있는 수 많은 데이터셋을 활용해서 파이썬 데이터 분석 스터디를 해보고자 한다. 아직 머신러닝 단계는 전혀 모르기 때문에 우선은 데이터를 전처리하고 간략히 시각화하는 연습을 시작해보겠다. 이번 포스팅에서는 위 링크에서 나오는 구글 플레이 스토어 App 데이터를 활용하도록 하겠다.

 

Kaggle Google Play Store Apps Dataset

 

 

카테고리별 App 개수

category=pd.DataFrame(df.groupby('Category').count()['App'])
category.columns=['App Counts']
category=category[1:]
category=category.sort_values(by='App Counts',ascending=False)

import matplotlib.pyplot as plt

plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))

plt.bar(category.index[:10],category['App Counts'][:10])
for x,y in enumerate(list(category['App Counts'][:10])):
    plt.text(x, y, y, fontsize=13, color='#ff0000', 
                    horizontalalignment='center', verticalalignment='bottom')
    
plt.title('카테고리별 앱 개수')
plt.show()

 

 

 

 

 

연령 등급 별 App 개수

age_content=pd.DataFrame(df['Content Rating'].value_counts())
age_content.columns=['App_Counts']

import seaborn as sns

plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))

x=age_content.index.values
y=age_content.App_Counts.values
BarplotDB=sns.barplot(x,y,palette="CMRmap")

BarplotDB.set_xticklabels(BarplotDB.get_xticklabels(), rotation=90)

 

 

설치 수 기준 App 개수

 

df['Installs'] = df['Installs'].map(lambda x: x.rstrip('+'))
#remove commas from installs
df['Installs']  = df['Installs'] .str.replace(',', '')
df['Installs'] =df['Installs'] .astype(int)
install=pd.DataFrame(df['Installs'].value_counts())
install.columns=['App_Counts']

plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))

x=install.index.values
y=install.App_Counts.values
BarplotDB=sns.barplot(x,y,palette="CMRmap")

BarplotDB.set_xticklabels(BarplotDB.get_xticklabels(), rotation=90)

우선 위에 있는 내용처럼 데이터 클린징과 시각화 위주로 작성하고, 나중에 공부 좀 하면 좀 더 심화된 분석 내용을 해보도록 하겠다.

 

 

728x90
반응형

댓글