728x90
[파이썬 데이터 분석] - Kaggle 구글 플레이 스토어 앱 데이터셋 분석
www.kaggle.com/lava18/google-play-store-apps
이번 포스팅을 시작으로 캐글에서 제공하고 있는 수 많은 데이터셋을 활용해서 파이썬 데이터 분석 스터디를 해보고자 한다. 아직 머신러닝 단계는 전혀 모르기 때문에 우선은 데이터를 전처리하고 간략히 시각화하는 연습을 시작해보겠다. 이번 포스팅에서는 위 링크에서 나오는 구글 플레이 스토어 App 데이터를 활용하도록 하겠다.
Kaggle Google Play Store Apps Dataset
카테고리별 App 개수
category=pd.DataFrame(df.groupby('Category').count()['App'])
category.columns=['App Counts']
category=category[1:]
category=category.sort_values(by='App Counts',ascending=False)
import matplotlib.pyplot as plt
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))
plt.bar(category.index[:10],category['App Counts'][:10])
for x,y in enumerate(list(category['App Counts'][:10])):
plt.text(x, y, y, fontsize=13, color='#ff0000',
horizontalalignment='center', verticalalignment='bottom')
plt.title('카테고리별 앱 개수')
plt.show()
연령 등급 별 App 개수
age_content=pd.DataFrame(df['Content Rating'].value_counts())
age_content.columns=['App_Counts']
import seaborn as sns
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))
x=age_content.index.values
y=age_content.App_Counts.values
BarplotDB=sns.barplot(x,y,palette="CMRmap")
BarplotDB.set_xticklabels(BarplotDB.get_xticklabels(), rotation=90)
설치 수 기준 App 개수
df['Installs'] = df['Installs'].map(lambda x: x.rstrip('+'))
#remove commas from installs
df['Installs'] = df['Installs'] .str.replace(',', '')
df['Installs'] =df['Installs'] .astype(int)
install=pd.DataFrame(df['Installs'].value_counts())
install.columns=['App_Counts']
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["font.size"] = 11
plt.figure(figsize=(18,10))
x=install.index.values
y=install.App_Counts.values
BarplotDB=sns.barplot(x,y,palette="CMRmap")
BarplotDB.set_xticklabels(BarplotDB.get_xticklabels(), rotation=90)
우선 위에 있는 내용처럼 데이터 클린징과 시각화 위주로 작성하고, 나중에 공부 좀 하면 좀 더 심화된 분석 내용을 해보도록 하겠다.
728x90
반응형
'문송충의 코딩하기 > Kaggle' 카테고리의 다른 글
[파이썬 데이터 분석] - Kaggle에 있는 넷플릭스 관련 데이터셋 활용한 데이터 분석 (0) | 2020.11.15 |
---|
댓글