2023. 6. 9. 14:51ㆍ카테고리 없음
오늘은 공부시간이 별로 안되어서 조금만 씀.
미니 프로젝트 주간이다. 나는 인구감소에 대한 원인들을 모으고 그 원인들이 상관관계가 어떻게 되어있는지 분석해보기로 했다.
시작하기 전에 목표를 가지고 가자. 목표를 먼저 적어야 나중에 덜 헤맬 것 같다.
내 목표.
1. pandas와 matplotlib을 전보다 더 숙련되게 사용하는 것. 앞으로도 많이 사용할 것들이기 때문이다.
2. 나만의 결론을 도출하기. 대신 너무 깊게 가지 말기.
우선 출산율 감소에 대한 대표적인 원인들을 분석해보고 내가 생각하는 추론을 세운 뒤, 대한민국은 어떻게 발전해야 하는지 나만의 결론을 꺼내보자.
우선! 시작이 반이다. 코랩 파일을 만들고 수업시간에 배웠던 한글깨짐 테스트를 진행하였다.
# colab에서 한글폰트 사용하기
# 아래 셀을 실행 -> 메뉴에서 런타임 > 런타임 다시 시작 수행
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
#런타임 다시 시작
# 라이브러리 import
import numpy as np #넘파이 라이브러리(수치관련)
import pandas as pd #판다스 라이브러리(데이터분석)
import seaborn as sns #시각화 라이브러리
import matplotlib.pyplot as plt #시각화 라이브러리
import warnings
warnings.filterwarnings(action='ignore')
plt.rc('font', family='NanumBarunGothic')
그 다음 행정안전부 자료를 보며 현재 대한민국의 인구감소 상황을 서술할 예정이다.
그다음 계획을 세운다. 어떤 데이터를 가져오고 비교를 어떤 식으로 할 것인지 머릿속으로 대략적 정리를 한다.
아... 근데.... 어떤 데이터를 가져와서 어떤 비교를 하냐..? 아주 막막한 부분이다. 일단 출산율을 먼저 가져왔다.
#구글 드라이브 마운트하기
from google.colab import drive
drive.mount('/content/drive')
클라우드 마운트를 하고 파일 저장을 해야 내가 어딜가서든 경로 설정 안하고 프로젝트를 진행할 수 있다.
그다음엔 판다스로 저장한 데이터를 호출했다. 사실 이게 ㅋㅋㅋ 2000년 계가 있고 남자 여자 또 따로 있는데 지우는게... 너무 귀찮아서 엑셀에서 먼저 밀어버리고 계만 따로 가져왔다. 일단 히스토그램을 어서 보고싶었기 때문이다.
이렇게 방법을 미루다가 조만간 다시 겪을 때는 방법을 찾아야할 듯.
아무튼 시군구별 계(명)이 있는데 계(명)이라는 데이터는 필요가 없다. 저기까지 컬럼으로 되어있었다. 그래서 나는 0번째 행을 아예 지우는 방식으로 데이터를 추출한 뒤 값을 뽑았다.
그다음 데이터의 타입을 살펴봐야 한다.
우선 전국에 있는 합계가 이미 되어있기 때문에 결측치를 확인할 필요는 없다. 넘어간다.
피어슨 상관계수 하기.