경기도미래기술학교 AI개발자 부트캠프 1일차 TIL : 파워쿼리, 엑셀 실습. 통계학의 기본 개념.

2023. 5. 8. 17:42AI교육/엑셀 실습

반응형

 

실습과제는 엑셀을 활용한 파워쿼리라는 것을 배웠다.

 

함께한 주제는 이것이다.

요즘 TV에 트로트가 참 많이 나오는데 과연 다른 장르의 곡들에 비해 인기가 많을까? 라는 논제이다. 멜론의 좋아요 기준으로 추출 해보기로 했다. 웹에서 라는 것을 클릭해서 왼쪽 글씨 기준으로 8글자 하고 정렬했다.

 

트로트와 발라드, 힙합을 각각 비교해서 결과를 도출했다. 트로트가 발라드와 힙합에 비해 좋아요 수는 적었다. 의외인 것은 힙합이었는데 나는 마이너라고 생각했는데 좋아요 수가 생각보다 엄청 많았다. 엑셀의 비쥬얼 스튜디오를 이용하여 매크로도 적용하여 실습을 진행했다.

 

또 OPEN API 사이트를 이용해 엑셀에 추출도 해봤다.

 

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

이거는 소스코드로 예전에 잠깐 맛만 본 기억이 있는데 엑셀로 내려받아본 적은 처음이었다. 국민연금 가입 사업자 내역과 국토교통부의 오픈api로 테스트를 진행하였다. API 가이드를 잘 확인하고(필수와 필수 아닌 것 등을 구분하는 것.) 강사님께서는 오뚜기로 예를들어 진행하셨다.

 

그리고 철광석 데이터를 통하여 통계학의 기본개념을 같이 공부했다.

 

 

모집단 : 연구대상이 되는 전체집단.

 

표본집단 : 모집단은 현실적으로 모두 연구하기 어려우므로 임의로 선정을 하여 연구를 진행한다.(ex. 대한민국 남성의 평균 몸무게를 알기 위해 1000명의 남성을 임의로 선정한다.)

 

가설 검정 : 표본집단으로 연구한 자료가 어떤 값의 모집단과 연관이 있는지 검증하는 과정이다.

가설 검정에서는 표본 데이터를 이용하여 귀무가설이 맞는지 아닌지를 검정하게 되는데 이때, 검정 통계량(test statistic) 계산하여 유의수준(significance level) 비교하게 된다. 유의수준은 귀무가설이 맞을 가능성을 나타내는 값으로, 일반적으로 0.05 0.01 설정된다.

아래는 귀무와 대립의 예시이다.

 - 귀무 가설 : 새 약물의 효과는 기존 약물과 차이가 없다.

 - 대립 가설 : 새 약물의 효과는 기존 약물에 비해 어떠한 부분에서 뛰어난 성능을 가지고 있다.

 

 - 귀무 가설 : 제품 A는 제품 B에 비해 불량률이 높다.

 - 대립 가설 : 제품 A는 제품 B에 비해 불량률이 낮다.(혹은 높지 않다.)

 

오차한계 : 표본추출이 실제로 모집단에 비해 실제 얼마나 차이 나는지를 나타낸 값.

예를 들어 특정 정당 지지율이 40%라고 하자.

이 때 위에서 말한 가설 검정 기준으로 95% 정도의 신뢰수준을 설정하여 표준오차가 2% 경우, 오차한계는 1.96 × 2% = 3.92% 된다. , 조사 결과에서는 모집단 지지율이 40% 전후로 3.92% 범위 안에 있을 가능성이 95% 추정된다. 따라서, 모집단 지지율이 36.08% ~ 43.92% 사이에 있을 가능성이 높다는 것을 의미한다.

 

 

P-Value : 귀무 가설을 검증하는데 사용되는 통계적 지표. P-Value가 작을 수록 귀무 가설은 기각될 확률이 높아진다.

 

산술평균 : 데이터의 총합을 데이터의 갯수로 나눈 값. 흔히 말하는 평균이다.

중앙값 : 데이터를 작은 크기순대로 정렬 후 가운데 값을 의미한다. 가운데값이 2개라면 둘을 합쳐 나눈다.

최빈값 : 데이터 중 가장 많은 것.

편차 : 각 데이터가 평균값으로 얼마나 떨어져 있는지에 대한 값. 

표준편차 : 분산의 제곱근. 데이터가 평균값으로부터 얼마나 떨어져있는지 나타낸다.

분산 : 데이터가 얼마나 분산되어있는지를 나타내는 값. 각 편차의 제곱을 하여 나눈다.

 

https://www.youtube.com/watch?v=nD8IeWK_Q0E 

왜도 : 도수분포의 집중형태를 전체적으로 측정한 값.

왜도<0 오른쪽으로 치우친 분포.

왜도>0 왼쪽으로 치우친 분포.

0에 가까울 수록 정규분포와 가깝다.

 

첨도 : 데이터의 정도가 얼마나 뾰족한지 측정한 값.

 

정규분포도 잘 몰라서 한 번 봐야겠다.

https://www.youtube.com/watch?v=jwMEHQWOwyo 

 

728x90