경기도미래기술학교 AI개발자 부트캠프 21일차 TIL- 회귀분석, t분포 등 통계지식 배우기. 통계는 분산의 마법.

2023. 6. 8. 09:22카테고리 없음

반응형

https://eastjin.tistory.com/72

 

경기도미래기술학교 AI개발자 부트캠프 1일차 TIL : 파워쿼리, 엑셀 실습. 통계학의 기본 개념.

실습과제는 엑셀을 활용한 파워쿼리라는 것을 배웠다. 함께한 주제는 이것이다. 요즘 TV에 트로트가 참 많이 나오는데 과연 다른 장르의 곡들에 비해 인기가 많을까? 라는 논제이다. 멜론의 좋아

eastjin.tistory.com

예전에 적었던 것.

 

표준편차 : 분산의 제곱근. 데이터가 평균값으로부터 얼마나 떨어져있는지 나타낸다.

분산 : 데이터가 얼마나 분산되어있는지를 나타내는 값. 각 편차의 제곱을 하여 나눈다.

 

https://www.youtube.com/watch?v=5Xke4ao1g9E&list=TLPQMDcwNjIwMjMfgrSYW1RkKw&index=2 

아주 꿀 같은 강의가 있다..

 

분산(Variance) :  모든 자료의 값에서 평균을 뺀 후 그것을 제곱하고 이 값들을 모두 더해서(제곱합) 자료 총갯수 -1로 나눈다.(자유도)

내가 가진 자료가 평균값을 중심으로 퍼져있는 평균적 거리.

왜 n-1로 나눌까. 그 이유는 이미 분자에서 평균값만큼 한 번 빼줬기 때문에 제외했다고 생각하자.

 

유의수준 p-value : p값은 뭘까. 우연히 발생할 확률이 얼마일까. 왜 0.05일까?

 

p-value는 probability value이다. 확률값이라는 의미이다. 0.05는 퍼센테이지를 의미한다. 5%정도의 차이면 우연이 아니다 라는 것을 믿는 수치이다. 유의하다(이유가 있다.)

 

증명하고싶은 가설을 대립가설이라고 하고 그 가설을 부정하는 것을 귀무가설이라고 한다. 정리한 것이 있긴 한데 또 쓰자.

 

가설 검정 : 표본집단으로 연구한 자료가 어떤 값의 모집단과 연관이 있는지 검증하는 과정이다.

가설 검정에서는 표본 데이터를 이용하여 귀무가설이 맞는지 아닌지를 검정하게 되는데 이때, 검정 통계량(test statistic) 계산하여 유의수준(significance level) 비교하게 된다. 유의수준은 귀무가설이 맞을 가능성을 나타내는 값으로, 일반적으로 0.05 0.01 설정된다.

귀무가설이라면 우연히 일어난 일로 치는 것이고 대립 가설이 맞다면 유의한 일로 일어났다는 뜻이다.

아래는 귀무와 대립의 예시이다.

 

 - 귀무 가설 : 새 약물의 효과는 기존 약물과 차이가 없다.

 - 대립 가설 : 새 약물의 효과는 기존 약물에 비해 어떠한 부분에서 뛰어난 성능을 가지고 있다.

 

 - 귀무 가설 : 제품 A는 제품 B에 비해 불량률이 높다.

 - 대립 가설 : 제품 A는 제품 B에 비해 불량률이 낮다.(혹은 높지 않다.)

 

통계적 가설과 검정.

 

1종 오류와 2종 오류

 

1종 오류 : 실제는 참인데 연구결과가 거짓이라고 나오는 것.

2종 오류 : 2종 오류는 실제는 거짓인데 연구결과가 참이라고 나오는 것.

 

 

변수의 종류.

 

명목변수: 각 범주간의 순위가 없다.

ex) 성별/인종/혈액형.

 

순위변수: 각 범주 간 순위가 있다. 범주에 할당된 값은 범주의 이름 뿐 아니라 순위 자체를 나타낸다.

 

성적/학력 등

 

구간변수 : 측정된 범주 사이에 등간성이 있다.(측정된 값들 사이에 상대적인 크기와 간격이 의미를 갖는다.) 할당된 값은 임의 단위여서 비율이나 0의 의미는 없다.

 

ex) 온도 등.

 

비율변수 : 측정된 범주 사이에 등간성이 있다.

할당된 값은 임의 단위로서 비율과 절대 0의 의미가 있다. 덧셈 곱셈 모두 가능하다. 비율변수는 변수의 크기와 비율을 정확하게 해석할 수 있다.

 

ex) 키, 몸무게, 시간 등.

 

상관관계 : 어떠한 방향으로 움직인다. X가 얼만큼 감소할 때 Y는 얼만큼 증가(감소)한다.

 

 

상관계수 : -1 ~ 0 ~1까지 존재한다. 상관계수가 0이면 아무 관계가 없음. 1일 수록 양의 상관관계 -1일 수록 음의 상관관계.

각도와는 상관이 없다.

 

이쯤 하고 오늘 배운 것 다시 시작.

 

t-test는 두 집단의 평균의 차이를 비교하는 테스트다. 일반적으로 모집단과 표본집단으로 테스트한다.

 

One sample t-test는 한 집단의 평균이 특정한 값과 다른지를 검정하는 방법이다.

 

popmean은 poplulation mean : 모집단 평균.

15인지 대립가설을 검증하는 것. t값은 높을 수록 표본과 모집단 편차가 크다고 할 수 있고, pvalue는 95%수준이므로 대립가설이 성립한다고 할 수 있다.

728x90