경기도미래기술학교 AI개발자 부트캠프 23일차 TIL- 통계학 복습 계속.

2023. 6. 11. 17:39AI교육/기타 배경지식

반응형

? 분산과 표준편차는 왜 다를까.

 

분산은 평균으로부터 각 요소들이 얼마나 떨어져있는지 판단하는 것이다. 대신 각 요소를 제곱했기 떄문에 데이터의 원 스케일 값은 아니다.

 

표준편차는 각 데이터마다 평균적으로 얼마나 차이가 있는지 판단하는 것이다. 표준편차는 분산의 제곱근이다. 따라서 제곱한 분산의 값을 다시 원래대로 한 것이기 때문에 그 값으로 원래의 데이터 단위로 파악할 수 있다.

 

 

t-test의 설명.

 

1. t-test에서 어떤 두 집단 사이의 평균 차이가 5kg 정도 난다고 치자.

2. 만약 이 5kg이 표준편차보다 작다면 5kg 차이에 큰 의미를 둘 수가 없다 라는 뜻이다. 따라서 이 차이가 우연히 발생했다 라는 결론이 생기는 것이다.

3. 하지만 5kg가 표준편차보다 크면 클 수록 큰. 그러면 이 차이는 우연히 발생하지 않았다고 판단하는 것이다.

 

two test sample : 독립표본 t 검정. scipy.stats 의 ttest_ind(x, y) 함수를 사용한다. ind는 identify라고 한다. 독립된 두 개의 변수를 비교하여 결과를 예측한다.

https://www.youtube.com/watch?v=AovOoq4p3nY 

근데 여기서는 t-test 하기 전에 정규분포를 보는 법부터 알아야 한다고 하네.

 

정규분포 : 종모양의 좌우 대칭적인 곡선으로 나타난다. 양 끝은 영원히 0에 닿지 않는다. 정규분포는 평균과 표준편차만으로 규정된다. 평균과 표준편차가 다른 무한대 개의 서로 다른 정규분포가 존재한다.

 

평균값 중심으로 += 1시그마가 68.2% 정도로 들어오고 +- 2시그마가 약 95.4% 만큼 들어온다. 3시그마는 99.7% 정도 들어온다.

 

표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포이다.

 

z-transformation 계산

 

(특정포인트-평균)/시그마(표준편차).

 

그다음 표준정규분포표 라는 것이 있다고 한다.

 

https://math100.tistory.com/39

 

표준정규분포표로 확률 구하는 법

연속확률분포는 그래프의 면적으로 확률을 구하기 때문에, 정규분포의 확률을 구하기 위해서는 그래프의 면적을 구해야 한다.(면적의 넓이가 곧 확률이다) 그리고 그래프의 면적을 구하기 위해

math100.tistory.com

 

인덱스는 소숫점 1의자리, 컬럼에는 소숫점 2의 자리가 나와있다. 이것에 따라 읽고 정규분포표 범위가 어느정도인지 파악을 해서 해석하면 된다.

 

 

 

728x90