2023. 6. 11. 17:39ㆍAI교육/기타 배경지식
? 분산과 표준편차는 왜 다를까.
분산은 평균으로부터 각 요소들이 얼마나 떨어져있는지 판단하는 것이다. 대신 각 요소를 제곱했기 떄문에 데이터의 원 스케일 값은 아니다.
표준편차는 각 데이터마다 평균적으로 얼마나 차이가 있는지 판단하는 것이다. 표준편차는 분산의 제곱근이다. 따라서 제곱한 분산의 값을 다시 원래대로 한 것이기 때문에 그 값으로 원래의 데이터 단위로 파악할 수 있다.
t-test의 설명.
1. t-test에서 어떤 두 집단 사이의 평균 차이가 5kg 정도 난다고 치자.
2. 만약 이 5kg이 표준편차보다 작다면 5kg 차이에 큰 의미를 둘 수가 없다 라는 뜻이다. 따라서 이 차이가 우연히 발생했다 라는 결론이 생기는 것이다.
3. 하지만 5kg가 표준편차보다 크면 클 수록 큰. 그러면 이 차이는 우연히 발생하지 않았다고 판단하는 것이다.
two test sample : 독립표본 t 검정. scipy.stats 의 ttest_ind(x, y) 함수를 사용한다. ind는 identify라고 한다. 독립된 두 개의 변수를 비교하여 결과를 예측한다.
https://www.youtube.com/watch?v=AovOoq4p3nY
근데 여기서는 t-test 하기 전에 정규분포를 보는 법부터 알아야 한다고 하네.
정규분포 : 종모양의 좌우 대칭적인 곡선으로 나타난다. 양 끝은 영원히 0에 닿지 않는다. 정규분포는 평균과 표준편차만으로 규정된다. 평균과 표준편차가 다른 무한대 개의 서로 다른 정규분포가 존재한다.
평균값 중심으로 += 1시그마가 68.2% 정도로 들어오고 +- 2시그마가 약 95.4% 만큼 들어온다. 3시그마는 99.7% 정도 들어온다.
표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포이다.
z-transformation 계산
(특정포인트-평균)/시그마(표준편차).
그다음 표준정규분포표 라는 것이 있다고 한다.
https://math100.tistory.com/39
인덱스는 소숫점 1의자리, 컬럼에는 소숫점 2의 자리가 나와있다. 이것에 따라 읽고 정규분포표 범위가 어느정도인지 파악을 해서 해석하면 된다.
'AI교육 > 기타 배경지식' 카테고리의 다른 글
경기도미래기술학교 AI개발자 부트캠프 25일차 TIL- 입사지원 포트폴리오와 면접에 관하여. (0) | 2023.06.13 |
---|---|
6월 둘째 주 주말. 통계의 미학이라는 책을 샀다. 통계 복습. (0) | 2023.06.12 |
앱맵 - 유지보수 최적화 플러그인. (0) | 2023.06.05 |
엔비디아 회사와 AI, 그리고 삼성,SK 하이닉스의 연관. GPU란? 간단하게 알아보기. (0) | 2023.06.01 |
비전공자 전문대 졸업자는 인공지능 배워서 어디로 취업할 수 있을까? 나는 무엇을 공부해야 할까. (0) | 2023.05.26 |