경기도미래기술학교 AI개발자 부트캠프 23일차 TIL- 통계학 복습 계속.

경기도미래기술학교 AI개발자 부트캠프 23일차 TIL- 통계학 복습 계속.

2023. 6. 11. 17:39ㆍAI교육/기타 배경지식

? 분산과 표준편차는 왜 다를까.

분산은 평균으로부터 각 요소들이 얼마나 떨어져있는지 판단하는 것이다. 대신 각 요소를 제곱했기 떄문에 데이터의 원 스케일 값은 아니다.

표준편차는 각 데이터마다 평균적으로 얼마나 차이가 있는지 판단하는 것이다. 표준편차는 분산의 제곱근이다. 따라서 제곱한 분산의 값을 다시 원래대로 한 것이기 때문에 그 값으로 원래의 데이터 단위로 파악할 수 있다.

t-test의 설명.

1. t-test에서 어떤 두 집단 사이의 평균 차이가 5kg 정도 난다고 치자.

2. 만약 이 5kg이 표준편차보다 작다면 5kg 차이에 큰 의미를 둘 수가 없다 라는 뜻이다. 따라서 이 차이가 우연히 발생했다 라는 결론이 생기는 것이다.

3. 하지만 5kg가 표준편차보다 크면 클 수록 큰. 그러면 이 차이는 우연히 발생하지 않았다고 판단하는 것이다.

two test sample : 독립표본 t 검정. scipy.stats 의 ttest_ind(x, y) 함수를 사용한다. ind는 identify라고 한다. 독립된 두 개의 변수를 비교하여 결과를 예측한다.

근데 여기서는 t-test 하기 전에 정규분포를 보는 법부터 알아야 한다고 하네.

정규분포 : 종모양의 좌우 대칭적인 곡선으로 나타난다. 양 끝은 영원히 0에 닿지 않는다. 정규분포는 평균과 표준편차만으로 규정된다. 평균과 표준편차가 다른 무한대 개의 서로 다른 정규분포가 존재한다.

평균값 중심으로 += 1시그마가 68.2% 정도로 들어오고 +- 2시그마가 약 95.4% 만큼 들어온다. 3시그마는 99.7% 정도 들어온다.

표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포이다.

z-transformation 계산

(특정포인트-평균)/시그마(표준편차).

그다음 표준정규분포표 라는 것이 있다고 한다.

표준정규분포표로 확률 구하는 법

연속확률분포는 그래프의 면적으로 확률을 구하기 때문에, 정규분포의 확률을 구하기 위해서는 그래프의 면적을 구해야 한다.(면적의 넓이가 곧 확률이다) 그리고 그래프의 면적을 구하기 위해

math100.tistory.com

인덱스는 소숫점 1의자리, 컬럼에는 소숫점 2의 자리가 나와있다. 이것에 따라 읽고 정규분포표 범위가 어느정도인지 파악을 해서 해석하면 된다.

728x90

경기도미래기술학교 AI개발자 부트캠프 25일차 TIL- 입사지원 포트폴리오와 면접에 관하여. (0)	2023.06.13
6월 둘째 주 주말. 통계의 미학이라는 책을 샀다. 통계 복습. (0)	2023.06.12
앱맵 - 유지보수 최적화 플러그인. (0)	2023.06.05
엔비디아 회사와 AI, 그리고 삼성,SK 하이닉스의 연관. GPU란? 간단하게 알아보기. (0)	2023.06.01
비전공자 전문대 졸업자는 인공지능 배워서 어디로 취업할 수 있을까? 나는 무엇을 공부해야 할까. (0)	2023.05.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이스트진 블로그