경기도미래기술학교 AI개발자 부트캠프 2일차 TIL : 통계학 엑셀실습.

2023. 5. 9. 18:16AI교육/엑셀 실습

반응형

 

오늘 시작은 철광석 중 어떤 것이 가격변동이 적은지에 대한 테스트를 진행했다. 가격 변동성이 적은 것을 구할 때는 데이터의 분산 혹은 표준 편차를 확인해야 한다. 복습도 좀 하자.

 

분산 : 각 데이터 값과 평균값의 차이를 제곱한 값의 평균.

표준편차 : 분산의 제곱근.

 

따라서 분산과 표준편차가 작으면 데이터가 중심에 모여 있으며, 변동이 적다는 것을 의미한다.

 

우선 철스크랩 표준 편차는 약 70, 분산은 5020

열연의 표준 편차는 약 91, 분산은 8326

냉연의 표준 편차는 131, 분산은 17176

 

따라서 철스크랩의 편차가 가장 작은 값을 나타냈기 때문에 철스크랩의 가격 변동성이 가장 적다는 결론을 냈다.

 

또 직접적인 경우는 아니지만 가격 변동이 큰 상품인 경우는 왜도가 큰 값이 나타날 수 있고 데이터가 오른 쪽으로 치우쳐져 있는 형태로 나올 가는성이 있다. 반면 가격 변동이 적으면 분포가 대칭적이고 왜도가 작은 값이 나타날 수 있다.

 

왜도가 0이면 분포가 대칭적, 양수이면 오른쪽으로 치우쳐짐, 음수이면 왼쪽으로 치우쳐진 비대칭 분석.

예를 들면 배민 같은 경우는 왜도가 크게 음수일 것이다. 분포의 꼬리는 왼 쪽 방향으로 길어질 것이다. 왜냐하면 배민 평점은 대부분 5점이기 때문이다.

 

상관분석이란?

 

상관 분석은 두 변수 간의 관계를 분석하는 방법 중 하나이다. 한 변수가 변화할 때 다른 변수는 어떤 식으로 변화하는지 파악할 수 있다. 주로 피어슨 상관계수를 사용하여 측정하는데 -1부터 1까지의 값을 가지고 1에 가까울 수록 양의 상관관계가 강하고 -1에 가까울 수록 음의 상관관계가 강하다. 0에 가까울 수록 상관관계가 없다.

 

Ex. 국내 취업률과 경제성장률 사이의 상관관계 가설 짓기.

사람의 키와 몸무게의 상관관계.

도시 내 자동차 운행량과 대기오염 농도지수의 상관관계.

흡연과 폐암 발생률.

 

허위상관이란?

두 변수 간 상관관계가 존재하지 않으나 통계적으로는 유의미한 상관관계로 나타나는 현상.

Ex. 아이스크림 판매량과 흉기 범죄율의 상관관계. 

 

회귀분석 쌩기초! 8분만 투자하세요 | 최소제곱법 - YouTube

 

회귀분석이란?

회귀분석은 두 개 이상의 변수 간 관계를 분석하는 방법 중 하나이다. 독립변수종속변수 사이의 관계를 모델링하여 인과관계를 수학적으로 설명할 수 있고 미래의 종속변수의 값을 예측할 수 있다. 독립변수가 한 개일 때는 단순회귀분석, 2개 이상이면 다중회귀분석이라고 한다. 의학에서는 약효와 용량 간의 관계를 분석하기 위해 회귀분석을 사용한다.

 

선형 회귀분석, 비선형 회귀분석이 있다.

 

선형 회귀분석 : ax+b 라고 했을 때 a와 b(파라미터)에 어떤 선의 관계가 있는지에 대한 것.(단순히 직선이 선형 회귀가 아님.)

 

비선형 회귀분석 : 파라미터 기준으로도 선이 아닌 것.

 

위 동영상의 예시에서는 자동차 속력과 정지 거리로 예를 들었다. 이 때 잔차의 합이 최소인 것의 직선을 찾아 긋는다.

 

잔차 : 회귀분석에서 예측한 값과 실제 값의 차이.

 

오차와 잔차의 차이.

잔차는 표본집단에서의 실제 값과 예측 값의 차이.

오차는 모집단에서의 실제 값과 예측 값의 차이를 나타낸다. 

 

모르는 것 : 

회귀분석 쪽 : 미분.편미분. 시그마.

 

결정계수 : 종속변수의 총 변동량 중에서 회귀모형에 의해 설명되는 변동량의 비율. 즉 회귀모형이 종속변수의 변동을 얼마나 잘 설명했는지를 나타내는 지표. 0과 1의 사이를 가지고 값이 1에 가까울 수록 회귀모형이 종속변수의 변동을 잘 설명했다 라고 의미한다. 기호는

  (R-squared)로 표시된다.

 

조정된 결정계수 : 모델에 사용된 독립변수의 수에 따라 조정된다. 독립변수의 수가 증가하면 결정계수의 갑이 증가할 수 있지만 과적합될 가능성을 높이게 된다. 따라서 독립변수의 수에 대해서 패널티를 부과해 불필요한 변수가 추가됨으로써 발생하는 모델의 과적합을 예방한다.

 

차원의 저주 : 더 많은 차원이 추가됨에 따라 데이터의 복잡성이 기하급수적으로 증가하고 이를 처리하기 위한 계산량이 많이 필요하게 돼서 분석이 어려워지거나 성능 자체가 저하되는 현상.

 

Design Thinking : 혁신적인 문제해결과 창조적인 아이디어 발굴을 위하여 디자인적 사고와 방법을 적용하는 프로세스.

 

문제정의

인사이트 도출 : 사용자 중심으로 관찰, 설문조사나 인터뷰를 통하여 필요한 사항, 문제점 등을 해결할 수 있는 인사이트를 얻는다.

아이디어 발산

아이디어 선별

프로토타입 제작

검증

구현

 

사례 Apple의 iPod

Airbnb : 처음에는 인기가 없었으나 이용자들의 불편을 파악하여 사진, 가격 위치 정보 등을 제공하여 사용자 중심의 서비스로 개선.

존스노우의 콜레라 이론 : 콜레라가 유행하자 의사들의 생각은 공기를 통해 콜레라가 전파된다고 생각했다. 당시 의사인 존 스노우는 맥주집 근처에는 콜레라로 인한 사망이 적은 것을 판단해 수도관의 문제라는 것을 밝혀낸 사실.

 

마지막은 간단한 조별 과제였는데 썸트렌드, 네이버트렌드 등으로 어떤 뜻에 대한 것을 정의하였다. 공통 주제는 20대에게 갓생이란 혹은 20대에게 가심비란? 중 하나를 하였고 우리는 가심비로 하여 잘 마무리 했다.

 

https://www.youtube.com/watch?v=OOxIUjdEtsc 

 

보스턴 집값 예측이라는 엑셀 프로그램을 한 번 실습 해보라고 하셨다. 근데 좀 귀찮은데 ㅎㅎㅎ 아 어쩌지~~ 고민된다.

 

결국 조금 하기로 했다. 상관관계만 했는데 건설 중인 곳은 즉시 거주 당연히 안되니까 음의 상관관계 -1이고 면적이 넓을 수록 대체로 가격이 비싼 듯 하다.

 

회귀분석은... 다음에 하기로 했다.

728x90