python(58)
-
타이타닉 생존자 예측 프로젝트 해보기 1. 전처리 및 sns 뽑아보기.
인프런의 권철민 강사님 동영상을 참고 중이다. %matplotlib inline 이것을 쓰면 matplotlib을 쥬피터로 실행할 때 실행한 브라우저에서 바로 볼 수 있게 하는 소스이다. 그 다음 각 데이터의 타입과 Non-Null Count를 확인해보기 위해 Info()를 쓴다. Age와 Cabin, Embarked에 Null값이 있는 것으로 보인다. titanic_df.isnull().sum() def drop_features(df): df.drop(['PassengerId', 'Name','Ticket'], axis=1, inplace=True) return df drop_features(titanic_df) titanic_df axis=0을 하고 돌려보면 오류는 일단 뜬다. 그런데 내가 무슨 작업..
2023.07.04 -
경기도미래기술학교 AI개발자 부트캠프 37일차 - 클러스터링(Clustering) 공부하기.
챗 GPT에 클러스터링이 어떤 곳에 활용되는지 물어보자. 대표적인 군집화 알고리즘으로는 K-Means, Mean Shift, Gaussian Mixture Model, DBScan이 있다. import numpy as np import matplotlib.pyplot as plt def euclidean_distance(x1, y1, x2, y2): result = (((y1-x1)**2) + ((y2-x2)**2)) ** 0.5 return result n_classes = 4 n_data = 100 X, y = [], [] for class_idx in range(n_classes): centroid = np.random.uniform(low=-10, high=10, size=(2,)) X_ = np..
2023.06.30 -
ModuleNotFoundError: No module named 'openpyxl' 주피터에서 엑셀이 쳐 안열린다면? pip install xlrd
가뜩이나 아파 죽겠는데 짜증나게 열리지가 않는 엑셀 파일이 있었다. ModuleNotFoundError Traceback (most recent call last) File ~\anaconda3\lib\site-packages\pandas\compat\_optional.py:141, in import_optional_dependency(name, extra, errors, min_version) 140 try: --> 141 module = importlib.import_module(name) 이런 오류였는데, 아래 openpyxl을 하라고 구글추천 받았는데도 되지를 않았다. pip install openpyxl 밑에 좍좍 내려보니 import_optional_dependency("xlrd", extra..
2023.06.29 -
경기도미래기술학교 AI개발자 부트캠프 36일차 TIL- KNN 알고리즘 디시전 바운더리까지.
import numpy as np import matplotlib.pyplot as plt # np.random.seed(22) K = 5 n_classes = 4 n_data = 50 X, y = [], [] for class_idx in range(n_classes): centroid = np.random.uniform(low=-10, high=10, size=(2,)) X_ = np.random.normal(loc=centroid, scale=1.7, size=(n_data, 2)) y_ = np.ones(n_data,) * class_idx X.append(X_); y.append(y_) X = np.vstack(X) y = np.concatenate(y) # print(X.shape, y.sha..
2023.06.29 -
데이터 전처리(레이블 인코딩, 원핫 인코딩)와 스케일링(일반적으로 표준화, 정규화)
인프런의 권철민 강사님 동영상을 참고 중이다. 전처리(Preprocessing)를 잘해야 한다. 이상치나 결측치가 있을 수도 있고, 인코딩 값이 다를 수도 있기 때문이다. 그리고 애초에 머신러닝에서는 문자열을 허용하지 않기 때문에 숫자값으로 바꿔야 한다. 레이블 인코딩 : 문자열로 되어 있는 것을 숫자열로 바꿔주는 것이다. 상품 이름을 상품 넘버로 , 사람 이름을 번호로 바꾸는 작업이다. 레이블 인코딩은 LableEncoder 클래스와 fit(), transform()을 이용한다. 근데 이렇게 바꾸다 보면 특정 알고리즘에는 영향을 받을 수 있다. One-Hot 인코딩(원핫 인코딩 벡터) : 특정 분류값들을 벡터화(1차원 어레이) 시켜서 값을 입력한다. 이것을 할 때는 Sparse Matrix로 변환 ..
2023.06.28 -
경기도미래기술학교 AI개발자 부트캠프 35일차 TIL- KNN 알고리즘 그려보기.
import numpy as np import matplotlib.pyplot as plt def euclidean_distance(x1, y1, x2, y2): result = (((y1-x1)**2) + ((y2-x2)**2)) ** 0.5 return result n_classes = 4 n_data = 100 X, y = [], [] for class_idx in range(n_classes): centroid = np.random.uniform(low=-10, high=10, size=(2,)) X_ = np.random.normal(loc=centroid, scale=2, size=(n_data, 2)) y_ = class_idx * np.ones(n_data,) X.append(X_) y.a..
2023.06.28