연습(3)
-
KT AICE Associate 특강 3일차 - 데이터 분석, 전처리부터 딥러닝 과정까지.
모델링 프로세스. 데이터 가져오기 데이터 분석 X , y 나누기 머신러닝 모델링 딥러닝 모델링 딥러닝 성능 평가 sns.load_dataset('iris') 아이리스를 가져옴. 근데 원래 seaborn에서 가져왔었나?? 아닌 것 같은데. 아무튼 편리하다. dir(iris) 이거 하면 iris라는 변수에서 쓸 수 있는 메서드를 볼 수 있다. (iris['species'].value_counts()).plot(kind='bar') 겁나 신기하네. seaborn으로 불러와서 이렇게 value_counts()를 하는 것만으로도 불러와진다. 대신 iris의 value_counts는 괄호 없어도 됨. 레이블 인코딩 단계. le = LabelEncoder() y = le.fit_transform(y) le.class..
2023.07.12 -
타이타닉 생존자 예측 프로젝트 해보기 1. 전처리 및 sns 뽑아보기.
인프런의 권철민 강사님 동영상을 참고 중이다. %matplotlib inline 이것을 쓰면 matplotlib을 쥬피터로 실행할 때 실행한 브라우저에서 바로 볼 수 있게 하는 소스이다. 그 다음 각 데이터의 타입과 Non-Null Count를 확인해보기 위해 Info()를 쓴다. Age와 Cabin, Embarked에 Null값이 있는 것으로 보인다. titanic_df.isnull().sum() def drop_features(df): df.drop(['PassengerId', 'Name','Ticket'], axis=1, inplace=True) return df drop_features(titanic_df) titanic_df axis=0을 하고 돌려보면 오류는 일단 뜬다. 그런데 내가 무슨 작업..
2023.07.04 -
머신러닝 용어, 기본 개념. 학습데이터? 테스트 데이터? 머신러닝 계의 Hello World인 붓꽃(load_iris) 연습하기.
ML 모델 : Machine Learning Model. Feature : 데이터 세트의 일반적인 속성. 학습데이터(Training Data) 레이블(타겟값) : 피처에 기반해서 학습을 기반으로 답을 학습을 하는 것. 어떤 특성의 라벨링을 붙인 것. 테스트 데이터(Test data) 이 때는 Feature들만 주고 답이 없다. Feature를 기반으로 레이블을 예측을 한다. 그래서 예측을 한 레이블의 값과 테스트 데이터에 실제 값을 비교하여 ML 모델이 얼마나 잘 만들어졌는지에 대한 것을 평가한다. import sklearn import pandas as pd from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClass..
2023.06.25