chap02 사이킷런 sklearn

특징

파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 파이썬스럽다.
머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공.

붓꽃 데이터를 이용한 학습

import sklearn
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

print(sklearn.__version__)     #버전 확인

import pandas as pd

iris = load_iris()    #붓꽃 데이터 세트 로딩

iris_data = iris.data

iris_label = iris.target
print('iris target값: ', iris_label)
print('iris target명: ', iris.target_names)

#DataFrane으로 변환해서 확
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df .head()

#train_test_split()을 이용하여 학습 데이터와 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

X_train: 학습용 피처 데이터 세트
X_test: 테스트용 피처 데이터 세트
y_train: 학습용 레이블 데이터 세트
y_test: 테스트용 레이블 데이터 세트
test_size=0.2: 테스트 데이터 20%, 학습 데이터 80%
iris_data: 피처 데이터 세트
iris_label: 레이블(Label) 데이터 세트
random_state: 호출 때마다 같은 학습/테스트 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값. random값을 만드는 seed와 같은 의미

dt_clf = DecisionTreeClassifier(random_state=11)    #객체 생성
dt_clf.fit(X_train,y_train)    #학습 수행

#학습된 객체에서 테스트 데이터 세트로 예측 수
pred = dt_clf.predict(X_test)
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:4f}'.format(accuracy_score(y_test,pred)))

사이킷런 주요 모듈

Untitled