Decision Tree란? 질문을 던져 가며 대상을 좁혀가는 ‘스무고개’와 비슷한 형식의 알고리즘 추론 결과를 통해 분기해 나가는 구조가 Tree와 비슷하기 때문에 Decision Tree라고 한다. 노드안의 원소들의 불순도(impurity) 최대한 감소하는 방향(최대한 한 class의 값들만 있는 상태)으로 조건을 ...
[Machine Learning] 07. 지도학습
KNN KNN이란? K-최근접 이웃 (K-NearestNeighbors) Classification(분류)과 Regression(회귀)를 모두 지원한다 Classification은 가장 가까운 K 원소 종류의 개수로 계산 Regression은 가장 가까운 K 원소 값의 평균으로 계산 예측하려는 ...
[Machine Learning] 06. 과적합과 일반화
과적합과 일반화 데이터 학습량에 따른 과적합과 일반화 간단 분류 Underfitting < Generalization < Overfitting 단순한 모델 Generalization (일반화) 모델이 새로운 데이터셋(Test data )에 대하여 정확히 예측하면 이것을 일반화 되었다고 말한다. 모델이 훈련 데이터로...
[Machine Learning] 05. Classification(분류)
Classification 분류(Classification) 주요 평가 지표 정확도 정밀도 재현률 F1 점수 PR Curve, AP score ROC, AUC score 정밀도, 재현률 F1 점수 → Positive에 대한 평가 지표 scikit-learn 평가함수 모듈 sklearn.metrics 모듈을 통해...
[Machine Learning] 04. 데이터 전처리
Data Preprocessing 데이터를 가지고 머신러닝을 진행하기 위해서는 좋은 데이터를 가지고 해야 결과값이 잘 나온다. Garbage in, Garbage out 비정형 데이터의 경우에는 데이터 구조가 정해져 있지 않기 때문에 오랫동안 발전을 못하다가 딥러닝이 발달되면서 발전이 되기 시작했다. 목적...
[Machine Learning] 03. 데이터셋 나누기와 교차 검증
데이터 셋 Train 데이터셋 (훈련/학습 데이터셋) 모델을 학습시킬 때 사용할 데이터셋. 옛날 데이터(Train Data)를 이용해서 새로운 데이터 추론 Validation 데이터셋 (검증 데이터셋) 모델의 성능 중간 검증을 위한 데이터셋 Test set과 Train...
[Machine Learning] 02. 머신러닝 기본 순서
머신러닝 순서 데이터 셋 불러오기 독립변수(= input data = Features) 와 종속변수(= output data = labels = Targets)을 X와 y로 설정 X, y(전체 데이터셋)을 Train dataset과 Test dataset으로 분리 -> sklearn의 train_test_split() 함수를 사용하...
[Machine Learning] 01. 인공지능
인공지능 개요 인공지능 (AI - Artificial Intelligence) 이란 지능이란? 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 인공지능 기계가 사람의 지능을 모방하게 하는 기술 규칙기반, 데이터 학습 기반 정의 다트머스대학 수학과 교수인 존 매카시(John McCart...
[Numpy] 02. Numpy 활용
배열 인덱싱(Indexing) index 원소의 배열 내 식별 번호 0부터 시작 indexing index를 이용해 원소 조회 구문 ndarray[index] 양수는 index값으로, 음수는 뒤부터 조회 ([-1] ...
[Visualization] 04. Seaborn
0. Seaborn matplotlib을 기반으로 다양한 테마와 그래프를 제공하는 파이썬 시각화 패키지. 기본적으로 toy data(테스트 해볼 수 있는 데이터) 를 제공해준다. 데이터프레임과의 연동이 잘 되어 있다. <-> matplotlib: 그래프를 그리기 위해 데이터를 사용자가 직접 지정해주어야 함 모듈...