archive
[1주차 (5)] 트리 모델 본문
** 베이스라인 : 처음 만든 모델이나 최대한 간단하게 전처리 하고 빠르게 만든 모델
1. 트리모델 소개
-의사결정 나무 (decision tree) : 트리 모델 중 가장 간단한 모델
-칼럼 값들을 어떤 기준으로 group을 나누어 목적에 맞는 의사결정을 만드는 방법
-하나의 질문으로 yes 혹은 no로 decision을 내려서 분류한다
-Bagging 과 Boosting
-여러개의 decision tree를 이용하여 모델 생성, Bagging 과 Boosting은 트레인 데이터를 어떻게 활용하느냐에 있어서의 차이가 가장 크다.
(1) Bagging
-random forest는 Bagging의 대표적인 예, 데이터셋을 랜덤으로 샘플링하여 모델을 만들어 나가는 것이 특징
-샘플링한 데이터셋을 하나로 하나의 decision tree가 생성된다
-생성된 decision tree의 의사결정들을 취합 (aggregation)하여 하나의 decision을 생성해낸다.
-Bootstrap, 즉 데이터를 여러 번 샘플링하여 Aggregation, 즉 종합하여 앙상블을 만들어내는 것을 Bagging이라고 한다.
(2)Boosting
-초기에 랜덤으로 샘플링 된 데이터를 활용하여 하나의 트리를 만들고, 잘맞추지 못 한 데이터들에 대해서는 weight를 주어 다음번에 트리를 형성할 때에는 잘 맞출 수있게 하는 방법이다.
Bagging | Boosting | |
트리 생성 방법 | 병렬 모델 (각 모델이 서로 연관이 없음) |
순차적 모델 (이전 트리의 오류 기반으로 다음 트리 제작) |
특징 | 다양한 트리 형성 | 정밀한 트리 형 |
-모델 별 특징
-XG Boost 혹은 Cat Boost의 경우 노드가 균형적인 구조를 이루어 균형잡힌 트리를 형성하는 것에 비해 Light GBM의 경우 비균형적인 구조를 가지는 tree를 형성하는 특징을 가진다.
2. Tree 모델의 하이퍼파라미터
(1) Learning Rate
-경사하강법에서의 학습률과 같은 개념임
-학습률이 너무 저조하다보면 수렴하는 속도가 느려지게 되고, 학습률이 커지면 발산하게 되어 적당한 학습률을 주는 것이 중요하다.
**각각 모델에 따라 파라미터의 이름이 다름 !
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.
'ML_AI > 네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정' 카테고리의 다른 글
[2주차 (2)] 피쳐 엔지니어링 - 2 (0) | 2024.05.06 |
---|---|
[2주차 (1)] 피쳐 엔지니어링 - 1 (0) | 2024.05.06 |
[1주차 (4)] 머신 러닝 기본 개념 (0) | 2024.05.02 |
[1주차 (3)] 정형 데이터 전처리 (0) | 2024.05.02 |
[1주차 (2)] EDA, 탐색적 자료 분석 (0) | 2024.05.01 |