Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Tags
more
Archives
Today
Total
관리 메뉴

archive

2. 의사결정트리, ID3 알고리즘 본문

ML_AI/Inflearn 머신러닝 이론 및 파이썬 실습

2. 의사결정트리, ID3 알고리즘

안정민 2024. 2. 8. 09:12

1. 의사결정트리

 

- 이와 같이 학습을 한 다음, 테스트 데이터 셋이 아닌 다른 한 장의 사진을 주어주며 위와 같은 알고리즘을 이용하여 "겨울 가족 사진" 인 사진을 걸러내라고 함

 

 

-의사 결정 트리는 다음과 같은 두 가지 메인 컨셉을 가짐

-머신은 아무것도 모르는 상태, define problem을 통해 어떤 문제를 해결하면 좋을지 정의를 내려줌

-위의 케이스에서는 "겨울 가족 사진을 찾는 것" 이 정의된 문제였을 것

-그리고 이러한 과정의 준비 단계로, 머신을 학습 시키기 위한 데이터를 모음

 

-데이터를 분류하고 전처리, 트리를 제작

-머신을 돌림, 또 다른 사진을 보여주면서 겨울 가족 사진을 찾는 과정을 반복함

 

-이 과정에서 중요한 점은, 어떤 속성을 가장 먼저 적용해야 효율적일지 알아내는 것이다.

- cartoon?을 적용한 뒤에는 4개의 사진이, winter?을 적용한 뒤에는 5장의 사진이, >1?을 적용한 뒤에는 5장의 사진이 남는 것을 확인할 수 있기 때문에, 가장 작은 수를 검사할 수 있는 cartoon?을 가장 먼저 적용하여 데이터를 걸러내는 알고리즘이 가장 효율적인 알고리즘이라고 할 수 있다.

-이후의 엔트로피 개념과 연결된다

 

- 엔트로피 : 엔트로피는 머신러닝을 할 때, loss function (손실 함수) or cost function으로써 많이 사용, 정보이론에서 불확실성의 척도

-엔트로피는 불순도를 수치화한 지표 중 하나이며, 확률 변수의 불확실성을 수치로 나타낸 것이고, 정보량의 기댓값이라고 할 수 있음

-의사결정 트리를 점점 진행할 수록, 정보의 불순도는 낮아지며, 엔트로피 또한 감소하는 과정이라고 볼 수 있다.

 

-Information Gain (Base Entropy - New Entropy)

 

-즉, 가장 인포메이션 게인 지수가 높은 첫 번째 cartoon?을 첫 질문으로 활용해야 효율적인 알고리즘이 완성이 된다.

 

2. ID3 알고리즘 수학적 접근

-ID3 알고리즘 : 엔트로피와 인포메이션 게인 두 가지 개념을 가지고 접근

 

-첫 번째 속성을 잡기 전 가장 먼저 검토해야할 조건은, 기본적으로 여덟 개의 사진의 엔트로피를 알아야 함

-8개의 사진 중 1개만 겨울 여행 사진, 7개는 아니다 -> Entropy[1+, 7-]

 

-Information Gain은 (주어진 상황 - 하나의 속성을 잡았을 때의 엔트로피) 로 계산하면 된다