2. 의사결정트리, ID3 알고리즘
1. 의사결정트리
- 이와 같이 학습을 한 다음, 테스트 데이터 셋이 아닌 다른 한 장의 사진을 주어주며 위와 같은 알고리즘을 이용하여 "겨울 가족 사진" 인 사진을 걸러내라고 함
-의사 결정 트리는 다음과 같은 두 가지 메인 컨셉을 가짐
-머신은 아무것도 모르는 상태, define problem을 통해 어떤 문제를 해결하면 좋을지 정의를 내려줌
-위의 케이스에서는 "겨울 가족 사진을 찾는 것" 이 정의된 문제였을 것
-그리고 이러한 과정의 준비 단계로, 머신을 학습 시키기 위한 데이터를 모음
-데이터를 분류하고 전처리, 트리를 제작
-머신을 돌림, 또 다른 사진을 보여주면서 겨울 가족 사진을 찾는 과정을 반복함
-이 과정에서 중요한 점은, 어떤 속성을 가장 먼저 적용해야 효율적일지 알아내는 것이다.
- cartoon?을 적용한 뒤에는 4개의 사진이, winter?을 적용한 뒤에는 5장의 사진이, >1?을 적용한 뒤에는 5장의 사진이 남는 것을 확인할 수 있기 때문에, 가장 작은 수를 검사할 수 있는 cartoon?을 가장 먼저 적용하여 데이터를 걸러내는 알고리즘이 가장 효율적인 알고리즘이라고 할 수 있다.
-이후의 엔트로피 개념과 연결된다
- 엔트로피 : 엔트로피는 머신러닝을 할 때, loss function (손실 함수) or cost function으로써 많이 사용, 정보이론에서 불확실성의 척도
-엔트로피는 불순도를 수치화한 지표 중 하나이며, 확률 변수의 불확실성을 수치로 나타낸 것이고, 정보량의 기댓값이라고 할 수 있음
-의사결정 트리를 점점 진행할 수록, 정보의 불순도는 낮아지며, 엔트로피 또한 감소하는 과정이라고 볼 수 있다.
-Information Gain (Base Entropy - New Entropy)
-즉, 가장 인포메이션 게인 지수가 높은 첫 번째 cartoon?을 첫 질문으로 활용해야 효율적인 알고리즘이 완성이 된다.
2. ID3 알고리즘 수학적 접근
-ID3 알고리즘 : 엔트로피와 인포메이션 게인 두 가지 개념을 가지고 접근
-첫 번째 속성을 잡기 전 가장 먼저 검토해야할 조건은, 기본적으로 여덟 개의 사진의 엔트로피를 알아야 함
-8개의 사진 중 1개만 겨울 여행 사진, 7개는 아니다 -> Entropy[1+, 7-]
-Information Gain은 (주어진 상황 - 하나의 속성을 잡았을 때의 엔트로피) 로 계산하면 된다