목록분류 전체보기 (213)
archive

1. 앙상블 러닝-앙상블 러닝 배경 : 단일 알고리즘보다 적당한 알고리즘을 여러 개 조합하여 단일 알고리즘보다 성능이 향상되는 것을 기대하는 기법- 어떠한 특정 알고리즘도 어떠한 모든 데이터셋에 대하여 최적의 성능을 낼 수 없음, 즉 개별 데이터셋에 최적화된 알고리즘은 따로 존재한다는 것에 의거하여 만들어진 방식- 하나의 알고리즘보다는 하나 이상의 알고리즘을 앙상블하는 것이 효과적이라는 결론을 도출할 수 있음-앙상블 러닝 정의 : 여러 개의 결정 트리 (Decision Tree)를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법-앙상블 학습의 핵심은 여러 개의 약분류기(Weak Classifier)를 결합하여 강분류기 (Strong Classifier)를 만드는 과정- 여러 개의 단일 ..

1. 하이퍼 파라미터 튜닝이란?-하이퍼 파라미터 정의 : 학습 과정에서 컨트롤하는 파라미터 value, 모델이 학습하는 과정에서 표현하는 파라미터와는 구분되는 개념임을 잊지 말기, 하이퍼파라미터는 사람이 직접 설정하는 것-하이퍼 파라미터 튜닝 정의 : 학습 알고리즘에 있어 가장 이상적인 하이퍼 파라미터 세트를 찾는 것 -하이퍼 파라미터 튜닝 방법(1) Manual Search: 자동화 툴을 사용하지 않고 매뉴얼하게 실험할 하이퍼 파라미터 셋을 정하고 하나씩 바꿔가면서 테스트해 보는 방식(2) Grid Search: 테스트 가능한 모든 하이퍼 파라미터 셋을 테스트해보면서 어떠 하이퍼파라미터 셋이 좋은지 기록, 가장 BruteForce한 방식:위의 이미지를 보면 모든 셋을 검사하기 때문에 녹색의 눈금이 일정..
1. 피처 중요도 (Feature Importance)- 피처 중요도 정의 : 타겟 변수를 예측하는 데 얼마나 유용한 지에 따라 피처에 점수를 할당해서 중요도를 측정하는 방법-Model specific vs Model agnostic: 머신러닝 모델 자체에서 피처 중요도 계산이 가능하다면 Model Specific: 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 피처 중요도 계산 방법은 Model agnostic 2. Boosting Tree 피처 중요도 (Model specific 방법론)- LightGBM 피처 중요도 함수 :훈련된 LightGBM 모델 클래스에 feature_importance(importance_type) 함수로 피처 중요도 계산 기능 제공:인자의 impo..

1. Pandas Group By Aggregation 을 이용한 Feature Engineering- Feature Engineering 정의 : Feature Engineering은 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 Feature을 생성, 변화하고 이를 머신 러닝 모델에 적합한 형식으로 변환하는 작업- 딥러닝에 비해 머신러닝은 사람이 직접 feature을 찾아서 엔지니어링을 해 주어야 함 , 작업의 성공을 결정하는 중요한 단계 - Pandas Group By Aggregation 을 이용한 Feature Engineering 기법-원본 데이터에서 주어진 feature에 고객id 기반으로 Pandas Group By Aggregation 함수를 적용하여 새로운 ..
** 베이스라인 : 처음 만든 모델이나 최대한 간단하게 전처리 하고 빠르게 만든 모델 1. 트리모델 소개-의사결정 나무 (decision tree) : 트리 모델 중 가장 간단한 모델-칼럼 값들을 어떤 기준으로 group을 나누어 목적에 맞는 의사결정을 만드는 방법-하나의 질문으로 yes 혹은 no로 decision을 내려서 분류한다 -Bagging 과 Boosting-여러개의 decision tree를 이용하여 모델 생성, Bagging 과 Boosting은 트레인 데이터를 어떻게 활용하느냐에 있어서의 차이가 가장 크다. (1) Bagging-random forest는 Bagging의 대표적인 예, 데이터셋을 랜덤으로 샘플링하여 모델을 만들어 나가는 것이 특징-샘플링한 데이터셋을 하나로 하나의 deci..

1. Underfitting & Overfitting- fit이라는 표현은 데이터를 잘 설명할 수 있는 능력, Underfitting 은 데이터를 잘 설명하지 못 하였음을, Overfitting은 데이터를 너무 과하게 설명하였음을 의미하는 용어- 우리의 데이터셋은 전체의 일부분에 불과하다, 이를 이용하여 전체 데이터셋에 대해 머신러닝 모델이 잘 동작하도록 훈련 시키는 것이 우리의 목적이다. -만약 일부의 데이터셋, 즉 우리가 가진 데이터셋이 전체의 데이터셋과 유사 -> overfitting 이 BEST-그러나 우리의 데이터셋은 매우 비율적으로 작기 때문에 이러할 확률이 아주 작음 ** 데이터로 보지 못하였던 데이터, 새로운 비즈니스적 가치를 생산해내는 것이 목표, 그렇기 때문에...-> 데이터가 모든 것..