목록ML_AI/네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정 (23)
archive

1. Pandas Group By Aggregation 을 이용한 Feature Engineering- Feature Engineering 정의 : Feature Engineering은 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 Feature을 생성, 변화하고 이를 머신 러닝 모델에 적합한 형식으로 변환하는 작업- 딥러닝에 비해 머신러닝은 사람이 직접 feature을 찾아서 엔지니어링을 해 주어야 함 , 작업의 성공을 결정하는 중요한 단계 - Pandas Group By Aggregation 을 이용한 Feature Engineering 기법-원본 데이터에서 주어진 feature에 고객id 기반으로 Pandas Group By Aggregation 함수를 적용하여 새로운 ..
** 베이스라인 : 처음 만든 모델이나 최대한 간단하게 전처리 하고 빠르게 만든 모델 1. 트리모델 소개-의사결정 나무 (decision tree) : 트리 모델 중 가장 간단한 모델-칼럼 값들을 어떤 기준으로 group을 나누어 목적에 맞는 의사결정을 만드는 방법-하나의 질문으로 yes 혹은 no로 decision을 내려서 분류한다 -Bagging 과 Boosting-여러개의 decision tree를 이용하여 모델 생성, Bagging 과 Boosting은 트레인 데이터를 어떻게 활용하느냐에 있어서의 차이가 가장 크다. (1) Bagging-random forest는 Bagging의 대표적인 예, 데이터셋을 랜덤으로 샘플링하여 모델을 만들어 나가는 것이 특징-샘플링한 데이터셋을 하나로 하나의 deci..

1. Underfitting & Overfitting- fit이라는 표현은 데이터를 잘 설명할 수 있는 능력, Underfitting 은 데이터를 잘 설명하지 못 하였음을, Overfitting은 데이터를 너무 과하게 설명하였음을 의미하는 용어- 우리의 데이터셋은 전체의 일부분에 불과하다, 이를 이용하여 전체 데이터셋에 대해 머신러닝 모델이 잘 동작하도록 훈련 시키는 것이 우리의 목적이다. -만약 일부의 데이터셋, 즉 우리가 가진 데이터셋이 전체의 데이터셋과 유사 -> overfitting 이 BEST-그러나 우리의 데이터셋은 매우 비율적으로 작기 때문에 이러할 확률이 아주 작음 ** 데이터로 보지 못하였던 데이터, 새로운 비즈니스적 가치를 생산해내는 것이 목표, 그렇기 때문에...-> 데이터가 모든 것..

1. 데이터 전처리-머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정-EDA에 따라 달라지는 데이터 전처리-모델, 목적에 따라 달라지는 데이터 전처리 ---> 선형모델? 트리? 딥러닝?-연속형, 범주형 처리 / 결측치 처리 / 이상치 처리 2. 연속형 변수 처리-Scaling: 데이터의 단위 혹은 분포를 변경:선형 기반 모델 (선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적(1) Scale- 보통 Robust Scaling 이 이상치의 영향을 받지 않는다. (2) Scale + Distribution-로그 변환은 변수의 분포가 왼쪽으로 많이 치우쳐져 있는 경우 이를 정규 분포의 모양으로 변환시켜준다-지수 변환의 경우 이와 반대의 효과를 내게 된다 2. Quantile..

1. EDA 정의- Exploratory Data Analysis, 탐색적 데이터 분석- 데이터를 탐색하고 가설을 세우고 증명하는 과정- 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정이자, 이러한 특징들을 시각화, 통계량으로 표현하는 과정-데이터를 특징과 문제들을 직관적으로 이해-정형 및 비정형 모든 데이터는 분석에 앞서서 이러한 EDA 과정을 수반하게 된다. -주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정:문제를 해결하는 과정에서 데이터에 대한 이해는 필수적임 2. EDA 과정-EDA = 탐색하고 증명하고 생각하는 과정의 반복1. 데이터에 대한 가설 또는 의문2. 시각화 혹은 통계량, 모델링을 통한 가설 검정3. 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결 -데..