archive
[1주차 (2)] EDA, 탐색적 자료 분석 본문
1. EDA 정의
- Exploratory Data Analysis, 탐색적 데이터 분석
- 데이터를 탐색하고 가설을 세우고 증명하는 과정
- 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정이자, 이러한 특징들을 시각화, 통계량으로 표현하는 과정
-데이터를 특징과 문제들을 직관적으로 이해
-정형 및 비정형 모든 데이터는 분석에 앞서서 이러한 EDA 과정을 수반하게 된다.
-주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정
:문제를 해결하는 과정에서 데이터에 대한 이해는 필수적임
2. EDA 과정
-EDA = 탐색하고 증명하고 생각하는 과정의 반복
1. 데이터에 대한 가설 또는 의문
2. 시각화 혹은 통계량, 모델링을 통한 가설 검정
3. 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결
-데이터마다 상이한 도메인, 해결하고자 하는 문제가 다름
-데이터의 종류, 그리고 사용하게 되는 모델에 따라 EDA의 방향성은 그때 그때 달라진다.
-금융, 제조, 보건 등의 데이터는 고유의 도메인을 가지게 된다.
-일반화가 어렵고 정해진 답이 없다
-EDA의 시작
: 많은 가설 혹은 의문을 생각하고 풀어나가는 것이 좋다
: EDA에 대한 개요가 없다면 너무 비효율적 -> 개별 변수의 분포 (Variation), 변수 간의 분포와 관계 (Covariation) 측정으로 시작하는 것이 좋다
- 즉, EDA란 데이터를 이해하고 문제를 해결하는 과정에서 데이터를통해 고민하는 모든 과정
- 데이터적 통찰력이자, 데이터적 상상력이다
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.
'ML_AI > 네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정' 카테고리의 다른 글
[2주차 (2)] 피쳐 엔지니어링 - 2 (0) | 2024.05.06 |
---|---|
[2주차 (1)] 피쳐 엔지니어링 - 1 (0) | 2024.05.06 |
[1주차 (5)] 트리 모델 (0) | 2024.05.02 |
[1주차 (4)] 머신 러닝 기본 개념 (0) | 2024.05.02 |
[1주차 (3)] 정형 데이터 전처리 (0) | 2024.05.02 |