Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Tags
more
Archives
Today
Total
관리 메뉴

archive

[1주차 (2)] EDA, 탐색적 자료 분석 본문

ML_AI/네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정

[1주차 (2)] EDA, 탐색적 자료 분석

안정민 2024. 5. 1. 14:28

1. EDA 정의

- Exploratory Data Analysis, 탐색적 데이터 분석

- 데이터를 탐색하고 가설을 세우고 증명하는 과정

- 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정이자, 이러한 특징들을 시각화, 통계량으로 표현하는 과정

-데이터를 특징과 문제들을 직관적으로 이해

-정형 및 비정형 모든 데이터는 분석에 앞서서 이러한 EDA 과정을 수반하게 된다.

 

-주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정

:문제를 해결하는 과정에서 데이터에 대한 이해는 필수적임

 


 

2. EDA 과정

-EDA = 탐색하고 증명하고 생각하는 과정의 반복

1. 데이터에 대한 가설 또는 의문

2. 시각화 혹은 통계량, 모델링을 통한 가설 검정

3. 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결

 

-데이터마다 상이한 도메인, 해결하고자 하는 문제가 다름

-데이터의 종류, 그리고 사용하게 되는 모델에 따라 EDA의 방향성은 그때 그때 달라진다.

-금융, 제조, 보건 등의 데이터는 고유의 도메인을 가지게 된다.

-일반화가 어렵고 정해진 답이 없다

 

-EDA의 시작

: 많은 가설 혹은 의문을 생각하고 풀어나가는 것이 좋다

: EDA에 대한 개요가 없다면 너무 비효율적 -> 개별 변수의 분포 (Variation), 변수 간의 분포와 관계 (Covariation) 측정으로 시작하는 것이 좋다

 


 

- 즉, EDA란 데이터를 이해하고 문제를 해결하는 과정에서 데이터를통해 고민하는 모든 과정

- 데이터적 통찰력이자, 데이터적 상상력이다 

 

 

 

 

본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.