archive
8. Norm(L1, L2), PCA 차원 축소 본문
1. 벡터의 크기 또는 길이 측정 시 사용하는 개념
-선형대수에서, 벡터 스페이스 상에서의 벡터의 크기 또는 길이 측정 시 사용하는 Norm 개념
-L1 norm : p의 값이 1인 경우
-L2 norm : 피타고라스 정리와 일치, 거리 계산식
2. PCA 차원 축소 기술
-언제? -> 시각화, 데이터는 3차원 이상의 공간에 존재할 수 있음, 그러나 우리는 3차원 이상의 것들을 보지 못 하기 때문에 데이터 이해를 위한 데이터 시각화 시 큰 차원의 데이터를 3차원 이하의 데이터로 차원을 축소할 수 있어야 함
-> 이미지 노이즈 감소
-> 작은 차원의 공간에 저장하면서 용량을 줄이고 퍼포먼스를 증폭시키기 위해서
- 이와 같은 그래프를 보게 되면, 파란색의 원본 점과 같은 경우 차원 축소를 위해서 가장 간단하게 생각할 수 있는 방법은 x축 혹은 y축으로 점들을 몰아넣는 것이다.
-그러나 그렇게 된다면 점들 간의 겹치는 부분들이 발생하게 되고, 불가피한 정보 손실도 발생할 가능성이 생기게 된다.
-따라서 분산이 최대인 부분에 직선을 그려 그 부분에 점들을 합치게 된다
-Principal Component Analysis ! 점들이 가장 잘 퍼져있는 부분의 직선을 채택, 겹치는 부분의 손실을 최소화하는 기법
-PC는 선형대수의 아이젠 벡터와 같은 값을 가짐
-sklearn에 decomposition 라이브러리를 활용하여
pca=decomposition.PCA(n_component=1)
와 같이 이를 활용할 수 있음
'ML_AI > Inflearn 머신러닝 이론 및 파이썬 실습' 카테고리의 다른 글
7. 오버피팅(Overfitting) & 언더피팅(Underfitting) (0) | 2024.02.08 |
---|---|
5. 클러스터링 알고리즘 및 파이썬 실습 (0) | 2024.02.08 |
4. Linear regression, 선형 회귀 (0) | 2024.02.08 |
3. 나이브 베이즈(Naive Bayes) 분류 (0) | 2024.02.08 |
2. 의사결정트리, ID3 알고리즘 (0) | 2024.02.08 |