ML_AI/Inflearn 머신러닝 이론 및 파이썬 실습
8. Norm(L1, L2), PCA 차원 축소
안정민
2024. 2. 18. 11:25
1. 벡터의 크기 또는 길이 측정 시 사용하는 개념
-선형대수에서, 벡터 스페이스 상에서의 벡터의 크기 또는 길이 측정 시 사용하는 Norm 개념
-L1 norm : p의 값이 1인 경우
-L2 norm : 피타고라스 정리와 일치, 거리 계산식
2. PCA 차원 축소 기술
-언제? -> 시각화, 데이터는 3차원 이상의 공간에 존재할 수 있음, 그러나 우리는 3차원 이상의 것들을 보지 못 하기 때문에 데이터 이해를 위한 데이터 시각화 시 큰 차원의 데이터를 3차원 이하의 데이터로 차원을 축소할 수 있어야 함
-> 이미지 노이즈 감소
-> 작은 차원의 공간에 저장하면서 용량을 줄이고 퍼포먼스를 증폭시키기 위해서
- 이와 같은 그래프를 보게 되면, 파란색의 원본 점과 같은 경우 차원 축소를 위해서 가장 간단하게 생각할 수 있는 방법은 x축 혹은 y축으로 점들을 몰아넣는 것이다.
-그러나 그렇게 된다면 점들 간의 겹치는 부분들이 발생하게 되고, 불가피한 정보 손실도 발생할 가능성이 생기게 된다.
-따라서 분산이 최대인 부분에 직선을 그려 그 부분에 점들을 합치게 된다
-Principal Component Analysis ! 점들이 가장 잘 퍼져있는 부분의 직선을 채택, 겹치는 부분의 손실을 최소화하는 기법
-PC는 선형대수의 아이젠 벡터와 같은 값을 가짐
-sklearn에 decomposition 라이브러리를 활용하여
pca=decomposition.PCA(n_component=1)
와 같이 이를 활용할 수 있음