목록ML_AI (68)
archive

1. 벡터의 크기 또는 길이 측정 시 사용하는 개념 -선형대수에서, 벡터 스페이스 상에서의 벡터의 크기 또는 길이 측정 시 사용하는 Norm 개념 -L1 norm : p의 값이 1인 경우 -L2 norm : 피타고라스 정리와 일치, 거리 계산식 2. PCA 차원 축소 기술 -언제? -> 시각화, 데이터는 3차원 이상의 공간에 존재할 수 있음, 그러나 우리는 3차원 이상의 것들을 보지 못 하기 때문에 데이터 이해를 위한 데이터 시각화 시 큰 차원의 데이터를 3차원 이하의 데이터로 차원을 축소할 수 있어야 함 -> 이미지 노이즈 감소 -> 작은 차원의 공간에 저장하면서 용량을 줄이고 퍼포먼스를 증폭시키기 위해서 - 이와 같은 그래프를 보게 되면, 파란색의 원본 점과 같은 경우 차원 축소를 위해서 가장 간단하..

1. 오버피팅 - 스키니진 회사를 착수하려고 하는데, 모든 스키니진을 슈퍼모델들의 몸 사이즈에 맞게 제작하여, 다양한 체형을 가진 소비자층의 타겟팅에 실패한 경우와 비슷한 머신러닝의 경우이다 -슈퍼모델들의 스키니진핏 데이터를 가지고 모델을 학습해 머신을 발표, 하지만 실제 세계의 테스트 데이터 (unseen data) 들은 학습데이터보다 훨씬 더 광범위한 경우 - 우리가 아직 모르는 데이터에 대해서 classifier가 제대로 작동을 못 할 경우 overfitting이라고 할 수 있는 것 -즉, 오버피팅이란, 현재 가지고 있는 데이터에서는 잘 작동을 하지만, 외부의 새로운 데이터에서는 작동을 잘 하지 않는 경우 - 머신러닝에서는 decision boundary 안에 있는 점들을 true로 설정, 밖을 f..

1. k-mean 클러스터링 -unsupervised 머신러닝 기법 중 하나 (비지도 학습) -k-mean 클러스터링을 수행하기 위한 단계 (1) 데이터 셋 준비하기 (2) 필요한 클러스터의 개수 설정 -> 모든 사람의 신체 사이즈를 s, m, l로 평준화하여 옷 제작 (클러스터 개수 3) (3) 클러스터의 초기 중심값을 설정 (centeroid) -임의로 설정된 센터로이드 (randomly selected centeroid) -매뉴얼대로 배정된 센터로이드(manually assigned centeroid) -kmean ++ (4) 주어진 데이터 포인트들을 센터로이드를 중심으로 어떤 중심에 더 가까운지 판단하여 클러스터 소속 지정 (5) 모든 데이터 포인트들의 소속을 지정하였다면, 클러스터의 중심을 데이..

1. 선형 회귀 - 수퍼바이저 머신 러닝의 두 가지 기법 (1) Classification : 분류기에 먼저 미리 트레이닝을 시킴, 이후에 테스트 데이터를 입력 시, 학습이 된 클래스 (red, green, blue)로만 대답을 하게 되는 머신러닝 방법 (2) Regression : 선형 (직선) 회귀 -> 일차함수 개념, y=ax+b와 같은 일차 함수적인 접근을 통해 인풋에 대한 아웃풋의 예측값을 반환하는 머신러닝 방법 -모든 점들이 선상에 있기 때문에 왼쪽이 더 나은 모델이라고 할 수 있음 -오른쪽 값에서 선 밖으로 벗어난 점들의, 직선으로의 정사영을 에러라고 함 (e) -에러란, 실제 데이터와 선상의 데이터 사이의 거리, 수직거리는 아니고 정사영 거리를 에러라고 함 -즉, 왼쪽은 에러가 없는 모델,..

1. 확률 (Probability) -확률 이론 : 나이브 베이즈의 기초가 되는 이론 -사과 1개, 바나나 2개라면 내가 바나나를 집을 확률은 2/3이 되는 -Conditional Probability (조건부 확률) : 어떠한 상황이 주어졌을 때, 그 상황 속에서 다른 상황이 일어날 확률 -조건부 확률의 두 가지 경우 (1) 서로의 경우가 영향을 미치지 않는 독립적인 케이스일 때 (2) 서로의 경우가 서로에게 영향을 미치는 종속적인 케이스일 때 -위의 두 가지 확률을 계산하는 방법이 다르다는 것을 인지해야함 (1) 의 경우 두 확률이 동시에 일어날 때 -> 두 확률을 단순히 곱해주면 값이 나옴 (2) 의 경우는 위와 같이 계산 2. 베이즈 정리 (Bayes' Theorem) -이메일 10개가 와 있고,..

1. 의사결정트리 - 이와 같이 학습을 한 다음, 테스트 데이터 셋이 아닌 다른 한 장의 사진을 주어주며 위와 같은 알고리즘을 이용하여 "겨울 가족 사진" 인 사진을 걸러내라고 함 -의사 결정 트리는 다음과 같은 두 가지 메인 컨셉을 가짐 -머신은 아무것도 모르는 상태, define problem을 통해 어떤 문제를 해결하면 좋을지 정의를 내려줌 -위의 케이스에서는 "겨울 가족 사진을 찾는 것" 이 정의된 문제였을 것 -그리고 이러한 과정의 준비 단계로, 머신을 학습 시키기 위한 데이터를 모음 -데이터를 분류하고 전처리, 트리를 제작 -머신을 돌림, 또 다른 사진을 보여주면서 겨울 가족 사진을 찾는 과정을 반복함 -이 과정에서 중요한 점은, 어떤 속성을 가장 먼저 적용해야 효율적일지 알아내는 것이다. -..