목록ML_AI/네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정 (23)
archive

1. Regularization-Generalization이 잘 되도록 학습의 이점이 최대일 때 학습을 방해해서 학습을 멈추도록 하는 기법-(1) Early Stopping-training 에 활용되지 않은 데이터셋을 validation 데이터로 활용해서 모델성능을 평가하고 loss가 커지는 시점에 train을멈추는 방식-이를 재평가하기 위해서는 새로운 validation set이 필요 -(2) Parameter Norm Penalty :NN 파라미터가 너무 커지지 않도록 함:이왕이면 네트워크가 학습할 때 작으면 작을 수록 좋음:물리적인 의미는 function space 속에서 최대한 부드러운 함수로 -> 부드러운 함수일 수록 generalization performance가 좋을 것이다라고 가정 -(3..

1. 용어 컨셉 정리(1) Gradient Descent : 내가 정의한 Loss Function에 대해서 줄어들었을 때 optimal을 이룰 것이라는 가정 하에 편미분값을 이요해서 학습을 진행하는 것-1차 미분한 값을 사용해서, 반복적으로 최적화하여 local minimum을 찾아내는 과정 ** Important concepts of optimization(2) Generalization: 우리는 일반화 성능을 높이는 것이 목적:일반화란? -> 학습 iteration이 진행됨에 따라 training error는 지속적으로 줄게 되어있음:training error은 계속 줄어들면 무조건적으로 좋다? 아님, test error와의 최적점을 찾아내야 :Generalization gap ) 학습데이터와 테스..

1. Neural Network-인간의 신경망 구조에서 희미하게 영감을 받아 제작-Neural Network는, 내가 정의한 함수로 투입값을 근사하는 수학적인 예측기이다. 행렬의 곱셈과 activation function(비선형 연산)이 반복적으로 일어남- 어떤 변환을 위한 함수를 모방하는 function approximator 2. Linear Neural Networks-선형회귀의 목적 : 입력이 1차원이고 출력이 1차원일 때, 2개의 값을 연결하는 가장 이상적인 값을 찾는 것-파라미터는 가중치 w와 y 절편 b이다.-우리의 목적은, N개의 데이터를 가장 잘 대변할 수 있는 하나의 선을 찾아내는 것-그리고 Loss Function은 실제 데이터 값과 실선 사이의 차이 (LSM)을 줄이기 위해 정의하..

1. 딥러닝 기본 용어 설명 -딥러닝 Key Components(1) 모델이 학습할 데이터(2) 데이터를 변환할 (인덱스로, 라벨로, 정답값으로) 모델(3) 모델의 성능을 평가할 손실함수 loss function(4) 손실을 최소화하고자 하는 알고리즘 (optimizer) 2. Historical Review(1) 2012 Alexnet : Convolutional neural network model, 합성곱 신경: 224*224 이미지가 들어왔을 때 분류해내는 것이 이 모델의 목적:이전에는 SVM, 커널 기반 모델 등의 고전적인 모델들을 조합하는 방법들이 1등을 하였지만, 12년도 Alexnet이 1등 (2)2013 DQN : Q 러닝이라고 불리는 강화학습 적용 (3)2014 Encoder/Dec..

1. 딥러닝에서 확률론이 필요한 이유-딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있음-기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 됨-즉, 예측이 틀릴 위험 (risk)를 최소화하도록 데이터를 학습하는 원리는 통계적 기계학습의 기본 원리이다. -회귀분석에서 손실함수로 사용되는 L2노름은 예측 오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도-분류 문제에서 사용되는 교차 엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도-분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야 한다.-두 대상을 측정하는 방법을 통계학에서 제공, 따라서 기계학습을 이해하려면 확률론의 기본 ..

1. 비선형모델 신경망 (Neural Network)- 비선형 모델 안에는 선형 모델이 그 안에 숨겨져있음-그 선형 모델과 비선형 함수들의 결합으로 이루어져있다-각 행벡터 O(i)는 데이터 x(i)와 가중치 행렬W 사이의 행렬곱과 절편 b 벡터의 합으로 표현된다고 가정-데이터가 바뀌면 결과값도 바뀌게 된다, 출력벡터의 차원은 d에서 p로 바뀌게 된다-x라는 행벡터가 주어지게 되었을 때, x라는 행벡터를 O라는 행벡터로 선형결합하여 연결하게 될 때, p개의 모델을 만들어야하는데,-x1에서 출발하는 화살표 p개 -화살표는 p*d개가 필요하다, 이는 가중치 행렬의 원소의 개수가 된다-즉, 가중치행렬의 각각의 값은 곧 가중치값과 연결되게 된다. 즉, 각각의 화살표들은 이 화살표의 시작점과 끝점에 상응하는 가중치..