ML_AI/네이버 부클 AI 엔지니어 기초 다지기 : AI Tech 준비과정
[7주차 (3)] Sequential Model - Transformer - 2
안정민
2024. 6. 8. 11:24
1. Transformer의 장단점
- 입력이 1000개가 들어오면 RNN의 경우 1000번 실행하면 해결되나 transformer의 경우 1000**2의 해결 매트릭스가 디자인되므로 실행이 극단적으로 느려지게 된다
-그러나 이러한 설계로부터 flexible한 실행 결과를 얻을 수 있다는 장점이 있다.
2. Multi -headed attention
- 앞에서 실행한 attention을 여러 번 실행하는 것이다.
-하나의 인코딩된 벡터에 대해서 쿼리 & 키 벡터를 하나만 만드는 것이 아니라 여러 개 만들어내는 방법론을 의미
- 장점 : n개의 attention을 반복하게 되면 n 개의 인코딩 벡터가 나오게 됨
-그러나 입력과 출력의 차원을 맞춰줘야 함, 즉, 임베딩된 차원과 인코딩되어서 self attention으로 나오는 결과값의 차원이 같도록 해 줘야 한다는 것
-생성된 n개의 인코딩 벡터가 나오니까, 예를 들어 원래 10차원이었고, 8개의 벡터를 생성해냈다고 하면 80차원이 형성, 그렇게 된다면 80 * 10 행렬을 곱해서 다시 10차원 행렬로 변환
-즉 learnable linear map을 통과하여 차우너을 맞추는 작업을 실시한다.
*** Position Encoding
-입력에 특정 값(bias)를 더해주는 것
-왜 더해주는가) sequential한 정보는 이 안에 포함되어있지 않음. 단어 그 자체의 인코딩 값은 달라질 수가 없음
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.