[논문 리뷰] Attention Is All You Need

ML_AI/24_여름방학 인공지능 스터디

안정민 2024. 9. 22. 10:17

이번 논문 리뷰는 학부연구생 논문 작성을 위해 베이스 레퍼런스를 정확히 개념파악을 하기 위해 시작하였다

이전에 네이버 부스트클래스에서 얕게 다뤄본 경험은 있지만, 시간도 조금 흘러 기억이 잘 안 나기도 하고, 논문 원문을 읽어보고 싶어서 정리하게 되었다.

논문 리뷰 시 아래의 티스토리 블로그를 참고했다

위 그림과 같은 recurrent 모델의 경우 입력을 순차적으로 넣어주어야 하기 때문에 계산 수행 시 병렬 처리가 불가능

→ memory and computation burden 이 증가함

Transformers 모델의 경우 "인수분해 트릭" 과 "조건부 계산"을 통해 계산 효율성을 높이고 모델 성능을 개선함

Attention 기법 → input 또는 output 데이터에서 sequence distance에 무관하게 서로 간의 dependancy를 모델링

Transformer는 recurrence를 회피하고, attention 메커니즘에 전적으로 의존하여 입력과 출력 간의 전역 의존성을 도출하는 모델 아키텍처 & 훨씬 더 많은 병렬화를 허용