AI 심화 모델링 학습 가이드: Transformer

과목: 자연어 처리 (Natural Language Processing)

주요 학습 토픽:

Self-Attention 메커니즘
Multi-Head Attention
Transformer 아키텍처 구조 (Encoder/Decoder)
주요 모델 아키텍처 비교 (BERT, GPT)
어텐션 연산 효율화 기법
컴퓨터 비전으로의 확장 (Vision Transformer)

요약:

본 학습 가이드는 RNN과 CNN의 한계를 극복하며 현대 자연어 처리(NLP)의 근간이 된 Transformer 아키텍처를 다룹니다. 문장 내 단어 간의 관계를 거리에 상관없이 한 번에 포착하는 핵심 원리인 Self-Attention을 이해하고, BERT와 GPT와 같은 주요 모델들의 구조적 차이점과 그로 인한 용도의 차이를 학습합니다. 또한, Transformer의 계산 복잡도 문제를 해결하기 위한 효율화 기법들과 컴퓨터 비전 분야로의 확장까지 살펴봅니다.

주요 개념:

Self-Attention (셀프 어텐션):
설명: Transformer의 핵심 엔진입니다. 문장 내의 한 단어가 다른 모든 단어와 얼마나 관련이 있는지를 계산하여 해당 단어의 표현(representation)을 업데이트합니다.
Q, K, V (Query, Key, Value): 각 단어의 임베딩 벡터로부터 세 개의 다른 벡터(Q, K, V)를 생성합니다.

Query (Q): 현재 단어의 대표 벡터.
Key (K): 문장 내 모든 단어들이 가진 '꼬리표' 또는 '색인' 벡터.
Value (V): 문장 내 모든 단어들이 가진 실제 '내용' 또는 '의미' 벡터.