트랜스포머 (Transformer)

별칭: transformer · 트랜스포머 · Transformer 아키텍처

GPT·Claude·Gemini 같은 거의 모든 현대 LLM 의 기반이 되는 신경망 아키텍처.

2017년 구글이 발표한 "Attention Is All You Need" 논문에서 소개됐다. self-attention 매커니즘으로 입력의 모든 토큰이 서로 영향을 주고받게 해, 긴 문맥을 일관되게 처리할 수 있게 만들었다. 이후 거의 모든 LLM 이 트랜스포머 변형이다.

트랜스포머(Transformer)는 2017년 구글의 Attention Is All You Need 논문에서 제안된 신경망 아키텍처다. 핵심은 self-attention: 입력 토큰들이 서로 얼마나 관련이 있는지 가중치를 학습해, 한 번에 문장 전체의 관계를 본다.

이전의 RNN/LSTM 은 토큰을 순차로 읽어 긴 문맥을 잃기 쉬웠지만, 트랜스포머는 병렬로 모든 위치를 동시에 본다. 이 구조 덕분에 GPT(decoder-only), BERT(encoder-only), Claude·Gemini(decoder 변형) 등 거의 모든 현대 LLM 이 트랜스포머 변형으로 만들어진다.