LLM (대규모 언어 모델)

LLM(Large Language Model, 대규모 언어 모델)은 수백억~수조 개의 단어로 학습된 신경망 모델이다. ChatGPT의 GPT, Anthropic의 Claude, Google의 Gemini가 대표적이다.

핵심은 다음 토큰 예측: 주어진 문맥에서 다음에 올 가능성이 높은 단어를 확률로 고른다. 이 단순한 메커니즘이 대규모 데이터와 만나면 글쓰기, 요약, 코드 생성 등 다양한 작업이 가능해진다.

더 자세히 (Wikipedia 보충)

LLM은 보통 수십억 개 이상의 파라미터를 가진 신경망으로, 레이블 없는 대량의 텍스트로 자기지도 학습된다. 2017년 구글의 트랜스포머 아키텍처 이후 BERT(2018), GPT-2(2019), GPT-3(2020)을 거치며 급격히 발전했고, 2022년 ChatGPT 출시로 대중화되었다.

입력 텍스트를 토큰 단위로 변환한 뒤 트랜스포머가 다음 토큰 확률을 계산하는 구조이며, 학습 데이터의 편향을 그대로 답습하거나 사실과 다른 내용을 그럴듯하게 만들어내는 환각(hallucination) 문제가 알려져 있다.