LLM (대규모 언어 모델)
별칭: large language model · 거대언어모델 · 대형 언어 모델 · 대규모 언어 모델
문장의 다음 단어를 확률로 예측하도록 거대한 데이터로 학습한 AI 모델.
GPT, Claude, Gemini 같은 모델의 공통 베이스. 글을 읽고 쓰는 수준이 사람과 비슷해 보이지만 사실 "다음 토큰"을 통계로 고르는 구조라 hallucination(거짓말)이 발생할 수 있다.
LLM(Large Language Model, 대규모 언어 모델)은 수백억~수조 개의 단어로 학습된 신경망 모델이다. ChatGPT의 GPT, Anthropic의 Claude, Google의 Gemini가 대표적이다.
핵심은 다음 토큰 예측: 주어진 문맥에서 다음에 올 가능성이 높은 단어를 확률로 고른다. 이 단순한 메커니즘이 대규모 데이터와 만나면 글쓰기, 요약, 코드 생성 등 다양한 작업이 가능해진다.
더 자세히 (Wikipedia 보충)
LLM은 보통 수십억 개 이상의 파라미터를 가진 신경망으로, 레이블 없는 대량의 텍스트로 자기지도 학습된다. 2017년 구글의 트랜스포머 아키텍처 이후 BERT(2018), GPT-2(2019), GPT-3(2020)을 거치며 급격히 발전했고, 2022년 ChatGPT 출시로 대중화되었다.
입력 텍스트를 토큰 단위로 변환한 뒤 트랜스포머가 다음 토큰 확률을 계산하는 구조이며, 학습 데이터의 편향을 그대로 답습하거나 사실과 다른 내용을 그럴듯하게 만들어내는 환각(hallucination) 문제가 알려져 있다.