임베딩 (Embedding)
별칭: embedding · 임베딩 · 벡터 임베딩 · 텍스트 임베딩
문장·이미지 같은 데이터를 의미가 비슷한 것끼리 가까워지도록 숫자 벡터로 바꾼 표현.
임베딩은 AI가 의미 검색을 할 수 있게 만드는 핵심 재료다. 문장을 숫자 목록으로 바꾸면, 단어가 정확히 같지 않아도 의미가 비슷한 문서를 찾을 수 있다. RAG, 추천, 중복 탐지, 지식베이스 검색에서 자주 쓰인다.
정의
임베딩은 텍스트, 이미지, 오디오 같은 데이터를 숫자 벡터로 변환한 표현이다. 이 벡터 공간에서는 의미가 비슷한 항목이 가까운 위치에 놓이도록 설계된다. 예를 들어 “강의 신청 방법”과 “수업 등록 절차”는 단어가 달라도 비슷한 의미로 검색될 수 있다.
왜 중요한가
LLM이 사내 문서를 잘 찾아 답하려면 단순 키워드 검색만으로는 부족하다. 임베딩을 사용하면 문장의 의미를 기준으로 관련 문서를 찾을 수 있다. RAG 시스템, 지식베이스 검색, 추천 시스템, 유사 문의 묶기에서 임베딩이 핵심 역할을 한다.
Semicolon에서의 의미
SEMO나 Semiclass Bot이 “관련 지식”을 찾아 답하려면 문서를 잘 검색해야 한다. 임베딩은 KB 문서와 사용자 질문을 같은 의미 공간에 놓고, 가까운 문서를 찾아 LLM 컨텍스트에 넣는 데 사용될 수 있다. 초심자에게는 “AI가 의미로 검색할 수 있게 만드는 숫자 지도”라고 설명한다.
주의할 점
임베딩 검색도 완벽하지 않다. 문서가 오래되었거나, 잘게 쪼개는 방식이 나쁘거나, 권한 필터가 없으면 엉뚱한 정보나 비공개 정보가 검색될 수 있다.