데이터셋 (Dataset)

정의

데이터셋은 AI 모델을 학습하거나 평가하거나 분석할 때 사용하는 데이터의 묶음이다. 숫자 표, 문서, 이미지, 음성, 로그, 설문 응답처럼 형태는 다양하다. 좋은 데이터셋은 목적이 분명하고, 누락·중복·오류가 관리되며, 개인정보와 권한 기준도 정리되어 있다.

왜 중요한가

AI 성능은 모델만으로 결정되지 않는다. 어떤 데이터를 넣었는지, 그 데이터가 실제 상황을 대표하는지, 오래되었거나 편향되지 않았는지가 중요하다. 초심자가 AI 결과를 평가할 때는 “이 답이 어떤 데이터에 근거했는가”를 먼저 물어야 한다.

Semicolon에서의 의미

강의에서는 데이터셋을 어려운 연구 용어가 아니라 업무 자료의 묶음으로 설명한다. 예를 들어 12개월 매출 CSV, 고객 상담 기록, 설문 응답, 수업 출석 로그는 모두 AI가 읽을 수 있는 업무 데이터셋이다. Semicolon의 운영에서는 공개 가능한 데이터와 내부 전용 데이터를 분리해 다루는 것이 기본 원칙이다.

주의할 점

개인정보, 고객 정보, 계약 정보가 포함된 데이터셋은 외부 AI에 그대로 넣으면 안 된다. 익명화, 권한 확인, 사용 목적 제한이 먼저다. 데이터 출처가 불명확한 자료도 그대로 학습·공개하면 법적·윤리적 문제가 생길 수 있다.