같은 문서, AI가 배우면 결과가 다르다
3편 페르소나가 "어떻게 말하는가"라면 스킬북은 "무엇을 아는가"입니다. 도메인 학습 정확도의 70%는 업로드 전 데이터 가공 단계에서 결정됩니다.
1단계 — 우선 학습 대상 선정
먼저 학습할 자료를 가치 순으로:
- 고객 FAQ Top 50 (가장 많이 묻는 질문)
- 표준 응답 스크립트 (상담사가 실제 쓰는 문장)
- 상품·서비스 카탈로그
- 약관·정책 요약
- 운영 매뉴얼
처음부터 모든 문서를 넣지 않는 것이 핵심.
2단계 — 문서 포맷 변환
| 원본 | 권장 변환 |
|---|---|
| 워드·한글 | 마크다운 또는 PDF |
| 엑셀 FAQ | CSV (질문 / 답변 / 카테고리 컬럼) |
| 이미지 매뉴얼 | OCR → 마크다운 |
| 동영상 | 자막 추출 → 텍스트 |
| 웹페이지 | 본문만 텍스트 추출 |
3단계 — 청크 단위 정리
- 권장 청크 길이: 300~500자
- 한 청크 = 한 주제: 여러 주제 섞지 말기
- 헤딩 구조 유지: H2/H3로 의미 단위 표시
- 표는 표 그대로: 마크다운 표 또는 CSV로 보존
4단계 — 메타데이터 부여
각 청크에 다음 메타데이터 권장:
- 카테고리 (예: 결제·배송·환불)
- 최종 갱신일
- 적용 지역·매장
- 유효 기간 (한정 프로모션의 경우)
메타데이터가 있으면 "강남점만 적용되는 정책"을 정확히 답변할 수 있습니다.
5단계 — 모호한 표현 제거
다음 표현을 사전 정리:
- ❌ "당분간" → ✅ "2026년 6월 30일까지"
- ❌ "일부 매장" → ✅ "강남점·홍대점·잠실점"
- ❌ "보통" → ✅ "영업일 기준 평균 2일"
모호한 표현을 그대로 학습하면 AI도 모호하게 답합니다.
6단계 — 모순·중복 정합화
여러 문서에 같은 내용이 다르게 적혀 있는 경우 단일 진실원(SSOT) 결정:
- 가격은 마스터 카탈로그 기준
- 정책은 최신 약관 기준
- 영업시간은 매장 관리 시스템 기준
모순된 자료를 그대로 넣으면 AI도 모순된 답을 합니다.
7단계 — 갱신 주기·책임자 지정
스킬북은 한 번 만들고 끝이 아닙니다.
- 주 1회: 가격·프로모션
- 월 1회: FAQ·카탈로그
- 분기 1회: 약관·정책
- 변경 즉시: 영업시간·연락처
각 카테고리에 담당자를 지정해 콘솔에 메모.
자주 묻는 질문
Q. 100페이지 문서를 한 번에 올려도 되나요? 가능하지만 모순·중복 검수가 어려워집니다. 카테고리별로 나눠 올리는 것을 권장.
Q. 학습이 잘 됐는지 어떻게 검증하나요? 콘솔의 테스트 인터페이스에서 실제 FAQ 10~20개로 응답 확인. TTS 품질 평가 방법론 글의 평가 프로토콜도 적용 가능.
Q. 학습 데이터가 유출될 위험은? 폐쇄망 요건이 있다면 On-Premise로 이관하면 외부 송신 없이 학습 가능.
결론
스킬북 품질이 곧 에이전트 품질입니다. 7단계 가공을 거친 데이터는 분량이 적어도 잡음 섞인 1000페이지보다 늘 좋은 결과를 냅니다.
🔗 이전화: 3편 — 페르소나 설계
🔗 다음화: 5편 — 한 에이전트, 모든 채널



