음성 AI는 "스펙"이 아니라 "캐릭터"다
2편의 프리셋이 통과했다면 다음 단계는 우리 회사 톤으로 다시 빚는 것입니다. 같은 모델이라도 페르소나 설계 한 단계로 사용자 신뢰가 크게 달라집니다.
1단계 — 에이전트 역할 정의
한 줄로 적기:
"[회사명]의 [업무 영역]을 담당하는 AI 상담원"
예: "○○치과의 예약·문의 안내를 담당하는 AI 상담원."
이 한 줄이 모든 후속 결정의 기준이 됩니다.
2단계 — 톤매너 결정
| 톤 | 적합 도메인 | 예시 인사 |
|---|---|---|
| 친근 | B2C, 리테일 | "안녕하세요! 무엇을 도와드릴까요?" |
| 공식 | 금융, 공공 | "안녕하십니까. 상담 도와드리겠습니다." |
| 전문 | B2B, 의료 | "○○ 진료 안내 상담사입니다. 무엇이 궁금하신가요?" |
| 캐주얼 | 엔터테인먼트, 게임 | "어서 와요~ 오늘은 어떤 거 찾으세요?" |
⚠️ 회사 내부 의견이 갈리면 고객 응대 매뉴얼의 실제 표현을 기준으로 결정.
3단계 — 음성 선택
옵션:
- 표준 음성 60+종 — 한국어 남성·여성·연령대별 카탈로그에서 선택
- 브랜드 클론 음성 — 1분 분량 음성 데이터로 자사 전속 음성 제작 (데이터 준비 가이드)
- 다중 화자 — 상황별로 음성 교체 (안내 vs 결제 vs 긴급)
4단계 — 응답 길이·말 속도 가이드라인
기본값:
- 응답 길이: 2~3문장 (콜봇 환경)
- 말 속도: 1.0배 (ARS는 0.95배)
- 일시정지: 문장 사이 400ms
SSML 가이드를 활용하면 강조·발음까지 정밀 제어 가능합니다.
5단계 — 금지어·민감 표현 정의
다음을 명시적으로 차단:
- 의료·법률·금융 조언 단정 표현
- 경쟁사 비교 발언
- 정치·종교 발언
- 욕설·차별 표현
- 미확인 가격·기간 약속
콘솔의 가드레일 메뉴에서 화이트리스트/블랙리스트 설정.
6단계 — 페르소나 시트 작성·팀 공유
다음 항목을 1페이지로 정리해 사내 공유:
- 역할 (1단계)
- 톤 (2단계)
- 음성·말 속도 (3·4단계)
- 금지어 (5단계)
- 표준 인사·종료 멘트
- 미답변·에스컬레이션 정책
이 시트가 4편 스킬북 학습의 입력 기준이 됩니다.
자주 묻는 질문
Q. 브랜드 음성 클로닝, 처음부터 해야 하나요? 비권장. 표준 음성으로 PoC를 안정화한 뒤 2~3단계에서 전환이 표준. Q. 톤이 너무 친근하면 신뢰가 떨어진다는데? 도메인에 따라 다릅니다. 금융은 공식 톤, 리테일은 친근 톤이 일반적 사용자 선호. Q. 다국어 응대도 한 에이전트에서? 콘솔에서 다국어 음성을 함께 등록할 수 있습니다.
결론
페르소나 설계는 한 번 결정하면 6개월 운영의 톤을 결정합니다. 시트로 정리해 팀 합의를 받은 뒤 학습 단계로 넘어가세요.



