연구가 프로덕트가 되는 지점
최근 휴멜로는 마음AI와의 공동연구 ZeSTA가 세계적인 음성 AI 학회 INTERSPEECH 2026에 채택되었다는 소식을 전했습니다. 핵심은 적은 양의 실제 음성 데이터로도 개인화 음성을 안정적으로, 그리고 더 가볍게 구현하는 방향이었습니다.
연구는 방향을 보여주고, 제품은 그 방향을 실제 서비스로 만듭니다. 휴멜로가 이미 시장에서 운영하고 있는 두 제품, DIVE TTS와 AICC 에이전트가 바로 그 접점입니다.
이 글에서는 ZeSTA가 제시한 "클라우드 → 온프레미스 → 온디바이스"로 이어지는 배포 확장성을, 두 제품이 지금 어떻게 구현하고 있는지 구체적으로 정리합니다.
DIVE TTS란 무엇인가?
DIVE TTS는 텍스트를 자연스러운 한국어 음성으로 변환하는 휴멜로의 고품질 음성합성(TTS) 엔진입니다. 한국어를 부가 언어가 아니라 1순위로 두고 설계해, 받침·연음·경음화, 조사와 어미에 따른 억양 변화, 존댓말과 반말의 톤 차이를 엔진 레벨에서 처리합니다.
DIVE TTS의 핵심 특징
- 48kHz 스튜디오급 음질 — 오디오북·방송·광고에 바로 쓸 수 있는 고해상도 음성
- 0.3초 이하 실시간 응답 — 30자 기준 첫 음절 0.3초 이내, 실시간 스트리밍 지원
- 100종 이상의 한국어 음성 — 연령·성별·톤·지역까지 세분화된 보이스 포트폴리오
- 2초 보이스클로닝 — 짧은 샘플만으로 브랜드 고유의 목소리 생성
- 통화 포맷 지원 — PCM, U-LAW, WAV, MP3 등 콜 인프라와 직접 연동
- 감정 표현 — neutral·happy·sad·angry·calm 등 상황에 맞는 톤 제어
- 클라우드 API + 온프레미스 — 망분리·내부망 환경에서도 동일한 품질로 운영
DIVE TTS는 "방송급 음질"과 "콜봇용 초저지연"을 하나의 한국어 엔진에서 모두 제공하는 음성합성 API입니다.
AICC 에이전트란 무엇인가?
AICC 에이전트는 DIVE TTS(음성합성) + STT(음성 인식) + LLM(언어 모델) 을 하나로 묶어, 고객과 실제로 대화하는 AI 콜봇·보이스 에이전트를 구현하는 통합 제품입니다.
TTS만으로는 "말하는 기계"에 그치지만, AICC 에이전트는 듣고(STT) → 이해하고(LLM) → 자연스럽게 답하는(DIVE TTS) 전체 흐름을 하나의 파이프라인으로 제공합니다. AICC(AI Contact Center)는 이 세 요소가 0.5초 안에 매끄럽게 이어질 때 비로소 사람처럼 느껴집니다.
AICC 에이전트가 해결하는 문제
- 첫 3초 이탈 — 한국 소비자의 상당수가 통화 첫 3초의 음성 자연스러움으로 상담원 전환 여부를 결정합니다. DIVE TTS의 고음질·저지연이 이 첫인상을 바꿉니다.
- 응답 지연 — 0.5초 이상의 침묵은 어색함을 만듭니다. 0.3초 이하 응답으로 사람과 대화하는 흐름을 유지합니다.
- 브랜드 일관성 — 상담원마다 다른 말투 대신, 브랜드 톤에 맞는 단일 음성(또는 보이스클로닝)으로 통일합니다.
- 24시간 운영·비용 절감 — 단순 안내부터 예약·결제 문의까지 자동 처리율을 끌어올립니다.
AICC 에이전트는 DIVE TTS를 두뇌가 아니라 '목소리와 귀'로 결합해, 고객이 신뢰하고 끝까지 대화하는 AI 콜봇을 만드는 제품입니다.
배포 환경별 매핑: 클라우드 · 온프레미스 · 온디바이스
음성 AI의 경쟁력은 이제 "어디에 배포할 수 있는가"에서 갈립니다. DIVE TTS와 AICC 에이전트가 각 환경에서 어떻게 동작하는지 정리하면 다음과 같습니다.
| 배포 환경 | 언제 선택하나 | DIVE TTS | AICC 에이전트 |
|---|---|---|---|
| 클라우드 | 빠른 도입·유연한 확장이 필요할 때 | API 키 하나로 즉시 연동 | 콜 인프라와 연동해 빠르게 콜봇 구축 |
| 온프레미스 | 보안·내부망·규제 준수가 중요할 때 | 자체 서버에 구축, 데이터 외부 반출 없음 | 금융·공공 망분리 환경에서 풀 파이프라인 운영 |
| 온디바이스 | 응답속도·현장성·오프라인이 중요할 때 | ZeSTA 기반 경량화로 단말 내 동작 확장 준비 | 키오스크·차량·로봇 등 엣지 환경으로 확장 가능성 |
→ 하나의 음성 AI를, 고객의 보안 정책·인프라·응답 속도·운영 비용에 맞춰 세 가지 방식으로 배포할 수 있다는 점이 휴멜로의 차별점입니다.
AICC에서 DIVE TTS가 특히 강한 이유
글로벌 TTS는 영어를 기준으로 설계되어, 한국어 콜봇에서 조사·어미·존댓말·숫자 읽기의 어색함이 드러납니다. DIVE TTS는 한국어를 1순위로 설계했기 때문에 AICC 환경에서 결정적 차이를 만듭니다.
| AICC 요건 | 왜 필요한가 | DIVE TTS 대응 |
|---|---|---|
| 초저지연 | 0.5초 이상 지연 시 고객 이탈 | 30자 0.3초 이하, 실시간 스트리밍 |
| 통화 포맷 | 콜 인프라 직접 연동 | PCM, U-LAW, WAV, MP3 지원 |
| 한국어 최적화 | 조사·어미·높임법 처리 | 문맥 기반 프로소디 엔진 |
| 48kHz 고음질 | HD Voice 콜 대응 | 스튜디오급 48kHz |
| 온프레미스 | 금융·공공 보안 규정 준수 | 클라우드 API + 온프레미스 |
| 보이스클로닝 | 브랜드 보이스 구현 | 2초 보이스클로닝 |
예를 들어 AICC 에이전트는 "결제 금액 153,200원이 정상 처리되었습니다" 를 "십오만 삼천이백 원"으로 자연스럽게 읽고, "~하셨습니까" 와 "~했나요" 의 격식 차이를 문맥에 맞게 구분합니다. 이런 디테일이 콜봇을 "기계"가 아닌 "상담원"으로 느끼게 합니다.
온디바이스로 가는 길: ZeSTA가 여는 다음 단계
지금의 DIVE TTS와 AICC 에이전트는 클라우드와 온프레미스에서 검증되었습니다. 다음 확장축은 온디바이스 음성 AI — 스마트폰, 키오스크, 차량, 로봇처럼 사용자가 직접 접하는 기기 안에서 음성 모델이 동작하는 방식입니다.
온디바이스는 네트워크 의존을 줄여 더 빠르게 응답하고, 민감한 음성 데이터를 외부로 보내지 않아 보안에 유리하며, 대규모 호출 환경에서 운영 비용을 낮출 수 있습니다. 다만 이를 위해서는 모델을 작고 효율적으로 다듬는 경량화·최적화 역량이 필요합니다.
ZeSTA 연구는 바로 이 지점을 겨냥합니다. 적은 실제 음성 데이터와 합성 데이터를 '제대로' 활용해 화자 고유의 특성을 유지하면서 개인화 품질을 안정적으로 확보하는 방법으로, 더 작은 모델·다양한 배포 환경으로 확장할 수 있는 기반을 마련합니다.
즉, DIVE TTS와 AICC 에이전트가 온디바이스까지 확장될 수 있는 기술적 뒷받침이 ZeSTA에서 나옵니다. (온디바이스는 현재 상용화가 완료된 단계가 아니라, 경량화·최적화 연구로 적용 가능성을 넓혀가는 단계입니다.)
도입 시나리오: 어디서부터 시작할까?
Phase 1. 단순 안내 자동화 (1~2주)
- ARS 멘트·영업시간·위치 안내를 DIVE TTS 음성으로 교체
- 배송 조회, 잔액 확인 등 간단 FAQ 자동 응답
Phase 2. 대화형 AICC 에이전트 고도화 (1~2개월)
- LLM 연동으로 예약 확인·변경·취소, 결제 문의 처리
- 불만 접수 및 초기 대응까지 자동화
Phase 3. 아웃바운드 + 확장 (3개월~)
- 만족도 조사·캠페인 안내 자동 발신
- 키오스크·현장 단말 등 온디바이스 적용 검토
자주 묻는 질문 (FAQ)
Q1. DIVE TTS와 AICC 에이전트는 어떻게 다른가요?
DIVE TTS는 텍스트를 음성으로 바꾸는 음성합성 엔진이고, AICC 에이전트는 여기에 STT(음성 인식)와 LLM을 결합해 대화까지 처리하는 통합 제품입니다. 단순 음성 출력이 필요하면 DIVE TTS, 고객과 실제로 대화하는 콜봇이 필요하면 AICC 에이전트를 선택합니다.
Q2. AICC 콜봇에 한국어 특화 TTS가 왜 중요한가요?
한국 소비자는 통화 첫 3초의 음성 자연스러움으로 상담원 전환 여부를 결정합니다. 글로벌 TTS는 조사·어미·존댓말·숫자 읽기에서 부자연스러움이 드러나, 첫 문장에서 "AI다"라고 판단되기 쉽습니다. DIVE TTS는 한국어 음운 규칙을 엔진 레벨에서 처리해 이 첫인상을 바꿉니다.
Q3. 금융·공공기관 망분리 환경에서도 도입할 수 있나요?
가능합니다. DIVE TTS와 AICC 에이전트는 클라우드 API와 온프레미스 배포를 모두 지원해, 데이터를 외부로 반출하지 않는 내부망·폐쇄망 환경에서도 동일한 품질로 운영됩니다.
Q4. 온디바이스 음성 AI는 지금 바로 쓸 수 있나요?
온디바이스는 현재 상용화가 완료된 단계가 아니라, ZeSTA 같은 경량화·최적화 연구로 적용 가능성을 넓혀가는 단계입니다. 지금 도입 가능한 배포 방식은 클라우드와 온프레미스이며, 온디바이스는 로드맵 상의 확장축입니다.
Q5. AICC 에이전트의 응답 속도는 어느 정도인가요?
DIVE TTS는 30자 기준 첫 음절 0.3초 이하 응답과 실시간 스트리밍을 지원합니다. 사람 간 대화에서 0.5초 이상의 침묵은 어색함을 유발하는데, 이 기준을 충족해 사람과 대화하는 듯한 흐름을 만듭니다.
Q6. 먼저 무료로 테스트해볼 수 있나요?
네. DIVE TTS는 console.humelo.com에서 코드 작성 없이 음질을 바로 비교해볼 수 있습니다. AICC 에이전트는 환경 분석 후 맞춤형 PoC로 진행됩니다.
지금 시작하기
음성 AI는 이제 "얼마나 잘 말하는가"를 넘어 "우리 환경에 어떻게 배포할 수 있는가" 의 문제입니다.
휴멜로는 DIVE TTS와 AICC 에이전트로 클라우드부터 온프레미스, 그리고 온디바이스까지 이어지는 배포 선택지를 제공합니다.



