"휴멜로가 AICC 1위 브리지텍과 DIVE CPU 설치형 TTS 공급계약을 체결했습니다. GPU 없이 0.35초 실시간 음성합성, 완전 온프레미스 보안, 한국어 1위 품질 — 이번 계약이 금융·공공·컨택센터 시장에 가지는 의미를 분석합니다."
2026년 5월, 한국 음성 AI 시장에 의미 있는 계약이 체결됐습니다. 음성 AI 기업 휴멜로와 AICC 솔루션 전문기업 브리지텍이 음성합성 엔진 'DIVE'의 CPU 설치형 실시간 스트리밍 버전 공급계약을 맺었습니다.
단순한 제품 공급이 아닙니다. GPU 없이 CPU만으로 0.35초 실시간 합성이 가능한 설치형 TTS가, 금융·공공·의료 등 온프레미스가 필수인 시장에 본격 진입한다는 의미입니다. 이 글에서는 휴멜로 DIVE가 왜 뛰어난지, 그리고 이번 브리지텍 계약이 왜 한국 AICC 시장의 분기점인지 분석합니다.
이번 계약, 무엇이 합의되었나요?
- 공급사: 휴멜로 (음성 AI / DIVE TTS 엔진)
- 공급 대상: 브리지텍 (국내 AICC 솔루션 시장 주요 사업자)
- 제품: DIVE CPU 설치형 실시간 스트리밍 TTS
- 타깃 시장: 컨택센터(AICC), 금융·공공·의료 등 온프레미스 중심 산업
- 적용 분야: ARS, IVR, 챗봇, 키오스크, 사내 안내방송
"클라우드를 못 쓰는 산업에, GPU 없이 돌아가는 1등 한국어 TTS를 공급한다."
왜 휴멜로 DIVE인가? — 3가지 기술적 차별점
1. GPU가 필요 없는 CPU 실시간 합성
대부분의 고품질 TTS는 GPU 서버를 전제로 합니다. 즉, 기업이 도입하려면 GPU 인프라부터 새로 사야 한다는 뜻이죠. DIVE CPU 버전은 이 진입장벽을 무너뜨립니다.
- 기존 서버 활용 가능: 일반 CPU 환경에서 고품질 합성 동작
- 인프라 비용 절감: GPU 도입·운영비 부담 제거
- 확장 용이: 노드 단위로 가볍게 증설
엔터프라이즈 입장에서 이는 "품질을 포기하지 않고도 비용을 낮춘다" 는, 거의 양립 불가능했던 두 조건을 동시에 만족시키는 변화입니다.
2. 0.35초 실시간 스트리밍 — AICC 현장 표준 충족
상담·ARS·챗봇 음성에서 응답 지연은 곧 고객 이탈입니다. DIVE는 약 0.35초 수준의 스트리밍 합성을 지원해, 실시간 대화 흐름이 끊기지 않습니다. 콜센터 상담원을 대체하는 AI 음성이 사람처럼 즉시 응답한다는 의미입니다.
3. 한국어 운율 — 블라인드 평가에서 검증된 품질
DIVE는 최근 한국어-TTS Arena 블라인드 평가에서 OpenAI·구글을 제치고 종합 1위(ELO 기준)에 올랐습니다. 한국어 조사·어미·억양을 자연스럽게 처리하는 한국어 특화 모델이라는 점이, 글로벌 모델 대비 결정적 차이입니다.
여기에 20초 음성 샘플 기반 보이스클로닝까지 지원해, 기업이 자체 브랜드 보이스를 구축할 수 있습니다.
왜 이번 브리지텍 계약이 중요한가? — 4가지 관점
① 온프레미스 시장의 '품질 눈높이'가 올라간다
금융·공공·의료는 데이터 외부 반출이 사실상 불가능한 산업입니다. 클라우드 TTS를 못 쓰니, 그동안은 품질이 한 단계 낮은 온프레미스 TTS로 타협해왔죠. DIVE CPU 설치형은 이 타협을 끝냅니다.
외부 클라우드를 거치지 않는 완전 온프레미스 방식이면서, 동시에 한국어 TTS 1위 품질을 제공합니다.
② AICC 시장 유통망 확보 — 제품력에서 점유율로
브리지텍은 국내 AICC 솔루션 시장의 주요 사업자입니다. 휴멜로는 이번 계약으로 검증된 영업·구축 채널을 확보했습니다. 좋은 제품을 만든 단계에서, 시장에 빠르게 침투할 수 있는 단계로 넘어간 셈입니다.
③ "GPU 없는 AI 도입"의 산업 표준화 가능성
GPU 부족·가격 급등은 현재 모든 AI 도입의 병목입니다. CPU에서 작동하는 고품질 TTS의 엔터프라이즈 공급은 "CPU만으로도 AI 음성 서비스가 가능하다" 는 새로운 도입 표준을 만들 가능성이 있습니다. 후발 산업·중견기업 도입 장벽이 크게 낮아집니다.
④ 한국어 음성 AI 스택의 수직 통합
휴멜로는 DIVE(TTS) 외에 STT, Prosody Console(AICC 구축) 까지 보유하고 있습니다. 브리지텍의 AICC 플랫폼과 결합되면, 음성 입력 → 자연어 이해 → 음성 출력의 풀스택이 국내 기업 데이터센터 안에서 완결됩니다.
도입 효과 — 산업별 시나리오
| 산업 | 기존 한계 | DIVE × 브리지텍으로 가능해진 것 |
|---|---|---|
| 금융 | 클라우드 TTS 사용 불가, 온프레미스 TTS는 품질 낮음 | 완전 온프레미스 + 한국어 1위 품질 상담 음성 |
| 공공 | 보안 규정으로 외부 AI 호출 제한 | 폐쇄망에서 고품질 안내·민원 응대 음성 |
| 의료 | 환자정보 외부 전송 불가 | 병원 내부 키오스크·안내방송 자연 음성화 |
| 컨택센터 | GPU 서버 도입비 부담 | 기존 CPU 인프라에서 실시간 AICC 운영 |
핵심 메시지: "보안 때문에 못 했던 곳, 비용 때문에 미뤘던 곳이 이제 가능해진다."
휴멜로 DIVE vs. 일반 온프레미스 TTS
| 비교 항목 | 일반 온프레미스 TTS | 휴멜로 DIVE (CPU 설치형) |
|---|---|---|
| 인프라 요구 | GPU 서버 필수가 많음 | CPU만으로 동작 |
| 실시간 응답 | 1초 이상 지연 흔함 | 약 0.35초 스트리밍 |
| 한국어 품질 | 기계적·평탄 | 한국어 TTS Arena 1위 |
| 보이스클로닝 | 미지원 또는 별도 모델 | 20초 샘플로 지원 |
| 보안 | 일부 외부 호출 잔존 | 완전 온프레미스 |
| 유통·구축 채널 | 제한적 | 브리지텍 AICC 채널 |
자주 묻는 질문 (FAQ)
Q. DIVE CPU 버전은 GPU 버전과 품질 차이가 있나요? A. CPU 환경에서도 실시간 스트리밍과 한국어 1위 품질을 유지하도록 최적화돼 있어, AICC·ARS·키오스크 등 실제 엔터프라이즈 적용 기준에서 충분한 품질을 제공합니다.
Q. 브리지텍을 통하지 않아도 DIVE를 도입할 수 있나요? A. 가능합니다. 휴멜로 Prosody Console에서 API·On-Premise 도입 모두 직접 상담받을 수 있습니다. 브리지텍은 AICC 통합 구축이 필요한 기업에 더 적합한 채널입니다.
Q. 보이스클로닝은 어떻게 활용하나요? A. 20초 분량의 음성 샘플로 화자 음색을 복제해, 기업 전용 브랜드 보이스(예: 자사 안내 음성·전속 성우 디지털화)를 구축할 수 있습니다.
Q. 금융·공공 도입 시 보안 인증은요? A. DIVE 설치형은 외부 클라우드 호출 없이 고객사 인프라 내에서 동작하므로, 망분리·내부망 정책을 그대로 유지한 채 도입할 수 있습니다.
마무리: 한국어 AICC 시장의 분기점
이번 휴멜로-브리지텍 공급계약은 단순한 B2B 거래가 아닙니다. "한국어 1등 품질 × CPU 동작 × 완전 온프레미스 × AICC 유통망" 이라는 네 가지 조건이 한 점에서 만난, 한국 음성 AI 시장의 분기점입니다.
지금까지 클라우드 보안·GPU 비용·한국어 품질 중 한 가지를 포기해야 했다면, 이제 그럴 필요가 없습니다. 휴멜로는 DIVE를 시작으로 TTS·STT·AICC를 통합한 한국어 음성 AI 스택을 완성해갑니다.



