AI 보이스, 진짜 누가 사용하지?📁 2025 AI보이스 성공사례리포트 다운받기 →

[News]맥락 파악해 목소리 톤·템포 조율…보이스 AI시대 열겠다

보이스 AI 스타트업 '휴멜로' 권용석 대표, 대화속 감정에 반응하는 AI보이스 엔진 'DIVE', 목소리 흉내수준 넘어 실시간 감정까지 교류

휴멜로팀
[News]맥락 파악해 목소리 톤·템포 조율…보이스 AI시대 열겠다

기사 바로가기

10일 서울 강남 소재 인공지능(AI) 스타트업 휴멜로(Humelo) 본사 연구개발(R&D)센터. 휴멜로가 개발한 AI 보이스 엔진 'DIVE(Deep-context Interactive Voice Engine)'를 콜센터 상황을 가정해 시연했다. 불만이 가득 찬 소비자가 콜센터에 항의 전화하는 것을 연출했다. 연기를 한 휴멜로 직원이 격앙된 목소리로 "택배를 이렇게 엉망으로 보내시면 어떻게 하나요. 물건이 파손됐잖아요"라고 말했다. 그랬더니 DIVE 엔진이 탑재된 AI 콜센터가 화가 난 상대의 감정을 재빠르게 파악한 뒤 차분한 목소리로 "고객님 너무 죄송합니다. 불편과 실망을 드린 점 진심으로 사과드리고 최대한 빠르게 보상 처리해 드리겠습니다"라고 대답했다.

대화 맥락을 읽고 감정을 담아 반응하는 AI 보이스 엔진 'DIVE'의 시연 장면이다.

카이스트 출신 권용석 대표가 이끄는 휴멜로가 개발한 이 기술은 텍스트를 기계적으로 읽어주던 기존 합성 음성을 넘어 사람과 대화가 가능한 AI 시대를 활짝 열고 있다. 최근 매일경제와 만난 권 대표는 "우리가 지향하는 것은 단방향 TTS가 아니라 사용자와 실시간으로 감정을 교류하는 '양방향 TTS"라고 강조했다.

휴멜로는 2018년 권 대표와 이자룡 책임연구원이 공동 창업한 AI 스타트업이다. 대형언어모델(LLM) 개발 경쟁 대신 보이스 AI라는 특화 영역에 집중해 1분 남짓한 음성으로 특정인의 목소리를 그대로 재현하는 보이스 클로닝, 5~15초 데이터만으로 억양과 감정을 복제하는 제로샷(Zero-shot) TTS 기술을 선보였다. 이 기술은 KT AI 보이스 스튜디오에 공급됐고 KT인베스트먼트·카카오인베스트먼트의 투자를 이끌어냈다. 이후 SM엔터테인먼트, 스마일게이트, LG전자 등 27개 기업과 협업하며 입지를 넓혔다.

휴멜로가 상용화한 기술은 보이스 클로닝, 실시간 합성 'FRTTS'다. FRTTS는 30자 기준 문장을 0.3초 만에 합성하는 초저지연 엔진으로 실시간 서비스에서 강점을 발휘한다. 휴멜로는 보이스 클로닝(Voice Cloning)의 실시간 최적화 연구를 통해 다양한 산업으로 적용 범위를 넓혔다.

최근 휴멜로가 공개한 DIVE는 한 단계 더 진화한 모델이다. 단순한 발화 합성을 넘어 대화 맥락을 학습하고, 목소리 톤과 템포·쉼표를 스스로 조율한다. 권 대표는 "앞으로는 디렉터가 억양을 일일이 조정하지 않아도 된다"며 "AI가 상황에 맞는 톤과 감정을 스스로 디자인하는 단계로 가고 있다"고 말했다.

사업 확장도 활발하게 진행 중이다. 휴멜로는 AICC(AI Contact Center) 영역을 중심으로 클라우드 기반 서비스형 콘택트센터(CCaaS) 기업들과 다양한 협력을 논의하며 새로운 미래를 모색하고 있다.

권 대표는 "음성 기술을 통해 AI 상담사가 더 사람답게 응답하도록 돕겠다"며 "여러 파트너들과 함께 응답시간과 해결률 등 현장 지표를 꾸준히 개선해 결국 '사람과 대화가능한 AI'로 고객 경험의 기준을 바꾸겠다"고 말했다.

마지막으로 그는 "AI가 단순히 목소리를 흉내 내는 수준을 넘어 진짜 대화 상대가 되는 것이 우리의 목표"라며 "머지않아 사람들은 AI와 감정을 주고받는 경험을 일상에서 자연스럽게 하게 될 것" 이라고 말했다.

김대기 기자

기업용 AI 보이스 커스텀 솔루션 도입

휴멜로의 기술력과 경험이면 충분합니다.