AI 보이스, 진짜 누가 사용하지?📁 2025 AI보이스 성공사례리포트 다운받기 →

[News]AI 기업 휴멜로, LLM 아닌 '니치'에서 길 찾았다...보이스에 집중해 자체 엔진 고도화

휴멜로는 최근에는 대화형 TTS 엔진인 'DIVE 엔진'(Deep-context Interactive Voice Engine) 개발에 성공하며 또 한번의 기술 도약을 예고하고 있다.

휴멜로팀
[News]AI 기업 휴멜로, LLM 아닌 '니치'에서 길 찾았다...보이스에 집중해 자체 엔진 고도화

기사 바로가기

인공지능(AI) 스타트업 휴멜로가 대형언어모델이 아닌 서비스에 특화된 독자적인 파운데이션 모델의 가능성을 입증했다. 자체적으로 선보인 '퓨샷 TTS' 모델과 맥락인지 'DIVE 엔진'을 연달아 선보이며 실제 서비스 적용 가능성을 높이고 있어 주목된다.

6일 휴멜로는 '니치 파운데이션 모델' 전략으로 보이스 AI의 성공 가능성을 입증했다고 밝혔다. 니치 파운데이션 모델 전략은 서비스에 특화된 독자 '파운데이션 모델'을 집중 개발하는 전략이다. 소위 대형언어모델(LLM)은 글로벌 빅테크 기업들이 이미 시장을 선점하고 있는 상황에서 우리 기업들이 경쟁을 펼치기에는 투입 자본과 인프라, 연구인력, 학습 가능한 데이터셋 등 모든 측면에서 쉽지 않다.

이에 따라 휴멜로가 선택한 서비스 특화 독자 파운데이션 모델이 주목을 받고 있는 것이다. 실제로 국산 파운데이션 모델 개발은 장애 대응, 업데이트 등 서비스의 유지 보수에서도 유리하다. 통상 기업들이 AI 서비스를 도입할 때 비용 문제 때문에 오픈소스 AI 모델을 이용해 구축하며 통상 SI 기업을 통해 이 문제를 해결한다. 하지만 장애 발생 시 즉각적인 대응이 어렵고 서비스 업데이트 등에 제한이 있어 고객 이탈 문제로 이어지기 쉽다.

휴멜로가 집중한 분야는 사람의 목소리를 완벽하게 재현하는 것이다. 최소한의 목소리 학습으로 사람이 실제 말하는 것과 같은 억양, 높낮이, 감정 표현을 구현하는 '퓨샷 TTS' 파운데이션 모델 개발에 성공했다.

휴멜로의 AI 보이스는 AI 고객센터(AICC), 오디오북 더빙, 버추얼 캐릭터 등에 다양하게 활용되며 AI의 사용처를 확장하고 있다. 기술 수준 역시 한국어 TTS 분야에서는 오픈AI와 비교해도 손색이 없다. 파운데이션 모델 구축의 기반이 되는 보이스 포트폴리오의 경우, 휴멜로는 표준어, 사투리, 캐릭터 음성 등 60여 종 이상의 학습 데이터를 보유했다. 오픈AI는 14종에 그친다.

특히 단 2분 정도의 음성 샘플만 확보하면 8시간의 학습 후 완벽히 커스텀화된 목소리를 복제하는 기능은 아직 오픈AI가 구현하지 못한 휴멜로만의 강점이다.

최근에는 대화형 TTS 엔진인 'DIVE 엔진'(Deep-context Interactive Voice Engine) 개발에 성공하며 또 한번의 기술 도약을 예고하고 있다. DIVE 엔진은 '대화형' AI 모델로 사전 학습이 전혀 필요 없는 '제로샷' 방식으로 음성을 합성한다. 어떤 목소리든 즉시 합성해, 둘 이상의 화자가 대화를 주고받을 때 이전 대화의 맥락과 뉘앙스를 파악해 다음 대사의 감정과 억양을 자연스럽게 이어간다.

최근 급부상하는 '캐릭터챗'과 같은 페르소나 기반의 AI 챗봇 서비스에서 DIVE 엔진을 적용하면 살아있는 상대와 대화하는 듯한 몰입감을 제공할 수 있다. 또 AI 컨택센터(AICC)에서도 정해진 시나리오를 읽는 기계적인 응대를 넘어, 고객의 감정에 공감하며 소통하는 인간적인 상담이 가능해져 고객 만족도를 높일 수 있다.

권용석 휴멜로 대표는 "처음 시작을 위해 많은 학습량이 필요한 파운데이션 모델은 개발 초기에는 데이터 접근의 한계 등 어려움이 많지만, 이를 해결하면 더 큰 가능성을 발견할 수 있다"며 "휴멜로가 보이스 AI라는 한 우물을 파 독보적인 파운데이션 모델을 구축한 것처럼, 더 다양한 분야에서 우리만의 모델을 만들어 나간다면 K-AI가 글로벌 경쟁력을 충분히 확보할 수 있을 것"이라고 말했다.

허준 기자 joon@techm.kr

기업용 AI 보이스 커스텀 솔루션 도입

휴멜로의 기술력과 경험이면 충분합니다.