MWC26에서 꽤 상징적인 장면이 있었습니다. 여러 국내 언론사가 보도한 것처럼 LG유플러스 홍범식 CEO는 개막 기조연설에서 아예 “음성” 을 전면으로 꺼냈습니다.
그런데 이건 한 회사만의 메시지가 아니었습니다.
MWC 공식 세션, 글로벌 통신사 발표, 국내 통신 3사와 삼성의 전시를 함께 묶어보면, 2026년의 핵심 변화는 “AI가 더 똑똑해졌다”가 아니라 “AI가 말로 작동하는 인터페이스가 된다” 는 쪽에 더 가깝습니다.
MWC 공식 세션은 AI Calling을 통신사의 차별화된 경험과 AI 서비스의 통합 진입점으로 설명했고, 도이치텔레콤은 실제 통화 안으로 들어오는 AI 콜 어시스턴트와 AI 글래스를 함께 공개하며 voice가 AI의 자연스러운 인터페이스가 되고 있다고 발표했습니다.
1) MWC26에서 국내 대기업들이 실제로 보여준 것은 ‘더 많은 AI’가 아니라 ‘말로 움직이는 AI’였습니다
LG유플러스의 홍범식 CEO는 MWC26 기조연설에서 수많은 AI 기술과 디바이스가 등장하는 시대에 음성이 중요한 인터페이스가 될 것이라고 강조했고, 진화된 보이스 에이전트 익시오(ixi-O) 가 미래 소통의 핵심이 될 수 있다고 설명했습니다.
또 LG유플러스 전시의 핵심을 아예 “보이스 기반의 AI 서비스” 라고 못 박으며, Voice 중심 연결이 기록 → 이해 → 예측 → 행동으로 확장되는 모습을 보여주겠다고 했습니다.
이건 음성을 단순 입출력 채널이 아니라, 행동을 트리거하는 실행 인터페이스로 본다는 뜻입니다.
SK텔레콤도 표현만 다를 뿐 방향은 같습니다.
SKT는 MWC26에서 A. phone(A-DoT phone) 을 “진짜 AI agent”로 발전시켜 통화 노트와 일정 정리, 개인화 서비스 연결, 후속 행동 실행까지 하겠다고 밝혔습니다.
KT는 Agentic AICC 를 전시하고, 6G를 “AI를 위한 네트워크” 로 규정하며 초저지연·초고신뢰 인프라를 강조했습니다.
삼성 역시 Galaxy AI를 스마트폰 단품이 아니라 웨어러블과 기기 생태계 전반으로 확장했고, 자연어와 보이스 기반 상호작용, 업그레이드된 빅스비, 에이전트 선택 구조를 통해 “말로 지시하고, AI가 여러 앱과 기기를 넘나들며 실행하는 경험”을 전면화했습니다.
즉, 국내 대기업이 MWC26에서 공통으로 보여준 것은 “우리도 AI 한다”가 아닙니다. 더 정확히는 “AI를 사람의 일상 속 인터페이스로 어떻게 녹여낼 것인가” 였고, 그중 가장 마찰이 적고 자연스러운 채널로 다시 음성이 선택되고 있는 것입니다.
이건 비단 국내 기사 한 건의 포인트가 아니라, 여러 발표를 종합하면서 드러나는 국내 주요 이동통신사 플레이어들의 시장 방향입니다.
2) 왜 하필 지금, 다시 ‘음성’일까요?
1.화면이 작아질수록, 결국 말이 남기 때문입니다.
도이치텔레콤은 MWC26에서 AI 글래스를 공개하며 voice interaction과 real-world recognition이 함께 작동하는 미래를 제시했습니다.
삼성도 버즈4와 웨어러블, Galaxy XR 같은 폼팩터를 함께 꺼냈고, LG유플러스 역시 익시오를 스마트폰 안의 기능이 아니라 로봇과 결합하는 피지컬 AI 로 확장해 보여줬습니다. 디바이스가 화면 중심에서 주변형, 웨어러블형으로 갈수록, 손으로 누르는 UI보다 말로 부르고 실행하는 UI 가 더 자연스러워집니다.
2.통신사 입장에서 음성이 가장 강한 ‘자기 채널’이기 때문입니다.
MWC 공식 Agentic Core Summit은 AI Calling이 통신사에게 차별화된 calling experience를 만들고, AI 서비스의 unified entry point 가 되고 있다고 설명합니다.
또 Agentic AI Summit은 앞으로 AI 에이전트가 전화번호를 갖고 여러 채널을 넘나드는 지능형 통신 주체 가 될 수 있다고 봅니다. 이 흐름에서 음성은 더 이상 레거시가 아니라, 통신사가 네트워크와 번호, 통화 경험을 기반으로 다시 수익화할 수 있는 핵심 접점입니다.
3.음성이 ‘이해’와 ‘행동’을 가장 빠르게 연결할 수 있는 최적의 수단이기 때문입니다.
LG유플러스가 보여준 Voice 중심 연결의 확장, SKT가 말한 통화 노트·일정 정리·후속 실행은 결국 같은 방향입니다. AI는 더 이상 답변만 잘하면 되는 게 아니라, 통화를 이해하고 바로 다음 액션으로 이어져야 합니다.
이때 텍스트보다 음성이 훨씬 짧은 경로가 됩니다.
4.신뢰와 안전이 이제 음성 서비스의 기본 조건이 되었기 때문입니다. LG유플러스는 익시오에 온디바이스 안티딥보이스 를 상용화했고, SKT는 이미 AI Spam Indicator와 실시간 통화 번역 같은 기능을 고도화해왔습니다.
즉, 2026년의 음성은 “편하다”에서 끝나지 않습니다. 스팸 탐지, 보이스피싱 방지, 개인정보 보호 까지 함께 설계돼야 비로소 시장이 열립니다.
3) 그런데 국내 시장에서 진짜 어려운 건 ‘음성을 붙이는 것’이 아니라 ‘한국어로 자연스럽게 운영하는 것’입니다
여기서부터가 훨씬 중요한 부분인 한국 시장에서는 글로벌 모델을 가져다 붙인다고 끝나지 않습니다.
2025년 NeurIPS에 공개된 연구내용에도 한국어는 영어·중국어에 비해 상대적으로 과소 평가돼 있었고, 한국어에 명시적으로 최적화된 모델, 전처리, 벤치마크가 부족했다고 짚습니다.
여기에 운율 문제가 겹칩니다.
한국어 TTS에서 자연스러움을 좌우하는 핵심은 발음만이 아니라 운율 경계, 끊어읽기, 억양, 문맥에 맞는 톤 입니다. MDPI에 실린 연구도 정확한 자연스러운 음성 합성을 위해 운율 구간 경계 예측(prosody phrase boundary prediction)이 필수 라고 설명합니다.
한국어는 조사, 어미, 높임, 숫자·영문 혼용, 문장 끝 뉘앙스에서 “티”가 빨리 납니다. 그래서 한국어 보이스 UX에서는 조금만 흔들려도 사용자가 즉시 “AI 같다”고 느끼게 됩니다.
그리고 실제 서비스로 들어가면 문제를 더욱 직면하게 됩니다.
국내 AICC나 콜봇 환경에서는 자연스러움만으로는 부족합니다. 초저지연, 스트리밍 안정성, PCM/U-LAW 같은 콜 인프라 포맷 대응, 온프레미스/API 배포, 보안 이 모두 동시에 맞아야 합니다.
AICC 컨택센터는 플랫폼-통신-교환-TTS가 이어지는 체인이라 포맷 하나만 어긋나도 품질이 무너질 수 있고, 국내 금융·공공·대기업에서는 온프레미스 가능 여부가 음질만큼 중요한 도입 조건이 됩니다.
결국 국내 음성 서비스의 핵심은 예쁜 데모가 아닙니다. 한국어 문맥에 자연스럽고, 실시간이며, 전화망과 엔터프라이즈 환경에서 실제로 운영 가능한가 가 진짜 기준입니다.
4) 그래서 MWC26 흐름을 한국 시장에 가져오면, 왜 휴멜로 DIVE TTS 쪽으로 결론이 모일까요?
MWC26에서 드러난 요구조건을 아주 단순하게 정리하면 이렇습니다.
첫째, 한국어 문맥과 운율을 자연스럽게 처리해야 합니다.
둘째, 실시간 대화가 가능한 속도와 스트리밍이 필요합니다.
셋째, 보이스 콜봇, AICC 환경에 맞는 포맷과 운영 조건을 지원해야 합니다.
넷째, 엔터프라이즈에서 요구하는 API·온프레미스·보안 유연성이 있어야 합니다.
다섯째, 브랜드 보이스까지 확장 가능한 스택이어야 합니다.
휴멜로 DIVE는 위의 5가지 조건을 정확히 해결할 수 있는 AI 보이스 엔진 입니다.
휴멜로 DIVE는 Deep-context Interactive Voice Engine 으로 소개하면서 문맥 이해와 감정 표현을 전면에 두고 있습니다.
이와 더불어 실시간 스트리밍, 30자 기준 0.3초 이하 지연, 48kHz 고음질, WAV/MP3/PCM/U-LAW 지원, 2초 보이스클로닝, API 지원, On-Premise 지원 을 내세웁니다.
또한 “보이스가 기본값인 서비스”의 조건을 한국어 기준 설계된 TTS 엔진 + 초저지연 스트리밍 + 유연한 보이스 클로닝을 완벽하게 지원하는 엔진이기도 하지요.
여기서 중요한 건 “휴멜로 DIVE가 음성을 만든다”가 아니라, MWC26가 요구한 실행형 보이스 스택의 조건과 휴멜로 DIVE의 설계 방향이 겹친다 는 점입니다.
LG유플러스가 말한 보이스 기반 AI, SKT가 말한 실제 행동하는 AI agent, KT가 깔려야 한다고 본 초저지연 인프라, 삼성과 글로벌 기업들이 보여준 웨어러블·자연어 인터페이스까지 모두 묶어보면, 필요한 건 단순 낭독형 TTS가 아닙니다.
결국 필요한 건 한국어에 강하고, 실시간이며, 운영 포맷과 배포 현실까지 맞춘 보이스 레이어 입니다.
그 관점에서 보면 국내 음성 서비스는 결국 휴멜로 DIVE TTS 같은 실행형 한국어 보이스 스택 으로 좁혀질 수밖에 없습니다.
결론: 국내 대기업이 다시 ‘음성’을 말한 건, AI의 다음 인터페이스가 보이스이기 때문입니다
MWC26에서 국내 대기업이 음성을 언급한 이유는 단순합니다.
AI 시대에 음성은 더 이상 부가 기능이 아니라, 사람이 AI를 가장 자연스럽게 호출하고, 이해시키고, 바로 행동시키는 인터페이스 가 되고 있기 때문입니다.
그리고 한국 시장에서는 이 흐름이 더 어렵습니다. 한국어 운율, 콜 인프라 현실, 보안, 배포 조건까지 동시에 맞아야 하기 때문입니다.
그래서 질문은 “우리도 음성을 넣을까?”가 아닙니다.
이제 질문은 “한국어에서 실제로 통하는 보이스 스택을 무엇으로 가져갈까?” 입니다.
그리고 MWC26가 보여준 조건을 기준으로 답하면, 결론은 명확합니다.
국내 AI 보이스 서비스의 최적화 포인트는 결국 휴멜로 DIVE TTS 쪽으로 모이게 됩니다.
