STT(음성인식)란? AI가 사람 말을 알아듣는 원리부터 한국어 정확도까지 (2026)
음성 AI를 이야기할 때 우리는 보통 'AI가 얼마나 사람처럼 말하는가(TTS)'에 집중합니다. 그런데 AI와 '대화'하려면 그 절반, 즉 'AI가 사람 말을 얼마나 잘 알아듣는가' 도 똑같이 중요합니다. 이게 바로 STT입니다.
콜센터 보이스봇이 고객 말을 못 알아들으면, 뒤에 붙은 AI가 아무리 똑똑해도 엉뚱한 답을 합니다. 이 글에서 STT가 무엇이고, 어떻게 작동하며, 한국어에서 왜 까다로운지, 그리고 AICC에서 왜 결정적인지 정리해 드리겠습니다.
STT란 무엇인가?
STT(Speech-to-Text, 음성인식)는 사람의 음성을 텍스트로 변환하는 기술입니다. 우리가 말하면 그 소리를 글자로 받아써 주는 것이죠. TTS(텍스트→음성)와 정확히 반대 방향입니다.
- TTS: 텍스트 → 음성 (AI가 말함)
- STT: 음성 → 텍스트 (AI가 알아들음)
스마트폰 음성 검색, 회의록 자동 작성, 자막 생성, 그리고 콜센터 보이스봇이 고객 말을 이해하는 첫 단계가 모두 STT입니다. 'AI와의 음성 대화'는 STT로 시작해 TTS로 끝납니다.
STT는 어떻게 작동할까?
STT는 크게 세 단계를 거칩니다.
- 음향 분석 — 음성 파형에서 소리의 특징을 추출
- 음소·단어 인식 — 추출한 특징을 발음 단위로 매핑하고 단어로 조합
- 언어 모델 보정 — 문맥을 고려해 가장 그럴듯한 문장으로 다듬음
3단계가 중요합니다. 예를 들어 "배가 아파요"와 "배가 와요"는 소리가 비슷하지만, 문맥상 더 자연스러운 문장을 골라야 제대로 받아씁니다. 그래서 좋은 STT는 단순 받아쓰기를 넘어 '문맥 이해'까지 합니다.
STT 정확도는 무엇으로 잴까? — WER
STT 성능은 WER(Word Error Rate, 단어 오류율)로 측정하며, 낮을수록 정확합니다. 받아쓴 결과에서 틀린(삽입·삭제·대체) 단어의 비율입니다.
- WER 5% → 단어 100개 중 5개 오류 (우수)
- WER 15% → 100개 중 15개 오류 (실사용 부담)
다만 WER은 환경에 크게 좌우됩니다.
- 잡음: 콜센터·길거리 등 소음 환경에서 급등
- 억양·사투리·말끝 흐림: 실제 대화는 또박또박하지 않음
- 전문용어·고유명사: 사전에 없는 단어는 틀리기 쉬움
즉 "조용한 데서 잘 들린다"와 "진짜 통화에서 잘 들린다"는 다른 이야기입니다.
한국어 STT는 왜 더 까다로울까?
한국어는 음운 변화와 띄어쓰기 모호성이 커서 STT 난도가 높습니다.
- 연음·축약: "뭐 해?"가 "뭐 해/머해"로 다양하게 발음됨
- 조사 생략: 구어에서 조사가 자주 빠져 문장 경계가 흐릿
- 띄어쓰기 모호성: 같은 소리도 어떻게 끊느냐로 의미가 갈림
- 한영 혼용: "그 file 보내줘"처럼 섞여 들어옴
그래서 영어 STT를 잘하는 엔진이 한국어도 잘하리란 보장은 없습니다. 한국어 구어의 특성을 학습한 엔진이 필요합니다.
AICC 음성 상담에서 STT가 결정적인 이유
AICC 보이스봇은 STT → LLM → TTS 사슬로 작동합니다. 이 중 STT가 첫 관문입니다.
| 단계 | 역할 | STT가 부실하면 |
|---|---|---|
| STT | 고객 말을 텍스트로 | 시작부터 오인식 |
| LLM | 의도 이해·답변 생성 | 잘못 들은 내용으로 추론 |
| TTS | 답변을 음성으로 | 엉뚱한 답을 자연스럽게(!) 말함 |
무서운 건, STT가 틀려도 TTS는 그 틀린 답을 아주 자연스러운 목소리로 말한다는 점입니다. 고객은 "말은 잘하는데 못 알아듣는 봇"이라 느끼고 이탈합니다. 그래서 음성 에이전트 품질은 음질(TTS)만이 아니라 알아듣기(STT)까지 사슬 전체로 봐야 합니다.
휴멜로 프로소디 AICC는 STT·LLM·TTS를 따로 평가·연동할 필요 없이 한 콘솔에서 통합 제공합니다. 알아듣는 단계(STT)부터 말하는 단계(DIVE TTS, 한국어 아레나 1위)까지 한 흐름으로 묶여 있어, '잘 듣고 잘 답하고 자연스럽게 말하는' 상담이 한 번에 구성됩니다. 세 엔진을 따로 사올 때 생기는 사슬의 약한 고리를 줄이는 구조입니다.
자주 묻는 질문 (FAQ)
Q. STT와 TTS의 차이는 무엇인가요? A. STT는 음성을 텍스트로 바꾸는 음성인식(AI가 알아듣기), TTS는 텍스트를 음성으로 바꾸는 음성합성(AI가 말하기)입니다. 방향이 정반대이며, 음성 대화는 STT로 시작해 TTS로 끝납니다.
Q. STT 정확도는 어떻게 측정하나요? A. WER(단어 오류율)로 측정하며 낮을수록 정확합니다. 단, 잡음·억양·전문용어 환경에서 크게 달라지므로 실제 사용 환경 기준으로 확인해야 합니다.
Q. 영어 음성인식이 정확하면 한국어도 정확한가요? A. 보장되지 않습니다. 한국어는 연음·조사 생략·띄어쓰기 모호성 등 구어 특성이 달라, 한국어를 학습한 엔진이 따로 필요합니다.
Q. AICC 보이스봇에서 STT가 왜 그렇게 중요한가요? A. STT→LLM→TTS 사슬의 첫 관문이기 때문입니다. STT가 잘못 들으면 그 뒤 답변 전체가 어긋나고, TTS는 그 틀린 답을 자연스럽게 말해버려 고객이 이탈합니다.
Q. 휴멜로는 STT도 제공하나요? A. 프로소디 AICC에서 STT·LLM·TTS를 한 콘솔에 통합 제공해, 알아듣기부터 말하기(DIVE TTS)까지 한 흐름으로 음성 에이전트를 구성할 수 있습니다.
정리하며
STT는 'AI가 사람 말을 알아듣는' 기술로, TTS와 함께 음성 대화의 양 축을 이룹니다. 정확도는 WER로 재지만 잡음·억양·한국어 구어 특성에 크게 좌우되며, AICC에서는 STT가 부실하면 사슬 전체가 무너집니다.
휴멜로 프로소디 AICC는 STT부터 DIVE TTS(한국어 음질 1위)까지 한 콘솔에 통합해, '잘 듣고 자연스럽게 답하는' 음성 상담을 한 번에 구성할 수 있게 합니다.
다음 편에서는 이 STT·TTS를 잇는 'LLM'이 상담에서 어떻게 의도를 이해하고 답을 만드는지 다뤄보겠습니다.
STT부터 TTS까지 한 번에 경험하고 싶다면? 휴멜로 프로소디 콘솔에서 음성 에이전트를 만들어, 알아듣고 답하고 말하는 전 과정을 직접 확인해 보세요.
[관련 글로 연결 추천]



