🎤 한국어 TTS 아레나에 오신 것을 환영합니다
한국어 TTS 아레나는 다양한 음성 합성(TTS) 모델을 블라인드 테스트로 비교 평가하는 커뮤니티 기반 플랫폼입니다. LMsys의 Chatbot Arena에서 영감을 받아, 누구나 한국어 TTS 모델의 품질을 직접 비교하고 평가할 수 있는 공간을 만들었습니다.
💡 두 모델의 음성을 듣고 더 자연스러운 쪽에 투표하세요. 모델 이름은 투표 후에 공개됩니다.
🤔 왜 한국어 TTS 벤치마크가 필요한가?
여러 상용 TTS가 이미 존재하지만, 한국어에 특화된 신뢰할 수 있는 벤치마크는 부재한 상황입니다. 글로벌 TTS 모델들은 한국어 처리에서 여러 한계를 보이고 있습니다.
기존 평가 방식의 한계
WER (Word Error Rate)
문제 있음한국어의 복잡한 발화 패턴(숫자, 날짜, 전화번호, 주문번호 등)을 STT로 평가할 때 정확도가 떨어져 실제 발화 품질을 제대로 반영하지 못합니다.
MOS (Mean Opinion Score)
한계 존재소규모 참가자를 대상으로 한 주관적 평가로, 비용이 많이 들고 대규모 커뮤니티의 다양한 의견을 반영하기 어렵습니다.
Arena 방식
해결책커뮤니티 전체가 참여하는 블라인드 A/B 테스트로, Elo 레이팅 시스템을 통해 객관적인 순위를 도출합니다.
글로벌 TTS 모델의 한국어 한계
-
운율(Prosody)의 부자연스러움
상담사처럼 자연스러운 억양과 톤을 구현하지 못하고, 단조로운(monotone) 발화가 생성됩니다. -
한국어 상식 기반 발화 처리 취약
한·영 혼용, 날짜·시간, 주문/고유번호, URL·이메일 등 한국어 특유의 발화 패턴을 제대로 처리하지 못합니다. -
숫자 발화의 어려움
"19,992원"을 "만 구천 구백 구십 이원"으로 자연스럽게 읽거나, 전화번호 형식(011-1234-1234)을 올바르게 발화하는 것이 어렵습니다. -
전문 용어 및 약어 처리
"%p"를 "퍼센트포인트"로 읽는 등의 상식 기반 추론이 필요한 발화에 취약합니다.
⚙️ 아레나 작동 방식
평가 방식은 간단합니다. 텍스트를 입력하면 두 개의 TTS 모델이 각각 음성을 생성합니다. 두 샘플을 듣고 더 자연스러운 쪽에 투표하세요. 편향을 방지하기 위해 모델 이름은 투표 후에만 공개됩니다.
- 직접 텍스트를 입력하거나 랜덤 문장을 선택할 수 있습니다
- 동일한 텍스트로 생성된 두 TTS 모델의 음성을 비교합니다
- 더 자연스럽고, 명확하며, 표현력 있는 음성에 투표합니다
- 리더보드에서 모델 순위를 확인할 수 있습니다
- Elo 레이팅 시스템으로 객관적인 순위가 산출됩니다
❓ 자주 묻는 질문
🔗 참고 자료
채널톡 TTS 팀의 연구 내용과 기술적 접근 방식에 대해 더 알아보세요:
Channel TTS: Towards Real-World Prosody for Conversational Agents📜 개인정보 및 라이선스
입력하신 텍스트와 생성된 오디오는 연구 목적으로 저장될 수 있습니다. 로그인한 경우 투표 기록이 계정과 연결됩니다.
생성된 오디오 클립은 개인적, 비상업적 용도로만 사용할 수 있으며 재배포할 수 없습니다.