다음카카오, 음성 합성 엔진 '뉴톤 톡' 음색 강화

입력
기사원문
본문 요약봇
성별
말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

다음카카오는 국내 최초 음성 합성 오픈 애플리케이션 프로그래밍 인터페이스(API) '뉴톤 톡'의 낭독체 음성을 업그레이드하고 대화체를 추가해 제공한다고 17일 밝혔다.

지난 6월 첫 선을 보인 뉴톤 톡은 기본 낭독체를 탑재한 음성 합성 엔진으로 입력된 문장을 음성으로 변환해준다. 자체 개발한 한국어 운율 모델을 이용해서 사람의 발성을 재현하고 대용량·자동화 처리 기술에 의해 다양한 한국어 문장을 빠르게 학습하고 운율을 예측할 수 있다.

다음 검색으로 축적된 데이터를 활용해 사전에 등록되지 않은 신조어나 특수문자 포함 문장도 정확히 이해하고 음성 전환 한다.

이번에 새롭게 추가된 낭독체는 사람이 읽어주듯 자연스러운 음성을 확보했다. 밝고 부드러운 음색의 성우가 기존 낭독체보다 2배 이상 많은 문장을 녹음한 데이터를 이용했기 때문에 어떠한 문장 조합에도 유연하게 대응할 수 있다.

음질 향상을 위해 합성 방법을 기존과 달리 목소리의 여러 주파수 별 파형을 조합하는 방식으로 바꿔서 딱딱한 기계음이 만들어질 가능성을 최소화했다.

이와 함께 일상적인 대화체 음성의 표현도 가능해졌다. 대화체를 통해 합성된 음성에서 동일한 단어라도 문장 내 위치 등 문맥에 따라 음의 높낮이가 상이하고 어색함이 없다. 예를 들어 '안녕'이라는 단어가 문장 앞 부분에 있을 경우 끝 음을 올리고 문장 중간에 포함될 경우 앞뒤 단어와의 연결에 따라 끝 음을 내리거나 동일 음조로 처리하는 식이다.

구동욱 다음카카오 음성처리파트장은 "뉴스나 책 구절 등의 장문 낭독을 대신하거나 모바일 메시지를 대화체 음성으로 변환하고 시각 장애인을 위한 생활형 서비스를 개발하는 등 다양한 영역에서 뉴톤 톡의 기능이 활용될 수 있다"고 말했다.

뉴톤 톡은 한 번에 최대 30초 분량의 음성을 합성하고 입력된 글자의 분석부터 음성화까지 0.1초 안에 처리한다. 현재 뉴톤 톡에서는 남녀 화자 각 하나씩의 낭독·대화 음성으로 총 4개의 음색을 사용할 수 있다.

뉴톤 톡 API는 누구나 다음 개발자 네트워크에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다.

데일리안 남궁민관 기자

ⓒ (주)데일리안 - 무단전재, 변형, 무단배포 금지
이 기사는 언론사에서 경제 섹션으로 분류했습니다.
기사 섹션 분류 안내

기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.

닫기
3