음성합성 기술 및 국내외 현황
제 1 장 음성합성의 개요
제 2 장 음성합성 기술
2.1 음성합성의 분류
2.2 음성합성의 시스템구조
2.3 음성합성의 과정
제 3 장 응용분야 및 적용사례
3.1 응용분야
3.2 적용사례
제 4 장 국내외 현황
제 5장 결론
<참고문헌>
제1장 음성합성의 개요
음성인식과 더불어 음성 기술시장에서 큰 비중을 차지하고 있는 분야는 음성합성분야로, 음성합성(Test-to Speech or Speech Synthesis)란 문자 그대로 글(Test:ASCII text or Machine-readable text)을 말(speech)로 바꾸는 기술이다.
일반적으로 자동응답시스템(ARS)에서 듣는 기계음의 목소리는 대부분 음성합성 기술을 활용해 제공되는 정보이다. 최근에는 음성합성을 이용해 인터넷 신문의 기사를 읽어주는가 하면, E-mail 읽어주기, 음성포털, 게시판 및 전자책, 가전제품, 개인휴대단말기 이동전화 등 가정 및 산업 전반에서 그 활용도가 늘어나는 추세이다. 음성합성 기술이 상용화 되기 시작한 것은 오래 되었지만,초기 음성합성기술은 기계적인 목소리에 대한 거부감등으로 시각장애인등에 제한적으로 사용 되어 왔으나 최근 인간의 자연음에 가까운 음성합성기가 개발되면서 음성 합성기는 스튜디오에서 녹음된 10~40시간 분량의 목소리를 여러 조각으로 나누어 데이터베이스로 분류하고 소프트웨어가 텍스트를 처리할 때는 음성을 추출한 뒤 재 합성해 새 문장을 만들어 낸다.
제2장 음성합성 기술
2.1 음성합성의 분류
음성합성은 제한된 문장이나 단어를 합성하는 편집합성방식과 어떤 문장이라도 합성할 수 있는 규칙합성방식(포만트, 조음, 연결합성)이 있다.
편집합성방식(제한적음성합성)은 제한된 단어와 몇 개의 유형으로 정해진 억양만 합성하므로 시스템 구조가 간단하고 그 문장에 대해서는 명료하고 자연스러운 합성음을 생성한다. 이 방식은 주로 114 안내와 같은 ARS, 장난감 등에 응용되고 있다.
규칙합성방식(무제한 음성합성)은 문장/음성변환시스템(TTS: TEXT-TO-SPEECH SYSTEM)이라고도 하며 무제한 문장을 입력으로 한다. 무제한 영역의 문장을 자연스럽게 합성하기 위해서는 언어처리, 운율처리, 합성방식, 합성단위의 선정 등 시스템의 구조가 복잡해지며 음성합성의 합성음질이 좋아지기 위해서는 각 처리모듈별 성능이 함께 개선 되어야 한다.
2.2 음성합성의 시스템구조
아래의 <그림 1>에는 최근 많이 개발되고 상용화되고 있는 코퍼스기반의 무제한 음성합성시스템 블럭도를보여주고 있다. 음성합성시스템은 크게 전처리부, 언어처리부, 합성부 등으로 나눌 수 있다.
<그림1. 음성합성 시스템 블럭도>
2.3 음성합성의 과정
아래의 <그림 2>는 일반적인 무제한 문장/음성변환(한국어 TTS 시스템의 구성도) 과정을 나타내며, 각 모듈별 동작 과정을 알아 본다.
2.3.1 전처리
TTS 시스템에 입력 가능한 텍스트는 간단한 국민학교 교과서에서부터 학술논문까지, 낭독체에서 대화체까지 다양하다. 텍스트에는 한글 뿐만 아니라 숫자, 약어, 기호, 전문용어들이 들어 있다. 전처리기에서는 약어/기호테이블과 의존명사테이블을 이용하여 입력 텍스트를 분석한 뒤, 한글 이외의 문자들을 한글로 바꿔 주는 모든 일을 수행한다. 입력 문장은 한국어 맞춤법에 의한 문장표기를 원칙으로 하여, 한글입력은 KS5601코드를 사용한다.
<그림2. 한국어 TTS 시스템구성도>
2.3.2 형태소 분석 (Morphological analysis)
전처리기를 거쳐 한글로 변환된 텍스트는 이곳 형태소 분석기에서 어휘 사전을 용하여 형태소 단위로 분리되며, 각 단어에 대해 한글 텍스트, 품사(1개 이상 가능), 형태소 분리 결과, 형태소의 종류(연결에 대한 제약 사항)등에 관한 정보가 출력된다.
형태소는 의미의 최소단위로서 비교적 변화가 없으며 새로운 형태소는 거의 없다.
따라서 어휘사전에 등록 되는 단위는 형태소이며 여기에 적합한 형태소 분석을 이용하면 변형어를 다 저장할 필요가 없다. 또한 형태소가 최소의 단위이므로 형태소의 연결에서 음운변동이 발생하는 경우(예로서 등+불 :등뿔)의 처리는 규칙화 하여 처리한다. 형태소의 분석은 글자/음운변환 처리를 하기 전에 이루어지는데 글자/음운변환에서는 규칙을 형태소 내에만 적용한다. 이렇게 함으로써 어휘사전이 효율적으로 구성되며, 형태소 구조에 따른 발음상의 중요한 특성을 자연스럽게 구현된다.
2.3.3. 파서(parser)
구문분석기는 자연스러운 운율 정보(억양, 지속시간 등)를 생성하기위해 문장의 구문정보를 추출해 내는 역할을 한다. 운율 생성을 위한 정보는 각 구의위치, 문장 성분, 상호 결합관계 등을 말한다. 문장성분의 분석은 앞 단에서 처리한 형태소 분석의 결과를 이용하여 이루어진다. TTS 시스템에서의 파서는 임의의 문장을 빠른 시간에 고유한 결과를 낼 수 있도록 구현되며 음성출력에 영향을 미치는 운율정보를 생성하기 위한 표층 구조를 주 목적으로 한다. 구분 석은 품사의 연결에 따라 작성된 구생성 망과 형태소 분석과정에서 구한 품사정보를 이용하여 이루어지며, 그 결과 문장에서의 성분이 결정된다.
2.3.4 글자/음운 변환기(Grapheme-to-phoneme conversion)
전처리기를 거쳐 한글로 변환된 텍스트는 이곳 글자/음운 변환기에서 소리 나는 대로 바뀐다. 글자음운변환기는 한글 읽기 규칙을 구현한 것으로서, 음성합성 시스템이 한글을 올바르게 읽을 수 있도록 소리 나는 대로 바꿔주는 것인데, 기본원칙은 문교부에서 고시한 표준어 규정의 표준발음법을 따른다. 읽기 규칙은 크게 4 가지로 구별되는데, 모음의 발음, 장음처리,음운변동규칙, 음의 첨가이다. 변동의 요인으로는 음소의 기존 체계의 제약성, 발음의 편의를 위한 자연적인 경향, 말의 청취 효과를 똑똑히 하려는 현상이 있다. 먼저 글자/음운 변환기는 어휘사전검색을 통하여 입력된 텍스트를 형태소단위로 분리하고, 발음기호를 읽어 들인다. 그리고 형태소간의 결합에 따른 변동처리를 한다. 어휘사전에 등록되지 않은 단어는 프로그램된 읽기 규칙으로 소리 나는 대로 바꾼다. 이 규칙은 표준어 규정에 있는 모든 원칙을 적용하되 음절 경계점에서 적용, 처리되며 임의적 변동은 제외한다.
2.3.5 운율기호 작성, 합성단위 선정 및 휴지 작성
파서에서 작성된 구문정보를 이용하여 운율기호를 생성하며, 변이음이 고려된 합성단위를 선정하고 문장, 절, 구의 경계 및 특정 문장기호에 적절한 길이의 휴지를 부가한다. 합성단위 데이터베이스는 다양한 음운환경이 고려된, 최소의 대립관계의 규칙에 따라 변이음수준까지 작성되었다.
2.3.6. 음소의 지속시간 처리(Duration control)
음성합성시스템에서 음소, 음절의 지속시간 제어는 합성음의 자연성에 매우 중요한 운율적 요소이다. 지속시간의 패턴이 여러 가지 영향변수(발화속도, 음운환경,위치, 악센트,문장 구조, 의미등)에 의 해 나타나므로 일반적인 지속시간 규칙을 추출해 내기가 매우 어렵다. 지속시간 제어규칙은 단일 화자가 발성한 여러 개의 문장에 대해 관측된 지속시간을 맞추도록 규칙이 작성된다.
2.3.7. 기본주파수 제어(Intonation control)
사람이 발성하는 음성언어에는 구문구조, 문형 등과 같은 문법구조와 문맥에 따른
강조, 대립 등과 같은 의미구조, 그리고 발성자의 감정 등이 운율의 형태로 표현된다.
운율은 음의높이, 세기, 길이의 3가지 형태로 나타나는데 이중 음의 높낮이 변화, 즉 억양이 원음 뿐만 아니라 합성음의 명료도 및 자연성에 미치는 영향이 크다. 따라서 억양을 어떻게 모델링 하느냐는 이 분야에 연구자라면 누구나 관심이 있는 부분이라할 수 있다. 지속시간 모델링 방법으로는 Klatt모델, 한경변수(Contextual factor)분석을 통한 선형화기 모델, 신경회로망, 테이블 룩업(table look-up)등이 있다.
2.3.8. 합성단위 데이타베이스(Synthesis units)
합성단위를 연결하여 합성하는 연결합성(Concatenation synthesis)시스템의 합성단위 작성은 한국어의 음운 및 운율환경을 분석하여 합성에 필요한 합성단위를 선정한다. 이를 위하여 접속점에서의 불연속성을 줄이고 합성단위 개수 및 크기를 최소화한 합성단위의 작성이 필요하다.
2.3.9 합성음 생성
합성음 생성기는 선정된 합성 단위열과 각각의 지속시간, 기본 주파수를 입력
으로 해 실제 음성 파형을 생성시키는 신호 처리부를 말한다. 합성음 생성부에
는 조음 합성, 포만트 합성, 연결 합성 방식으로 크게 나눌 수 있다.
2.3.9.1 조음합성기
인간이 발성할 때 말할 메시지를 생각하고 이를 성도의 근육으로 명령을 보낸
다. 그리고 성도의 모양을 변형시켜 말을 하게 된다. 따라서 조음합성기도 이
러한 처리 구조에 따라 크게 신경구동 명령과 조음기관, 성도의 모양으로 나눈
다. 메시지는 우선 음소의 열로 표현되고 각 음소는 신경구동 명령으로 변환된
다. 그런 다음 신경구동 명령은 조음기관의 움직임, 조음기관의 위치, 성도의
모양을 결정하는 정보로 변환되어 소리가 생성된다. 조음합성기는 조음기관
의 움직임을 직접 모델링함으로서 음향/음성학적 변환, 발성속도, 운율 등 음
성에서 일어나는 복잡하고 다양한 현상을 자연스럽게 해결할 수 있다. 특히 동
시조음(coarticuration) 현상의 경우, 다른 합성방식에서는 이의 규칙을 작성하
거나 합성단위에 이를 포함시켜야 하나 이 방식에서는 용이하게 제어할 수 있
다.
2.3.9.2 포만트 합성
대부분의 포만트 합성기는 직렬, 병렬 및 이를 혼합한 구조로 되어 있다. 이 합
성기의 여기 신호는 유성음일 때 임펄스 열로 무성음일 때 의사 랜덤잡음이 사
용되며, 유성 마찰음일 경우 주기적인 모양을 띤 잡음을 사용하게 된다. 성도
는 주로 직렬로 연결된 디지털 2차 공진회로로 모델링되며 각 회로는 여기신
호의 스펙트럼 형태와 포만트를 표현한다. 이보다 진보된 포만트 합성기는 4
개의 포만트 주파수와 3개의 포만트 대역폭을 시간에 따라 변화시켜 음질을
향상시켰다. 병렬 구조로 된 포만트 합성기는 그 구조가 직렬 구조에 비해 간
단하고 어떤 소리라도 생성시킬 수 있다.
2.3.9.3 연결합성방식(LPC 합성기)
연결합성방식은 LPC가 나오면서부터 각광을 받는 방식인데 녹음된 음편을 연
결해 합성음을 생성해 낸다. LPC 방식은 음성의 포만트정보를 LPC 계수로 표
현하기 때문에 포만트합성보다 훨씬 간단한 구조로 되어 있다. LPC 계수는 음
성 특징의 변화가 천천히 변화하는 특성을 이용한 것으로 과거 음성 샘플을 이
용해 현재 샘플을 예측할 수 있는 수학적 모델링에 의해 계수가 예측되며, 매
10 msec마다 선형예측 계수를 예측함으로서 거의 원음성에 가까운 합성음을
저전송율에서 복원할 수 있다.
2.3.9.4 연결합성방식(TD-PSOLA 합성기)
TD-SOLA합성기는 이 방식 중의 하나이며 음성 파형을 그대로 이용하는 합성 방식이다.즉 LPC와 같이 파라미터로 변환하지 않아 음성정보의 손실을 막을 수 있다.운율 조절 방법은 음성 파형에서 피치단위로 음성을 분해하고, 생성된 기본 주파수에 따라 분해된 음편을 재배열함으로써 피치 조절이 이뤄지며, 지속시간
조절은 단순히 음편의 생략이나 복제함으로 된다.
표 1은 합성방식에 따른 성능 비교를 보여주고 있다.
<표1. 합성방식에 따른 성능비교>
제3장 응용 분야 및 적용사례
3.1 응용분야
음성합성 기술의 응용분야를 살펴보면, 금융권을 비롯한 서비스업에서 고객이 다양한 통신수단(웹, e-mail, Fax, 휴대폰등)을 통해 접촉하더라도 모두다 수용하여 고객과 상담원 사이의 거리를 최소화할 수 있는 지능형 콜센터의 구축이 늘고 있으며,이러한 지능형 콜 센터에 대한 요구가 높아지면서 음성기술에 대한 관심도 증폭되고 있다. 이는 음성인식 기술과 음성합성 기술을 적용해 고객의 접촉편의를 높이는 한편 콜센터 운영에도 효율을 기할 수 있기 때문이다. 음성합성 기술은 수시로 변할 수 있는 정보에 대해 일일이 고객 대응이 어려운 부분에 적용할 수 있다. 이 경우 텍스트를 음성으로 변환해 읽어 주는 음성합성은 이 같은 고객 대응의 문제를 단번에 해결해 줄 수 있다. 또한 음성합성 기술의 진보에 따라 증권조회 서비스은행 콜센터의 잔액조회 서비스,항공사의 고객관리(예약정보, 항공정보)서비스 등에 음성합성 기술의 응용이 점차 확대되고 있다.
콜센터 이외에 음성합성 기술이 응용되고 있는 분야로는 e-mail음성서비스, in-car시스템(실시간 교통정보, 교통상황을 반영한 운전자 네비게이션 서비스), Assistive 서비스(시각 및 청각장애인을 위한 서비스), Consumer 제품(전자사전, 자동번역기, 장난감,게임등),Proofreading(타이핑된 문서의 오타 확인을 위한 Reading)등이 있다.
3.2 적용사례
3.2.1 홈쇼핑
TV, Internet, Catalog 등의 매체를 이용한 상거래로 음성인식과 합성을 이용하여 상담원에 의한 업무부담을 줄일 수 있으며 자동주문거래로 주문폭주와 24시간 업무의 효율을 높일 수 있다.
<그림3. 홈쇼핑 시스템구성도>
3.2.2 Telebanking
Mobile, Telephone으로 금융거래를 하는 것으로 음성인식과 합성을 이용하여 기존의 DTMF방식의 복잡성과 시간지연을 해결 할 수 있다.
Voice Portal
보이스포털은 보이스웨어의 음성인식과 음성합성 솔루션을 이용하여 이메일과
<그림4. Telebanking 시스템구성도>
3.2.3 교통정보
고속도로 및 국도 소통을 원활하게 하고 이용 효율도를 높이기 위해 고속도로 상황실의 실시간 교통정보를 유무선전화기를 통해 조회할 수 있는 서비스를 제공합니다. 기존의 상담원이 녹음하던 방식을 음성합성 엔진을 사용하여 24시간 실시간으로 서비스함으로써 업무 효율을 극대화 시켰다.
3.2.4 음성 재해자동통보 시스템
재해발생시 재해 상황을 음성합성에 의해 신속하게 통보할 수 있습니다. 재해상황을 문자로 입력하거나 전송 받아 사람의 음성으로 변환해 자동 통보해주는 시스템으로 재해상황을 통보할 때마다 별도로 녹음하느라 야기되는 시간 지체를 줄이면서 정확한 상황 전달을 가능하게 되어 보다 신속하고 정확한 재해 상황 통보를 할 수 있게 되었다.
3.2.5 날씨정보
시시각각 변하는 날씨 정보를 녹음이 아닌 음성합성에 의해 제공합니다. 유무선 전화기로 131번을 누르면 강수와 기온, 풍향/속 등의 예보와 파고 등 해상관련예보, 파랑주의보와 건조경보 등의 기상특보, 기상실황, 주간예보를 실시간으로 확인할 수 있다.
제4장 국내외 현황
음성 합성 관련 제품의 벤더들을 살펴보면, Centigram과 Acuvoice, DECTalk와 같은 벤더들은 이미 1999년 각자의 분야에서 어느 정도의 시장점유율을 확보하였으며, 이후 신규 벤더들이 지속적으로 음성합성 기술시장에 진출하고 있으며 시장규모도 지속적으로 성장하고 있다.
음성합성 제품의 가격은 현재(2002년 포트 당 400~800 달러 선이며,Rhetorical Systems나 AT&T Labs과 같은 벤더들은 주문형(기업의 CEO음성, 10대들이 좋아하는 연예인의 음성, 만화 , 케릭터의 음성 등)음성합성 제품을 판매하고 있는데, 여기에는 약 15만 달러의 비용이 추가 된다.
현재 해외 음성합성 벤더인 SpeechWorks와 Nuance등이 한국에 지사를 세우고 영업을 하고 있으나 시스템 안정성이나 고객 지원, 국내에서의 상용화 경험등에서 코아보이스, 보이스웨어, HCI Lab, 보이스텍 등과 같은 국내업체들을 따라오기는 역부족인 것으로 분석되고 있다.
음성합성 S/W 시장을 어플리케이션별로 구분하여 살펴보면, 크게IVR(Interactive
Voice Response)와 Operator Services, Messaging 등으로 나눌 수 이상 IDC의 자료에 따르면 지난 2000년 음성합성 S/W 시장에서 IVR이 차지하는 비중은 50.9%로 가장크고, 그 뒤를 이어 Operator Services가 29.5%를, Messaging 이 19.+6%를 각각 차지하였다.
<표2.음성합성 Application및 주요 벤더 현황>
표3과 표4 에서는 Telephony 음성합성 S/W에 대한 분야별 시장 전망과 음성합성기술의 Marcket Segment를 각각 나타내고 있다.
<표3. Telephony 음성합성 S/W시장 전망>
<표4. 음성합성기술 Market Segment>-ASR News,2001.10>
제5장 결론
지금까지 음성합성시스템기술 및 응용분야 시장전망 등을 개략적으로 살펴 보았다. 외국의 합성연구 기간에 비해 국내의 음성합성에 대한 연구는 불과 몇 년 전부터 본격적으로 진행되었으며 ETRI, KAIST, 성균관대, 서울대, 대학 및 연구소 삼성,KT,디지콤, 보이스웨어, 코아보이스, 보이스웨어, HCI Lab, 보이스텍 등의 기업 연구소에서 활발히 연구 중이다. 그러나 현재 개발되어 있는 우리말 합성장치는 운율이 어색하여 자연성이 떨어진다. 이를 개선시키기 위해서는 우리말 운율에 대한 연구가 많이 이루어져야 하며, 특히 문장/음성 변환장치에서는 정확한 정보전달이 필요하므로 훈련된 아나운서의 발음과 운율이 가장 적합한 모델이 된다. 따라서 대량의 운율 데이타 베이스를 구축하여 공학자의 수학적 프로그래밍 기술과 음성/언어학자들의 음성학적 지식이 어우러져 우리말 음성에 대한 규칙화 도출에 힘써야 할 것이다. 그리고 이러한 규칙이 문장에 적용되기 위해서는 문장 구조의
분석이 정확히 이루어져야 하며 비로서 TTS 시스템은 인간과 흡사한 음성을 생성해 낼 수 있을 것이다.
급격한 매체의 발달과 새로운 시스템의 등장과 더불어 인간생활이 복잡해 지면서 보다 편리한 인간 생활을 돕기위해 음성 인식기술과 더불어 음성합성기술은 날로 급변할 것이며 음성합성 기술은 응용 분야의 발전과 병행하여 진보하여야 할 것이다.
<참 고 문 헌>
[1] 디지털 신호인식기술 <국가과학기술위원회,2002.12>
[2] IT유망기술보고서 <ETRI,2002>
[3] 음성정보처리기술동향 <한국정보통신산업협회,2002>
[4] http://www.sit.or.kr <음성인식 연구회 포럼>
[5] ETRI 한국음성언어정보 연구부, http://voice.etri.re.kr/
[6] (주)한국인식기술, http://www.hiart.com
[7] 보이스웨어, http://www.voiceware.co.kr/
[8] 보이스텍, http://www.voicetech.co.kr/
[9] ㈜휴먼미디어테크, http://www.e-human.co.kr/
제 1 장 음성합성의 개요
제 2 장 음성합성 기술
2.1 음성합성의 분류
2.2 음성합성의 시스템구조
2.3 음성합성의 과정
제 3 장 응용분야 및 적용사례
3.1 응용분야
3.2 적용사례
제 4 장 국내외 현황
제 5장 결론
<참고문헌>
제1장 음성합성의 개요
음성인식과 더불어 음성 기술시장에서 큰 비중을 차지하고 있는 분야는 음성합성분야로, 음성합성(Test-to Speech or Speech Synthesis)란 문자 그대로 글(Test:ASCII text or Machine-readable text)을 말(speech)로 바꾸는 기술이다.
일반적으로 자동응답시스템(ARS)에서 듣는 기계음의 목소리는 대부분 음성합성 기술을 활용해 제공되는 정보이다. 최근에는 음성합성을 이용해 인터넷 신문의 기사를 읽어주는가 하면, E-mail 읽어주기, 음성포털, 게시판 및 전자책, 가전제품, 개인휴대단말기 이동전화 등 가정 및 산업 전반에서 그 활용도가 늘어나는 추세이다. 음성합성 기술이 상용화 되기 시작한 것은 오래 되었지만,초기 음성합성기술은 기계적인 목소리에 대한 거부감등으로 시각장애인등에 제한적으로 사용 되어 왔으나 최근 인간의 자연음에 가까운 음성합성기가 개발되면서 음성 합성기는 스튜디오에서 녹음된 10~40시간 분량의 목소리를 여러 조각으로 나누어 데이터베이스로 분류하고 소프트웨어가 텍스트를 처리할 때는 음성을 추출한 뒤 재 합성해 새 문장을 만들어 낸다.
제2장 음성합성 기술
2.1 음성합성의 분류
음성합성은 제한된 문장이나 단어를 합성하는 편집합성방식과 어떤 문장이라도 합성할 수 있는 규칙합성방식(포만트, 조음, 연결합성)이 있다.
편집합성방식(제한적음성합성)은 제한된 단어와 몇 개의 유형으로 정해진 억양만 합성하므로 시스템 구조가 간단하고 그 문장에 대해서는 명료하고 자연스러운 합성음을 생성한다. 이 방식은 주로 114 안내와 같은 ARS, 장난감 등에 응용되고 있다.
규칙합성방식(무제한 음성합성)은 문장/음성변환시스템(TTS: TEXT-TO-SPEECH SYSTEM)이라고도 하며 무제한 문장을 입력으로 한다. 무제한 영역의 문장을 자연스럽게 합성하기 위해서는 언어처리, 운율처리, 합성방식, 합성단위의 선정 등 시스템의 구조가 복잡해지며 음성합성의 합성음질이 좋아지기 위해서는 각 처리모듈별 성능이 함께 개선 되어야 한다.
2.2 음성합성의 시스템구조
아래의 <그림 1>에는 최근 많이 개발되고 상용화되고 있는 코퍼스기반의 무제한 음성합성시스템 블럭도를보여주고 있다. 음성합성시스템은 크게 전처리부, 언어처리부, 합성부 등으로 나눌 수 있다.
<그림1. 음성합성 시스템 블럭도>
2.3 음성합성의 과정
아래의 <그림 2>는 일반적인 무제한 문장/음성변환(한국어 TTS 시스템의 구성도) 과정을 나타내며, 각 모듈별 동작 과정을 알아 본다.
2.3.1 전처리
TTS 시스템에 입력 가능한 텍스트는 간단한 국민학교 교과서에서부터 학술논문까지, 낭독체에서 대화체까지 다양하다. 텍스트에는 한글 뿐만 아니라 숫자, 약어, 기호, 전문용어들이 들어 있다. 전처리기에서는 약어/기호테이블과 의존명사테이블을 이용하여 입력 텍스트를 분석한 뒤, 한글 이외의 문자들을 한글로 바꿔 주는 모든 일을 수행한다. 입력 문장은 한국어 맞춤법에 의한 문장표기를 원칙으로 하여, 한글입력은 KS5601코드를 사용한다.
<그림2. 한국어 TTS 시스템구성도>
2.3.2 형태소 분석 (Morphological analysis)
전처리기를 거쳐 한글로 변환된 텍스트는 이곳 형태소 분석기에서 어휘 사전을 용하여 형태소 단위로 분리되며, 각 단어에 대해 한글 텍스트, 품사(1개 이상 가능), 형태소 분리 결과, 형태소의 종류(연결에 대한 제약 사항)등에 관한 정보가 출력된다.
형태소는 의미의 최소단위로서 비교적 변화가 없으며 새로운 형태소는 거의 없다.
따라서 어휘사전에 등록 되는 단위는 형태소이며 여기에 적합한 형태소 분석을 이용하면 변형어를 다 저장할 필요가 없다. 또한 형태소가 최소의 단위이므로 형태소의 연결에서 음운변동이 발생하는 경우(예로서 등+불 :등뿔)의 처리는 규칙화 하여 처리한다. 형태소의 분석은 글자/음운변환 처리를 하기 전에 이루어지는데 글자/음운변환에서는 규칙을 형태소 내에만 적용한다. 이렇게 함으로써 어휘사전이 효율적으로 구성되며, 형태소 구조에 따른 발음상의 중요한 특성을 자연스럽게 구현된다.
2.3.3. 파서(parser)
구문분석기는 자연스러운 운율 정보(억양, 지속시간 등)를 생성하기위해 문장의 구문정보를 추출해 내는 역할을 한다. 운율 생성을 위한 정보는 각 구의위치, 문장 성분, 상호 결합관계 등을 말한다. 문장성분의 분석은 앞 단에서 처리한 형태소 분석의 결과를 이용하여 이루어진다. TTS 시스템에서의 파서는 임의의 문장을 빠른 시간에 고유한 결과를 낼 수 있도록 구현되며 음성출력에 영향을 미치는 운율정보를 생성하기 위한 표층 구조를 주 목적으로 한다. 구분 석은 품사의 연결에 따라 작성된 구생성 망과 형태소 분석과정에서 구한 품사정보를 이용하여 이루어지며, 그 결과 문장에서의 성분이 결정된다.
2.3.4 글자/음운 변환기(Grapheme-to-phoneme conversion)
전처리기를 거쳐 한글로 변환된 텍스트는 이곳 글자/음운 변환기에서 소리 나는 대로 바뀐다. 글자음운변환기는 한글 읽기 규칙을 구현한 것으로서, 음성합성 시스템이 한글을 올바르게 읽을 수 있도록 소리 나는 대로 바꿔주는 것인데, 기본원칙은 문교부에서 고시한 표준어 규정의 표준발음법을 따른다. 읽기 규칙은 크게 4 가지로 구별되는데, 모음의 발음, 장음처리,음운변동규칙, 음의 첨가이다. 변동의 요인으로는 음소의 기존 체계의 제약성, 발음의 편의를 위한 자연적인 경향, 말의 청취 효과를 똑똑히 하려는 현상이 있다. 먼저 글자/음운 변환기는 어휘사전검색을 통하여 입력된 텍스트를 형태소단위로 분리하고, 발음기호를 읽어 들인다. 그리고 형태소간의 결합에 따른 변동처리를 한다. 어휘사전에 등록되지 않은 단어는 프로그램된 읽기 규칙으로 소리 나는 대로 바꾼다. 이 규칙은 표준어 규정에 있는 모든 원칙을 적용하되 음절 경계점에서 적용, 처리되며 임의적 변동은 제외한다.
2.3.5 운율기호 작성, 합성단위 선정 및 휴지 작성
파서에서 작성된 구문정보를 이용하여 운율기호를 생성하며, 변이음이 고려된 합성단위를 선정하고 문장, 절, 구의 경계 및 특정 문장기호에 적절한 길이의 휴지를 부가한다. 합성단위 데이터베이스는 다양한 음운환경이 고려된, 최소의 대립관계의 규칙에 따라 변이음수준까지 작성되었다.
2.3.6. 음소의 지속시간 처리(Duration control)
음성합성시스템에서 음소, 음절의 지속시간 제어는 합성음의 자연성에 매우 중요한 운율적 요소이다. 지속시간의 패턴이 여러 가지 영향변수(발화속도, 음운환경,위치, 악센트,문장 구조, 의미등)에 의 해 나타나므로 일반적인 지속시간 규칙을 추출해 내기가 매우 어렵다. 지속시간 제어규칙은 단일 화자가 발성한 여러 개의 문장에 대해 관측된 지속시간을 맞추도록 규칙이 작성된다.
2.3.7. 기본주파수 제어(Intonation control)
사람이 발성하는 음성언어에는 구문구조, 문형 등과 같은 문법구조와 문맥에 따른
강조, 대립 등과 같은 의미구조, 그리고 발성자의 감정 등이 운율의 형태로 표현된다.
운율은 음의높이, 세기, 길이의 3가지 형태로 나타나는데 이중 음의 높낮이 변화, 즉 억양이 원음 뿐만 아니라 합성음의 명료도 및 자연성에 미치는 영향이 크다. 따라서 억양을 어떻게 모델링 하느냐는 이 분야에 연구자라면 누구나 관심이 있는 부분이라할 수 있다. 지속시간 모델링 방법으로는 Klatt모델, 한경변수(Contextual factor)분석을 통한 선형화기 모델, 신경회로망, 테이블 룩업(table look-up)등이 있다.
2.3.8. 합성단위 데이타베이스(Synthesis units)
합성단위를 연결하여 합성하는 연결합성(Concatenation synthesis)시스템의 합성단위 작성은 한국어의 음운 및 운율환경을 분석하여 합성에 필요한 합성단위를 선정한다. 이를 위하여 접속점에서의 불연속성을 줄이고 합성단위 개수 및 크기를 최소화한 합성단위의 작성이 필요하다.
2.3.9 합성음 생성
합성음 생성기는 선정된 합성 단위열과 각각의 지속시간, 기본 주파수를 입력
으로 해 실제 음성 파형을 생성시키는 신호 처리부를 말한다. 합성음 생성부에
는 조음 합성, 포만트 합성, 연결 합성 방식으로 크게 나눌 수 있다.
2.3.9.1 조음합성기
인간이 발성할 때 말할 메시지를 생각하고 이를 성도의 근육으로 명령을 보낸
다. 그리고 성도의 모양을 변형시켜 말을 하게 된다. 따라서 조음합성기도 이
러한 처리 구조에 따라 크게 신경구동 명령과 조음기관, 성도의 모양으로 나눈
다. 메시지는 우선 음소의 열로 표현되고 각 음소는 신경구동 명령으로 변환된
다. 그런 다음 신경구동 명령은 조음기관의 움직임, 조음기관의 위치, 성도의
모양을 결정하는 정보로 변환되어 소리가 생성된다. 조음합성기는 조음기관
의 움직임을 직접 모델링함으로서 음향/음성학적 변환, 발성속도, 운율 등 음
성에서 일어나는 복잡하고 다양한 현상을 자연스럽게 해결할 수 있다. 특히 동
시조음(coarticuration) 현상의 경우, 다른 합성방식에서는 이의 규칙을 작성하
거나 합성단위에 이를 포함시켜야 하나 이 방식에서는 용이하게 제어할 수 있
다.
2.3.9.2 포만트 합성
대부분의 포만트 합성기는 직렬, 병렬 및 이를 혼합한 구조로 되어 있다. 이 합
성기의 여기 신호는 유성음일 때 임펄스 열로 무성음일 때 의사 랜덤잡음이 사
용되며, 유성 마찰음일 경우 주기적인 모양을 띤 잡음을 사용하게 된다. 성도
는 주로 직렬로 연결된 디지털 2차 공진회로로 모델링되며 각 회로는 여기신
호의 스펙트럼 형태와 포만트를 표현한다. 이보다 진보된 포만트 합성기는 4
개의 포만트 주파수와 3개의 포만트 대역폭을 시간에 따라 변화시켜 음질을
향상시켰다. 병렬 구조로 된 포만트 합성기는 그 구조가 직렬 구조에 비해 간
단하고 어떤 소리라도 생성시킬 수 있다.
2.3.9.3 연결합성방식(LPC 합성기)
연결합성방식은 LPC가 나오면서부터 각광을 받는 방식인데 녹음된 음편을 연
결해 합성음을 생성해 낸다. LPC 방식은 음성의 포만트정보를 LPC 계수로 표
현하기 때문에 포만트합성보다 훨씬 간단한 구조로 되어 있다. LPC 계수는 음
성 특징의 변화가 천천히 변화하는 특성을 이용한 것으로 과거 음성 샘플을 이
용해 현재 샘플을 예측할 수 있는 수학적 모델링에 의해 계수가 예측되며, 매
10 msec마다 선형예측 계수를 예측함으로서 거의 원음성에 가까운 합성음을
저전송율에서 복원할 수 있다.
2.3.9.4 연결합성방식(TD-PSOLA 합성기)
TD-SOLA합성기는 이 방식 중의 하나이며 음성 파형을 그대로 이용하는 합성 방식이다.즉 LPC와 같이 파라미터로 변환하지 않아 음성정보의 손실을 막을 수 있다.운율 조절 방법은 음성 파형에서 피치단위로 음성을 분해하고, 생성된 기본 주파수에 따라 분해된 음편을 재배열함으로써 피치 조절이 이뤄지며, 지속시간
조절은 단순히 음편의 생략이나 복제함으로 된다.
표 1은 합성방식에 따른 성능 비교를 보여주고 있다.
<표1. 합성방식에 따른 성능비교>
제3장 응용 분야 및 적용사례
3.1 응용분야
음성합성 기술의 응용분야를 살펴보면, 금융권을 비롯한 서비스업에서 고객이 다양한 통신수단(웹, e-mail, Fax, 휴대폰등)을 통해 접촉하더라도 모두다 수용하여 고객과 상담원 사이의 거리를 최소화할 수 있는 지능형 콜센터의 구축이 늘고 있으며,이러한 지능형 콜 센터에 대한 요구가 높아지면서 음성기술에 대한 관심도 증폭되고 있다. 이는 음성인식 기술과 음성합성 기술을 적용해 고객의 접촉편의를 높이는 한편 콜센터 운영에도 효율을 기할 수 있기 때문이다. 음성합성 기술은 수시로 변할 수 있는 정보에 대해 일일이 고객 대응이 어려운 부분에 적용할 수 있다. 이 경우 텍스트를 음성으로 변환해 읽어 주는 음성합성은 이 같은 고객 대응의 문제를 단번에 해결해 줄 수 있다. 또한 음성합성 기술의 진보에 따라 증권조회 서비스은행 콜센터의 잔액조회 서비스,항공사의 고객관리(예약정보, 항공정보)서비스 등에 음성합성 기술의 응용이 점차 확대되고 있다.
콜센터 이외에 음성합성 기술이 응용되고 있는 분야로는 e-mail음성서비스, in-car시스템(실시간 교통정보, 교통상황을 반영한 운전자 네비게이션 서비스), Assistive 서비스(시각 및 청각장애인을 위한 서비스), Consumer 제품(전자사전, 자동번역기, 장난감,게임등),Proofreading(타이핑된 문서의 오타 확인을 위한 Reading)등이 있다.
3.2 적용사례
3.2.1 홈쇼핑
TV, Internet, Catalog 등의 매체를 이용한 상거래로 음성인식과 합성을 이용하여 상담원에 의한 업무부담을 줄일 수 있으며 자동주문거래로 주문폭주와 24시간 업무의 효율을 높일 수 있다.
<그림3. 홈쇼핑 시스템구성도>
3.2.2 Telebanking
Mobile, Telephone으로 금융거래를 하는 것으로 음성인식과 합성을 이용하여 기존의 DTMF방식의 복잡성과 시간지연을 해결 할 수 있다.
Voice Portal
보이스포털은 보이스웨어의 음성인식과 음성합성 솔루션을 이용하여 이메일과
<그림4. Telebanking 시스템구성도>
3.2.3 교통정보
고속도로 및 국도 소통을 원활하게 하고 이용 효율도를 높이기 위해 고속도로 상황실의 실시간 교통정보를 유무선전화기를 통해 조회할 수 있는 서비스를 제공합니다. 기존의 상담원이 녹음하던 방식을 음성합성 엔진을 사용하여 24시간 실시간으로 서비스함으로써 업무 효율을 극대화 시켰다.
3.2.4 음성 재해자동통보 시스템
재해발생시 재해 상황을 음성합성에 의해 신속하게 통보할 수 있습니다. 재해상황을 문자로 입력하거나 전송 받아 사람의 음성으로 변환해 자동 통보해주는 시스템으로 재해상황을 통보할 때마다 별도로 녹음하느라 야기되는 시간 지체를 줄이면서 정확한 상황 전달을 가능하게 되어 보다 신속하고 정확한 재해 상황 통보를 할 수 있게 되었다.
3.2.5 날씨정보
시시각각 변하는 날씨 정보를 녹음이 아닌 음성합성에 의해 제공합니다. 유무선 전화기로 131번을 누르면 강수와 기온, 풍향/속 등의 예보와 파고 등 해상관련예보, 파랑주의보와 건조경보 등의 기상특보, 기상실황, 주간예보를 실시간으로 확인할 수 있다.
제4장 국내외 현황
음성 합성 관련 제품의 벤더들을 살펴보면, Centigram과 Acuvoice, DECTalk와 같은 벤더들은 이미 1999년 각자의 분야에서 어느 정도의 시장점유율을 확보하였으며, 이후 신규 벤더들이 지속적으로 음성합성 기술시장에 진출하고 있으며 시장규모도 지속적으로 성장하고 있다.
음성합성 제품의 가격은 현재(2002년 포트 당 400~800 달러 선이며,Rhetorical Systems나 AT&T Labs과 같은 벤더들은 주문형(기업의 CEO음성, 10대들이 좋아하는 연예인의 음성, 만화 , 케릭터의 음성 등)음성합성 제품을 판매하고 있는데, 여기에는 약 15만 달러의 비용이 추가 된다.
현재 해외 음성합성 벤더인 SpeechWorks와 Nuance등이 한국에 지사를 세우고 영업을 하고 있으나 시스템 안정성이나 고객 지원, 국내에서의 상용화 경험등에서 코아보이스, 보이스웨어, HCI Lab, 보이스텍 등과 같은 국내업체들을 따라오기는 역부족인 것으로 분석되고 있다.
음성합성 S/W 시장을 어플리케이션별로 구분하여 살펴보면, 크게IVR(Interactive
Voice Response)와 Operator Services, Messaging 등으로 나눌 수 이상 IDC의 자료에 따르면 지난 2000년 음성합성 S/W 시장에서 IVR이 차지하는 비중은 50.9%로 가장크고, 그 뒤를 이어 Operator Services가 29.5%를, Messaging 이 19.+6%를 각각 차지하였다.
<표2.음성합성 Application및 주요 벤더 현황>
표3과 표4 에서는 Telephony 음성합성 S/W에 대한 분야별 시장 전망과 음성합성기술의 Marcket Segment를 각각 나타내고 있다.
<표3. Telephony 음성합성 S/W시장 전망>
<표4. 음성합성기술 Market Segment>-ASR News,2001.10>
제5장 결론
지금까지 음성합성시스템기술 및 응용분야 시장전망 등을 개략적으로 살펴 보았다. 외국의 합성연구 기간에 비해 국내의 음성합성에 대한 연구는 불과 몇 년 전부터 본격적으로 진행되었으며 ETRI, KAIST, 성균관대, 서울대, 대학 및 연구소 삼성,KT,디지콤, 보이스웨어, 코아보이스, 보이스웨어, HCI Lab, 보이스텍 등의 기업 연구소에서 활발히 연구 중이다. 그러나 현재 개발되어 있는 우리말 합성장치는 운율이 어색하여 자연성이 떨어진다. 이를 개선시키기 위해서는 우리말 운율에 대한 연구가 많이 이루어져야 하며, 특히 문장/음성 변환장치에서는 정확한 정보전달이 필요하므로 훈련된 아나운서의 발음과 운율이 가장 적합한 모델이 된다. 따라서 대량의 운율 데이타 베이스를 구축하여 공학자의 수학적 프로그래밍 기술과 음성/언어학자들의 음성학적 지식이 어우러져 우리말 음성에 대한 규칙화 도출에 힘써야 할 것이다. 그리고 이러한 규칙이 문장에 적용되기 위해서는 문장 구조의
분석이 정확히 이루어져야 하며 비로서 TTS 시스템은 인간과 흡사한 음성을 생성해 낼 수 있을 것이다.
급격한 매체의 발달과 새로운 시스템의 등장과 더불어 인간생활이 복잡해 지면서 보다 편리한 인간 생활을 돕기위해 음성 인식기술과 더불어 음성합성기술은 날로 급변할 것이며 음성합성 기술은 응용 분야의 발전과 병행하여 진보하여야 할 것이다.
<참 고 문 헌>
[1] 디지털 신호인식기술 <국가과학기술위원회,2002.12>
[2] IT유망기술보고서 <ETRI,2002>
[3] 음성정보처리기술동향 <한국정보통신산업협회,2002>
[4] http://www.sit.or.kr <음성인식 연구회 포럼>
[5] ETRI 한국음성언어정보 연구부, http://voice.etri.re.kr/
[6] (주)한국인식기술, http://www.hiart.com
[7] 보이스웨어, http://www.voiceware.co.kr/
[8] 보이스텍, http://www.voicetech.co.kr/
[9] ㈜휴먼미디어테크, http://www.e-human.co.kr/
출처:
과학기술대학원
학과:전자공학과
리포터 필료 하신분..쓰삼
난 필료없음
'소프트웨어개발' 카테고리의 다른 글
[JAVA] DATA Type (0) | 2016.07.12 |
---|---|
[ GPS ] GPS Packet Sheet (1) | 2016.01.05 |
[ IP-PBX ] 오픈소스 구축(2014.0806) (0) | 2016.01.05 |
[UNIX] Socket FAQ (0) | 2016.01.05 |
[ Linux/C/C++] df명령, FileSystem 용량 (0) | 2016.01.05 |
댓글