음성인식
페이지 정보
관리자 작성일: 07-05-08 12:40 조회: 8,182회본문
음성인식 기술의 현재와 미래
왜 음성인식인가?
음성인식의 목적지
음성인식 시스템의 예시
음성인식 시스템의 원리
현재의 기술 수준은 어디까지 왔는가?
음성인식의 미래
국내 기술 현황
사람의 목소리를 분석하고 이해해 친근하게 응답하는 지능형 기계는 컴퓨터가 발명된 이후로 많은 인간들이 공통적으로 추구해 온 꿈이다. 카드리더와 도트 프린터만으로는 이룰 수 없었던 인간과 컴퓨터 사이의 자유로운 상호작용에 관한 꿈은 마우스와 키보드를 거쳐 오늘에 이르기까지 계속 진행되어 왔다.
그러나 아무리 인체공학적인 키보드나 마우스라 할지라도 인간의 타고난 통신 수단인 목소리보다 더 편안한 환경을 제공해 줄 수 있을까? 궁극적인 휴먼컴퓨터인터페이스(HCI)의 하나로도 손꼽히는 음성인식 기술은 이제 상상의 영역에서 생활의 영역으로 손을 뻗고 있다. SF에서 일상으로, 이 글에서는 음성인식 기술의 현재와 미래에 관해서 살펴본다.
음성인식이란 컴퓨터가 키보드나 마우스 등의 기계적인 조작이 아닌 인간의 음성을 듣고 실행을 하는 기술이다. 음성인식 기술이란 이러한 과정을 가능하게 하기 위한 기술로 인간의 목소리를 듣고 인식하는 ‘음성인식’ 이외도 실용화를 위해서는 인간의 목소리를 합성해 내는 ‘음성합성’과 인식한 음성의 뜻을 알아내는 ‘자연언어처리’ 등의 기술이 필요하다.
음성인식은 흔히 가장 직관적인 사용자 인터페이스로 불린다. 생각을 표현함에 있어서 손이나 몸을 사용하는 것보다 목소리를 사용하는 것이 가장 자연스럽도록 진화된 인간의 신체적 특성에 기인함이다. 키보드나 마우스 등 기존의 많은 인터페이스들이 생각을 직접적으로 표현하기 이전에 문서용 언어로 혹은 미리 정의된 컴퓨터가 알 수 있는 명령으로 변환하는 과정을 거쳐야 하고 그것은 추가적인 사고과정과 더불어 기계에 익숙해지기 위한 추가적인 노력 또한 필요로 한다.
음성인식 기술은 이러한 추가적인 노력을 최소로 줄이고 인간에게 보다 본질적이고 창의적인 사고에 집중할 수 있는 길을 열어 준다. 특히 인간이 의식적으로 습득하는 정보의 대부분이 청각적 정보이며 청각적 이미징이 학습과 사고에 필수적이라는 점에서 음성인식은 컴퓨터로의 가장 자연스러운 정보 전달 방법이라 할 수 있다.
SF 영화에서 흔히 볼 수 있는 장면이 친구에게 하듯 컴퓨터에게 자연스럽게 말을 걸면 컴퓨터가 그 말 속에 함축된 의미를 파악하여 명령을 수행하고 결과를 역시 인간의 자연 언어로 보고하는 장면이다. 이러한 환경이 자주 등장하는 것은 그만큼 우리가 인간과 하듯 자연스러운 컴퓨터 인터페이스를 갈망하고 있다는 뜻이기도 하고 그만큼 그것이 달성하기 어렵다는 의미이기도 하다.
우리는 컴퓨터를 다루기 위해 컴퓨터의 언어를 배우기를 원하지 않는다. 우리는 컴퓨터에게 원하는 동작을 지시하기 위해 컴퓨터 앞에 자세를 갖춰 앉아 눈을 모니터에 고정시키고 키보드와 마우스를 움직이는 현실에 만족하지 않는다. 우리는 동료에게 말하듯 자연스럽게 인간의 언어로 말하고 컴퓨터가 작업을 처리하는 도중 다른 작업을 할 수 있으며 작업이 끝난 후에는 시청각이 혼합된 형태의 결과를 받기를 원한다.
형식에 구애받지 않고 어떤 형태로 명령을 내려도 빠르게 의미를 해석해 나를 보조할 수 있는 컴퓨터 집사, 음성 인식의 궁극적 목표는 그러한 집사 시스템을 컴퓨터 속에서 구현해 인간이 컴퓨터를 다룸에 있어 최대의 자유도를 지원하는 것이라 할 수 있다.
위와 같은 일을 하기 위해 지원되어야 하는 기술은 다양하다. 먼저 인간의 자연스러운 발화를 오디오 신호로 읽어 들여 텍스트 상의 문서로 변환할 수 있는 능력(흔히 음성인식이라 할 때는 이 능력을 뜻함), 그리고 그 문서의 의미를 해석하기 위해 구문을 분석하고 방대한 데이터베이스로부터 대조할 수 있는 자연언어처리능력, 마지막으로 결과를 인간에게 청각적인 형태로 제공하는 음성합성능력이 대표적인 예이다.
이 중 음성합성능력은 상당한 수준의 질을 보이며 상용화 단계에 들어섰으며 음성 인식 능력도 일부 상용화 단계에 이르렀으나 자연언어처리는 아직은 우리가 원하는 수준에 못 미치는 것이 사실이다. 사용하는 단어의 수와 문법 구조를 제한하여 일부 의미 있는 결과를 제공한 사례가 몇 있으나 아직은 상용화를 위한 한계가 크며 특히 한국어의 다양성을 인식하기에는 난점이 많다.
이를 극복하기 위해 현재 연구 중인 음성 인식 시스템의 상당수는 자연언어 구문 자체를 분석해 의미를 찾기 보다는 발화 속에 나타나는 일부 단어로부터 의미를 유추해 내는 방법을 사용한다. 흔히 음성 인식이라 할 때는 자연언어처리 과정을 제외한, 오디오 신호로부터 텍스트 문서로 변환하는 과정까지를 뜻한다.
이와 같이 피스톤의 상하 왕복운동으로 커넥팅로드에 연결된 크랭크축을 회전시키면 이 회전력으로 플라이 휠(Fly Wheel)을 돌리고 구동 전달장치를 통해 바퀴에 전달된다.
환경과 적용 예에 따라 음성인식 시스템은 다음과 같이 몇 가지 기준으로 분류되고 그 중 상당수는 상용화 단계에 있다.
a) 화자 종속
미리 등록한 특정 화자만을 대상으로 하며 인식 성능이 뛰어나다. 휴대폰의 음성 다이얼링이 대표적인 예이다.
b) 화자 독립
불특정 화자를 대상으로 하기 때문에 각각의 화자 특성에 구애받지 않고 음성의 특징을 찾을 수 있도록 대용량의 음성 데이터베이스가 필요하다. ARS로 많이 제공하는 전화 번호 안내 서비스(directory assistance service)나 음성인식 기차표 예약 서비스 등이 대표적인 화자 독립 응용이라 할 수 있다. 예에서 볼 수 있듯이 화자 독립 시스템은 화자 종속 시스템보다 적용 범위가 다양하지만 그만큼 성능 향상이 어렵다.
a) 고립어
고립 단어, 즉 각 단어를 끊어 읽는 경우에서의 음성 인식이다. 단어 앞 뒤에 상당한 묵음 구간이 존재하므로 단어의 처음과 끝을 파악하기 쉽고 인식률도 높다. 대표적인 고립어 인식 시스템의 예로 보이스 브라우저(음성을 인식해 특정 프로그램을 실행시키거나 웹서핑 중 다른 사이트로 이동할 수 있게 함)이 상용화 서비스 중이다.
b) 연속어
연결단어, 연속 문장 및 대화체 음성을 인식할 수 있는 시스템이다. 다양한 발음 변이를 고려한 기준 패턴과 함께 각 작업의 성격에 맞는 언어 모델이 필요하다. 적용 예에 따라 핵심어 인식 기술 등 부분적 자연언어처리 기술이 필요하다. 음성 타이프라이터, 자동 예약 시스템, 대화형 컴퓨터 등의 자연스러운 HCI(human-computer interface)가 이 경우에 해당한다.
a) 소용량
수백 단어 이하를 대상으로 한 작은 모델로 PC commander(음성 인식으로 프로그램 등을 제어하는 간단한 모델) 등이 대표적이다. 단어 수가 적으므로 단어 각각을 개개의 모델로 구성하거나 문맥 독립형 모델을 사용하는 것이 가능하다.
b) 대용량
수만 단어 이상을 대상으로 하는 대형 시스템으로 문맥을 고려한 수천 개의 sub-word 형태의 모델을 사용한다. 음성 타이프라이터, 방송용 뉴스 대본 등의 경우에 적용되며 소용량에 비해 구현이 어렵고 복잡하다.
일반적인 음성 인식 시스템은 크게 두 부분으로 나뉜다. 전처리부와 인식부로 일컬어지는 두 부분이 그것인데, 전처리부에서는 사용자가 발성한 음성으로부터 인식에 필요한 특징 벡터를 추출하고 인식부에서 특징 벡터를 분석하여 결과를 얻는다. 마이크를 통해 입력된 음성이 시스템으로 들어오면 전처리부에서는 일정 시간(보통 1/100초)마다 음성학적 특징을 잘 표현해 줄 수 있는 특징벡터를 추출한다.
이 벡터들은 음성학적 특성은 잘 나타내며 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감해야 하며 이 과정을 거쳐 인식부에서는 순수하게 음성학적 특성에만 집중해 분석할 수 있게 된다. 추출된 음성 특징 벡터들은 인식부로 넘어가 미리 저장된 음향모델과 비교하게 되며 그 결과는 언어처리 과정을 거쳐 최종 인식된 문장으로 출력되게 된다.
이상적인 경우 전처리부에서는 음성학적 정보 이외의 모든 음향적 변화를 제외한 정보만을 추출할 수 있어야 하나 이러한 이상적인 특징 추출 방법은 아직까지 알려져 있지 않으며, 일반적으로 음성의 청취 기관이나 발생기관의 단순한 모델에 근거를 둔 특징 벡터들이 주로 사용된다.
이들 추출 방법은 인간이 음성을 인지하는 방법을 흉내내는 관점에 따라 여러 종류가 있으며 대표적으로는, 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 혹은 사람의 음성 인지 양상이 선형적이지 않고 로그 스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해 주는 고역강조 추출법, 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화 하는 창 함수 추출법 등이 있다.
인식부에서는 기존에 구축된 음성데이터베이스의 음성학적 정보와 전처리부에서 넘어온 특징 벡터와의 비교를 통해 인식 결과를 얻게 되는데, 크게 단어 단위 검색과 문장 단위 검색으로 나뉜다. 단어 단위 검색에서는 얻어 낸 특징 벡터를 데이터베이스에 저장된 단어 모델, 즉 각 단어의 음성학적 특징, 혹은 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아낸다. 데이터베이스에 미리 저장된 음향 모델과의 패턴 비교를 통해 알맞은 후보 패턴을 찾아내는 과정이므로 패턴분류라고 하기도 한다.
패턴 분류 과정을 거친 결과는 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색으로 넘어가게 된다. 이 과정에서는 후보단어 또는 후보음소들의 정보를 토대로 하며 문법 구조, 전체적인 문장 문맥, 특정 주제에의 부합 여부를 판단하여 어떤 단어나 음소가 가장 적합한지를 판단하게 된다. 예를 들어 ‘나는 간다’는 문장에서 불명확한 발음이 섞여 ‘는’과 ‘능’이 잘 구분이 되지 않는다고 가정해 보자.
이 때 음성인식 시스템은 패턴 분류 과정에서 ‘는’과 ‘능’이라는 두 개의 후보 단어를 결과로 생성해 내게 된다. 곧이어 따라 나오는 문장 단위 검색 과정에서는 문장 구조 분석을 통해 ‘는’이 문장에서 조사 역할을 담당한다는 것을 알아내게 되고 ‘능’이라는 조사는 존재하지 않으므로 후보에서 배제하게 된다. 즉, 어휘 및 문법 구조에의 제약을 통해 인식성능을 향상시키는 과정이다. 이 과정에서는 문법 구조 뿐만 아니라 의미 정보도 함께 이용되며 따라서 언어처리 과정이라고도 한다.
패턴 분류와 언어처리 과정에서 이용되는 데이터들은 미리 컴퓨터에 의해 학습되어 데이터베이스에 저장된다. 이 때 사용되는 데이터베이스는 대단히 방대하고 복잡하므로 보통 음성 인식에 사용되는 어휘수를 일정 이하로 제한한다.
인식부에서 주로 사용되는 대표적인 기술은 HMM(Hidden Markov Model)으로 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 이 방법은 음성단위에 해당하는 패턴들의 통계적 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어오면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산함으로써 이 패턴에 가장 적합한 음성단위를 찾아내는 방법이다.
음성인식의 성능은 배경잡음, 인식대상 어휘 수, 음성 데이터베이스의 규모, 낭독음성과 대화음성의 차이 등 많은 요인에 의해 영향을 받기 때문에 현재의 기술 수준을 간단한 하나의 수치로 나타내는 것은 어렵다. 대신 여러 다른 영역에 대해 컴퓨터와 사람의 인식률을 비교해서 나타내는 방식으로 흔히 비교한다. 아래의 표는 영어를 대상으로 사람과 컴퓨터의 인식능력을 비교한 예로 같은 환경에서의 단어 오인식률을 퍼센티지로 나타내었다.
인식대상 영역 어휘 수 사람 컴퓨터
연결숫자 10 0.009% 0.72%
알파벳 문자 26 1% 5%
자유발화 전화음성 2,000 3.8% 36.7%
조용한 환경 낭독음성(WSJ) 5,000 0.9% 4.5%
10 dB SNR 환경 낭독음성(WSJ) 5,000 1.1% 8.6%
조용한 환경에서의 트라이그램 문장발화 20,000 7.6% 4.4%
연결숫자 항목은 10개의 숫자를 연속해서 발음했을 때를, 알파벳 문자는 각 알파벳 하나하나를 또박또박 발음했을 때를 나타낸 것으로 비교적 잡음이 없고 복잡성도 적은 환경이라 할 수 있다. WSJ는 5000 단어 규모의 월스트리트(Wall Street Journal) 기사 내용을 낭독한 연속음성을 인식하는 것으로 음성인식률을 나타내기 위해 표준적으로 사용되는 대상이다.
복잡성이 없는 깨끗한 상황에서의 단어 오인식률은 사람과 컴퓨터 사이에 5배 정도의 차이 밖에 없는 것에 비해 자유발화 전화음성, 혹은 시끄러운 상황에서의 WSJ 낭독음성을 비교할 시에 드라마틱하게 나타나는 성능 저하에서 컴퓨터가 잡음에 매우 취약하다는 것을 알 수 있다. 이는 컴퓨터에게 사람과 같은 풍부한 언어 배경 지식을 제공하거나 더 쉽게는 입모양이나 제스처 등의 음성 외적인 요인을 음성인식을 위한 정보로 사용함으로써 어느 정도 완화시킬 수 있다.
표의 마지막 항목에 나타나는 트라이그램이란 확률적 언어 모델의 하나로, 앞서 나온 세 개의 단어로부터 다음에 올 단어의 확률을 결정짓는 모델이다. 즉, 트라이그램 문장 발화란 일상에서 마주칠 수 있는 자연어가 아닌 컴퓨터가 확률적으로 생성해 낸 임의의 단어의 연결을 말한다. 놀랍게도, 문장잡음이 없는 상황에서 언어 모델에 의해 자동으로 생성된 문장을 인식하는 경우에는 오히려 컴퓨터가 사람보다 우수한 결과를 보임을 관찰할 수 있다.
이것은 트라이그램 문장에 한해서 사람과 컴퓨터가 동일한 언어지식을 가지고 있기 때문이다. 즉, 자동 생성된 임의의 문장이 사람에게는 혼란을 초래해 오히려 언어 분석을 힘들게 한 반면 컴퓨터는 배경 지식 없이 객관적으로 언어의 음성학적 특성을 분석할 수 있기 때문이다. 이 실험은 사람과 컴퓨터의 인식률 차이는 순수한 음성학적 인식보다 오히려 언어의 의미 정보의 효율적인 사용이 중요하다는 것을 보여 주며 앞으로의 음성 인식 연구가 나아가야 할 방향을 시사해 주는 예라 할 수 있다.
날로 커져 가는 음성인식 시장에서 그 동안 일부 분야에만 적용되어 왔던 음성인식 기술은 다양한 IT 솔루션과 접목하여 빠른 속도로 응용분야가 넓어지고 있다. 가장 궁극적인 목표인 컴퓨터와의 자유로운 의사소통에 이르기까지는 아직 갈 길이 멀지만 현재의 기술수준으로도 이미 많은 실제적인 응용분야에 사용되고 있으며 앞으로도 그 영역은 더 커질 것이다.
음성인식 기술의 상품화에 대한 가장 큰 장벽은 음성정보처리기술에 대한 사용자의 기대 수준이 높다는 점이다. 즉, 기술상의 제약 요인을 정확히 파악하고 문제를 해결하는 것이 선결 과제이다. 지금까지의 여러 통계에서 주어졌듯 컴퓨터는 노이즈 환경 하에서의 성능이 상당히 취약하며 음성인식에 알맞은 조용한 환경에서만 컴퓨팅이 일어나는 경우는 별로 없으므로 노이즈 하에서의 안전한 음성 인식을 성공시키는 것이 가장 선결 과제라 할 수 있다.
따라서 최근의 음성인식 연구 동향은 잡음에 강한 음성인식에 초점을 맞추고 있으며 이를 위해 잡음처리 연구와 멀티모달 음성인식 연구가 활발하게 진행되고 있다. 그 외에도 인식률을 높이기 위한 화자 적응 기술이나 분산처리환경에 걸맞는 분산음성 인식 기술도 활발히 연구되고 있는 분야이다.
잡음의 종류에는 배경 잡음, 마이크, 회선에서 비롯되는 채널 왜곡과 함께 배경잡음이 화자의 발성에 영향을 미쳐 음성신호 자체에 왜곡이 오는 Lombard 효과 등이 있다. 이들 잡음에 강한 음성인식을 위한 방법은 잡음 처리가 일어나는 단계에 따라 크게 전처리부의 잡음처리와 인식부의 잡음처리로 나눌 수 있다. 전처리부의 경우 음성 특징벡터를 결정짓는 단계에서 보상하는 방식으로 잡음음성의 전처리를 통한 음질 개선, 잡음에 강한 특징벡터 도입, 특징벡터 추출 후 보상 방식 등의 방법이 있으며 인식부에서 잡음을 처리하는 방식보다 상대적으로 계산량이 적기 때문에 많이 쓰인다.
지금까지의 음성인식은 대부분 마이크와 입 사이를 가깝게 유지시켜 뚜렷한 신호를 얻어내는 근거리 대화(close-talking) 환경을 가정했으나 최근에는 보다 자연스러운 기계와의 상호 작용을 얻어 내기 위해 멀리 떨어진 마이크를 이용한 음성인식을 성공시키기 위한 연구가 진행 중이다. 이러한 우원거리 대화(distance-talking) 방식의 환경에서는 잡음처리 문제가 보다 심각하게 대두되며 효과적인 전처리와 함께 발성자의 음성에 집중할 수 있는 기술이 필요하다. 다수의 마이크 배열을 이용하여 발성자의 음성에 집중하는 방법 등이 대표적인 예이다.
멀티모달 인터페이스는 다양한 입력을 통해 기계와 상호 작용할 수 있는 방식의 인터페이스를 지칭하는 말로 보다 자연스럽게 기계와 소통하는 것에 그 목적이 있다. 멀티모달 음성인식의 경우 음성 뿐만 아니라 말을 하는 화자의 영상도 함께 분석하여 음성인식의 성능을 향상시키는 방식으로 이 개념을 구현하고 있다. 구체적으로는 입술의 움직임을 주로 사용하려는 시도가 진행 중으로, 소리 잡음이 심한 환경에서 음성 신호는 크게 영향을 받지만 영상신호는 영향을 받지 않기 때문에 함께 이들 정보를 사용함으로써 성능 향상을 기대할 수 있다.
흔히 Speechreading이라고 부르는 입술 읽기가 컴퓨터 뿐만 아니라 인간의 음성 인식에도 필수적 요소를 차지하고 있다는 것은 널리 알려진 사실이다. 칵테일 파티 효과라고 불리는 한 실험에서 시끄러운 환경에서 노출된 사람
이 친구와 대화를 할 때 얼굴을 바라보고 할 때와 얼굴을 보지 않고 녹음된 소리만으로 대화의 내용을 파악할 때의 인식률의 차이를 알아보면 모든 인간들이 높은 음성인식을 위해 무의식적으로 입술을 읽고 있다는 사실을 알 수 있다.
인간이 음성 인식에 있어서 시각적 의존도가 크다는 사실은 McGurk 효과라 불리는 한 실험에서도 나타난다. 이 실험에서 실험자는 화면을 보며 소리를 듣는 데 화면에 나타난 사람의 입모양이 ‘가’이고 스피커로 들리는 소리가 ‘바’일 경우 실제 실험자가 인지하는 소리는 ‘다’라는 것이다. 최근에 특히 활발하게 연구되는 멀티모달 인터페이스는 인간의 이러한 인지 과정을 흉내낸 것이기도 하며 잡음이 심한 환경에서 극적인 성능 개선을 보이고 있다.
멀티모달 인터페이스를 위해서는 영상 분석, 기계 학습, 패턴 분석, 통합적 센싱 등 다양한 기술이 필요하며 영상과 오디오에서 각각 얻어낸 정보의 통합을 어느 단계에서 할 것인가에 대해 다양한 실험이 이루어지고 있다.
화자 독립적 시스템이 범용적인 음성인식 환경 구성을 위해 활발히 연구되고 있는 반면 다른 한 축에서는 특정 화자의 발음 특성에 집중해 인식률을 높이는 연구가 진행되고 있다. 사람마다 조음 기관의 크기와 모양에 차이가 있고 발음 습관도 다르므로 음성 신호에는 화자에 따른 차이가 크게 나타나게 된다.
이 때문에 특정 화자의 음성만을 인식하는 것은 쉬운 일이라도 화자의 특성에 구애받지 않고 같은 발음에 같은 결과를 나타내는 시스템은 거대하고 복잡할 수 밖에 없게 된다. 이에 따라, 특정 화자만을 대상으로 하는 시스템이라면 화자 종속 음성 인식이 화자 독립 음성인식보다 훨씬 우수한 인식률을 보이게 된다.
그러나 특정 화자에 종속한 음향 모델을 만들기 위해서는 미리 그 특정 화자의 충분한 음성 데이터가 준비되어야 하는데 범용적 음성 인식 시스템에서 시스템을 구동하기 전에 미리 화자 종속 모델을 제대로 구성할 정도로 충분한 사용자의 음성 데이터를 확보하는 것은 비현실적이다. 따라서 사용자의 소규모 데이터만으로도 기존 모델을 그 화자의 음성에 가깝게 적응시키는 화자적응 기술이 대안으로 사용된다. 이에 따라 아주 적은 적응 데이터만으로도 인식 성능을 향상시킬 수 있는 고속화자적응 방법에 대한 연구가 최근 활발히 진행되고 있다.
분산음성인식은 유무선 네트워크를 통한 서버-클라이언트 구조의 시스템에서의 음성 인식으로 DSR(Distributed Speech Recognition)이라 한다. 이 방식은 음성인식의 전처리부와 인식부 과정을 각각 다른 컴퓨터에서 실행하는 것이 핵심이며 보통 음성 특징을 추출하는 전처리부는 클라이언트 컴퓨터에서, 인식부, 즉 언어 처리 과정은 거대 데이터베이스가 존재하는 서버 컴퓨터에서 처리할 수 있도록 한다.
클라이언트 컴퓨터에서 음성 인식의 전 과정을 실행할 경우 보통 충분한 데이터나 처리 능력이 없어서 어려움을 겪게 되고 반대로 서버 컴퓨터에서 음성 인식의 전 과정을 실행할 경우 오디오 데이터를 그대로 서버로 전송할 때 잡음 및 왜곡 문제가 발생하는 어려움을 겪게 된다. 분산 음성 인식은 이러한 문제를 극복할 수 있으며 최근의 분산화 되어 가는 시스템 환경들에 적합한 모델이라 할 수 있다.
국내에서는 한국과학기술원 음성인식연구센터와 한국전자통신연구원(ETRI)를 중심으로 활발한 음성 인식 기반 기술이 연구 중이다. 여기에서는 주로 빠른 화자적응이나 연속음성인식 등의 최신 기술에 새로운 알고리즘을 적용하여 인식률을 개선시키는 등의 학문적인 연구를 통해 우리나라의 음성인식 기술을 선도하고 있다.
한편, 국가 차원에서 음성인식 기술을 선도하기 위한 투자 또한 2001년부터 지속적으로 진행되고 있다. 정보통신부는 2001년 ‘음성정보처리산업협의회’를 결성, 업체들의 요구사항을 수렴하고 대규모 공통 음성 데이터베이스를 구축했으며 2003년에는 이를 ‘언어음성정보산업협의회’로 확대 개편하기도 했다. 또한 음성정보 기술을 2005년도 대학 IT 연구센터 지정 공모 분야 신규 과제로 선정하는 등 기술개발과 산업 육성을 위해 지속적인 노력을 하고 있다.
학문적 과제로 뿐만 아니라 산업적으로도 음성기술은 이미 그 가치를 입증하고 있다. 대표적인 국내 음성 기술 업체로는 보이스웨어, SL2, 바모마씨엘에스 등이 있으며, 일반적으로 성능 측면에서는 다국적 기업의 음성인식 기술이 국내 업체에 비해 우수하다는 지적을 받으나 한국어의 특성을 고려한 국내업체들의 반격도 만만치 않다. 대표적으로 보이스웨어의 경우, 인식기의 인식률이 97%에 이르고 연속어 인식이 가능해 여러 업체에 제품을 공급하며 한국어 뿐만 아니라 영어, 중국어, 일본어 인식기 개발에도 박차를 가해 세계 시장에까지 진출을 꾀하고 있다.
음성인식과 함께 차세대 HCI의 구성 요소로 중요성이 부각되고 있는 음성 합성 분야의 경우 우리 나라의 기술은 ‘지존’으로 인정 받을 정도로 높은 경쟁력을 자랑한다. 얼마 전에는 보이스웨어의 제품이 스티븐 호킹 박사의 목소리로 채택됨으로 인해 세계에 그 가치를 알리기도 했다.
이와 같이 원천 기술에 있어 세계 어디에 내놓아도 떨어지지 않을 경쟁력을 갖추었다고 우리의 기술이 평가받는 지금, 남은 것은 적절한 응용분야를 찾는 것이다 아직까지 상용화가 초기단계인 지금 무엇보다 중요한 것은 적절한 시장을 형성하는 것이다.
얼마 전까지는 전화를 기반으로 한 ARS 등에서 그 응용분야를 찾았으나 현재 음성업계의 관심사는 임베디드 음성기술 시장 쪽에 모이고 있다. 이는 일반 소형 제품들 속에 칩이 적용되어 다양한 음성인식 기술이 접목되는 시자을 의미하는 것으로 가전제품, 통신용 단말기, 자동차, 완구 등에 쉽게 음성 인식 기술을 적용하게 되는 생활이 곧 가능하게 될 것을 시사한다.
<저자>
⊙ KAIST 이선희
<참고문헌>
⊙ 한국과학기술원 음성언어 연구실
왜 음성인식인가?
음성인식의 목적지
음성인식 시스템의 예시
음성인식 시스템의 원리
현재의 기술 수준은 어디까지 왔는가?
음성인식의 미래
국내 기술 현황
사람의 목소리를 분석하고 이해해 친근하게 응답하는 지능형 기계는 컴퓨터가 발명된 이후로 많은 인간들이 공통적으로 추구해 온 꿈이다. 카드리더와 도트 프린터만으로는 이룰 수 없었던 인간과 컴퓨터 사이의 자유로운 상호작용에 관한 꿈은 마우스와 키보드를 거쳐 오늘에 이르기까지 계속 진행되어 왔다.
그러나 아무리 인체공학적인 키보드나 마우스라 할지라도 인간의 타고난 통신 수단인 목소리보다 더 편안한 환경을 제공해 줄 수 있을까? 궁극적인 휴먼컴퓨터인터페이스(HCI)의 하나로도 손꼽히는 음성인식 기술은 이제 상상의 영역에서 생활의 영역으로 손을 뻗고 있다. SF에서 일상으로, 이 글에서는 음성인식 기술의 현재와 미래에 관해서 살펴본다.
음성인식이란 컴퓨터가 키보드나 마우스 등의 기계적인 조작이 아닌 인간의 음성을 듣고 실행을 하는 기술이다. 음성인식 기술이란 이러한 과정을 가능하게 하기 위한 기술로 인간의 목소리를 듣고 인식하는 ‘음성인식’ 이외도 실용화를 위해서는 인간의 목소리를 합성해 내는 ‘음성합성’과 인식한 음성의 뜻을 알아내는 ‘자연언어처리’ 등의 기술이 필요하다.
음성인식은 흔히 가장 직관적인 사용자 인터페이스로 불린다. 생각을 표현함에 있어서 손이나 몸을 사용하는 것보다 목소리를 사용하는 것이 가장 자연스럽도록 진화된 인간의 신체적 특성에 기인함이다. 키보드나 마우스 등 기존의 많은 인터페이스들이 생각을 직접적으로 표현하기 이전에 문서용 언어로 혹은 미리 정의된 컴퓨터가 알 수 있는 명령으로 변환하는 과정을 거쳐야 하고 그것은 추가적인 사고과정과 더불어 기계에 익숙해지기 위한 추가적인 노력 또한 필요로 한다.
음성인식 기술은 이러한 추가적인 노력을 최소로 줄이고 인간에게 보다 본질적이고 창의적인 사고에 집중할 수 있는 길을 열어 준다. 특히 인간이 의식적으로 습득하는 정보의 대부분이 청각적 정보이며 청각적 이미징이 학습과 사고에 필수적이라는 점에서 음성인식은 컴퓨터로의 가장 자연스러운 정보 전달 방법이라 할 수 있다.
SF 영화에서 흔히 볼 수 있는 장면이 친구에게 하듯 컴퓨터에게 자연스럽게 말을 걸면 컴퓨터가 그 말 속에 함축된 의미를 파악하여 명령을 수행하고 결과를 역시 인간의 자연 언어로 보고하는 장면이다. 이러한 환경이 자주 등장하는 것은 그만큼 우리가 인간과 하듯 자연스러운 컴퓨터 인터페이스를 갈망하고 있다는 뜻이기도 하고 그만큼 그것이 달성하기 어렵다는 의미이기도 하다.
우리는 컴퓨터를 다루기 위해 컴퓨터의 언어를 배우기를 원하지 않는다. 우리는 컴퓨터에게 원하는 동작을 지시하기 위해 컴퓨터 앞에 자세를 갖춰 앉아 눈을 모니터에 고정시키고 키보드와 마우스를 움직이는 현실에 만족하지 않는다. 우리는 동료에게 말하듯 자연스럽게 인간의 언어로 말하고 컴퓨터가 작업을 처리하는 도중 다른 작업을 할 수 있으며 작업이 끝난 후에는 시청각이 혼합된 형태의 결과를 받기를 원한다.
형식에 구애받지 않고 어떤 형태로 명령을 내려도 빠르게 의미를 해석해 나를 보조할 수 있는 컴퓨터 집사, 음성 인식의 궁극적 목표는 그러한 집사 시스템을 컴퓨터 속에서 구현해 인간이 컴퓨터를 다룸에 있어 최대의 자유도를 지원하는 것이라 할 수 있다.
위와 같은 일을 하기 위해 지원되어야 하는 기술은 다양하다. 먼저 인간의 자연스러운 발화를 오디오 신호로 읽어 들여 텍스트 상의 문서로 변환할 수 있는 능력(흔히 음성인식이라 할 때는 이 능력을 뜻함), 그리고 그 문서의 의미를 해석하기 위해 구문을 분석하고 방대한 데이터베이스로부터 대조할 수 있는 자연언어처리능력, 마지막으로 결과를 인간에게 청각적인 형태로 제공하는 음성합성능력이 대표적인 예이다.
이 중 음성합성능력은 상당한 수준의 질을 보이며 상용화 단계에 들어섰으며 음성 인식 능력도 일부 상용화 단계에 이르렀으나 자연언어처리는 아직은 우리가 원하는 수준에 못 미치는 것이 사실이다. 사용하는 단어의 수와 문법 구조를 제한하여 일부 의미 있는 결과를 제공한 사례가 몇 있으나 아직은 상용화를 위한 한계가 크며 특히 한국어의 다양성을 인식하기에는 난점이 많다.
이를 극복하기 위해 현재 연구 중인 음성 인식 시스템의 상당수는 자연언어 구문 자체를 분석해 의미를 찾기 보다는 발화 속에 나타나는 일부 단어로부터 의미를 유추해 내는 방법을 사용한다. 흔히 음성 인식이라 할 때는 자연언어처리 과정을 제외한, 오디오 신호로부터 텍스트 문서로 변환하는 과정까지를 뜻한다.
이와 같이 피스톤의 상하 왕복운동으로 커넥팅로드에 연결된 크랭크축을 회전시키면 이 회전력으로 플라이 휠(Fly Wheel)을 돌리고 구동 전달장치를 통해 바퀴에 전달된다.
환경과 적용 예에 따라 음성인식 시스템은 다음과 같이 몇 가지 기준으로 분류되고 그 중 상당수는 상용화 단계에 있다.
a) 화자 종속
미리 등록한 특정 화자만을 대상으로 하며 인식 성능이 뛰어나다. 휴대폰의 음성 다이얼링이 대표적인 예이다.
b) 화자 독립
불특정 화자를 대상으로 하기 때문에 각각의 화자 특성에 구애받지 않고 음성의 특징을 찾을 수 있도록 대용량의 음성 데이터베이스가 필요하다. ARS로 많이 제공하는 전화 번호 안내 서비스(directory assistance service)나 음성인식 기차표 예약 서비스 등이 대표적인 화자 독립 응용이라 할 수 있다. 예에서 볼 수 있듯이 화자 독립 시스템은 화자 종속 시스템보다 적용 범위가 다양하지만 그만큼 성능 향상이 어렵다.
a) 고립어
고립 단어, 즉 각 단어를 끊어 읽는 경우에서의 음성 인식이다. 단어 앞 뒤에 상당한 묵음 구간이 존재하므로 단어의 처음과 끝을 파악하기 쉽고 인식률도 높다. 대표적인 고립어 인식 시스템의 예로 보이스 브라우저(음성을 인식해 특정 프로그램을 실행시키거나 웹서핑 중 다른 사이트로 이동할 수 있게 함)이 상용화 서비스 중이다.
b) 연속어
연결단어, 연속 문장 및 대화체 음성을 인식할 수 있는 시스템이다. 다양한 발음 변이를 고려한 기준 패턴과 함께 각 작업의 성격에 맞는 언어 모델이 필요하다. 적용 예에 따라 핵심어 인식 기술 등 부분적 자연언어처리 기술이 필요하다. 음성 타이프라이터, 자동 예약 시스템, 대화형 컴퓨터 등의 자연스러운 HCI(human-computer interface)가 이 경우에 해당한다.
a) 소용량
수백 단어 이하를 대상으로 한 작은 모델로 PC commander(음성 인식으로 프로그램 등을 제어하는 간단한 모델) 등이 대표적이다. 단어 수가 적으므로 단어 각각을 개개의 모델로 구성하거나 문맥 독립형 모델을 사용하는 것이 가능하다.
b) 대용량
수만 단어 이상을 대상으로 하는 대형 시스템으로 문맥을 고려한 수천 개의 sub-word 형태의 모델을 사용한다. 음성 타이프라이터, 방송용 뉴스 대본 등의 경우에 적용되며 소용량에 비해 구현이 어렵고 복잡하다.
일반적인 음성 인식 시스템은 크게 두 부분으로 나뉜다. 전처리부와 인식부로 일컬어지는 두 부분이 그것인데, 전처리부에서는 사용자가 발성한 음성으로부터 인식에 필요한 특징 벡터를 추출하고 인식부에서 특징 벡터를 분석하여 결과를 얻는다. 마이크를 통해 입력된 음성이 시스템으로 들어오면 전처리부에서는 일정 시간(보통 1/100초)마다 음성학적 특징을 잘 표현해 줄 수 있는 특징벡터를 추출한다.
이 벡터들은 음성학적 특성은 잘 나타내며 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감해야 하며 이 과정을 거쳐 인식부에서는 순수하게 음성학적 특성에만 집중해 분석할 수 있게 된다. 추출된 음성 특징 벡터들은 인식부로 넘어가 미리 저장된 음향모델과 비교하게 되며 그 결과는 언어처리 과정을 거쳐 최종 인식된 문장으로 출력되게 된다.
이상적인 경우 전처리부에서는 음성학적 정보 이외의 모든 음향적 변화를 제외한 정보만을 추출할 수 있어야 하나 이러한 이상적인 특징 추출 방법은 아직까지 알려져 있지 않으며, 일반적으로 음성의 청취 기관이나 발생기관의 단순한 모델에 근거를 둔 특징 벡터들이 주로 사용된다.
이들 추출 방법은 인간이 음성을 인지하는 방법을 흉내내는 관점에 따라 여러 종류가 있으며 대표적으로는, 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 혹은 사람의 음성 인지 양상이 선형적이지 않고 로그 스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해 주는 고역강조 추출법, 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화 하는 창 함수 추출법 등이 있다.
인식부에서는 기존에 구축된 음성데이터베이스의 음성학적 정보와 전처리부에서 넘어온 특징 벡터와의 비교를 통해 인식 결과를 얻게 되는데, 크게 단어 단위 검색과 문장 단위 검색으로 나뉜다. 단어 단위 검색에서는 얻어 낸 특징 벡터를 데이터베이스에 저장된 단어 모델, 즉 각 단어의 음성학적 특징, 혹은 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아낸다. 데이터베이스에 미리 저장된 음향 모델과의 패턴 비교를 통해 알맞은 후보 패턴을 찾아내는 과정이므로 패턴분류라고 하기도 한다.
패턴 분류 과정을 거친 결과는 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색으로 넘어가게 된다. 이 과정에서는 후보단어 또는 후보음소들의 정보를 토대로 하며 문법 구조, 전체적인 문장 문맥, 특정 주제에의 부합 여부를 판단하여 어떤 단어나 음소가 가장 적합한지를 판단하게 된다. 예를 들어 ‘나는 간다’는 문장에서 불명확한 발음이 섞여 ‘는’과 ‘능’이 잘 구분이 되지 않는다고 가정해 보자.
이 때 음성인식 시스템은 패턴 분류 과정에서 ‘는’과 ‘능’이라는 두 개의 후보 단어를 결과로 생성해 내게 된다. 곧이어 따라 나오는 문장 단위 검색 과정에서는 문장 구조 분석을 통해 ‘는’이 문장에서 조사 역할을 담당한다는 것을 알아내게 되고 ‘능’이라는 조사는 존재하지 않으므로 후보에서 배제하게 된다. 즉, 어휘 및 문법 구조에의 제약을 통해 인식성능을 향상시키는 과정이다. 이 과정에서는 문법 구조 뿐만 아니라 의미 정보도 함께 이용되며 따라서 언어처리 과정이라고도 한다.
패턴 분류와 언어처리 과정에서 이용되는 데이터들은 미리 컴퓨터에 의해 학습되어 데이터베이스에 저장된다. 이 때 사용되는 데이터베이스는 대단히 방대하고 복잡하므로 보통 음성 인식에 사용되는 어휘수를 일정 이하로 제한한다.
인식부에서 주로 사용되는 대표적인 기술은 HMM(Hidden Markov Model)으로 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 이 방법은 음성단위에 해당하는 패턴들의 통계적 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어오면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산함으로써 이 패턴에 가장 적합한 음성단위를 찾아내는 방법이다.
음성인식의 성능은 배경잡음, 인식대상 어휘 수, 음성 데이터베이스의 규모, 낭독음성과 대화음성의 차이 등 많은 요인에 의해 영향을 받기 때문에 현재의 기술 수준을 간단한 하나의 수치로 나타내는 것은 어렵다. 대신 여러 다른 영역에 대해 컴퓨터와 사람의 인식률을 비교해서 나타내는 방식으로 흔히 비교한다. 아래의 표는 영어를 대상으로 사람과 컴퓨터의 인식능력을 비교한 예로 같은 환경에서의 단어 오인식률을 퍼센티지로 나타내었다.
인식대상 영역 어휘 수 사람 컴퓨터
연결숫자 10 0.009% 0.72%
알파벳 문자 26 1% 5%
자유발화 전화음성 2,000 3.8% 36.7%
조용한 환경 낭독음성(WSJ) 5,000 0.9% 4.5%
10 dB SNR 환경 낭독음성(WSJ) 5,000 1.1% 8.6%
조용한 환경에서의 트라이그램 문장발화 20,000 7.6% 4.4%
연결숫자 항목은 10개의 숫자를 연속해서 발음했을 때를, 알파벳 문자는 각 알파벳 하나하나를 또박또박 발음했을 때를 나타낸 것으로 비교적 잡음이 없고 복잡성도 적은 환경이라 할 수 있다. WSJ는 5000 단어 규모의 월스트리트(Wall Street Journal) 기사 내용을 낭독한 연속음성을 인식하는 것으로 음성인식률을 나타내기 위해 표준적으로 사용되는 대상이다.
복잡성이 없는 깨끗한 상황에서의 단어 오인식률은 사람과 컴퓨터 사이에 5배 정도의 차이 밖에 없는 것에 비해 자유발화 전화음성, 혹은 시끄러운 상황에서의 WSJ 낭독음성을 비교할 시에 드라마틱하게 나타나는 성능 저하에서 컴퓨터가 잡음에 매우 취약하다는 것을 알 수 있다. 이는 컴퓨터에게 사람과 같은 풍부한 언어 배경 지식을 제공하거나 더 쉽게는 입모양이나 제스처 등의 음성 외적인 요인을 음성인식을 위한 정보로 사용함으로써 어느 정도 완화시킬 수 있다.
표의 마지막 항목에 나타나는 트라이그램이란 확률적 언어 모델의 하나로, 앞서 나온 세 개의 단어로부터 다음에 올 단어의 확률을 결정짓는 모델이다. 즉, 트라이그램 문장 발화란 일상에서 마주칠 수 있는 자연어가 아닌 컴퓨터가 확률적으로 생성해 낸 임의의 단어의 연결을 말한다. 놀랍게도, 문장잡음이 없는 상황에서 언어 모델에 의해 자동으로 생성된 문장을 인식하는 경우에는 오히려 컴퓨터가 사람보다 우수한 결과를 보임을 관찰할 수 있다.
이것은 트라이그램 문장에 한해서 사람과 컴퓨터가 동일한 언어지식을 가지고 있기 때문이다. 즉, 자동 생성된 임의의 문장이 사람에게는 혼란을 초래해 오히려 언어 분석을 힘들게 한 반면 컴퓨터는 배경 지식 없이 객관적으로 언어의 음성학적 특성을 분석할 수 있기 때문이다. 이 실험은 사람과 컴퓨터의 인식률 차이는 순수한 음성학적 인식보다 오히려 언어의 의미 정보의 효율적인 사용이 중요하다는 것을 보여 주며 앞으로의 음성 인식 연구가 나아가야 할 방향을 시사해 주는 예라 할 수 있다.
날로 커져 가는 음성인식 시장에서 그 동안 일부 분야에만 적용되어 왔던 음성인식 기술은 다양한 IT 솔루션과 접목하여 빠른 속도로 응용분야가 넓어지고 있다. 가장 궁극적인 목표인 컴퓨터와의 자유로운 의사소통에 이르기까지는 아직 갈 길이 멀지만 현재의 기술수준으로도 이미 많은 실제적인 응용분야에 사용되고 있으며 앞으로도 그 영역은 더 커질 것이다.
음성인식 기술의 상품화에 대한 가장 큰 장벽은 음성정보처리기술에 대한 사용자의 기대 수준이 높다는 점이다. 즉, 기술상의 제약 요인을 정확히 파악하고 문제를 해결하는 것이 선결 과제이다. 지금까지의 여러 통계에서 주어졌듯 컴퓨터는 노이즈 환경 하에서의 성능이 상당히 취약하며 음성인식에 알맞은 조용한 환경에서만 컴퓨팅이 일어나는 경우는 별로 없으므로 노이즈 하에서의 안전한 음성 인식을 성공시키는 것이 가장 선결 과제라 할 수 있다.
따라서 최근의 음성인식 연구 동향은 잡음에 강한 음성인식에 초점을 맞추고 있으며 이를 위해 잡음처리 연구와 멀티모달 음성인식 연구가 활발하게 진행되고 있다. 그 외에도 인식률을 높이기 위한 화자 적응 기술이나 분산처리환경에 걸맞는 분산음성 인식 기술도 활발히 연구되고 있는 분야이다.
잡음의 종류에는 배경 잡음, 마이크, 회선에서 비롯되는 채널 왜곡과 함께 배경잡음이 화자의 발성에 영향을 미쳐 음성신호 자체에 왜곡이 오는 Lombard 효과 등이 있다. 이들 잡음에 강한 음성인식을 위한 방법은 잡음 처리가 일어나는 단계에 따라 크게 전처리부의 잡음처리와 인식부의 잡음처리로 나눌 수 있다. 전처리부의 경우 음성 특징벡터를 결정짓는 단계에서 보상하는 방식으로 잡음음성의 전처리를 통한 음질 개선, 잡음에 강한 특징벡터 도입, 특징벡터 추출 후 보상 방식 등의 방법이 있으며 인식부에서 잡음을 처리하는 방식보다 상대적으로 계산량이 적기 때문에 많이 쓰인다.
지금까지의 음성인식은 대부분 마이크와 입 사이를 가깝게 유지시켜 뚜렷한 신호를 얻어내는 근거리 대화(close-talking) 환경을 가정했으나 최근에는 보다 자연스러운 기계와의 상호 작용을 얻어 내기 위해 멀리 떨어진 마이크를 이용한 음성인식을 성공시키기 위한 연구가 진행 중이다. 이러한 우원거리 대화(distance-talking) 방식의 환경에서는 잡음처리 문제가 보다 심각하게 대두되며 효과적인 전처리와 함께 발성자의 음성에 집중할 수 있는 기술이 필요하다. 다수의 마이크 배열을 이용하여 발성자의 음성에 집중하는 방법 등이 대표적인 예이다.
멀티모달 인터페이스는 다양한 입력을 통해 기계와 상호 작용할 수 있는 방식의 인터페이스를 지칭하는 말로 보다 자연스럽게 기계와 소통하는 것에 그 목적이 있다. 멀티모달 음성인식의 경우 음성 뿐만 아니라 말을 하는 화자의 영상도 함께 분석하여 음성인식의 성능을 향상시키는 방식으로 이 개념을 구현하고 있다. 구체적으로는 입술의 움직임을 주로 사용하려는 시도가 진행 중으로, 소리 잡음이 심한 환경에서 음성 신호는 크게 영향을 받지만 영상신호는 영향을 받지 않기 때문에 함께 이들 정보를 사용함으로써 성능 향상을 기대할 수 있다.
흔히 Speechreading이라고 부르는 입술 읽기가 컴퓨터 뿐만 아니라 인간의 음성 인식에도 필수적 요소를 차지하고 있다는 것은 널리 알려진 사실이다. 칵테일 파티 효과라고 불리는 한 실험에서 시끄러운 환경에서 노출된 사람
이 친구와 대화를 할 때 얼굴을 바라보고 할 때와 얼굴을 보지 않고 녹음된 소리만으로 대화의 내용을 파악할 때의 인식률의 차이를 알아보면 모든 인간들이 높은 음성인식을 위해 무의식적으로 입술을 읽고 있다는 사실을 알 수 있다.
인간이 음성 인식에 있어서 시각적 의존도가 크다는 사실은 McGurk 효과라 불리는 한 실험에서도 나타난다. 이 실험에서 실험자는 화면을 보며 소리를 듣는 데 화면에 나타난 사람의 입모양이 ‘가’이고 스피커로 들리는 소리가 ‘바’일 경우 실제 실험자가 인지하는 소리는 ‘다’라는 것이다. 최근에 특히 활발하게 연구되는 멀티모달 인터페이스는 인간의 이러한 인지 과정을 흉내낸 것이기도 하며 잡음이 심한 환경에서 극적인 성능 개선을 보이고 있다.
멀티모달 인터페이스를 위해서는 영상 분석, 기계 학습, 패턴 분석, 통합적 센싱 등 다양한 기술이 필요하며 영상과 오디오에서 각각 얻어낸 정보의 통합을 어느 단계에서 할 것인가에 대해 다양한 실험이 이루어지고 있다.
화자 독립적 시스템이 범용적인 음성인식 환경 구성을 위해 활발히 연구되고 있는 반면 다른 한 축에서는 특정 화자의 발음 특성에 집중해 인식률을 높이는 연구가 진행되고 있다. 사람마다 조음 기관의 크기와 모양에 차이가 있고 발음 습관도 다르므로 음성 신호에는 화자에 따른 차이가 크게 나타나게 된다.
이 때문에 특정 화자의 음성만을 인식하는 것은 쉬운 일이라도 화자의 특성에 구애받지 않고 같은 발음에 같은 결과를 나타내는 시스템은 거대하고 복잡할 수 밖에 없게 된다. 이에 따라, 특정 화자만을 대상으로 하는 시스템이라면 화자 종속 음성 인식이 화자 독립 음성인식보다 훨씬 우수한 인식률을 보이게 된다.
그러나 특정 화자에 종속한 음향 모델을 만들기 위해서는 미리 그 특정 화자의 충분한 음성 데이터가 준비되어야 하는데 범용적 음성 인식 시스템에서 시스템을 구동하기 전에 미리 화자 종속 모델을 제대로 구성할 정도로 충분한 사용자의 음성 데이터를 확보하는 것은 비현실적이다. 따라서 사용자의 소규모 데이터만으로도 기존 모델을 그 화자의 음성에 가깝게 적응시키는 화자적응 기술이 대안으로 사용된다. 이에 따라 아주 적은 적응 데이터만으로도 인식 성능을 향상시킬 수 있는 고속화자적응 방법에 대한 연구가 최근 활발히 진행되고 있다.
분산음성인식은 유무선 네트워크를 통한 서버-클라이언트 구조의 시스템에서의 음성 인식으로 DSR(Distributed Speech Recognition)이라 한다. 이 방식은 음성인식의 전처리부와 인식부 과정을 각각 다른 컴퓨터에서 실행하는 것이 핵심이며 보통 음성 특징을 추출하는 전처리부는 클라이언트 컴퓨터에서, 인식부, 즉 언어 처리 과정은 거대 데이터베이스가 존재하는 서버 컴퓨터에서 처리할 수 있도록 한다.
클라이언트 컴퓨터에서 음성 인식의 전 과정을 실행할 경우 보통 충분한 데이터나 처리 능력이 없어서 어려움을 겪게 되고 반대로 서버 컴퓨터에서 음성 인식의 전 과정을 실행할 경우 오디오 데이터를 그대로 서버로 전송할 때 잡음 및 왜곡 문제가 발생하는 어려움을 겪게 된다. 분산 음성 인식은 이러한 문제를 극복할 수 있으며 최근의 분산화 되어 가는 시스템 환경들에 적합한 모델이라 할 수 있다.
국내에서는 한국과학기술원 음성인식연구센터와 한국전자통신연구원(ETRI)를 중심으로 활발한 음성 인식 기반 기술이 연구 중이다. 여기에서는 주로 빠른 화자적응이나 연속음성인식 등의 최신 기술에 새로운 알고리즘을 적용하여 인식률을 개선시키는 등의 학문적인 연구를 통해 우리나라의 음성인식 기술을 선도하고 있다.
한편, 국가 차원에서 음성인식 기술을 선도하기 위한 투자 또한 2001년부터 지속적으로 진행되고 있다. 정보통신부는 2001년 ‘음성정보처리산업협의회’를 결성, 업체들의 요구사항을 수렴하고 대규모 공통 음성 데이터베이스를 구축했으며 2003년에는 이를 ‘언어음성정보산업협의회’로 확대 개편하기도 했다. 또한 음성정보 기술을 2005년도 대학 IT 연구센터 지정 공모 분야 신규 과제로 선정하는 등 기술개발과 산업 육성을 위해 지속적인 노력을 하고 있다.
학문적 과제로 뿐만 아니라 산업적으로도 음성기술은 이미 그 가치를 입증하고 있다. 대표적인 국내 음성 기술 업체로는 보이스웨어, SL2, 바모마씨엘에스 등이 있으며, 일반적으로 성능 측면에서는 다국적 기업의 음성인식 기술이 국내 업체에 비해 우수하다는 지적을 받으나 한국어의 특성을 고려한 국내업체들의 반격도 만만치 않다. 대표적으로 보이스웨어의 경우, 인식기의 인식률이 97%에 이르고 연속어 인식이 가능해 여러 업체에 제품을 공급하며 한국어 뿐만 아니라 영어, 중국어, 일본어 인식기 개발에도 박차를 가해 세계 시장에까지 진출을 꾀하고 있다.
음성인식과 함께 차세대 HCI의 구성 요소로 중요성이 부각되고 있는 음성 합성 분야의 경우 우리 나라의 기술은 ‘지존’으로 인정 받을 정도로 높은 경쟁력을 자랑한다. 얼마 전에는 보이스웨어의 제품이 스티븐 호킹 박사의 목소리로 채택됨으로 인해 세계에 그 가치를 알리기도 했다.
이와 같이 원천 기술에 있어 세계 어디에 내놓아도 떨어지지 않을 경쟁력을 갖추었다고 우리의 기술이 평가받는 지금, 남은 것은 적절한 응용분야를 찾는 것이다 아직까지 상용화가 초기단계인 지금 무엇보다 중요한 것은 적절한 시장을 형성하는 것이다.
얼마 전까지는 전화를 기반으로 한 ARS 등에서 그 응용분야를 찾았으나 현재 음성업계의 관심사는 임베디드 음성기술 시장 쪽에 모이고 있다. 이는 일반 소형 제품들 속에 칩이 적용되어 다양한 음성인식 기술이 접목되는 시자을 의미하는 것으로 가전제품, 통신용 단말기, 자동차, 완구 등에 쉽게 음성 인식 기술을 적용하게 되는 생활이 곧 가능하게 될 것을 시사한다.
<저자>
⊙ KAIST 이선희
<참고문헌>
⊙ 한국과학기술원 음성언어 연구실