본문 바로가기

카테고리 없음

[1-2] AI 보안 음성인식_AI 음성인식 트렌드

1. 음성인식의 역사

- 1세대(1952-1968): 숫자, 음절, 음소 단위 인식

- 필터 뱅크 분석기를 통해서 사람의 성대의 스펙트럼에서 나오는 공진을 측정하고, 그 공진으로 어떤 모음, 어떤 음절인지를 분석

- 2세대(1968-1980): 고립 단어 인식

- 짧은 음성명령이나 간단한 음성제어

- 3세대(1980-2006): 연결 단어 인식

- 통계학적 프레임워크 적용(ex. HMM(Hidden Markov Model)

- 4세대(2006~): DNN 등장

- 3세대에서 음성 모델은 GMM, 시간 축 상의 변화는 HMM이 했었는데 GMM 부분을 DNN이 대체하면서 인식률이 획기적으로 개선

- DNN 모델의 경우 대용량 음성 DB를 필요로 한다.

- DNN의 경우 GMM 대비 ERR(Error Reduce Rate, 에러가 줄어드는 비율) 부분이 20-30% 달성

- 당시 GMM으로 80% 정도였던 최고 인식률이 85% 이상으로 올라가게 되었다.

- DNN의 장점은 중간의 Feature Transform 부분이다. 전문가적인 정보를 가지고 feature를 만들고 MFCC를 만드는 부분을 DNN hidden layer가 정리해주게 되었다.

- 음성을 식별하는 부분들도 선형 분류기가 적용되고 있는 단계

 

2. 음성인식의 트렌드

- 음성인식 + 자연어 처리 = 대화형 Interface(가상 비서)

- 음성인식 + 빅데이터 = Analytics (VOC 분석, 의료 문서화)

- 플랫폼 사업자들이 음성인식 시장의 트렌드를 주도하고 있다.

 

- 출처

- http://www.kocw.net/home/cview.do?cid=d10faf9660b7b0e5

- 해당 글은 KOCW에서 제공하는 'AI 보안 음성인식' 강의를 듣고 정리한 내용입니다.