1. 음성인식의 역사
- 1세대(1952-1968): 숫자, 음절, 음소 단위 인식
- 필터 뱅크 분석기를 통해서 사람의 성대의 스펙트럼에서 나오는 공진을 측정하고, 그 공진으로 어떤 모음, 어떤 음절인지를 분석
- 2세대(1968-1980): 고립 단어 인식
- 짧은 음성명령이나 간단한 음성제어
- 3세대(1980-2006): 연결 단어 인식
- 통계학적 프레임워크 적용(ex. HMM(Hidden Markov Model)
- 4세대(2006~): DNN 등장
- 3세대에서 음성 모델은 GMM, 시간 축 상의 변화는 HMM이 했었는데 GMM 부분을 DNN이 대체하면서 인식률이 획기적으로 개선
- DNN 모델의 경우 대용량 음성 DB를 필요로 한다.
- DNN의 경우 GMM 대비 ERR(Error Reduce Rate, 에러가 줄어드는 비율) 부분이 20-30% 달성
- 당시 GMM으로 80% 정도였던 최고 인식률이 85% 이상으로 올라가게 되었다.
- DNN의 장점은 중간의 Feature Transform 부분이다. 전문가적인 정보를 가지고 feature를 만들고 MFCC를 만드는 부분을 DNN hidden layer가 정리해주게 되었다.
- 음성을 식별하는 부분들도 선형 분류기가 적용되고 있는 단계
2. 음성인식의 트렌드
- 음성인식 + 자연어 처리 = 대화형 Interface(가상 비서)
- 음성인식 + 빅데이터 = Analytics (VOC 분석, 의료 문서화)
- 플랫폼 사업자들이 음성인식 시장의 트렌드를 주도하고 있다.
- 출처
- http://www.kocw.net/home/cview.do?cid=d10faf9660b7b0e5
- 해당 글은 KOCW에서 제공하는 'AI 보안 음성인식' 강의를 듣고 정리한 내용입니다.