본문 바로가기

카테고리 없음

Speech and Language Processing Ch 26.2.4 Mel Filter Bank Log

26.2.4 Mel Filter Bank Log

- FFT의 결과는 각 주파수 대역의 에너지를 알려준다.

- 그러나 인간의 청각은 모든 주파수 대역에서 똑같이 민감하지 않고, 높은 주파수에서 덜 민감하다.

- 낮은 주파수에 대한 이러한 편향은 인간의 인식에 도움이 된다.

- 모음의 구성 음소와 같이 낮은 주파수의 정보는 값이나 비음을 구별하는 데 중요하다.

- 반면 마찰음과 같이 높은 주파수의 정보는 성공적인 인식에 보다 덜 중요하다.

- 이러한 인간의 인지 특성을 모델링하면 동일한 방식으로 음성 인식 성능을 향상시킬 수 있다.

- 우리는 각 주파수 대역에서 동일하게 에너지를 수집하지 않고 청각 주파수 척도인 mel scale에 따라 직관을 구현한다.

- mel은 음높이의 단위다.

- 음높이에서 같은 거리에 있는 소리의 쌍은 같은 수의 mel에 의해 분리된다.

- m(=mel의 주파수)은 로그 변환을 통해 원해 소리의 음향 주파수로부터 계산될 수 있다. 수식은 위와 같다.

- 각 주파수 대역에서 에너지를 수집하고 낮은 주파수에서 매우 미세한 결과를 가지도록 로그로 확산하는 filter의 bank를 생성해서 구현한다.

 

- 위의 그림은 mel 스펙트럼을 얻기 위해 스펙트럼을 곱하는 이 아이디어를 구현하는 삼각형 filter의 bank다.

- 각 삼각형 filter는 주어진 주파수 범위에서의 에너지를 수집한다.

- 각 삼각형 filter는 mel scale에 따라 로그 간격으로 배치되어 있다.

- 마지막으로 각 mel 스펙트럼 값에 로그를 취한다.

- 신호에 대한 인간의 반응은 로그 수준이다.

- 인간은 낮은 진폭보다 높은 진폭에서 덜 민감하다. (주파수 역시 높은 주파수에서 덜 민감했음)

- 로그를 사용함으로써 전력 변화(화자의 입이 스피커에 가까워지거나 멀어지기에 발생)과 같은 입력의 변화에 덜 민감하게 된다.

 

- 출처

- Daniel Jurafsky, James H. Martin, Speech and Language Processing.