26.2.2 Windowing
- 디지털화되고 양자화된 파형의 표현에서 특정 음소를 특징짓는 스텍트럼 특징을 작은 음성의 window에서 추출해야 한다.
- 영역 내에서 0이 아닌 window를 사용하고 다른 영역에서는 0인 window를 사용한다.
- window를 음성 신호에 걸쳐 실행하고 입력 파형에 곱해서 windowed 파형을 만듦으로써 음성의 정지된 부분을 추출한다.
- 각 window에서 추출된 음성을 frame이라고 한다.
- windowing에는 3가지 변수가 있다.
1) window size (or frame size)
2) frame stride (=shift, offset)
3) window의 shape
- 신호를 추출하기 위해 s[n] (=시간 n에서의 신호 값)과 w[n](=시간 n에서의 window 값)을 곱한다.
- y[n] = w[n] * s[n]
- 위의 그림에서는 window의 shape은 직사각형이다.
- 추출된 windowed 신호를 보면 원래의 신호처럼 생긴 것을 확인할 수 있다.
- 직사각형의 window는 경계에서 신호를 뚝 잘라버리기 때문에 푸리에 분석을 할 때 문제가 발생한다.
- 따라서 음향 특징 생성을 위해서 일반적으로 Hamming window를 사용한다.
- Hamming window는 창 경계에서 신호 값을 0으로 축소하여 불연속성을 방지한다.
- 출처
- Daniel Jurafsky, James H. Martin, Speech and Language Processing.