전체 글 (21) 썸네일형 리스트형 Speech and Language Processing Ch 26.2.4 Mel Filter Bank Log 26.2.4 Mel Filter Bank Log - FFT의 결과는 각 주파수 대역의 에너지를 알려준다. - 그러나 인간의 청각은 모든 주파수 대역에서 똑같이 민감하지 않고, 높은 주파수에서 덜 민감하다. - 낮은 주파수에 대한 이러한 편향은 인간의 인식에 도움이 된다. - 모음의 구성 음소와 같이 낮은 주파수의 정보는 값이나 비음을 구별하는 데 중요하다. - 반면 마찰음과 같이 높은 주파수의 정보는 성공적인 인식에 보다 덜 중요하다. - 이러한 인간의 인지 특성을 모델링하면 동일한 방식으로 음성 인식 성능을 향상시킬 수 있다. - 우리는 각 주파수 대역에서 동일하게 에너지를 수집하지 않고 청각 주파수 척도인 mel scale에 따라 직관을 구현한다. - mel은 음높이의 단위다. - 음높이에서 같은 거.. Speech and Language Processing Ch 26.2.3 Discrete Fourier Transform(DFT) 26.2.3 Discrete Fourier Transform(DFT) - 다음 단계는 windowed signal에 대한 스텍트럼 정보를 추출하는 것이다. - 신호가 서로 다른 주파수 대역에서 얼마나 많은 에너지를 포함하고 있는지 알아야 한다. - 이산 푸리에 변환(Discrete Fourier Transform, DFT): 이산 시간 (샘플링 된) 신호에 대한 이산 주파수 대역의 스펙트럼 정보를 추출하는 방법 - DFT의 입력은 windowed 신호, x[n] ... x[m]이다. - N개의 이산 주파수 대역에서 각각의 DFT 출력은 원래 신호에서 주파수 성분의 크기와 위상을 나타내는 복소수 X[k]다. - 위의 그림 (a)는 모음 [iy] 신호의 25ms Hamming-windowed 부분이고 (b).. Speech and Language Processing Ch 26.2.2 Windowing 26.2.2 Windowing - 디지털화되고 양자화된 파형의 표현에서 특정 음소를 특징짓는 스텍트럼 특징을 작은 음성의 window에서 추출해야 한다. - 영역 내에서 0이 아닌 window를 사용하고 다른 영역에서는 0인 window를 사용한다. - window를 음성 신호에 걸쳐 실행하고 입력 파형에 곱해서 windowed 파형을 만듦으로써 음성의 정지된 부분을 추출한다. - 각 window에서 추출된 음성을 frame이라고 한다. - windowing에는 3가지 변수가 있다. 1) window size (or frame size) 2) frame stride (=shift, offset) 3) window의 shape - 신호를 추출하기 위해 s[n] (=시간 n에서의 신호 값)과 w[n](=시간.. Speech and Language Processing Ch 26.2.1 Sampling and Quantization 26.2 Feature Extraction for ASR: Log Mel Spectrum - ASR의 첫번째 단계는 waveform(input)을 a sequence of acoustic feature vectors으로 바꾸는 것 - 각 벡터(vector)는 신호의 작은 window에 있는 정보를 나타낸다. - 이 때, feature vectors는 sequences of log mel spectrum 벡터다. 26.2.1 Sampling and Quantization - analog representations을 digitial signal로 변환해야 한다. (analog-to-digital conversion) - analog-to-digital conversion은 두 가지 단계로 구성되어 있다. .. Speech and Language Processing Ch.26 1) ASR(Automatic Speech Recognition - mapping any waveform to the appropriate string of words 2) TTS(Text-To-Speech) - the reverse of ASR - mapping text to an acoustic waveform 3) The Automatic Speech Recognition Task - how the task itself varies - one dimension of variation is vocabulary size - second dimension of variation is who the speaker is talking to - third dimension of variation is chan.. CTC (Connectionist Temporal Classification) 1) CTC가 필요한 이유 - 일반적인 Speech Recognition에서 데이터셋으로 오디오 파일과 transcript(텍스트)를 받게 된다. - 이 때, 어떤 단어의 character가 audio와 alignment가 맞는지 알 수 없다. - alingment 없이 어떤 audio와 text 사이의 규칙을 정의하기 어렵다. - 또한, 사람들마다 발화 스타일이 다른데 (ex. apple: '애플', '애-플', '애--플' 등) 하나의 규칙으로 정의하기에는 무리가 있다. 2) CTC의 기본 idea - 우리는 input과 output 사이의 정확한 alignment가 되어있는 데이터셋이 필요하지는 않는다. - 주어진 input에 대해서 output의 확률 값이 필요하다. - CTC는 둘 사이의 가능한.. 딥러닝 구조 1) 딥러닝 구조 [Speech Recognition] - inputs: spectogram이나 raw한 오디오 파일(.wav) - outputs: transcription - architectures: CNN, RNN, fully-connected, CTC 등 - loss: CTC - metric: '이것이 좋은 speech recognition인가?'를 나타내는 metric 1) levenshtein distance - 두 sequence 간의 차이를 측정하기 위한 문자열 metric - 한 단어를 다른 단어로 변경하는 데 필요한 최소 한 문자 편집 (대체, 삽입 또는 삭제) 수로 정의 2) 출처 - https://youtu.be/XAXAdH-lEKQ 마르코프(Markov) 개념 및 은닉 마르코프 모델(HMM, Hidden Markov Model) 개념 0) 개념 - HMM = Hidden Markov Model - 마르코프체인을 전제로 한 모델 - 음소 (or 단어) 시퀀스를 모델링 할 때 자주 쓰인다. 1) 마르코프(Markov) - 마르코프 연쇄(Markov chain) - 각 상태가 chain에 연결된 것처럼 하나의 끈으로 이어져 있는 상태 - 마르코프 체인(Markov chain) - 한 상태가 나타날 확률은 단지 그 이전 상태에만 의존한다. - 즉, 미래의 상태는 오직 현재의 상태의 영향만 받는다. - 한 상태에서 다른 상태로의 전이(transition)는 그 동안 상태 전이에 대한 긴 이력(history)을 필요로 하지 않는다. - 바로 직전 상태의 전이로 추정할 수 있다. - ex) B의 확률은 A가 일어날 확률을 알아야 구할 수 있다. .. 이전 1 2 3 다음