본문 바로가기

분류 전체보기

(21)
learning rate 1. learning rate - learning rate 값에 따라 모델 학습 결과가 달라지기 때문에 적합한 learning rate을 찾는 것이 중요 - learning rate 값이 너무 크면 학습 속도는 빠르지만 training 오류를 줄이지 못함 -> overshooting 발생 - learning rate 값이 너무 작으면 학습 과정이 오래 걸리고 검증해내는 오류 값이 많아져 학습을 중단할 수 있음 -> local minima에 빠짐 - 적합한 learning rate을 찾는 방법 = 직접 해보는 수 밖에 없음 - 1*10^(-6) ~ 1.0를 시도해보는 것이 일반적 - 그 중에서 초기값으로 0.1, 0.01, 0.001을 많이 사용 - 만약 결과가 발산한다면 작은 값으로, 학습하는데 너무 오..
batch size / epoch / iteration 1. batch size - train dataset을 여러 개의 작은 그룹으로 나누었을 때, 하나의 작은 그룹에 속하는 data의 수 (- 여러 개의 작은 그룹으로 나누는 이유: 한 번에 학습시키면 리소스를 비효율적으로 사용하게 됨) - ex) 학습할 train dataset = 5,000개 / 1,000개씩 학습시키게 되면 batch size = 1,000 2. epoch - 전체 train dataset이 신경망을 통과한 횟수 - 즉, 전체 train dataset을 몇 번 학습했는가 - ex) 학습할 train dataset = 5,000개 / batch size = 1,000 / 1 epoch 의미 = 5,000개의 dataset이 하나의 신경망을 한 번 통과함 3. iteration - 1 e..
overfitting / underfitting / early stopping 1. overfitting 과 underfitting - machine learning model은 training loss가 작아지도록 학습 - 그러나 너무 train data에 맞게끔 학습을 하면 overfitting이 발생 - overfitting: training loss는 감소하지만 test loss는 증가하는 부분 - underfitting: training loss와 test loss가 같이 감소하는 부분 - 목표: underfitting 부분을 줄여나가면서 overfitting 발생하기 전에 학습을 멈추는 것 2. 모델의 학습 과정 - 위의 목표를 위해 validation set을 활용 - dataset을 train, valid, test dataset으로 분류 - train dataset..
[1-3] AI 보안 음성인식_AI 음성인식 산업활용 사례 1. AI 음성인식 스피커 - 전자상거래 및 검색 광고 분야 ex. 식당 예약 - 방송 분야 - 실시간 음성인식 자동 자막 방송 - 자동차 분야 - 차량 제어, 카투홈(Car To Home) 서비스 - 콜센터 분야 - 본인인증 - 공공 안전 분야 ex. 독거노인, 안심 화장실, 안심 보안등 - 국방분야 - AI 무인로봇 제어, 자동 번역 2. AI 음성인식과 정보보호 - 음성인식 분야는 음성 변조 기술과 같은 목소리 합성을 지원하는 기술의 발달로, 사이버 공격의 허점에 대한 고려가 필요하다. 3. 1차시 정리 Q1. 음성인식의 구성 요소 중 텍스트를 분석하여 모델을 만들어 현재 인식되고 있는 단어들 간의 결합 확률을 예측하는 과정은? - 답: 언어 모델 Q2. 확률 관점에서 음성인식의 개념은? - 입력된..
[1-2] AI 보안 음성인식_AI 음성인식 트렌드 1. 음성인식의 역사 - 1세대(1952-1968): 숫자, 음절, 음소 단위 인식 - 필터 뱅크 분석기를 통해서 사람의 성대의 스펙트럼에서 나오는 공진을 측정하고, 그 공진으로 어떤 모음, 어떤 음절인지를 분석 - 2세대(1968-1980): 고립 단어 인식 - 짧은 음성명령이나 간단한 음성제어 - 3세대(1980-2006): 연결 단어 인식 - 통계학적 프레임워크 적용(ex. HMM(Hidden Markov Model) - 4세대(2006~): DNN 등장 - 3세대에서 음성 모델은 GMM, 시간 축 상의 변화는 HMM이 했었는데 GMM 부분을 DNN이 대체하면서 인식률이 획기적으로 개선 - DNN 모델의 경우 대용량 음성 DB를 필요로 한다. - DNN의 경우 GMM 대비 ERR(Error Redu..
[1-1] AI 보안 음성인식_음성인식 이해 1. 음성인식의 개념 및 특징 - 음성인식이란? - 마이크나 센서를 통해 음향학적 신호를 단어나 문장으로 변환하고 해독하는 기술 - 사람의 입에서 나온 음성신호를 분석하여 자동으로 문자열로 변환해주는 기술 - ASR(Automatic Speech Recognition), STT(Speech-to-Text)라고도 부른다. - input: speech acoustic singal (음성신호), output: best matched text (방대한 텍스트들의 조합) - 음성인식의 전반적인 과정 - 음성신호가 들어옴 -> 스펙트로그램 생성 -> 스펙트로그램에서 추출된 특징 벡터로 추출 -> 특징 벡터가 음향 모델로 들어가서 음소 단위의 서브 워드로 분류 -> 발음 사전을 통해 단어가 됨 -> 언어 모델을 통해..
음성인식에서의 딥러닝 Part 2 1) 스마트 스피커의 작동 알고리즘 - 오디오가 들어오면 에코 제거, 노이즈 제거 등의 전처리를 한다. - 스마트 스피커는 소리가 들려오는 방향을 확인해야 하기 때문에 안에 마이크가 2-3개 정도가 있다. - 오디오 전처리가 성능에 큰 영향을 미치기 때문에 중요한 과정이라고 할 수 있다. - 음성이 어디서부터 어디까지인지를 탐지하는 음성 구간 탐지 과정이 있다. - 키워드 탐색: 본격적으로 음성인식이 시작된다고 생각하면 된다. - ex) 음성 구간을 탐지하고 있다가 "시리야"가 들리면 이것을 키워드로 인식하고 그 뒤의 말을 음성인식 한다. - 현재 상당수의 스마트 스피커들이 클라우드로 음성인식을 보내고 있다. 하지만 사생활 보호 등의 이유로 디바이스에서 음성인식을 처리하는 비중이 높아질 것으로 예상된다...
음성인식에서의 딥러닝 Part 1 1) Speech Applications - 음성인식 (Speech-To-Text, STT, ASR) - 음성합성 (Text-To-Speech, TTS) - 음성비서 - 스마트 스피커 - 등등 상용화가 많이 되고 있다. 2) 음성 데이터의 이해 - 1. 음성 파일 (Waveform): 스펙트로그램(spectrogram)이라는 푸리에 변환 과정을 통해 일차적으로 바뀌게 된다. - styles(reading, conversational, spontaneous 등), variances(stuttering, mic quality 등), noises(outdoor, room 등)에 변화를 줄 수 있다. - 2. 발화 텍스트 (Utterance): 위에서 얻은 스펙트로그램(spectrogram)과 발화 텍스트가 매..