Lecture 1 - Basics

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Lecture 1 - Basics 본문

ML_AI/음성 인공지능

Lecture 1 - Basics

안정민 2024. 11. 10. 11:29

1. Speech Recognition

음성 인식이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리

STT, 즉 Speech to Text라고도 함

2. Loss Function

손실함수란, 하나의 데이터 혹은 하나의 배치 사이즈의 데이터를 x라고 하고 그의 대한 ground-truth label을 t, 모델 아웃풋을 y라고 한다면 y와 t 사이의 거리를 측정하는 방법론

3. Entropy

엔트로피는 무작위 시행의 결과를 식별하여 전달되는 정보의 기대(즉, 평균) 양을 측정

변수의 잠재적 상태 또는 가능한 결과와 관련된 불확실성 또는 정보의 평균 수준을 정량화합니다. 이는 모든 잠재적 상태에 걸친 확률 분포를 고려하여 변수의 상태를 설명하는 데 필요한 예상 정보량을 측정

4. Backpropagation

Gradient update rule에 따라서 미분값에 learning rate을 곱한 값을 기존의 gradient에서 뺌 -> 이를 새로운 gradient로 채택

**gradient 계산 방법 : Chain rule 활용

5. Backpropagation Through Time (BPTT)

BPTT는 ★RNN에서 계산되는 역전파 방식★으로, sequential data의 특성으로 인해 발생하는 은닉상태를 따라 역행하면서 전파되는 gradient 계산 방법

RNN의 구조는 다음과 같음

input 이 x, state 가 c, hidden output이 h인 상황 (LSTM의 경우 h와 c는 모두 state라고 간주)

: input을 연결하는 가중치 행렬
: 현재 hidden state와 다음 hidden state를 연결하는 가중치 행렬
: output을 연결하는 가중치 행렬

이때 첫번째 셀의 loss값을 다음과 같이 정리할 수 있다.

만약 Timestep = 3이라면 현재 model에서 update해야되는 weight matrix는 , , 3개가 존재합니다.

그렇다면 의 gradient를 구하기 위하여 에 대하여 로 편미분한 결과를 chain rule을 통해 구할 수 있다.

다음 의 gradient를 구하면 다음과 같다.

하지만 기존 backpropagation과는 다른 점이 각 timestep이 gradient에 영향을 주었기 때문에 를 상수 취급할 수 없다. 현재 timestep이 3인 출력 부분까지의 이전 timestep이 적용되기 때문에 t=2, t=1 까지 gradient를 전부 더해야한다. 그렇다면 다음과 같이 정리할 수 있다.