njs03332 commented 1 year ago

~9/14 목요일 19:00~ 11/02 목요일 22:30
1: 15.2~15.3
2: 15.3.1~15.3.2
3: 15.3.3~15.3.4

njs03332 commented 1 year ago

assign roles -s 0906 -c 1 2 3

njs03332 commented 1 year ago

	0	1	2
member	한단비	주선미	김유리
chapter	1	2	3

njs03332 commented 12 months ago

15.3.3 심층 RNN

심층 RNN: 셀을 여러 층으로 쌓은 RNN

model = keras.models.Sequential([
keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
keras.layers.SimpleRNN(20, return_sequences=True),
keras.layers.SimpleRNN(1)
])

return_sequences=True로 설정해야 모든 타임 스텝에 대한 출력을 담은 3D 배열이 출력됨
출력층을 Dense 층으로 바꾸면 더 빠르면서 정확도는 거의 비슷함
- 마지막 층의 은닉 상태는 크게 필요하지 않음 (단변량 시계열 예측이기 때문에 하나의 유닛이 필요, 타임스텝마다 하나의 출력을 만들어야 함 -> 쓸모 없음)
- tanh가 아닌 다른 활성화함수를 사용할 수 있음
```
model = keras.models.Sequential([
keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
keras.layers.SimpleRNN(20),
keras.layers.Dense(1)
])
```

15.3.4 여러 타임 스텝 앞을 예측하기

다음 값 10개를 예측하고 싶은 경우

방법 1. 이미 훈련된 모델을 사용하여 다음 값을 예측한 다음 이 값을 입력으로 추가

series = generate_time_series(1, n_steps + 10)
X_new, y_new = series[:,:n_steps], series[:,n_steps:]
X=X_new
for step_ahead in range(10):
y_pred = model.predict(X[:,step_ahead:])[:, np.newaxis,:]
X = np.concatenate([X,y_pred],axis=1)
Y_pred = X[:, n_steps:]

다음 스텝에 대한 예측은 보통 더 미래의 타임 스텝에 대한 예측보다 정확함 (오차가 누적될 수 있으므로)
위 방법을 사용했을 때 MSE=0.029
- 단순한 방식 - MSE=0.223
- 선형 모델 - MSE=0.0188

방법 2. RNN을 훈련하여 다음 값 10개를 한 번에 예측

시퀀스-투-벡터 모델을 사용하지만 1개가 아니라 10개의 값을 출력함


# 타깃을 다음 10개의 값이 담긴 벡터로 바꿈
series = generate_time_series(10000, n_steps + 10)
X_train, y_train = series[:7000, :n_steps], series[:7000, -10:, 0]
X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -10:, 0]
X_test, y_test = series[9000:, :n_steps], series[9000:, -10:, 0]

10개의 유닛을 가진 출력층이 필요함

model = keras.models.Sequential([ keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]), keras.layers.SimpleRNN(20), keras.layers.Dense(10) ])

모델 훈련 후, 다음 값 10개를 한 번에 예측

Y_pred = model.predict(X_new)


- 이 모델의 MSE=0.008
- 시퀀스-투-시퀀스 RNN으로 바꾸면 개선 가능 (마지막 타임 스텝에서 뿐만 아니라 모든 타임 스텝에서 다음 값 10개를 예측하도록 모델을 훈련)
  - 장점 - 모든 타임 스텝에서 RNN 출력에 대한 항이 손실에 포함됨
  - 각 타임 스텝의 출력에서 그레이디언트가 흐를 수 있음
  - 훈련을 안정적으로 만들고 훈련 속도를 높임
```python
Y = np.empty((10000, n_steps, 10))  # 각 타깃은 10D 벡터의 시퀀스
for step_ahead in range(1, 10 + 1):
    Y[..., step_ahead - 1] = series[..., step_ahead:step_ahead + n_steps, 0]
Y_train = Y[:7000]
Y_valid = Y[7000:9000]
Y_test = Y[9000:]

인과 모델 - 타임 스텝마다 모델은 이전 타임 스텝만 볼 수 있고 앞을 볼 수 없음
시퀀스-투-시퀀스 모델로 바꾸려면 모든 순환 층에 return_sequences=True 지정
모든 타임 스텝이서 출력을 Dense 층에 적용해야 함 -> TimeDistributed 층 이용
- 다른 층을 감싸서 입력 시퀀스의 모든 타임 스텝에 이를 적용함
- 각 타임 스텝을 별개의 샘플처럼 다루도록 입력의 크기를 바꾸어 효과적으로 수행하고, 출력 크기를 시퀀스로 되돌림

model = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20, return_sequences=True),
    keras.layers.TimeDistributed(keras.layers.Dense(10))
])

평가를 위해서는 마지막 타임 스텝의 출력에 대한 MSE만을 계산하는 사용자 정의 지표 사용

def last_time_step_mse(Y_true, Y_pred):
    return keras.metrics.mean_squared_error(Y_true[:, -1], Y_pred[:, -1])

optimizer=keras.optimizers.Adam(lr=0.01)
model.compile(loss="mse",
              optimizer=optimizer,
              metrics=[last_time_step_mse])

이 방식을 처음 모델과 결합할 수 있음
- 이 RNN을 사용해 다음 값 10개를 예측하고 이 값을 입력 시계열에 연결하고, 다시 다음 값 10개를 예측 ... 반복
- 장기간 예측을 하면 정확도가 떨어짐 그러니 음악/텍스트 생성에는 문제 없음
시계열 예측 시에는 오차 막대를 사용하는 것이 유용함
- MC 드롭아웃이 이에 대한 효율적인 도구 - 각 메모리 셀에 드롭아웃 층을 추가하여 입력과 은닉 상태를 드롭아웃함

danbi5228 commented 12 months ago

15.2 RNN 훈련하기

RNN을 훈련하기 위한 기법은 타임 스텝으로 네트워크를 펼치고 보통의 역전파를 사용하는 것
이런 전략을 BPTT backpropagation through time 이라고 함 1) 보통의 역전파와 같이 정방향 패스가 펼쳐진 네트워크를 통과 2) 비용함수를 사용하여 역방향으로 전파되면서 출력 시퀀스를 평가 - 이 때 일부 출력을 무시할 수 있음 ex. 시퀀스-투-벡터 RNN: 마지막을 제외한 모든 출력 무시 3) 모델 파라미터는 BPTT 동안 계산된 그레이디언트를 사용하여 업데이트됨 그레이디언트가 마지막 출력뿐만 아니라 비용 함수를 사용한 모든 출력에서 역방향으로 전파됨
- 순환 신경망의 경우 정방향 패스 동안에는 모두 동일한 가중치가 적용됨
tf.keras가 복잡한 것을 모두 처리해줌

15.3 시계열 예측하기

시계열 time series: 타임스텝마다 하나 이상의 값을 가진 시퀀스
- 단변량 시계열 univariate time series: 타임 스텝마다 하나의 값을 가지는 시퀀스
- ex. 시간당 웹사이트 접속자 수, 도시의 날짜별 온도
- 다변량 시계열 multivariate time series: 타임 스텝마다 여러 값을 가지는 시퀀스
- ex. 회사의 수입, 부채 등의 지표를 사용한 기업의 분기별 재정 안정성 연구
- NOTE: 시계열을 다룰 때 입력 특성은 일반적으로 [배치 크기, 타임 스텝 수, 차원 수] 크기의 3D 배열로 나타냄 단변량 시계열의 경우에는 차원 수가 1 이고, 다변량 시계열은 2 이상이 됨
시계열 예측 예시 코드
- 목표: 사인 그래프와 유사한 시계열의 다음 값 예측

def generate_time_series(batch_size, n_steps): freq1, freq2, offset1, offset2 = np.random.rand(4, batch_size, 1) time = np.linspace(0, 1, n_steps) series = 0.5 np.sin((time - offset1) (freq1 10 + 10)) # 사인 곡선 1 series += 0.2 np.sin((time - offset2) (freq2 20 + 20)) # + 사인 곡선 2 series += 0.1 * (np.random.rand(batch_size, n_steps) - 0.5) # + 잡음 return series[..., np.newaxis].astype(np.float32) # size: [ 배치 크기, 타임 스텝 수, 1]

n_steps = 50 series = generate_time_series(10000, n_steps + 1) X_train, y_train = series[:7000, :n_steps], series[:7000, -1] # size: [7000, 50, 1], [7000,1] X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -1] # X_test, y_test = series[9000:, :n_steps], series[9000:, -1]

givitallugot commented 11 months ago

15.3.1 기준 성능

RNN을 시작하기 전에 성능을 몇 개 준비하는 것이 좋음 (그렇지 않을 경우 모델 성능이 나쁠 때도 잘 동작한다고 생각할 수 있기 때문)
방법 1: 각 시계열의 마지막 값을 그대로 예측하는 것 = Navie Forecasting이라고 부름
```
y_pred = X_valid[:, -1]
np.mean(keras.losses.mean_squared_error(y_valid, y_pred))
```
방법 2: 완전 연결 네트워크 사용, 이 네트워크는 입력마다 1차원 특성 배열을 기대하기 때문에 Flatten 층을 추가해야 함
```
model = keras.models.Sequential([
keras.layers.Flatten(input_shape=[50, 1]),
keras.layers.Dense(1)
])
```

15.3.2 간단한 RNN 구현하기

model = keras.models.Sequential([
    keras.layers.SimpleRNN(1, input_shape=[None, 1])
])

하나의 뉴런으로 이루어진 하나의 층을 가짐
순환 신경망은 어떤 길이의 타임 스텝도 처리할 수 있기 때문에 입력 시퀀스의 길이를 지정할 필요가 없음
기본적으로 SimpleRNN 층은 하이퍼볼릭 탄젠트 활성화 함수를 사용
초기상태 h(init)을 0으로 설정하고 첫 번째 입력값 x(0)과 함께 하나의 순환 뉴런으로 전달, 뉴런은 이 가중치 합을 계산하고 하이퍼볼릭 탄젠트 활성화 함수를 적용하여 결과를 만들어 첫 번째 y(0)을 출력 => 기본 RNN에서는 이 출력이 새로운 상태 h(0)이 되고 다음 입력값 x(1)과 함께 동일한 순환 뉴런으로 전달 => 반복
이 모델은 Naive Forecasting 보다는 낫지만 선형 모델을 앞지르지 못함

njs03332 / ml_study

2023/09/07 ~ 2023/11/02 #74

15.3.3 심층 RNN

15.3.4 여러 타임 스텝 앞을 예측하기

10개의 유닛을 가진 출력층이 필요함

모델 훈련 후, 다음 값 10개를 한 번에 예측

15.2 RNN 훈련하기

15.3 시계열 예측하기

15.3.1 기준 성능

15.3.2 간단한 RNN 구현하기