2022/12/23 ~ 2022/12/30

10.2.8 텐서보드를 사용해 시각화하기

텐서보드: 인터렉티브 시각화 도구
- 훈련하는 동안 학습 곡선 그리기
- 여러 실행 간의 학습 곡선 비교
- 계산 그래프 시각화
- 훈련 통계 분석
- 모델이 생성한 이미지 확인
- 3D에 투영된 복잡한 다차원 데이터 시각화 및 자동 클러스터링
텐서보드 사용을 위해서는 이벤트 파일 (이진 로그 파일)에 시각화하려는 데이터를 출력하도록 코드를 수정해야함
- 각각의 이진 데이터 레코드를 서머리라고 부름
- 텐서보드 서버는 로그 디렉토리를 모니터링하고 자동으로 변겨아항을 읽어 그래프를 업데이트함 (실시간 데이터 시각화 가능)
- 일반적으로 텐서보드 서버가 루트 로그 디렉터리를 가리키고, 프로그램은 실행할 때마다 다른 서브 디렉터리에 이벤트를 기록함

# 사용할 루트 로그 디렉터리 정의
import os
root_logdir = os.path.join(os.curdir, "my_logs")

# 현재 날짜와 시간을 사용해 실행할 때마다 다른 서브디렉터리 경로를 생성하는 함수
def get_run_logdir():
    import time
    run_id = time.strftime("run_%Y_%m_%d-%H_%M_%S)
    return os.path.join(root_logdir, run_id)

run_logdir = get_run_logdir()

# 모델 구성 & 컴파일 후
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
history = model.fit(X_train, y_train, epochs=30,
                               validation_data=(X_valid, y_valid),
                               callbacks=[tensorboard_cb])

위 코드 실행시 TensorBoard() 콜백이 로그 디렉터리를 생성하고, 훈련하는 동안 이벤트 파일을 만들고 서머리를 기록함
- 실행할 때마다 하나의 디렉터리가 생성됨
- 그 아래 훈련 로그 검증 로그를 위한 서브디렉터리가 각각 존재 (둘 다 이벤트 파일을 담고 있음)
- 훈려 로그는 프로파일링 틑레이스 파일도 포함
- 텐서보드가 이 파일을 사용해 전체 디바이스에 걸쳐 모델의 각 부분에서 시간이 얼마나 소요되었는지 보여줌
- 성능 병목 지점을 찾는데 도움이 됨

# 텐서보드 서버 시작 (터미널)
$ tensorboard --logdir=./my_logs --port=6006

# 텐서보드 서버 시작 (주피터)
%load_ext tensorboard
%tensorboard --logdir=./my_logs --port=6006

텐서보드 웹 인터페이스
- 학습 곡선, 전체 그래프, 학습된 가중치, 프로파일링 트레이스를 볼 수 있음
- TensorBoard() 콜백은 임베딩 같은 추가 데이터를 로깅할 수 있는 옵션도 제공
텐서플로는 tf.summary 패키지로 저수준 API를 제공함
- 스칼라, 히스토그램, 이미지, 오디오, 텍스트 등등을 시각화할 수 있음

10.3.1 은닉층 개수

은닉층 하나로 시작해도 많은 문제에서 납득할 만한 결과를 얻을 수 있지만, 복잡한 문제에서는 심층 신경망이 얕은 신경망보다 파라미터 효율성이 훨씬 좋음
심층 신경망은 복잡한 함수를 모델링하는 데 얕은 신경망보다 훨씬 적은 수의 뉴런을 사용하므로 동일한 양의 훈련 데이터에서 더 높은 성능을 낼 수 있음
계층 구조는 심층 신경망의 좋은 솔루션으로 빨리 수렴하게끔 도와줄 뿐만 아니라 새로운 데이터에 일반화되는 능력도 향상시켜 줌
- 이런 방식을 사용하면 저수준 구조를 학습할 필요가 없이, 고수준 구조만 학습하면 됨 (-> 전이 학습)
11장에서 더 자세히 설명

10.3.2 은닉층 뉴런 개수

입력층과 출력층의 뉴런 개수는 해당 작업에 필요한 입력과 출력의 형태에 따라 결정
은닉층의 구성 방식은 일반적으로 각 층의 뉴런을 점점 줄여서 깔때기처럼 구성
데이터셋에 따라 다르지만 다른 은닉층보다 첫 번째 은닉층을 크게 하는 것이 도움이 됨
층의 개수와 마찬가지로 과대적합이 시작되기 전까지 점진적으로 뉴런스를 늘릴 수 있음
- 실전에서는 필요한 것보다 더 많은 층의 뉴런을 가진 모델을 선택하고, 과대적합되지 않도록 조기 종료나 규제 기법을 사용하는것이 효과적
TIP; 일반적으로 층의 뉴런 수 보다 층 수를 늘리는 쪽이 이득이 많음

10.3.3 학습률, 배치 크기 그리고 다른 하이퍼파라미터

학습률
- 가장 중요한 하이퍼파라미터
- 일반적으로 최적의 학습률은 최대 학습률의 절반 정도
- 최적의 학습률은 손실이 다시상승하는 지점보다 조금 아래 (일반적으로 상승점보다 약 10배 낮은 지점)
옵티마이저
- 고전적인 평범한 미니배치 경사 하강법보다 더 좋은 옵티마이저를 선택하는 것이 매우 중요
- 11장에서 고급 옵티마이저 참고
배치 크기
- 모델 성능과 훈련 시간에 큰 영향을 미칠 수 있음
- 큰 배치 크기를 사용하는 것의 주요 장점은 GPU와 같은 하드웨어 가속기를 효율적으로 활용할 수 있다는 점
- 큰 배치 크기는 일반화 성능에 영향을 미치지 않고 훈련 시간을 매우 단축
- 학습률 예열을 사용해 큰 배치 크기를 시도한 뒤, 훈련이 불안정 하거나 최종 성능이 만족스럽지 못할 경우 작은 배치 크기 사용
활성화 함수
- 일반적으로 ReLU 활성화 함수가 모든 은닉층에 좋은 기본값
- 출력층의 활성화 함수는 수행하는 작업에 따라 다름
반복 횟수
- 대부분의 경우 훈련 반복 횟수는 튜닝할 필요 없고, 대신 조기 종료를 사용함

10.3 신경망 하이퍼파라미터 튜닝하기

유연성은 신경망의 장점이자 단점, 조절할 하이퍼파라미터가 많음

가능한 조합을 확인해보고 가장 좋은 점수를 내는지 확인

이때, GridSearchCV나 RandomizedSearchCV를 사용해서 하이퍼파라미터 공간을 탐색

def build_model(n_hidden=1, n_neurons=30, learning_rate=3e-3, input_shape=[8]): model = keras.models.Sequential() model.add(keras.layers.InputLayer(input_shape=input_shape)) for layer in range(n_hidden): model.add(keras.layers.Dense(n_neurons, activation="relu")) model.add(keras.layers.Dense(1)) optimizer = keras.optimizers.SGD(learning_rate=learning_rate) model.compile(loss="mse", optimizer=optimizer) return model keras_reg = keras.wrappers.scikit_learn.KerasRegressor(build_model) keras_reg.fit(X_train, y_train, epochs=100, validation_data=(X_valid, y_valid), callbacks=[keras.callbacks.EarlyStopping(patience=10)]) # fit으로 학습 가능

KerasRegressor 클래스 객체를 만듦, KerasRegressor 객체는 build_model() 함수로 만들어진 케라스 모델을 감싸는 간단한 wrapper

하이퍼파라미터가 많으므로 GridSearch보다 RandomizedSearchCV 이용

은닉층 개수, 뉴런 개수, 학습률을 사용해서 하이퍼파라미터 탐색 수행

from scipy.stats import reciprocal from sklearn.model_selection import RandomizedSearchCV param_distribs = { "n_hidden": [0, 1, 2, 3], "n_neurons": np.arange(1, 100).tolist(), "learning_rate": reciprocal(3e-4, 3e-2).rvs(1000).tolist(), } rnd_search_cv = RandomizedSearchCV(keras_reg, param_distribs, n_iter=10, cv=3, verbose=2) rnd_search_cv.fit(X_train, y_train, epochs=100, validation_data=(X_valid, y_valid), callbacks=[keras.callbacks.EarlyStopping(patience=10)]) # 학습... rnd_search_cv.best_params_ # {'learning_rate': 0.005803602934201024, 'n_hidden': 3, 'n_neurons': 74} rnd_search_cv.best_score_ # -0.3189570407072703 model = rnd_search_cv.best_estimator_.model

은닉층 개수, 뉴런 개수, 학습률을 사용해서 하이퍼파라미터 탐색을 수행

RandomizedSearchCV는 K-fold 교차검증을 사용

(X_valid, y_valid)는 데이터 조기 종료에만 사용

실행이 끝나면 랜덤 탐색이 찾은 최상의 하이퍼파라미터와 훈련된 케라스 모델을 얻을 수 있음

효율적으로 하이퍼파라미터 공간을 탐색하는 기법

하이퍼파라미터 값의 범위를 크게 하여 빠르게 첫번째 랜덤 탐색을 수행

첫 번째 탐색에서 찾은 최상의 하이퍼파라미터 값을 중심으로 더 좁은 범위를 탐색

그 외의 파이썬 라이브러리 활용 (ex Hyperopt, Hyperas, 케라스 튜너, Scikit-Optimize, Spearmint, Hyperband, Sklearn-Deap)

구글은 하이퍼파라미터 탐색뿐만 아니라 최적인 신경망 구조를 찾는 진화 전략까지 사용 중 (AutoML 서비스)

njs03332 / ml_study