2023/04/27 ~ 2023/05/11

givitallugot commented 1 year ago

~05/08 월 10:10~ 05/11 목 9:30

givitallugot commented 1 year ago

assign roles -s 0427 -c 13.3.3 13.4 13.5

njs03332 commented 1 year ago

	0	1	2
member	한단비	주선미	김유리
chapter	13.3.3	13.4	13.5

njs03332 commented 1 year ago

13.5 텐서플로 데이터셋 (TFDS) 프로젝트

텐서플로 데이터셋에서 널리 사용하는 데이터셋을 손쉽게 다운로드할 수 있음 (전체 데이터셋 리스트)
텐서플로에 기본으로 포함되어있지 않아 tensorflow-datasets 라이브러리를 설치해야 함
tfds.load() : 원하는 데이터를 다운로드하고 데이터셋의 딕셔너리로 데이터를 반환함

import tensorflow_datasets as tfdx

dataset = tfds.load(name="mnist")
mnist_train, mnist_test = dataset["train"], dataset["test"]

# 원하는 변환을 적용하고 모델을 훈련하기 위한 준비를 마침
mnist_train = mnist_rain.shuffle(10000).batch(32).prefetch(1)
for item in mnist_train:
    images = item["image"]
    labels = item["label"]
    [...]

# 딕셔너리를 튜플 형태로 변환
mnist_train = mnist_train.shuffle(10000).batch(32)
mnist_train = mnist_train.map(lambda items: (items["image"], items["label"]))
mnist_train = mnist_train.prefetch(1)

as_supervised=True로 지정하여 load() 함수를 호출하는 것이 더 간단함
원하는 배치 크기를 지정할 수도 있음
in_memory=True로 설정하면 데이터셋을 메모리로 적재하여 처리 속도를 높일 수 있음
그 후 tf.keras 모델에 바로 이 데이터셋을 전달할 수 있음

dataset = tfds.load(name="mnist", batch_size=32, as_supervised=True)
mnist_train = dataset["train"].prefetch(1)
model = keras.models.Sequential([...])
model.compile(loss="sparse_categorical_crossentropy", optimizer="sgd")
model.fit(mnist_train, epoch=5)

givitallugot commented 1 year ago

13.4 TF 변환

전처리는 훈련과 동시에 수행하는 것보다 사전에 처리하면 속도를 크게 높일 수 있음
물론 데이터셋이 RAM에 들어갈 만큼 충분히 작다면 cache() 메서드를 사용할 수 있음
그러나 데이터가 아주 크면 아파치빔이나 스파크 같은 도구가 도움이 됨 (효율적인 데이터 처리 파이프라인을 수행할 수 있으므로)
앞선 방법들은 훈련 속도를 높일 수 있으나 모델 훈련 후 모바일 앱과 웹 브라우저 등에 동시에 배포 시 유지 보수에 문제가 됨
전처리를 위한 코드를 모두 추가해야 되기 때문에, 전처리 과정을 조금만 변경하더라도 아파치 빔, 모바일 앱, 자바스크립트 코드를 수정해야 함
시간이 많이 걸리고, 에러를 만들 가능성이 높으므로 버그나 성능 감소로 이어짐
해결 방법1: 훈련된 모델을 받아 앱이나 브라우저 배포 전에 전처리 담당 층을 동적으로 추가
해결 방법2: (전처리 연산을 한 번만 정의할 수 있음) TF 변환 이용 가능!

TF 변환

모델 상품화? 배포를 위한 End-to-End 플랫폼
TFX (tensorflow extended) 설치 필요
파이썬으로 스케일링, 버킷 할당 등과 같은 TF 변환 함수로 전처리 함수를 한 번만 정의
```
import tensorflow_transform as tft
```

def preprocess(inputs): # inputs is a batch of input features median_age = inputs["housing_median_age"] ocean_proximity = inputs["ocean_proximity"] standardized_age = tft.scale_to_z_score(median_age - tft.mean(median_age)) ocean_proximity_id = tft.compute_and_apply_vocabulary(ocean_proximity) return { "standardized_median_age": standardized_age, "ocean_proximity_id": ocean_proximity_id }


- 그 다음 아파치 빔을 사용해서 preprocess() 함수를 전체 훈련 세트에 적용할 수 있음
- 이 과정에서 전체 훈련 세트에 대해 필요한 모든 통계를 계산
###
=> 데이터 API, TFRecord, 케라스 전처리 층, TF 변환을 사용해 훈련을 위해 매우 확장성이 좋은 입력 파이프라인을 구축하고 상용 환경에서 빠르고 이식성이 좋은 데이터 전처리를 손쉽게 수행할 수 있음

danbi5228 commented 1 year ago

13.3.3 케라스 전처리 층

앞서 확인한 전처리 층
- keras.layers.Normalization: 특성 표준화 수행
- TextVectorization: 입력에 있는 각 단어를 어휘 사전에 있는 인덱스로 인코딩
- 두 경우 모두 층을 만들고, 샘플 데이터로 adapt() 메서드를 호출한 다음 일반적인 층처럼 모델에 사용할 수 있음
Discretization: 연속적인 데이터를 몇 개의 구간으로 나누고 각 구간을 원-핫 벡터로 인코딩
- 잃는 정보가 많지만 연속적인 값으로 볼 때 확실하지 않은 패턴을 감지하는 데 도움이 될 수 있음
ProcessingStage 클래스를 사용해 여러 전처리 층을 연결할 수 있음

normalization = keras.layers.Normalization()
discretization = keras.layers.Discretization([..])
pipeline = keras.layers.PreprocessingStage([normalization, discretization])
pipeline.adapt(data_sample)

TextVectorization 층은 단어 카운트 벡터를 출력하는 옵션을 가지고 있음
- 자주 등장하지 않는 단어가 중요한 단어일 확률이 높음
- 단어 카운트는 자주 등장하는 단어의 중요도를 줄이는 방향으로 정규화 되어야 함
- 자주 사용되는 방법은 TF-IDF; 전체 샘플 수를 단어가 등장하는 훈련 샘플 개수로 나눈 로그를 계산한 후 단어 카운트와 곱하는 것

--> 케라스 전처리 층을 사용하면 전처리 과정을 훨씬 간단히 처리할 수 있음. 자신만의 전처리 층이든, 케라스의 전처리 층을 사용하든 모든 전처리 과정이 동시에 수행될 수 있음

njs03332 / ml_study