njs03332 commented 1 year ago

13.1 / 13.1.1 / 13.1.2
3/30 목 21:30

njs03332 commented 1 year ago

assign roles -s 0323 -c 13.1 13.1.1 13.1.2

njs03332 commented 1 year ago

	0	1	2
member	주선미	김유리	한단비
chapter	13.1	13.1.1	13.1.2

njs03332 commented 1 year ago

13.1.1 연쇄 변환

데이터셋에 대해 변환 메서드를 호출하면 여러 종류의 변환 수행 가능

# 원본 데이터셋의 아이템을 세 차례 반복 -> 7개씩 그룹으로 묶기
dataset = dataset.repeat(3).batch(7)
for item in dataset:
print(item)

batch() 메서드에서 drop_remainder=True로 설정하면 길이가 모자란 마지막 배치를 버리고 모든 배치를 동일한 크기로 맞춤

# map() : 각 아이템에 변환 적용
dataset = dataset.map(lambda x: x * 2)

# apply() : 데이터셋 전체에 변환 적용
dataset = dataset.apply(tf.data.experimental.unbatch())

# filter() : 데이터셋 필터링
dataset = dataset.filter(lambda x: x < 10)

# take() : 데이터셋에 있는 몇 개의 아이템만 보기
from item in dataset.take(3):
    print(item)

map() 메서드에 num_parallel_calls 매개변수를 지정하면 여러 스레드로 나누어 속도를 높일 수 있음
unbatch() : 배치를 다시 하나의 텐서로 만듦

danbi5228 commented 1 year ago

13.1.2 데이터 셔플링

경사 하강법은 훈련 세트에 있는 샘플이 독립적이고 동일한 분포일 때 최고의 성능을 발휘함
- 이를 위해 간단하게는, shuffle 메서드를 사용하여 샘플을 섞어 줄 수 있음

p.508

dataset = tf.data.Dataset.range(10).repeat(3) # 0 ~ 9 까지 세 번 반복 dataset = dataset.shuffle(buffer_size=5, seed=42).batch(7)

for문 반복시 tf.Tensor([0 2 3 6 7 9 4], shape(7,), dtype=int64) 와 같은 형태로 반환

repeat 메서드 호출 시 반복마다 새로운 순서를 생성하지 못하도록 설정; reshuffle_each_iteration=False

- 메모리 용량보다 큰 대규모 데이터셋은 버퍼가 데이터셋에 비해 작으므로
간단한 셔플링 외에 원본 데이터 자체를 섞어주면 셔플링 효과가 크게 향상됨 (ex. 리눅스 shuf 명령어를 통한 텍스트 섞기)

#### 여러 파일에서 한 줄씩 번갈아 읽기
```python

## 1. 파일 경로가 담긴 리스트 정의

## train_filepaths = 'filepath/my_train_*.csv' # 파일 패턴으로도 가능
train_filepaths = ['filepath/my_train_00.csv', 'filepath/my_train_01.csv', ...] # len = 5

## 2. 파일 경로 섞기 - list_files 함수는 파일 경로를 섞은 데이터셋 반환. 섞지 않길 원한다면 shuffle=False 지정

filepath_dataset=tf.data.Dataset.list_files(train_filepaths, seed=42)

## 3. 파일 번갈아 읽기 - 각 파일의 헤더 (첫번째 행)는 제외하기 위히 skip 메서드 사용
## interleave 데이터셋을 반복 구문에 사용해서 TextLineDataset 을 순회. 아이템이 소진될때까지 한번에 한 줄씩 읽음
## interleave 가 잘 동작하려면 파일 길이가 동일한 것이 좋음

n_readers = 5 # 파일 수
dataset = filepath_dataset.interleave(
lambda filepath: tf.data.TextLineDataset(filepath).skip(1), cycle_length=n_readers)

## interleave 병렬화를 사용하려면 num_parallel_calls 로 스레드 개수 지정
## 이 개수를 tf.data.experimental.AUTOTUNE으로 지정시 텐서플로가 가용한 CPU 기반으로 동적으로 적절한 스레드 수 지정

최종 결과가 바이트 스트링이므로 파싱이 필요함. 스케일 조정도 필요..!

givitallugot commented 1 year ago

13. 텐서플로에서 데이터 적재와 전처리하기

텐서플로의 데이터 API 덕분에 데이터셋을 효율적으로 로드하고 전처리할 수 있음
멀티 스레딩, 큐, 배치, 프리페치 같은 상세한 사항을 모두 대신 처리
기본 기능: 텍스트, CSV 파일, 고정 길이의 레코드를 가진 이진 파일, 텐서플로의 TFRecord 포맷을 사용하는 이진 파일에서 데이터 읽을 수 있음, 또한 SQL에서 읽는 기능도 지원
전처리 기능: keras 기본 기능과 더불어 원-핫 인코딩, BoW 인코딩, 임베딩 등을 사용한 전처리를 위해 사용자 전처리 층을 만드는 방법도 존재
텐서플로 생태계 관련 프로젝트: TF 변환: 훈련 전에 전체 훈련 세트에 대해 실행하는 전처리 함수 작성, TF 데이터셋: 이미지넷과 같은 대용량 데이터를 포함해서 각종 데이터셋을 다운로드할 수 있는 함수 제공

13.1 데이터 API

X = tf.range(10)
dataset = tf.data.Dataset.from_tensor_slices(X)
dataset
# <TensorSliceDataset shapes: (), types: tf.int32>

from_tensor_slices() 함수는 텐서를 받아 X의 각 원소가 아이템으로 표현되는 tf.data.Dataset을 만듦, 즉 텐서 0,1,2, ..., 9에 해당하는 10개의 아이템을 가짐, 아래 만든 것과 동일함

dataset = tf.data.Dataset.range(10)

for item in dataset:
    print(item)

# tf.Tensor(0, shape=(), dtype=int64)
# tf.Tensor(1, shape=(), dtype=int64)
# tf.Tensor(2, shape=(), dtype=int64)
# tf.Tensor(3, shape=(), dtype=int64)
# tf.Tensor(4, shape=(), dtype=int64)
# tf.Tensor(5, shape=(), dtype=int64)
# tf.Tensor(6, shape=(), dtype=int64)
# tf.Tensor(7, shape=(), dtype=int64)
# tf.Tensor(8, shape=(), dtype=int64)
# tf.Tensor(9, shape=(), dtype=int64)

njs03332 / ml_study

2023/03/24 ~ 2023/03/30 #63

13.1.1 연쇄 변환

13.1.2 데이터 셔플링

p.508

for문 반복시 tf.Tensor([0 2 3 6 7 9 4], shape(7,), dtype=int64) 와 같은 형태로 반환

repeat 메서드 호출 시 반복마다 새로운 순서를 생성하지 못하도록 설정; reshuffle_each_iteration=False

13. 텐서플로에서 데이터 적재와 전처리하기

13.1 데이터 API