jongfeel commented 2 years ago

참여 방법:

Assignees에 자신의 github 계정을 self로 추가 2시간 분량의 할 내용에 대해 댓글 작성 (최소 모임 시작 전까지) 빛의 속도 혹은 (주말, 휴일 포함) 최소 3일 내에 구글 캘린더 등록 메일 확인 모임 시간에 각자 개발 관련된 공부 진행

시작: 10시 30분
할 것 이야기: 5분 ~ 10분 간 진행
진행: 2시간, 하지만 쉬는 시간 및 기타 잡일 감안해서 1시간 ~ 1시간 30분 정도로 진행
한 것 이야기: 최대한 12시 40분까지, 조금 오버할 수 있음 (오래 하면 30분 얘기하기도 함)

모임 끝난 후 공부한 내용 정리 & 링크 추가 => 최소 다음 모각코 전까지 확인 가능해야 함.

주의: 회사일 혹은 마감 기한 임박한 일 처리의 경우는 최대한 자제해 주세요. 주말 아침에 일하면 우울하니까요. ㅜㅜ

chichoon commented 2 years ago

오늘 할 일

블로그 글 하나 쓰기 (아마 리액트 또는 로그인 관련)

한 일

쿠키와 세션 로그인, 인증, 인가 JWT (작성중)

jongfeel commented 2 years ago

오브젝트 읽고 정리하기

https://github.com/jongfeel/objects/issues/83

wjrmffldrhrl commented 2 years ago

BigQuery 정리

데이터 세트

https://cloud.google.com/bigquery/docs/datasets-intro?hl=ko

exgs commented 2 years ago

할 일

책 읽기: '리눅스 커널 이야기' 읽기

한 일

야크 털 깎기, 하지만 야크 털 깎기는 필요악
커널 공부도 그러하네요 ㅎㅎ.. 책읽다가 서칭하다가, 서칭, 서칭, 서칭만 하게되는

socket과 core에 대한 구분

소켓은 물리적인 cpu의 개수를 의미하고 코어는 물리적인 cpu 안에 몇개의 컴퓨팅 코어가 있는지를 뜻한다.

Linux command for system engineering

uname -a show linux kernel version 'dmesgring buffer 형태로 operation of kernel의 message를 보여준다. dmidecode -t processor` cpu, core에 대한 정보를 알 수 있다.

linux kernel

dmesg를 이용해 확인하는 커널 정보 외에 현재 사용 중인 커널의 컴파일 옵션도 확인할 필요가 있다.

커널이 하는 역활

Management: PM, MM
Network
Device: peripheral device

커널이 프로세스를 생성할 때 프로세스마다 고유한 스택 공간을 마련한다. 이 스택 공간(0x80C00000 ~ 0x80C02000 : ARM architecture)에 struct thread_info 구조체 필드가 저장되었다. 이 구조체 필드는 커널이 프로세스를 제어할 때 중요한 정보(선점 스케쥴 여부, 프로세스 컨택스트 정보, 레지스터 세트)를 담고 있다.

wjrmffldrhrl commented 2 years ago

데이터 세트

데이터세트는…

특정 프로젝트에 포함된다.
테이블과 뷰에 대한 액세스를 구성 및 제어하는데 사용되는 최상위 컨테이너이다.
테이블이나 뷰는 반드시 데이터세트에 속해야 한다.

제한사항

지리적 위치는 데이터 세트를 만들 때에만 사용할 수 있다.
- 변경 불가
쿼리에서 참조하는 모든 테이블은 같은 위치의 데이터 세트에 저장해야 한다.
테이블을 복사할 때 소스 테이블과 대상 테이블을 포함하는 데이터 세트는 같은 위치에 있어야 한다.
프로젝트마다 데이터 세트 이름이 달라야한다.

위치

BigQuery에서는 두 가지 유형의 위치를 사용한다.

리전 : 특정한 지리적 장소 (ex: 런던)
멀티 리전 : 두 개 이상의 지리적 장소를 포함하는 넓은 지리적 지역 (ex: 미국)

데이터 세트를 만들 때는 BigQuery 데이터를 저장할 위치를 지정해야 하며, 데이터 세트를 만든 후에는 위치를 변경할 수 없다.

데이터 세트를 다른 위치에 복사하거나 수동으로 다른 위치에 데이터 세트를 다시 만들 수 있다.

BigQuery는 데이터를 로드, 쿼리, 내보내기를 수행할 때 요청에서 참조된 데이터 세트를 토대로 작업을 실행할 위치를 결정한다.

쿼리가 데이터 세트에 포함된 리소스를 참조하지 않으면 쿼리 작업은 US 멀티 리전에서 실행된다.
수동으로 지정한 위치와 요청한 데이터 세트의 위치가 일치하지 않으면 오류를 반환한다.
멀티 리전에 단일 리전이 연결된 경우에도 오류를 반환한다.

고려사항

외부 데이터 소스를 사용할 때 BigQuery 데이터 세트를 같은 위치에 배치해야한다.
- Cloud Storage: 같은 위치에 있어야 함
- Cloud Bigtable: 같은 위치에 있어야 함
- Drive: 해당사항 없음
분석 도구와 BigQuery 데이터 세트를 같은 위치에 배치해야 한다.
- Dataproc: BigQuery 커넥터를 사용하는 경우 같은 위치에 배치해야 함
데이터 로드용 GCS bucket을 같은 위치에 배치한다.
데이터 내보내기를 위한 GCS bucket을 같은 위치에 배치한다.

만들기

데이터 세트는 아래와 같은 방법들로 만들 수 있다.

콘솔
SQL
bq cli에서 bq mk 명령어 사용
sdk 사용
기존 데이터 세트 복사

필수 권한

데이터 세트를 만들기 위해서는 bigquery.datasets.create IAM 권한이 필요하다.

아래 역할에는 데이터 세트를 만드는데 필욯나 권한이 포함되어 있다.

roles/bigquery.dataEditor
roles/bigquery.dataOwner
roles/bigquery.user
roles/bigquery.admin

콘솔

BigQuery 콘솔에서 작업 옵션을 펼치고 데이터 세트 만들기 선택
테이터 세트 ID, 위치, 테이블 만료 지정 후 생성

SQL

아래와 같은 쿼리 수행

CREATE SCHEMA PROJECT_ID.DATASET_ID
  OPTIONS (
    default_kms_key_name = 'KMS_KEY_NAME',
    default_partition_expiration_days = PARTITION_EXPIRATION,
    default_table_expiration_days = TABLE_EXPIRATION,
    description = 'DESCRIPTION',
    labels = [('LABEL_1','VALUE_1'),('LABEL_2','VALUE_2')],
    max_time_travel_hours = HOURS);

PROJECT_ID: 프로젝트 ID
DATASET_ID: 생성할 데이터 세트 ID
KMS_KEY_NAME: 데이터 세트에서 생성된 테이블을 보호하는데 사용되는 Key Management Service 키의 이름
PARTITION_EXPIRATION: 새로 생성된 파티션을 나눈 테이블의 파티션 기본 수명
TABLE_EXPIRATION: 새로 생성된 테이블읠 기본 수명 (초)
- 최소값은 3,600초
DESCRIPTION: 데이터 세트에 대한 설명
LABEL, VALUE: 데이터 세트 라벨
HOURS: ???

bq cli

--location 플래그와 함께 ba mk 명령 실행

bq --location=LOCATION mk \
    --dataset \
    --default_kms_key=KMS_KEY_NAME \
    --default_partition_expiration=PARTITION_EXPIRATION \
    --default_table_expiration=TABLE_EXPIRATION \
    --description="DESCRIPTION" \
    --label=LABEL_1:VALUE_1 \
    --label=LABEL_2:VALUE_2 \
    --max_time_travel_hours=HOURS \
    PROJECT_ID:DATASET_ID

sdk (python)

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set dataset_id to the ID of the dataset to create.
# dataset_id = "{}.your_dataset".format(client.project)

# Construct a full Dataset object to send to the API.
dataset = bigquery.Dataset(dataset_id)

# TODO(developer): Specify the geographic location where the dataset should reside.
dataset.location = "US"

# Send the dataset to the API for creation, with an explicit timeout.
# Raises google.api_core.exceptions.Conflict if the Dataset already
# exists within the project.
dataset = client.create_dataset(dataset, timeout=30)  # Make an API request.
print("Created dataset {}.{}".format(client.project, dataset.dataset_id))

정보 가져오기

데이터 세트를 나열하기 위해 아래와 같은 방법을 사용할 수 있다.

콘솔
INFORMATION_SCHEMA SQL 쿼리 사용
bq cli에서 bq ls 사용
datasets.list API 메서드 호출
sdk

위 동작을 수행하기 위해서는 bigquery.datasets.get IAM 권한이 필요하다.

이 권한이 포함된 역할은 아래와 같다.

roles/bigquery.user
roles/bigquery.dataOwner
roles/bigquery.dataEditor
roles/bigquery.admin

콘솔

탐색기 패널에서 검색

SQL

SELECT
  schema_name
FROM
  PROJECT_ID.INFORMATION_SCHEMA.SCHEMATA;

bq cli

bq ls --filter labels.key:value \
--max_results integer \
--format=prettyjson \
--project_id project_id

--filter 를 사용해서 일치하는 데이터 세트를 나열할 수 있다.

라벨 키 및 값의 목록을 labels.key:value와 같은 형태로 사용한다.

--max_results 또는 -n을 사용해서 최대 결과 수를 제어할 수 있다.

sdk (python)

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

datasets = list(client.list_datasets())  # Make an API request.
project = client.project

if datasets:
    print("Datasets in project {}:".format(project))
    for dataset in datasets:
        print("\t{}".format(dataset.dataset_id))
else:
    print("{} project does not contain any datasets.".format(project))

정보를 가져오는 방법도 비슷하다.

콘솔

탐색기 패널에서 데이터 세트를 선택한 세트 정보 확인

bq cli

bq show 명령어를 통해 정보를 확인할 수 있으며 --format 플래그를 사용하여 출력을 제어할 수 있다.

bq show --format=prettyjson project_id:dataset

sdk (python)

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set dataset_id to the ID of the dataset to fetch.
# dataset_id = 'your-project.your_dataset'

dataset = client.get_dataset(dataset_id)  # Make an API request.

full_dataset_id = "{}.{}".format(dataset.project, dataset.dataset_id)
friendly_name = dataset.friendly_name
print(
    "Got dataset '{}' with friendly_name '{}'.".format(
        full_dataset_id, friendly_name
    )
)

# View dataset properties.
print("Description: {}".format(dataset.description))
print("Labels:")
labels = dataset.labels
if labels:
    for label, value in labels.items():
        print("\t{}: {}".format(label, value))
else:
    print("\tDataset has no labels defined.")

# View tables in dataset.
print("Tables:")
tables = list(client.list_tables(dataset))  # Make an API request(s).
if tables:
    for table in tables:
        print("\t{}".format(table.table_id))
else:
    print("\tThis dataset does not contain any tables.")

삭제

아래 방법으로 데이터 세트를 삭제할 수 있다.

콘솔
DROP SCHEMA DDL 사용
bq cli에서 bq rm 명령어 사용
sdk 사용

데이터 세트를 삭제하기 위해서는 다음 IAM 권한이 필요하다.

bigquery.datasets.delete
bigquery.tables.delete

이러한 권한은 아래 역할에 포함되어 있다.

roles/bigquery.dataOwner
roles/bigquery.admin

콘솔

데이터 세트 삭제 클릭

SQL

DROP SCHEMA IF EXISTS mydataset;

bq cli

bq rm 명령어를 --dataset 또는 -d 플래그와 함께 사용하여 데이터 세트를 삭제한다.

bq rm -r -f -d project_id:dataset

-f플래그를 사용하면 확인을 건너뛸 수 있다.

프로젝트 id를 포함하면 -d 플래그를 사용하지 않아도 된다.

bq rm -r -f myotherproject:mydataset

sdk (python)

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set model_id to the ID of the model to fetch.
# dataset_id = 'your-project.your_dataset'

# Use the delete_contents parameter to delete a dataset and its contents.
# Use the not_found_ok parameter to not receive an error if the dataset has already been deleted.
client.delete_dataset(
    dataset_id, delete_contents=True, not_found_ok=True
)  # Make an API request.

print("Deleted dataset '{}'.".format(dataset_id))

데이터 세트의 시간 이동 기간 내에 있는 경우 삭제된 데이터 세트를 복원할 수 있다.

새 데이터 세트 만들기
```
bq mk tmp_dataset
```
원본 데이터 세트가 삭제되기 전 타임스탬프 사용
- ex) 1418864998000
[INFORMATION_SCHEMA.TABLE_STORAGE_TIMELINE](https://cloud.google.com/bigquery/docs/information-schema-table-storage-timeline?hl=ko) 뷰에 쿼리를 실행하고 복원할 테이블 식별
```
SELECT
  TABLE_NAME
FROM
  `region-REGION`.INFORMATION_SCHEMA.TABLE_STORAGE_TIMELINE
WHERE
  TABLE_SCHEMA = "ORIGINAL_DATASET_NAME"
AND
  DELETED = true;
```
1418864998000 시점의 original_dataset.table1 테이블을 새 tmp_dataset 데이터 세트에 복사
```
bq cp original_dataset.table1@1418864998000 tmp_dataset.table1
```

가용성 및 내구성

장애 도메인

Google Cloud 데이터 센터에서 발생할 수 있는 장애에 대한 장에 도메인 유형은 다음과 같다.

머신 수준
- 영역 내에서 전체가 아닌 단일 또는 일부 머신에 영향을 미치는 장애
  - ex) 단일 머신에 대한 하드웨어 장애
영역
- 영역에는 여러 장애 도메인이 있지만 동일한 지리적 위치에 여러 영역이 함께 있을 수 있다.
  - ex) 건물 화재, 정전, 광섬유 케이블 절단, 네트워크 파티션
리전
- 여러 영역으로 구성된 전체 리전에 영향을 미치는 장애
  - ex) 허리케인 및 대규모 지진

장애 유형

소프트 장애
- 하드웨어가 파괴되지 않는 작업 결함
  - ex) 전원 오류, 네트워크 파티션 또는 머신 비정상 종료
- BigQuery는 장애로 인해 하드웨어가 손상된 경우에도 소프트 장애로 인해 데이터 손실이 발생하지 않아야 한다.
하드 장애
- 하드웨어가 파괴되는 작업 결함
  - ex) 홍수, 테러리스트 공격, 지진, 허리케인

가용성 및 내구성

BigQuery 데이터 세트를 만들 때 데이터를 저장할 위치(리전, 멀티리전)을 선택 하는데 선택한 위치 내에서 두 개의 서로 다른 영역에 데이터 복사본을 자동으로 저장한다.

리전은 영역들로 구성되는 독립적인 지리적 위치

BigQuery는 여러 가용성 영역에 걸쳐 중복 스토리지와 컴퓨팅을 결합하여 고가용성과 내구성을 제공한다.

머신 수준 장애가 발생하는 경우 약간의 밀리초 지연만 있을 뿐 계속 실행된다.
소프트 또는 하드 영역 장애가 발생하더라도 데이터 손실은 발생하지 않는다.
- 실행 중인 쿼리가 실패하여 다시 제출해야할 수 있다.

리전 장애로 인해 리전이 다시 온라인 상태가 될 때까지 가용성이 손실될 수 있지만 데이터는 손실되지 않는다.

하드 리전 장애가 발생하는 경우 해당 리전에 저장된 데이터가 손실될 수 있다.
- 이를 방지하기 위해 리전간 데이터 세트 복사본을 만들 수 있다.

Reference

BigQuery 스토리지 개요 | Google Cloud

BigQuery - clustering 이야기

Impact of dataset locations on BigQuery query execution performance

ThinkAboutSoftware / OnlineSelfCodingGroup

99th online meetup, 2022-10-08 #167

참여 방법:

오늘 할 일

한 일

오브젝트 읽고 정리하기

BigQuery 정리

데이터 세트

할 일

한 일

socket과 core에 대한 구분

Linux command for system engineering

linux kernel

데이터 세트

제한사항

위치

고려사항

만들기

필수 권한

콘솔

SQL

bq cli

sdk (python)

정보 가져오기

콘솔

SQL

bq cli

sdk (python)

콘솔

bq cli

sdk (python)

삭제

콘솔

SQL

bq cli

sdk (python)

가용성 및 내구성

장애 도메인

장애 유형

가용성 및 내구성

Reference