dragon0170 commented 5 years ago

Reference

160

multi query, fetch 시나리오에 적합한 Query Interface를 설계하려고 합니다.

유저 시나리오

google maps에서 검색하는 시나리오와 비슷한 방식으로 timeseries query 시나리오 생성(https://github.com/paust-team/paust-db/issues/145#issuecomment-475202619)

지도 화면을 여의도로 두고 검색창에 "식당"을 검색하면 여러 개의 검색 결과 리스트가 출력됨. 이때의 결과 리스트는 해당하는 식당의 모든 정보를 가져오는 것이 아니라 상호명, 위치 등 일부만 가져와서 사용자에게 보여줌.
검색 결과 리스트에서 한 두개의 검색결과를 상세보기를 눌러서 실제 상세한 식당 정보를 확인.
몇몇 식당의 실제 정보를 보니 원하는 검색 결과가 아니라는 것을 사용자가 알게되면 "한식식당"과 같이 새로운 키워드로 검색을 함.
새로운 리스트에서 몇몇 식당의 상세 정보를 살펴보고 원하는 정보면 해당 검색 결과를 사용자가 사용함.

위 시나리오와 비슷한 느낌의 timeseries 데이터에 대한 multi query, fetch 시나리오는 다음과 같습니다.

start, end timestamp와 qualifier로 구성된 Query를 사용자가 paust-db로 보내면 iterator를 return 받음.
iterator의 Next operation을 통해 operation이 실행될 때마다 실제 데이터를 하나하나씩 fetch해서 가져올 수 있음.
초반 몇 개의 데이터를 보고 원하는 데이터가 아니면 기존의 Query를 수정해서 새로운 Query를 paust-db에 보냄. 예를 들어 start 시간을 1주일 더 과거로 변경.

iterator의 Next operation을 통해 fetch한 몇개의 데이터를 확인하고 원하는 데이터면 나머지 데이터를 모두 iteration해서 가져옴.

Client Query Interface 및 REPL console 사용 example(Go language)

Initialization

db, err := pdb.GetPaustDB("localhost:26657")

Put

err := db.Qualifier('key1','value1').Qualifier('key2','value2').Data('data').Put()

// console example
> db, err := pdb.GetPaustDB("localhost:26657")
> db.Put(~~~)
nil / Error - ~~~

Query

var it PDBIterator
err := db.From(timestamp1).To(timestamp2).Has('key', 'value').Query(&it)


// console example
> db, err := pdb.GetPaustDB("localhost:26657")
> var it PDBIterator
> db.~~~.Query(&it)
nil / Error - ~~~
> it.Next()
"First Data"
> it.Next()
"Second Data"
// 유저가 원하는 데이터라고 판단되어서 다 가져옴
// console 상에서는 iterator가 있으면 자동을 iterate하여서 모든 데이터 출력하도록 함
> it
"Third Data"
"Fourth Data"
"Fifth Data"
"Last Data"
// 새로운 데이터를 Query하기 위해 from, to, has 등의 field를 clear
> db.Clear()
nil / Error - ~~~
> db.~~~.Query(&it)
nil / Error - ~~~
> it
~~~
~~~

// multi query, fetch

db, err := pdb.GetPaustDB("localhost:26657") var it PDBIterator db.~~~.Query(&it) nil / Error - ~~~ it.Next() "First Data" it.Next() "Second Data" // 유저가 원하는 데이터가 아니다고 판단. From timestamp 변경해서 새롭게 Query db.From(another_timestamp).Query(&it) nil / Error - ~~~ it.Next() "Another First Data" it.Next() "Another Second Data" // 원하는 데이터라고 판단되어서 다 가져옴 it "Another Third Data" "Another Fourth Data" "Another Last Data"
#### 추후 생각해볼만한 기능
* streaming interface
* pagination interface

elon0823 commented 5 years ago

다른곳에서도 it 하면 iterator 의 처음부터 다 가져오는게아니라 current cursor 부터 끝까지의 데이터를 가져오게끔되나요?

dragon0170 commented 5 years ago

@elon0823 네 iterator의 현재 위치부터 for문을 돌면서 iterator가 끝날때까지 돌아가는 방식입니다. 위 방식은 Apache TinkerPop의 Gremlin Console에서 traversal 결과의 iterator 처리를 참고해서 만들었습니다.

1dennispark commented 5 years ago

음... 너무 REPL에 의존성을 두고 설계하는 것은 아닐까 싶네요. 제가 말한 interactive는 query들이 같은 context를 갖도록 하는 것이었습니다.

예를 들면, db.QueryContext(_).query().query().fetch().query().close() 이런 형태로 QueryContext로 context를 시작하고 마지막에 close로 context가 끝났다는 것을 명시해줄 수 있도록 할 수 있어야합니다.

사실 REPL은 직접 라이브러리를 사용하는 어플리케이션의 입장에서는 사용하기 힘들고 사용자의 interactive 만을 고려한 방식입니다.

실제 API로써 쓸 수 있는 프로그래밍 가능한 인터페이스는 아니라는 것이죠. 그러면 Application에서 사용할 수 있도록 만들려면 context가 존재해야할 것입니다.

dragon0170 commented 5 years ago

@co1god go의 context 기본 패키지를 이용해 context 개념을 도입해보았습니다.(https://golang.org/pkg/context/)

// API 사용 example

db := pdb.GetPaustDB(endpoint)
ctx := db.QueryContext()
var data pdb.Data
var allData []pdb.Data

ctx.Query(From(timestamp1),To(timestamp2),Has('key1','value1'))
ctx.Fetch(&data)
ctx.Fetch(&data)
ctx.Query(Has('key2','value2'))
ctx.Fetch(&data)
ctx.FetchAll(allData)
ctx.Close()

// interface

type QueryContext struct {
  endpoint string
  it PDBIterator
  ...
  context context.Context
}

// interface implementation

func (ctx *QueryContext) Query(opts ...QueryOption) *QueryContext {
  ...
  // query option을 모두 QueryContext내의 context에 WithValue 함수를 통해 저장

  timeoutCtx, cancel := context.WithTimeout(ctx.Context(), time.Second * 5)
  defer cancel()

  response := make(chan QueryResponse)
  defer close(response)

  go func() {
        // paust-db에 실제로 query를 보내고 response를 받는 부분
        response <- queryPDB(timeoutCtx)
  }

  select {
        case result := <-response:
            // query response가 돌아옴
            // paust-db에 query한 결과를 QueryContext내에 iterator로 담기
        case <-timeoutCtx.Done():
            // response가 오기전에 timeout 발생
  }
}

func (ctx *QueryContext) Fetch(*Data) *QueryContext {
  // iterator fetch한 데이터를 Data 변수에 담아서 주기
  // iterator에서 Next operation 역할
}

func (ctx *QueryContext) FetchAll([]Data) *QueryContext {
  // iterator가 끝날때까지 돌면서 fetch한 데이터를 Data slice로 담아서 주기
}

dragon0170 commented 5 years ago

@code-to-gold 피드백 결과, 여러 range에 대한 query와 같이 다양한 유저 시나리오에 대해 구체화하고 이런 시나리오들을 충족할 수 있는 paust-db client의 context를 설계할 예정입니다.

dragon0170 commented 5 years ago

timeseries data streaming 시나리오의 데이터 flow 관점에서 생각해보았습니다. 간단히 생각해본 timeseries data streaming에 대한 예시는 다음과 같은 것들이 있습니다.

video stream
- cctv 모니터링
- 공장 카메라, 보안 카메라 스트리밍
- 1인 방송 스트리밍
sensor data stream
- IOT 디바이스
- 공장 sensor
주식 가격 stream
- 암호화폐 가격 stream

이런 예시들의 공통점은 특정 streaming source로부터의 데이터를 실시간으로 그리고 지속적으로 관찰/사용한다는 것입니다. 이 포인트에서 데이터의 flow를 살펴보겠습니다.

데이터를 put 하는 과정(생산자)

데이터를 계속해서 하나씩 생산하면서 put을 함 (ex. 센서 값이나 비디오의 프레임을 지속적으로 put 함)
하나의 put API를 계속 호출하거나 put용 stream을 만들고 해당 stream에 데이터를 쓰는 방식이 될 듯
데이터는 tx에 담겨서 PDB에 보내지고 consensus를 통해서 확정됨
데이터를 query하는 과정(소비자)
데이터를 streaming 하기위해 query를 할 때는 일반적으로 원하는 데이터가 명확함
- 비디오 스트림의 경우는 보통 하나의 source에 대해서 쭉 지켜보는 방식으로 소비가 됨
- IOT 디바이스의 센서는 동시에 여러 센서 값을 필요로 하는 경우가 있지만 이 경우에도 어떤 source들로부터 스트림을 받는지는 명확히 정해져있음
가장 처음 생각했던 시나리오인 fetch를 몇 개 해보고 query를 다시 수정해서 보내는 방식은 streaming보다는 db를 검색하는 방식과 더 유사함
streaming의 경우에는 처음 query를 할 때는 제대로 된 데이터인지 확인하고 query를 수정하는 절차가 필요할 수 있지만 그 이후에는 특정 query context에 해당하는 데이터를 지속적으로 받아서 소비하는 형태가 될 것 같음
결국 여러개의 데이터 stream을 동시에 볼 필요가 있다면 특정 stream마다 iterator가 따로따로 필요함. 즉, 여러개의 iterator를 client에서 사용하는 형태가 될 것으로 보임
- 하나의 query context에 하나의 iterator만 존재
- 사용자가 query context를 기준으로 데이터 stream을 관리
- 하나의 query context에 여러개의 iterator가 존재
- iterator의 slice나 map을 갖고 있음
- 사용자가 context 내의 iterator를 각각 구분해서 사용해야 함
streaming의 경우 query context에서 time range만 매번 새롭게 업데이트하면서 query를 보내 iterator를 갈아치우는 형태일 것 같음
- loop 내에서 query context의 time range를 (t1, t2)에서 (t2, t3)로 변경하고 query를 하는 과정이 반복
- 그러면서 매번 query의 response에서 가져온 iterator로부터 데이터들을 모두 fetch하면서 streaming 어플리케이션에서 사용
- amazon kinesis data streams의 Client API example을 참고함(https://docs.aws.amazon.com/streams/latest/dev/developing-consumers-with-sdk.html#kinesis-using-sdk-java-get-data-getrecords)

dragon0170 commented 5 years ago

@co1god @code-to-gold @elon0823 피드백 해주시기 바랍니다

Put(저장) 시나리오

저장할 서버(node) 설정 생성
저장할 데이터의 메타 정보가 모두 하나로 동일하다면 메타 정보 설정 생성
설정값들이 반영된 Put 객체 생성. 추후 다른 설정이 추가될 수 있음.
시간의 흐름에 따라 생성되는 데이터를 저장하기 위해 위에서 생성한 Put 객체에서 저장 기능 호출
- 호출할 때 받는 정보는 저장할 데이터, 저장할 데이터의 메타 정보(데이터 종류, 데이터 source 정보 등)
  - 저장용 객체에 메타 정보 설정이 되어있으면 저장할 데이터만 받음
- 데이터를 저장하는 현재 시점이 데이터의 timestamp로 지정됨
- 두 가지 종류의 저장 기능이 존재하고 사용자가 필요한 방식을 사용
  - 한 번에 하나의 데이터만 저장
  - 한 번에 여러개의 데이터를 atomic하게 저장
- 데이터 저장이 성공했는지 실패했는지 알 수 있음
Put 객체가 현재 바라보고 있는 서버 정보 출력 가능
Put 객체를 더 이상 쓰지 않으면 close 기능 호출

Query(검색/스트리밍) 시나리오

데이터를 가져올 서버(node)를 설정
설정값이 반영된 Query 객체 생성. 추후 다른 설정이 추가될 수 있음.
- Query 객체를 통해 데이터 검색, 스트리밍을 함
특정 데이터를 찾기위한 검색/탐색
- 데이터 필터 설정하기
  - 시간 범위에 대한 필터
    - 가져올 데이터의 시작 시간과 끝 시간 설정
  - 메타 정보에 대한 필터
    - 특정한 메타 정보와 정확히 일치하는 데이터를 원하는 필터
    - 특정한 메타 정보와 일부가 일치하는 데이터를 원하는 필터
    - 필터간의 OR, AND 조합 가능
  - 시간 순/역순 정렬에 대한 필터
    - 과거의 데이터부터 원하는지 최신의 데이터부터 원하는지 설정
  - split 필터
    - 한번에 가져올 데이터의 시간 범위를 설정하는 필터
    - 한번에 가져올 데이터의 개수를 설정하는 필터
- 데이터 가져오기 실행
  - 현재 설정된 필터 기반으로 해당하는 데이터를 가져옴
  - 하나의 데이터에는 저장한 데이터, 저장한 데이터의 메타 정보, 저장한 데이터의 timestamp가 포함됨
  - split 필터가 설정되어 있는 경우 전체 데이터가 아닌 설정된 범위 크기의 일부 데이터만 가져옴
    - 나머지 데이터는 사용자의 필요에 따라 필터에서 설정된 범위 만큼씩 가져올 수 있음
      - 그 다음 범위 가져오기
      - 그 이전 범위 가져오기
- 필터 clear, 필터 수정 가능
  - 필터 clear 후 새로 필터를 설정하거나 기존의 필터를 수정하고 새로운 데이터를 가져올 수 있음
특정 데이터를 지속적으로 가져오기 위한 스트리밍
- source 필터 설정하기
  - 메타 정보에 대한 필터
    - 특정한 메타 정보와 정확히 일치하는 source를 원하는 필터
    - 특정한 메타 정보와 일부가 일치하는 source를 원하는 필터
    - 필터간의 OR, AND 조합 가능
- interval 설정하기
  - 특정 주기마다 source에 새로 저장된 데이터를 가져옴
- 데이터 스트리밍 받기 시작하기
  - 시간 순으로 정렬된 데이터를 받음
  - 설정한 interval 주기마다 source로부터 새로운 데이터를 지속적으로 받음
  - 사용자 필요에 따라 즉시 source로부터 새로운 데이터를 가져올 수도 있음
- 데이터 스트리밍 받기 끊기
  - 정해진 시각이 되면 끊거나 특정 시간 뒤에 끊기
  - 즉시 끊기
- 필터 clear, 필터 수정 가능
  - 필터 clear 후 새로 필터를 설정하거나 기존의 필터를 수정하고 새로운 source를 설정할 수 있음
Query 객체가 현재 바라보고 있는 서버 정보 출력 가능
Query 객체를 더 이상 쓰지 않으면 close 기능 호출

code-to-gold commented 5 years ago

Query와 Fetch를 한번에 쓰신것 같습니다.

제가 생각하기에 스트리밍의 경우 Put 과 Fetch는 Client와 Server간에 채널이 생성되어 지속적으로 데이터를 저장, 혹은 획득하는 기능이 될 것 같아요. 그리고 Query는 지속적으로 데이터를 획득할 source를 검색하고, 해당 정보를 저장해 놓는 기능이 될 것 같습니다. 이러한 관점에서 위에 적어 놓은 '필터'로 grouping하신 기능들이 query와 fetch중 어디에 필요한 기능인가, 그리고 정말 필요한 기능인가 다시 한번 생각해보셔야 할 것 같습니다. split 필터만 봐도 어떻게 데이터를 획득할 지에 대한 설정으로 보입니다. split이란 이름도 좀 이상하네요..ㅋㅋ

Query와 Fetch를 분리해서 다시 한번 작성 부탁드립니다.

dragon0170 commented 5 years ago

데이터 획득 flow

interactive query → 특정 source에 대한 정보(ex. source ID) → fetch channel 생성 → 지속적인 데이터 획득
Query는 특정 source를 검색하는 과정
- 가져올 source를 단정지으려면 필요한 정보는 timestamp, 메타 정보 등 → filter가 될 듯
- 검색 결과는 데이터의 timestamp, 메타 정보, source ID.
- 검색해서 찾은 source를 fetch에서 사용
Fetch는 특정 source로부터 데이터를 지속적으로 가져오는 과정
- source ID로 데이터를 가져올 source 설정
  - 여러개의 source로부터 데이터를 받아볼 수 있게 할것인가?
- 과거 특정 time range의 데이터 가져오기
  - 시간 순/역순, pagination은 filter라기보다는 데이터를 보여주는 설정값
- 스트리밍으로 데이터 가져오기
  - 데이터 가져오기 시작하기
  - 데이터 가져오기 끝내기

dragon0170 commented 5 years ago

hbase async scanner 정리

https://www.notion.so/HBase-Async-Scanner-a209a0dfcdb74dea82c6be5d003dddf6

paust-team / paust-db

Design client query interface #162

160

유저 시나리오

Client Query Interface 및 REPL console 사용 example(Go language)

데이터를 put 하는 과정(생산자)

데이터를 query하는 과정(소비자)

Put(저장) 시나리오

Query(검색/스트리밍) 시나리오