wisdomify / storyteller-deprecated

Forward dictionary of Korean Proverbs
2 stars 0 forks source link

How to use torchserve on GKE #32

Closed ArtemisDicoTiar closed 3 years ago

ArtemisDicoTiar commented 3 years ago

드디어 torch serve 를 구글 클라우드 쿠버네티스에 배포 성공했습니다! end-point address는 비공개로 저에게 메시지 보내주시면 알려드립니다!

infer

path method param body purpose return
/ options     Shows how this endpoint works. OpenAPI's format documentation in JSON.
/ping get     토치 서브 상태 Status text: (Healthy/Unhealthy)
/v1/models/{model_name}:predict (This method may be deprecated) post model_name 추론할 데이터 Predictions entry point to get inference using default model version. "Output data format is defined by each model."
/predictions/{model_name}/{model_version} post model_name 추론할 데이터 Predictions entry point to get inference using default model version. "Output data format is defined by each model."
/api-description (This endpoint is same as "/" with OPTION method) get     Shows how this endpoint works. OpenAPI's format documentation in JSON.
/metrics get name[]: 필터할 매트릭 이름 (Str)   Get TorchServe application metrics in prometheus format. Torchserve app metrics in prometheus format.

manage

<!DOCTYPE html>

path method param purpose return
/ options   Shows how this endpoint works. OpenAPI's format documentation in JSON.
/api-description (This endpoint is same as "/" with OPTION method) get   Shows how this endpoint works. OpenAPI's format documentation in JSON.
/metrics get name[]: 필터할 매트릭 이름 (Str) Get TorchServe application metrics in prometheus format. Torchserve app metrics in prometheus format.
/models get limit: 한번에 리턴될 값의 개수 (default: 100, integer) next_page_token: 이전페이지에서 받아오는 페이지 토큰 (str) List registered models in TorchServe. list
  post url: 모델(.mar)이 저장되어 있는 주소 (str) model_name: 등록할 이름(str) handler: infer하는 데에 필요한 핸들러(.mar에 포함되어 있다면 overwrite됨.) runtime: 실행하는 데에 필요한 파이썬 버전 (PYTHON, PYTHON2, PYTHON3), .mar에 정의한 경우 overwrite됨. batch_size: 인퍼하는 데 쓰이는 배치크기 (default: 1, int) max_batch_delay: batch aggregation에 소요되는 최대 시간 (default: 100, int) response_timeout(default: 2, seconds, int) initial_workers: 해당 모델에 할당될 워커 수 (default: 0, int) synchronous: 생성결과를 synchronous 하게 받을지 여부 (default: false, bool) s3_sse_kms: 해당 서버의 server side encryption의 활성화 여부 (default: false, bool) Register a new model in TorchServe. 모델 등록 성공 실패 여부 + 실패시 실패 사유
/models/{model_name}/{model_version} get   Provides detailed information about the default version of a model.  
  put min_worker: 최소 워커수 (default: 1, int) max_worker: 최대 워커수 (default: 1, int) number_gpu: GPU 워커수 (default: 0, int) synchronous: sync한 리스펀스를 받을 지 여부 (default: false, bool) timeout: 요청에 대한 워커 타임 아웃 (default: -1, int) (0: 즉시 처리, -1: 대기 순위 FIFO) 등록한 모델의 설정을 수정. 수정 성공 여부, 실패시 실패 사유 및 코드
  delete synchronous: sync한 리스펀스를 받을 지 여부 (default: false, bool) timeout: 요청에 대한 워커 타임 아웃 (default: -1, int) (0: 즉시 처리, -1: 대기 순위 FIFO) 등록한 모델의 unregister 모델 제거 성공 여부, 실패시 실패 사유 및 코드
/models/{model_name}/{model_version}/set-default put   등록한 모델의 기본 버전 설정 모델 기본 버전 설정 성공 여부, 실패시 실패 사유

metrics

path method param purpose return
/ options   Shows how this endpoint works. OpenAPI's format documentation in JSON.
/metrics get name[]: 필터할 매트릭 이름 (Str) Get TorchServe application metrics in prometheus format. Torchserve app metrics in prometheus format.
ArtemisDicoTiar commented 3 years ago

W&B사용하면서 torch_serve사용하면서 여러 모델을 업로드, 사용할 필요가 적어졌다. 혹여나 여러 모델을 deploy해야하는 상황이 온다면 그 때 다시 이 이슈를 참고해서 issue 생성을 하자. issue close.