드디어 torch serve 를 구글 클라우드 쿠버네티스에 배포 성공했습니다!
end-point address는 비공개로 저에게 메시지 보내주시면 알려드립니다!
이 문서의 내용은 infer, manage, metrics의 엔드포인트를 설명합니다.
테이블에 헤더, 바디가 없다면 없이 엔드포인트를 사용해주세요.
Response code는 각 엔드포인트의 OPTION:"/" 혹은 GET:"/api-description"을 사용해서 확인해주세요.
(테이블에 다 넣기에 폭이 좁네요 ㅠㅠ)
infer와 manage의 엔드포인트만 봐도 충분합니다.
(그리고 사실 이 문서는 제가 매번 공식문서랑 OPTIONS 확인하기 번거로워서 저장합니다 ㅎㅎ)
infer
path
method
param
body
purpose
return
/
options
Shows how this endpoint works.
OpenAPI's format documentation in JSON.
/ping
get
토치 서브 상태
Status text: (Healthy/Unhealthy)
/v1/models/{model_name}:predict (This method may be deprecated)
post
model_name
추론할 데이터
Predictions entry point to get inference using default model version.
"Output data format is defined by each model."
/predictions/{model_name}/{model_version}
post
model_name
추론할 데이터
Predictions entry point to get inference using default model version.
"Output data format is defined by each model."
/api-description (This endpoint is same as "/" with OPTION method)
get
Shows how this endpoint works.
OpenAPI's format documentation in JSON.
/metrics
get
name[]: 필터할 매트릭 이름 (Str)
Get TorchServe application metrics in prometheus format.
Torchserve app metrics in prometheus format.
manage
<!DOCTYPE html>
path
method
param
purpose
return
/
options
Shows how this endpoint works.
OpenAPI's format documentation in JSON.
/api-description (This endpoint is same as "/" with OPTION method)
get
Shows how this endpoint works.
OpenAPI's format documentation in JSON.
/metrics
get
name[]: 필터할 매트릭 이름 (Str)
Get TorchServe application metrics in prometheus format.
Torchserve app metrics in prometheus format.
/models
get
limit: 한번에 리턴될 값의 개수 (default: 100, integer) next_page_token: 이전페이지에서 받아오는 페이지 토큰 (str)
List registered models in TorchServe.
list
post
url: 모델(.mar)이 저장되어 있는 주소 (str) model_name: 등록할 이름(str) handler: infer하는 데에 필요한 핸들러(.mar에 포함되어 있다면 overwrite됨.) runtime: 실행하는 데에 필요한 파이썬 버전 (PYTHON, PYTHON2, PYTHON3), .mar에 정의한 경우 overwrite됨. batch_size: 인퍼하는 데 쓰이는 배치크기 (default: 1, int) max_batch_delay: batch aggregation에 소요되는 최대 시간 (default: 100, int) response_timeout(default: 2, seconds, int) initial_workers: 해당 모델에 할당될 워커 수 (default: 0, int) synchronous: 생성결과를 synchronous 하게 받을지 여부 (default: false, bool) s3_sse_kms: 해당 서버의 server side encryption의 활성화 여부 (default: false, bool)
Register a new model in TorchServe.
모델 등록 성공 실패 여부 + 실패시 실패 사유
/models/{model_name}/{model_version}
get
Provides detailed information about the default version of a model.
put
min_worker: 최소 워커수 (default: 1, int) max_worker: 최대 워커수 (default: 1, int) number_gpu: GPU 워커수 (default: 0, int) synchronous: sync한 리스펀스를 받을 지 여부 (default: false, bool) timeout: 요청에 대한 워커 타임 아웃 (default: -1, int) (0: 즉시 처리, -1: 대기 순위 FIFO)
등록한 모델의 설정을 수정.
수정 성공 여부, 실패시 실패 사유 및 코드
delete
synchronous: sync한 리스펀스를 받을 지 여부 (default: false, bool) timeout: 요청에 대한 워커 타임 아웃 (default: -1, int) (0: 즉시 처리, -1: 대기 순위 FIFO)
등록한 모델의 unregister
모델 제거 성공 여부, 실패시 실패 사유 및 코드
/models/{model_name}/{model_version}/set-default
put
등록한 모델의 기본 버전 설정
모델 기본 버전 설정 성공 여부, 실패시 실패 사유
metrics
path
method
param
purpose
return
/
options
Shows how this endpoint works.
OpenAPI's format documentation in JSON.
/metrics
get
name[]: 필터할 매트릭 이름 (Str)
Get TorchServe application metrics in prometheus format.
infer
manage
<!DOCTYPE html>
metrics