추론 서버 프로젝트 ONNX Runtime Server 소개
안녕하세요 🤗 ML 모델 학습 후 추론을 API 형태로 제공하기 위해 여러 방법들이 있지만, 개인적 필요에 의해 만든 프로젝트를 소개합니다. onnxruntime-server는 간편하게, 빠른 성능의 추론을 제공하고 좋은 DX를 제공하는 것이 목표입니다. 다양한 환경에서 학습된 ML 모델을 ONNX 파일로 export했다면 다른 코드나 메타데이터 작업 없이 API를 제공할 수 있습니다. 별도의 코드 작성 없이 추론 API 제공합니다. 디렉토리 구조에 맞춰서 파일을 두면 됩니다. 모델마다 CPU, CUDA 하드웨어 가속 여부를 선택할 수 있습니다. TCP, HTTP/HTTPS REST API를 제공합니다. ONNX 파일의 inputs, outputs를 추출하여 입출력의 shape를 조회하는 기능이 포함되어 협업자들이 별도의 문의 없이 추론을 위한 입출력 자료 구조를 알 수 있습니다. Swagger API 문서가 빌트인되어 협업자들이 쉽게 API를 테스트하거나 제공되...
https://discuss.pytorch.kr/t/onnx-runtime-server/2469