JAPANESE
モデルサービング
モデルサービング
KOREAN
모델 서빙
[モデル ソビン]
ハングル読み: 모데루사빈구
解説
学習済みモデルを本番環境にデプロイし、リアルタイムに推論リクエストを処理できるよう配信・運用する仕組み。レイテンシやスループットの最適化が運用上の重要課題となる。
학습된 모델을 프로덕션 환경에 배포하고 실시간으로 추론 요청을 처리할 수 있도록 운영하는 구조이다. 레이턴시와 처리량의 최적화가 운영상 중요한 과제가 된다.
例文
モデルサービングの基盤にvLLMを採用して、推論のスループットを3倍に向上させた。
모델 서빙 기반에 vLLM을 채택하여 추론 처리량을 3배 향상시켰다.