モデルサービング

KOREAN

모델 서빙

[モデルソビン]

ハングル読み: 모데루사빈구

解説

学習済みモデルを本番環境にデプロイし、リアルタイムに推論リクエストを処理できるよう配信・運用する仕組み。レイテンシやスループットの最適化が運用上の重要課題となる。

학습된 모델을 프로덕션 환경에 배포하고 실시간으로 추론 요청을 처리할 수 있도록 운영하는 구조이다. 레이턴시와 처리량의 최적화가 운영상 중요한 과제가 된다.

モデルサービングの基盤にvLLMを採用して、推論のスループットを3倍に向上させた。

모델 서빙 기반에 vLLM을 채택하여 추론 처리량을 3배 향상시켰다.