모범사례 : Reference
사례 #1
- LLM 추론 성능 엔지니어링: 모범 사례
- 작성자: Megha Agarwal, Asfandyar Qureshi, Nikhil Sardana, Linden Li, Julian Quevedo, Daya Khudia
- December 4, 2023 in 플랫폼 블로그 | https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
이 블로그에서 MosaicML 엔지니어링 팀은 프로덕션용으로 널리 사용되는 오픈 소스 대규모 언어 모델(LLM)을 활용하는 방법에 대한 모범 사례를 공유합니다.
또한 이러한 모델을 기반으로 구축된 추론 서비스를 배포하는 가이드라인을 제공하여 사용자가 모델과 배포 하드웨어를 선택하는 데 도움을 드리고자 합니다.
이러한 가이드라인은 프로덕션 환경에서 여러 PyTorch 기반 백엔드를 사용해 본 경험에서 도출한 것으로, FasterTransformers, vLLM, 곧 출시될 NVIDIA의 TensorRT-LLM 등에 대한 경험을 바탕으로 합니다.