Friendli Engine이 제공하는 기능
LLM 서비스 속도 가속화,
비용 최대 절감50~90%
Friendli Engine은 LLM 서비스를 빠르고 경제적으로 제공하도록 최적화된 엔진입니다. 업계에서 가장 빠른 엔진으로 LLM 추론 요청을 서빙하세요. 당사의 성능 테스트 결과에 따르면, Friendli Engine은 vLLM과 TensorRT-LLM보다 현저히 빠른 속도를 보여줍니다.
자세히 보기단일 GPU로 Multi-LoRA 지원
Friendli Engine은 적은 수의 GPU로 (때론 한개의 GPU로도) 여러 LoRA 모델을 동시에 지원하여 LLM 커스터마이징을 더욱 쉽고 효율적으로 만들어 줍니다.
자세히 보기핵심 기술
Iteration batching
(aka continuous batching)
Iteration batching은 동시 발생하는 생성 요청을 매우 효율적으로 처리할 수 있도록 개발된 새로운 배칭 기술입니다. 동일한 지연 시간 요구사항을 충족하면서도 기존 배칭 방식에 비해 최대 수십 배 높은 LLM 추론 처리량을 달성할 수 있습니다. 이 기술은 미국과 한국, 중국에서 특허로 보호 받고 있습니다.
자세히 보기DNN library
Friendli DNN Library는 생성 AI에 최적화된 GPU 커널을 직접 엄선하여 설계한 라이브러리입니다. 다양한 tensor 모양과 데이터 타입의 LLM 추론 속도를 크게 향상시킬 수 있도록 설계되었습니다. 이 혁신적인 라이브러리를 통해 Friendli Engine은 양자화, Mixture of Experts, LoRA 어댑터 등을 지원하여 보다 빠르고 효율적인 성능을 제공합니다.
Friendli TCache
Friendli TCache는 자주 사용되는 연산 결과를 자동으로 식별하고 저장하여, GPU의 부담을 크게 줄여줍니다. Friendli Engine은 이 캐시된 결과를 활용해 성능을 효율적으로 향상시킵니다.
자세히 보기Speculative decoding
Friendli Engine의 핵심 기술 중 하나인 speculative decoding은 현재 토큰을 생성하면서 동시에 다음 토큰을 예측해, LLM/LMM 추론 속도를 빠르게 높여줍니다. 예측된 토큰을 검증해 추론 시간을 크게 단축하면서도 동일한 모델 결과를 유지합니다.
주요 특징
단일 GPU에서 Quantized Mixtral 8x7B 실행
Mixtral-7x8B-instruct v0.1 모델을 AWQ 방식으로 양자화하여 단일 NVIDIA A100 80GB GPU에서 실행한 결과, Friendli Engine은 vLLM 시스템보다 최소 4.1배 빠른 응답 속도와 3.8배에서 23.8배 더 높은 토큰 처리량을 제공합니다.
자세히 보기단일 GPU에서 Quantized Llama 2 70B 실행
Friendli Engine을 사용하면 AWQ로 양자화된 모델을 손쉽게 실행할 수 있습니다. 예를 들어, Llama 2 70B 4-bit 모델을 단일 A100 80GB GPU에서 쉽게 실행할 수 있습니다. Friendli Engine을 통한 AWQ 모델 실행은 정확도를 유지하면서도 뛰어난 성능과 효율성을 제공합니다.
자세히 보기Friendli TCache를 활용한 더 빠른 TTFT
Friendli TCache는 반복되는 연산을 재사용하여 TTFT(Time to First Token)를 대폭 단축합니다. Friendli Engine은 vLLM 대비 11.3배에서 23배 더 빠른 TTFT 성능을 제공하는 것으로 확인되었습니다.
자세히 보기