생성 AI
서빙 성능 극대화
효율적인, 빠른, 그리고 안정적인 생성 AI 서빙 솔루션
생성 AI 추론 속도 최적화
Friendli Engine은 고성능 저비용 추론을 실현합니다
혁신적인 기술들이 위 성능을 가능하게 합니다.
Iteration Batching
프렌들리에이아이만의 특허받은 획기적인 최적화 기술
(Continuous Batching라고도 알려짐)
Friendli DNN Library
생성 AI에 최적화된 GPU 커널
Friendli TCache
연산 결과를 인텔리전트하게 재사용
Native Quantization
정확성을 저하시키지 않는 효율적인 서비스 제공
대규모 언어 모델을 위한 초고속 성능
Friendli Engine은 오픈소스 및 맞춤형 LLM을 가속화합니다. 모든 모델에서 FP8, INT8, AWQ를 포함한 다양한 양자화 기술을 지원합니다. 최적화된 오픈소스 모델을 활용하거나 맞춤형 모델로 비즈니스에 Friendli Engine을 적용해보세요.
Llama 3.1
Arctic
Gemma 2
Mixtral
AI 에이전트를 위한 올인원 플랫폼
복잡한 작업을 위한 compound AI 시스템을 구축하고 서빙
맞춤형 모델을 손쉽게 배포
기업 내 특정 요구사항에 맞춘 모델을 서빙하세요. 직접 모델을 업로드하거나 W&B Registry 또는 Hugging Face Model Hub에서 가져올 수 있습니다.
모델 학습 및 파인튜닝
손쉽게 모델을 파인튜닝하고 배포하세요. PEFT를 사용해 효율적으로 모델을 조정하고 Multi-LoRA serving으로 배포하세요.
LLM 성능 모니터링 및 디버깅
고급 모니터링 및 디버깅 도구를 통해 모델을 이해하고, 문제를 파악해서, 성능을 최적화할 수 있습니다.
모델에 구애받지 않는 function calls 및 structured outputs
Function calls 또는 structured outputs 사용하여 AI 에이전트를 위한 안정적인 API 통합을 구축하세요. 사용하는 모델에 관계없이 일관된 결과를 보장합니다.
실시간 RAG를 위한 원활한 데이터 통합
Retrieval-Augmented Generation(RAG)를 활용해서 AI 성능을 실시간으로 향상하세요. 최신 정보로 에이전트를 손쉽게 업데이트하여 잘못된 정보를 줄입니다.
사전 정의된 툴 통합 또는 사용자 지정 툴 제공
AI 에이전트의 기능을 강화하세요. 광범위한 사전 정의 도구 라이브러리에서 선택하거나 직접 도구를 통합할 수 있습니다.
프로덕션 환경 완벽 지원
귀사의 비즈니스를 손쉽게 확장할 수 있도록 지원합니다.
SLA와 보장된 성능
안정적인 성능과 높은 신뢰성을 경험하세요. 귀사는 비즈니스 성장에만 집중할 수 있도록 탁월한 서비스를 제공합니다.
클라우드 환경 최고 수준 보안
강력한 보안 조치로 데이터를 보호하세요. 당사의 클라우드를 선택하거나 귀사의 인프라에서 운영하더라도 보안과 규정 준수를 최우선으로 합니다.
수요 증가에 따른 오토스케일링
오토스케일링 기능으로 한발 앞서가세요. 최적의 성능을 보장하기 위해 자동으로 리소스를 조정하여 성장에 따른 확장이 가능합니다.
a16z 선정 생성 AI 웹제품 전세계 트레픽 상위 20위 이내에 드는 NextDay AI는 개인 맞춤 캐릭터 챗봇을 개발하고 운영합니다. 월간 사용량 약 0.5조 토큰의 H100 GPU 비용으로 인한 운영 부담을 Friendli Container를 도입하여 즉시 LLM 서빙 비용의 50%을 절감했습니다.
프렌들리에이아이의 파트너를 만나보세요
파트너사들과 함께 귀사의 특정 요구사항에 맞는 신뢰할 수 있고 효율적인 솔루션을 제공합니다.
Friendli Suite
당신의 생성 AI의 잠재력을 완전하게 실현해줄 수 있는 플랫폼
01
Friendli Dedicated Endpoints
손쉽게 클라우드에서 LLMs/LMMs를 빌드하고 실행
02
Friendli Container
기업 내 인프라에서 생성 AI 운영
03
Friendli Serverless Endpoints
생성 AI 모델을 위한 빠르고 저렴한 API
프로덕션 워크로드를 위한 쉬운 확장형 배포
사용자 친화적인 인터페이스와 강력한 인프라를 통해 개발에서 프로덕션으로의 전환을 최소한의 노력으로 원활하게 진행할 수 있습니다. Dedicated Endpoints는 LLM 운영을 단순화하여 비즈니스 목표에 집중할 수 있게 해줍니다. 통합된 대시보드를 통해 시간이 지남에 따른 엔드포인트 성능을 완벽하게 파악할 수 있습니다.
독점 데이터셋으로 맞춤형 모델 파인튜닝
산업, 사용 사례, 또는 회사 요구에 맞춘 매우 특화된 모델을 만드세요. 독점 데이터셋을 활용해 AI 모델을 파인튜닝할 수 있습니다. Parameter-Efficient Fine-Tuning (PEFT) 방법을 활용해 학습 비용을 줄이거나, Weights & Biases 계정을 통합하여 학습 과정을 지속적으로 모니터링해보세요.
효율적인 엔드포인트 오토스케일링
실시간 수요에 맞춰 리소스를 동적으로 조정하여, 피크 시간 동안 안정적인 성능을 유지하고 비용 효율성을 극대화합니다. 특히 활동이 적은 기간에는 리소스를 0까지 축소할 수 있어 불필요한 비용을 제거할 수 있습니다. 이 기능은 고가의 GPU 리소스를 과다하게 혹은 부족하게 할당하는 문제를 방지합니다.
전용 GPU 리소스 관리
Dedicated Endpoints는 고성능 GPU 리소스를 독점적으로 제공하여, 리소스 경쟁이나 성능 변동 없이 일관된 컴퓨팅 리소스를 보장합니다. 리소스 공유를 제거함으로써 예측 가능한 성능을 유지하여 AI 워크로드의 생산성과 신뢰성을 향상시킬 수 있습니다.
최대 프라이버시와 보안
자체 인프라 내에서 모델을 실행하면 데이터를 완벽하게 제어할 수 있어, 민감한 정보가 외부 환경으로 유출되지 않도록 보장합니다.
내부 시스템과 통합
저희 솔루션은 Kubernetes와의 원활한 통합을 지원하여 오케스트레이션과 관측을 용이하게 합니다. Prometheus와 Grafana를 손쉽게 통합하여 모니터링할 수 있습니다.
GPU 비용 대폭 절감
온프레미스든 관리형 클러스터든 Friendli Container는 대규모 요청을 효율적으로 처리하여, 적은 수의 GPU로 더 큰 규모의 작업을 처리할 수 있게 해줍니다.
초당 250 토큰, 100만 토큰당 $0.1
Serverless Endpoints는 초당 250 토큰의 놀라운 출력 속도를 지원하며, Llama 3.1 8B 모델을 기준으로 100만 토큰당 $0.1의 저렴한 비용으로 제공됩니다.
128K 컨텍스트 길이 지원
Serverless Endpoints를 통해 심층적인 이해와 컨텍스트 유지를 필요로 하는 복잡한 애플리케이션을 구축하세요. 저희 Llama 3.1 엔드포인트는 128K 컨텍스트 길이를 완벽하게 처리할 수 있습니다.
Tool-assist로 AI 에이전트 쉽게 구축
웹 검색, 지식 베이스 통합, 다양한 도구를 활용한 복잡한 문제 해결이 가능한 AI 에이전트를 구축하고 있나요? Serverless Endpoints는 이 모든 것을 지원합니다.
더 많은 블로그글 알아보기
- July 22, 2024
- 6 min read
Building AI Agents Using Function Calling with LLMs
- May 22, 2024
- 8 min read
Measuring LLM Serving Performance with LLMServingPerfEvaluator
- June 27, 2024
- 7 min read