본문 바로가기
AI/LLM

LLM 서빙을 위한 오픈소스 서비스 비교하기

by lt.mj 2025. 2. 25.

    ChatGPT, GPT-4 등 대규모 언어 모델(LLM, Large Language Model)이 빠르게 발전하면서 많은 주목을 받고 있습니다. 하지만 기존의 클라우드 기반 LLM은 API 사용량에 따라 비용이 급격히 증가할 수 있고 데이터 프라이버시 문제로 인해 민감한 정보 또한 외부 서버에 의존해야 한다는 한계가 있습니다.

     

    LLM serving frameworks

     

    이러한 문제를 해결하기 위해 최근에는 LLM을 자체적으로 서빙할 수 있는 다양한 오픈소스 소프트웨어가 등장하면서 이를 활용한 새로운 서비스들도 빠르게 출시되고 있습니다. 오픈소스 LLM은 자체 서버에서 데이터를 처리하기 때문에 보안성과 개인정보 보호 측면에서 유리하며, 로컬 또는 클라우드 인프라에 직접 배포하여 운영할 수 있어 장기적으로 비용 절감 효과도 기대할 수 있습니다. 또한, Python을 비롯한 다양한 프로그래밍 언어 및 프레임워크와 쉽게 연동할 수 있어 기존 시스템과의 통합이 용이하며, 커스터마이징도 자유롭습니다.

     

    Labthere의 첫 포스팅에서는 비용 효율성을 높이고 개발의 유연성을 극대화할 수 있도록 최근 많이 활용되는 여러 오픈소스 LLM 소프트웨어들을 비교해보려고 합니다.

     

    1. vLLM

    SkyPilot에서 개발한 LLM 최적화 프레임워크로, 효율적인 메모리 관리가 가능하며 PyTorch, Tensorflow와 쉽게 통합할 수 있습니다. GPU에서 동작하며 챗봇, 검색 엔진 등 대규모 컨텍스트를 처리해야 하는 고성능 AI application에 적합한 프레임워크 입니다.

     

    👍 장점

    • 고성능 및 높은 확장성: 여러 요청을 동시에 처리할 수 있어 성능 저하가 적음
    • 최적화된 메모리 관리: 모델이 여러 요청을 효율적으로 처리
    • PyTorch, TensorFlow 통합 가능

    👎단점

    • 설정이 다소 복잡: 초심자에게는 어려울 수 있으며, 메모리 관리나 병렬 처리에 대한 사전 지식이 필요

    https://github.com/vllm-project/vllm

     

    GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

    A high-throughput and memory-efficient inference and serving engine for LLMs - vllm-project/vllm

    github.com

     

     

    2. Ollama

    Ollama는 오픈 소스 LLM 모델을 복잡한 설정 없이 로컬 서빙에 초점을 맞춰 쉽게 실행할 수 있는 플랫폼입니다. 복잡한 설정 없이 command line interface(CLI)와 API를 통해 간단하게 LLM을 실행할 수 있어 빠르게 AI 기능을 application에 통합할 수 있습니다.

     

    👍 장점

    • 쉽고 빠른 실행: 최소한의 설정으로 로컬에서 LLM을 실행 가능
    • 클라우드 의존 없음: 인터넷 연결 없이도 AI 모델을 테스트하고 배포 가능
    • 경량화된 설계: 대형 모델도 비교적 가벼운 환경에서 실행 가능

    👎단점

    • 대규모 트래픽 처리에는 한계: vLLM에 비해 성능이 낮을 수 있음
    • 응답 속도가 느릴 수 있음: 클라우드 기반 LLM보다 추론 속도가 느릴 가능성 있음

    https://ollama.com/

     

    Ollama

    Get up and running with large language models.

    ollama.com

     

    3. TensorRT-LLM

    NVIDIA의 GPU 최적화 소프트웨어인 TensorRT를 기반으로 LLM 추론 성능을 극대화하는 프레임워크입니다. TensorRT-LLM 가장 큰 강점은 GPU 연산을 최적하여 동일한 하드웨어에서 더 빠른 추론 속도를 제공할 수 있다는 점입니다.

     

    👍 장점

    • GPU 성능 극대화: NVIDIA의 최신 TensorRT 최적화 기술을 활용
    • 대규모 모델 서빙 가능: 고성능 GPU 환경에서 LLM 서빙 가능

    👎단점

    • 설정이 복잡: 모델 최적화 및 설정 과정이 어렵고, 사전 GPU 지식 필요
    • 초보자에게 적합하지 않음: 주로 전문 엔지니어 및 연구자에게 추천

    https://github.com/NVIDIA/TensorRT-LLM

     

    GitHub - NVIDIA/TensorRT-LLM: TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs)

    TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficie...

    github.com

     

     

    ✅ 그 외 오픈소스

    • OpenLLM: Hugging Face 기반 LLM 서빙 프레임워크 https://github.com/bentoml/OpenLLM
    • LocalLLM: 로컬 환경에서 실행 가능한 AI 모델 서빙 프레임워크
    • llama.cpp: CPU 환경에서도 LLM 실행이 가능한 경량 LLM 서빙 프레임워크(C++ 기반)
    • llama.vscode: VS Code에서 직접 실행할 수 있는 경량 LLM 서빙 솔루션
    • GPT4ALL: 다양한 오픈소스 모델을 실행할 수 있는 범용 LLM 플랫폼

     

    오픈소스 LLM 소프트웨어는 비용 절감, 데이터 프라이버시 보호, 확장성 및 커스터마이징 가능성 등의 장점을 제공합니다. 따라서 배포하려는 서비스의 특성과 요구사항을 고려하여 가장 적합한 오픈소스를 선택하는 것이 중요합니다.


     

    reference