L20 8卡服务器实战:全模态AI系统一体化部署指南 (LLM + VLM + RAG(Embedding & Reranker) + ASR + Dify + Mineru
内容 在单台8卡L20服务器上进行全模态AI系统一体化部署:LLM、VLM、Embedding/Reranker、ASR、Dify与Mineru实战指南。 LLM的显存估算公式 鉴于大语言模型(LLM)的性能与参数规模(B)之间的相关性显著高于量化程度(Quantization),因此在模型选型上优先考虑参数规模更大的模型,最终选用 Qwen3-235B 和 GLM-4.5V-106B的int4版本,以最大化整体性能表现。 Qwen3-235B模型的显存占用估算: GLM-4.5V-106B的显存占用估算: 模型的下载可通过HuggingFace或Modelscope. LLM 前置条件:安装 Docker 下载 Vllm 镜像(版本大于v0.11.0)+ 下载 Qwen235B int4量化版本 使用docker compose 方式启动 version: '3' services: qwen3-235b-instruct: image: vllm/vllm-openai:v0.11.0 container_name: qwen3-235b-instruct deploy: resources: reservations: devices: - driver: nvidia capabilities: [gpu] device_ids: ['0','1','2','3'] volumes: - /your/path/to/qwen3-235b-instruct-awq:/root/models ports: - "10000:8000" shm_size: '2g' command: > --model /root/models --host 0.0.0.0 --port 8000 --trust-remote-code --served-model-name LLM --gpu-memory-utilization 0.75 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 65536 --tensor-parallel-size 4 --api-key your-api-key VLM 前置条件:安装 Docker 下载 Vllm 镜像(版本大于v0.11.0)+ 下载 GLM-4.5V-106B int4量化版本 ...