Posts

Z Image Turbo 使用流程

内容本文介绍使用Z-Image-Turbo配合ComfyUI的使用方法。 Z-Image-Turbo的优点：1. 较强的中文提示词跟随能力和汉字生成能力 2. 仅需8步推理即可生图，且参数量仅6B，配合量化可以在家用主机上运行(16G显存)。竞争对手: Flux-2系列考虑到某些地区无法使用ComfyUI-manager自动下载的网络限制，文件下载均以手动的方式。前置准备工作配置ComfyUI, 需要安装controlnet组件，可以额外安装llama-cpp-vlm文件来实现基于Qwen3-VL的图生文反推。如果需要查看反推的文本，可以安装comfyUI-custom-scripts。 Controlnet 代码仓库: 这里 Llama-cpp-vlm代码仓库：这里 ComfyUI-custom-scripts代码仓库: 这里注: Llama-cpp-vlm中需要的一个llama-cpp-python.whl插件的下载地址和下面和Qwen3-VL模型下载链接一并列出需要下载的模型汇总 Z-image-turbo三件套，下载链接里包含满血版和量化版，运行的时候diffusion_models和text_encoders可以选择量化版以节省显存开销。下载后以图中的方式放入comfyui的目录中: 模型下载链接 ControlNet基础模型: 模型下载链接 ControlNet 人物动作控制模型，需要body_pose_model.pth,hand_pose_model.pth和facenet.pth: 模型下载链接 ControlNet 深度控制模型: 模型下载链接 Qwen3-VL 模型 + 相关插件所需wheel文件: 模型下载链接以及 wheel下载下载前请核对系统版本和python版本常用的工作流搭建：文生图图生图(边缘检测) 图生图(人物姿势检测) 图生图(深度检测) 图生图(蒙版局域绘图) Qwen3-VL反推后文生图可以直接使用的图片工作流示例(下载后直接导入): 点击这里下载基础版本 controlnet版本 qwen3-vl反推版本

Llamafactory分布式训练

内容在L20* 8 服务器, Ubuntu 22.04 系统上使用llamafactory框架进行 sft 训练。分别使用单机多卡，和多机多卡模式。环境配置下载代码仓库,配置一个新的conda环境，并安装依赖 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory conda activate llamafactory_env pip install -e . pip install -r requirements/metrics.txt -i https://pypi.tuna.tsinghua.edu.cn/simple 准备sft数据，放在data文件夹，并记录在dataset_info.json中 cd ./data 打开 dataset_info.json 并加入数据集,例如 "my_example": { "file_name": "my_example.json" }, # SFT数据使用Alpaca 或ShareGPT 格式，此处用Alpaca示例 # Alpaca格式：（其中instruction会和input自动用\n拼接） [{ "instruction": "人类指令（必填）", "input": "人类输入（选填）", "output": "模型回答（必填）", "system": "系统提示词（选填）", "history": [ ["第一轮指令（选填）", "第一轮回答（选填）"], ["第二轮指令（选填）", "第二轮回答（选填）"] ] }] 单机多卡训练 # 参考./examples里存在的模版准备一个yaml文件并运行即可。 # 如果使用deepspeed 来执行多卡训练，通过 CUDA_VISIBLE_DEVICES 来指定用多少张gpu CUDA_VISIBLE_DEVICES=0,1 FORCE_TORCHRUN=1 llamafactory-cli train examples/train_lora/qwen3_30b_lora_sft.yaml #训练完以后的参数可以在 yaml 文件里的 output_dir 路径找到训练完后可以用vllm调用lora框架，这里是一个docker compose 的模板 ...

Comfyui 使用流程

内容在Ubuntu 22.04 系统上部署 ComfyUI，在国内网络环境手动安装comfyui manager以拓展额外功能(custom nodes)，手动安装custom nodes。官方文档: ComfyUI 安装首先确认服务器上已经有conda环境并创造一个环境。 # 下载comfyui 的git仓库 git clone https://github.com/Comfy-Org/ComfyUI.git # 下载安装依赖 cd ComfyUI conda activate comfyui_env pip install -r requirements.txt # 启动ComfyUI并指定端口号和使用的gpu python main.py --listen --port 10020 --cuda-device 0 安装ComfyUI Manager # 切换到子目录 cd custom_nodes # 如果网络环境无限制 git clone https://github.com/ltdrdata/ComfyUI-Manager.git # 如果网络环境有限制手动下载[仓库](https://github.com/Comfy-Org/ComfyUI-Manager), 解压并重命名为comfyui-manager，放入custom_nodes # 重新启动comfyui即可 python main.py --listen --port 10020 --cuda-device 0 安装任何插件如果ComfyUI Manager GUI 可以下载nodes 如果ComfyUI Manager GUI 一直下载不了nodes # 下载对应的git仓库，重命名后放入custom_nodes git clone https://github.com/some/custom/nodes.git # 进入这个node的目录然后安装依赖 pip install -r requirements.txt # 重新启动comfyui # 一些常用的custom nodes: --Control Net: https://github.com/Fannovel16/comfyui_controlnet_aux --ComfyUI-Impact-Pack: https://github.com/ltdrdata/ComfyUI-Impact-Pack --rgthree-comfy: https://github.com/rgthree/rgthree-comfy 快速上手最广泛使用的文生图模型是flux模型，利用它搭建一个工作流是一个不错的起点。使用comfyui生成的图片自带工作流信息，可以直接拖进GUI形成工作流。示例1：flux + lora + controlnet 工作流示例2: mimicmotion 动作模仿视频工作流

Conda 使用流程

内容在Ubuntu 22.04 上安装 conda，修改conda路径至数据盘，配置使用国内镜像源，以及打包环境至离线环境方法。安装包使用wget或者直接点击下载安装包将conda添加至PATH以持久化使用 # 查看 conda 命令的位置 which conda # 查看 conda 的安装根目录 conda info --base # 打开 ~/.bashrc并在最下面加入 export PATH="/home/ubuntu/miniconda3/bin:$PATH" #运行 source ~/.bashrc conda init #重开一下窗口配置conda的env和package的存储路径 # 打开 ~/.condarc并加入 envs_dirs: - /your/path/to/conda/envs pkgs_dirs: - /your/path/to/conda/pkgs 配置conda默认使用国内镜像源 # 使用阿里源为例 conda config --add channels https://mirrors.aliyun.com/anaconda/pkgs/main/ conda config --add channels https://mirrors.aliyun.com/anaconda/pkgs/free/ conda config --add channels https://mirrors.aliyun.com/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.aliyun.com/anaconda/cloud/bioconda/ #查看结果 conda config --show channels 创建conda环境 # 创造一个conda环境（指定路径或者使用默认路径） conda create --prefix /your/path/to/conda/envs/my_env python=3.12 conda create -n my_env python=3.12 #激活新环境 conda activate my_env 查看已存在conda环境 conda info --envs conda内使用pip/uv示例 #使用pip pip install tqdm -i https://mirrors.aliyun.com/pypi/simple/ #使用uv可以加速 uv pip install tqdm -i https://mirrors.aliyun.com/pypi/simple/ 打包conda环境 # 打包一个已经存在的conda环境: conda pack -n my_env # 将压缩包传至目标服务器，解压打包好的conda环境 tar -xvzf my_env.tar.gz -C /your/conda/envs/my_env 将本地conda环境打包成docker镜像以实现容器化部署 Dockerfile 示例 ...

Docker 使用流程

内容在Ubuntu 22.04 上安装 docker，修改docker镜像存放位置至数据盘，配置使用国内镜像源，以及配置英伟达驱动使用方法。安装必要工具 sudo apt update && sudo apt install -y ca-certificates curl gnupg lsb-release 添加阿里源 Docker 镜像仓库证书证书 curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/aliyun-docker.gpg 添加仓库 echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/aliyun-docker.gpg] https://mirrors.aliyun.com/docker-ce/linux/ubuntu \ $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null 安装docker sudo apt update sudo apt install -y docker-ce # Ubuntu系统安装完以后自动启动，WSL可能需要额外一行命令： sudo service docker start 验证docker启动 sudo docker info 当前用户加入docker用户组 #如果没有docker group sudo groupadd docker sudo usermod -aG docker $USER newgrp docker 运维相关 #查看所有的container示例 docker ps -a #查看所有的镜像 docker images #查看docker运行日志，在启动失败时可用于排查问题 dockerd #用于修改docker镜像的名称,请自行修改<image-name-1>,<tag-1>,<image-name-2>, <tag-2>的内容 docker tag <image-name-1>:<tag-1> <image-name-2>:<tag-2> #移除docker镜像名 / 移除docker镜像 docker rmi A1:tag1 #查看一个容器的日志,使用ctrl+C 退出 docker logs -f <container-1> #查看一个容器的信息 docker inspect <container-1> #删除一个容器 docker rm -f <container-1> 镜像储存位置修改 #docker 镜像迁移存储路径 sudo rsync -aP /var/lib/docker/ /mnt/data0/docker #修改docker配置打开 /etc/docker/daemon.json #加入新位置,,维持daemon.json的语法 { ["data-root":"/your/new/path"] } #重启docker sudo systemctl daemon-reload sudo systemctl restart docker # 确认docker文件位置 docker info | grep "Docker Root Dir" 换国内源打开 /etc/docker/daemon.json 加入源地址,维持daemon.json的语法 { "registry-mirrors": [ "https://docker.m.daocloud.io", "https://dockerproxy.com", "https://docker.hlmirror.com", "your-other-source.com" ] } # 加载并重启docker sudo systemctl daemon-reload sudo systemctl restart docker #确认换源成功 docker info -------------------------------------------------- #或者可以一次性使用源： docker pull docker.1ms.run/<image>:<tag> 打包至离线环境 #打包镜像 docker save -o my-docker-image.tar my-docker-image:tag #上传至目标服务器并加载 docker load -i my-docker-image.tar 配置Nvidia-Container-Toolkit # 确认 Nvidia 驱动已经安装： nvidia-smi 在线下载方法 ...

DeepSeek-671B 分布式部署

内容： a. DeepSeek-671B 大模型部署于两台配备 8卡 L20 GPU 的服务器。技术栈采用 Docker 容器化技术，VLLM高性能推理引擎和 Ray 分布式计算框架。 b. 官方文档: VLLM-Distributed c. 官方教程操作流程繁琐，需要在多个SSH会话窗口之间频繁切换。为简化部署过程，本文基于官方文档进行了流程整合与优化，将原本分散的步骤系统化整理，提供一套更为简洁明了的一站式部署指南。前置条件： a. 两台服务器上安装：Docker，Nvidia驱动，Nvidia container toolkit。 b. 确认两台服务器网络硬件配置(可与硬件厂商确认)。可使用 ifconfig 和 ping 来确认网络连接。 c. 下载 DeepSeek-671B模型+ VLLM的docker镜像至两台服务器上。本示例使用DeepSeek-V3(int4 版本)。确认服务器的网络配置并在下方docker compose 文件里调整环境变量： #IB网络确认: ibv_devinfo 显示No IB devices found 指无IB网络设备, 显示Link layer: Ethernet则网卡是RoCE而非IB, 显示Link layer: InfiniBand则是IB网络 #如果因为服务器无IB设备或者IB设备不一致而需要禁用IB网络： NCCL_IB_DISABLE=1 --禁用IB NCCL_IBEXT_DISABLE=1 --禁用RoCE #如果有ib网络则可配置如下，自行调整网卡名称： - NCCL_SOCKET_IFNAME=bond0 - GLOO_SOCKET_IFNAME=bond0 - NCCL_IB_HCA=mlx5_0,mlx5_3 - NCCL_IB_TIMEOUT=22 - NCCL_IB_DISABLE=0 - NCCL_DEBUG=INFO #如果无ib网络则可配置如下，自行调整网卡名称： - GLOO_SOCKET_IFNAME=bond0 - NCCL_SOCKET_IFNAME=bond0 - NCCL_IB_DISABLE=1 - NCCL_IBEXT_DISABLE=1 - NCCL_DEBUG=INFO Ray框架需要确认头节点(head node)和子节点(worker node)。两台服务器上分别准备docker compose 文件： #定义变量： # 头节点： VLLM_HOST_IP --本机ip RAY_PORT --本机ray端口号，和模型服务使用端口号有所区分 VOLUME_DS_RAY --本机RAY日志存储位置(可选) VOLUME_DS_V3_MODEL_PATH --本机模型路径 # 子节点： VLLM_HOST_IP --本机ip RAY_HEAD_IP --头节点的ip，与上面的VLLM_HOST_IP保持一致 RAY_PORT --头节点使用的IP，与上面的RAY_PORT保持一致 VOLUME_DS_RAY --本机RAY日志存储位置(可选) VOLUME_DS_V3_MODEL_PATH --本机模型路径 #头节点部分 node-head-ds-v3: image: vllm/vllm-openai:v0.11.0 container_name: node-head-ds-v3 entrypoint: ["/bin/bash", "-c", "ray start --block --head --node-ip-address=${VLLM_HOST_IP} --port=${RAY_PORT}"] network_mode: host privileged: true shm_size: 64g deploy: resources: reservations: devices: - driver: nvidia capabilities: [gpu] device_ids: ['0', '1', '2', '3', '4', '5', '6', '7'] volumes: - ${VOLUME_DS_V3_PATH}:/ds-v3 - ${VOLUME_DS_V3_PATH}/ray:/tmp/ray - ${VOLUME_DS_V3_MODEL_PATH}:/models environment: - NCCL_IB_HCA=mlx5_0,mlx5_3 - NCCL_SOCKET_IFNAME=bond0 - GLOO_SOCKET_IFNAME=bond0 - NCCL_DEBUG=INFO - VLLM_HOST_IP=${VLLM_HOST_IP} - NCCL_IB_TIMEOUT=22 - NCCL_IB_DISABLE=0 #子节点部分 node-worker-ds-v3: image: vllm/vllm-openai:v0.11.0 container_name: node-worker-ds-v3 entrypoint: ["/bin/bash", "-c", "ray start --block --address=${RAY_HEAD_IP}:${RAY_PORT}"] network_mode: host privileged: true shm_size: 64g deploy: resources: reservations: devices: - driver: nvidia capabilities: [gpu] device_ids: ['0', '1', '2', '3', '4', '5', '6', '7'] volumes: - ${VOLUME_DS_V3_PATH}:/ds-v3 - ${VOLUME_DS_RAY}/ray:/ds-v3/tmp/ray - ${VOLUME_DS_V3_MODEL_PATH}:/models environment: - GLOO_SOCKET_IFNAME=bond0 - NCCL_SOCKET_IFNAME=bond0 - VLLM_HOST_IP=${VLLM_HOST_IP} - NCCL_IB_HCA=mlx5_0,mlx5_3 - NCCL_IB_TIMEOUT=22 - NCCL_IB_DISABLE=0 两个节点分别启动容器，然后进入头节点容器，确认ray框架搭建成功，即可启动服务 --头节点 docker compose up -d node-head-ds-v3 --子节点 docker compose up -d node-worker-ds-v3 --进入头节点： sudo docker exec -it node-head-ds-v3 bash --查看ray节点连接情况: ray status --RAY框架需要头节点和子节点互通，本次实践中在子节点使用以下命令打开防火墙限制(可选): sudo ufw allow from $VLLM_POST_IP --出现两个 Active Node即连接成功 ...

L20 8卡服务器实战：全模态AI系统一体化部署指南 (LLM + VLM + RAG(Embedding & Reranker) + ASR + Dify + Mineru

内容在单台8卡L20服务器上进行全模态AI系统一体化部署：LLM、VLM、Embedding/Reranker、ASR、Dify与Mineru实战指南。 LLM的显存估算公式鉴于大语言模型（LLM）的性能与参数规模（B）之间的相关性显著高于量化程度（Quantization），因此在模型选型上优先考虑参数规模更大的模型，最终选用 Qwen3-235B 和 GLM-4.5V-106B的int4版本，以最大化整体性能表现。 Qwen3-235B模型的显存占用估算： GLM-4.5V-106B的显存占用估算: 模型的下载可通过HuggingFace或Modelscope. LLM 前置条件：安装 Docker 下载 Vllm 镜像(版本大于v0.11.0)+ 下载 Qwen235B int4量化版本使用docker compose 方式启动 version: '3' services: qwen3-235b-instruct: image: vllm/vllm-openai:v0.11.0 container_name: qwen3-235b-instruct deploy: resources: reservations: devices: - driver: nvidia capabilities: [gpu] device_ids: ['0','1','2','3'] volumes: - /your/path/to/qwen3-235b-instruct-awq:/root/models ports: - "10000:8000" shm_size: '2g' command: > --model /root/models --host 0.0.0.0 --port 8000 --trust-remote-code --served-model-name LLM --gpu-memory-utilization 0.75 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 65536 --tensor-parallel-size 4 --api-key your-api-key VLM 前置条件：安装 Docker 下载 Vllm 镜像(版本大于v0.11.0)+ 下载 GLM-4.5V-106B int4量化版本 ...