csuhan
/

llm_cp2

Model card Files Files and versions

llm_cp2 / run_qwenomni_8gpu_full_alldata.sh

csuhan's picture

Upload folder using huggingface_hub

b0c0df0 verified about 1 month ago

1.5 kB

	#!/bin/bash
	#SBATCH -p Gveval # 队列名称
	#SBATCH --quotatype=spot # 竞价类型
	#SBATCH --nodes=1 # 节点数量
	#SBATCH --ntasks=8 # 总进程数（与GPU数量一致）
	#SBATCH --gres=gpu:8 # 每张卡分配的GPU数量
	#SBATCH --cpus-per-task=16 # 每个进程分配的CPU核心数
	#SBATCH --job-name=qwen_train # 任务名称（自定义）
	#SBATCH --requeue # 任务重排，当任务被别人抢断后，可以重新排队，但需要程序自动处理resume
	#SBATCH --open-mode append # 日志写入方式


	export http_proxy=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/
	export https_proxy=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/
	export HTTP_PROXY=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/
	export HTTPS_PROXY=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/ ;

	# 打印任务信息（可选，方便调试）
	echo "开始时间: $(date)"
	echo "节点列表: $SLURM_NODELIST"
	echo "总进程数: $SLURM_NTASKS"
	echo "当前任务ID: $SLURM_JOB_ID"

	export MASTER_PORT=17821

	export FORCE_TORCHRUN=1

	apptainer exec -f -w --nv --bind /mnt:/mnt /mnt/petrelfs/hanjiaming/llama_factory/ llamafactory-cli train examples/train_full/qwen2_5omni_full_sft_alldata.yaml