stmasson
/

training-scripts

Model card Files Files and versions

xet

Community

stmasson commited on 30 days ago

Commit

471ffcc

verified ·

1 Parent(s): 80fe464

Upload scripts/train_n8n_sft.py with huggingface_hub

Browse files

Files changed (1) hide show

scripts/train_n8n_sft.py +53 -40

scripts/train_n8n_sft.py CHANGED Viewed

@@ -34,17 +34,17 @@ Variables d'environnement requises:
 import os
 import json
 import torch
-from datasets import load_dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
 from trl import SFTTrainer, SFTConfig
-from huggingface_hub import login
 # ============================================================================
 # CONFIGURATION
 # ============================================================================
-# Modèle de base
 MODEL_NAME = os.environ.get("BASE_MODEL", "Qwen/Qwen2.5-14B-Instruct")
 # Dataset
@@ -56,7 +56,7 @@ VAL_FILE = "data/multitask_large/val.jsonl"
 OUTPUT_DIR = "./n8n-expert-sft"
 HF_REPO = os.environ.get("HF_REPO", "stmasson/n8n-expert-14b-sft")
-# Hyperparamètres
 NUM_EPOCHS = int(os.environ.get("NUM_EPOCHS", "3"))
 BATCH_SIZE = int(os.environ.get("BATCH_SIZE", "2"))
 GRAD_ACCUM = int(os.environ.get("GRAD_ACCUM", "8"))
@@ -68,7 +68,7 @@ LORA_R = int(os.environ.get("LORA_R", "64"))
 LORA_ALPHA = int(os.environ.get("LORA_ALPHA", "128"))
 LORA_DROPOUT = float(os.environ.get("LORA_DROPOUT", "0.05"))
-# Quantization (pour économiser la VRAM)
 USE_4BIT = os.environ.get("USE_4BIT", "false").lower() == "true"
 # ============================================================================
@@ -76,29 +76,29 @@ USE_4BIT = os.environ.get("USE_4BIT", "false").lower() == "true"
 # ============================================================================
 print("=" * 60)
-print("ENTRAÎNEMENT SFT - N8N EXPERT")
 print("=" * 60)
 hf_token = os.environ.get("HF_TOKEN")
 if hf_token:
     login(token=hf_token)
-    print("Authentifié sur HuggingFace")
 else:
-    print("Warning: HF_TOKEN non défini, push désactivé")
-# Désactivé wandb pour éviter les conflits de dépendances
 report_to = "none"
-print("Tracking désactivé (pas de wandb)")
 # ============================================================================
-# CHARGEMENT DU MODÈLE
 # ============================================================================
-print(f"\nChargement du modèle: {MODEL_NAME}")
-# Configuration quantization si nécessaire
 if USE_4BIT:
-    print("Mode 4-bit activé")
     bnb_config = BitsAndBytesConfig(
         load_in_4bit=True,
         bnb_4bit_quant_type="nf4",
@@ -128,7 +128,7 @@ if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"
-print(f"Modèle chargé: {model.config.num_hidden_layers} layers, {model.config.hidden_size} hidden size")
 # ============================================================================
 # CONFIGURATION LORA
@@ -149,30 +149,43 @@ lora_config = LoraConfig(
 )
 # ============================================================================
-# CHARGEMENT DU DATASET
 # ============================================================================
 print(f"\nChargement du dataset: {DATASET_REPO}")
-# Charger train et validation séparément pour éviter les problèmes de schéma
-# (les colonnes metadata.node_types peuvent différer entre les splits)
-train_dataset = load_dataset(
-    DATASET_REPO,
-    data_files={"train": TRAIN_FILE},
-    split="train"
-)
-val_dataset = load_dataset(
-    DATASET_REPO,
-    data_files={"train": VAL_FILE},
-    split="train"
-)
 print(f"Train: {len(train_dataset)} exemples")
 print(f"Validation: {len(val_dataset)} exemples")
 # Fonction de formatage
 def format_example(example):
-    """Formate les messages en texte pour l'entraînement"""
     messages = example["messages"]
     text = tokenizer.apply_chat_template(
         messages,
@@ -182,19 +195,19 @@ def format_example(example):
     return {"text": text}
 # Appliquer le formatage
-print("Formatage des données...")
 train_dataset = train_dataset.map(format_example, remove_columns=train_dataset.column_names)
 val_dataset = val_dataset.map(format_example, remove_columns=val_dataset.column_names)
 # Afficher un exemple
-print("\nExemple de données formatées:")
 print(train_dataset[0]["text"][:500] + "...")
 # ============================================================================
-# CONFIGURATION D'ENTRAÎNEMENT
 # ============================================================================
-print(f"\nConfiguration d'entraînement:")
 print(f"  - Epochs: {NUM_EPOCHS}")
 print(f"  - Batch size: {BATCH_SIZE}")
 print(f"  - Gradient accumulation: {GRAD_ACCUM}")
@@ -233,7 +246,7 @@ training_args = SFTConfig(
 )
 # ============================================================================
-# ENTRAÎNEMENT
 # ============================================================================
 print("\nInitialisation du trainer...")
@@ -247,13 +260,13 @@ trainer = SFTTrainer(
     tokenizer=tokenizer,
 )
-# Afficher les paramètres entraînables
 trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
 total_params = sum(p.numel() for p in model.parameters())
-print(f"\nParamètres entraînables: {trainable_params:,} / {total_params:,} ({100 * trainable_params / total_params:.2f}%)")
 print("\n" + "=" * 60)
-print("DÉMARRAGE DE L'ENTRAÎNEMENT")
 print("=" * 60)
 trainer.train()
@@ -262,14 +275,14 @@ trainer.train()
 # SAUVEGARDE
 # ============================================================================
-print("\nSauvegarde du modèle...")
 trainer.save_model(f"{OUTPUT_DIR}/final")
 if hf_token:
     print(f"Push vers {HF_REPO}...")
     trainer.push_to_hub()
-    print(f"Modèle disponible sur: https://huggingface.co/{HF_REPO}")
 print("\n" + "=" * 60)
-print("ENTRAÎNEMENT TERMINÉ")
 print("=" * 60)

 import os
 import json
 import torch
+from datasets import Dataset
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
 from trl import SFTTrainer, SFTConfig
+from huggingface_hub import login, hf_hub_download
 # ============================================================================
 # CONFIGURATION
 # ============================================================================
+# Modele de base
 MODEL_NAME = os.environ.get("BASE_MODEL", "Qwen/Qwen2.5-14B-Instruct")
 # Dataset
 OUTPUT_DIR = "./n8n-expert-sft"
 HF_REPO = os.environ.get("HF_REPO", "stmasson/n8n-expert-14b-sft")
+# Hyperparametres
 NUM_EPOCHS = int(os.environ.get("NUM_EPOCHS", "3"))
 BATCH_SIZE = int(os.environ.get("BATCH_SIZE", "2"))
 GRAD_ACCUM = int(os.environ.get("GRAD_ACCUM", "8"))
 LORA_ALPHA = int(os.environ.get("LORA_ALPHA", "128"))
 LORA_DROPOUT = float(os.environ.get("LORA_DROPOUT", "0.05"))
+# Quantization (pour economiser la VRAM)
 USE_4BIT = os.environ.get("USE_4BIT", "false").lower() == "true"
 # ============================================================================
 # ============================================================================
 print("=" * 60)
+print("ENTRAINEMENT SFT - N8N EXPERT")
 print("=" * 60)
 hf_token = os.environ.get("HF_TOKEN")
 if hf_token:
     login(token=hf_token)
+    print("Authentifie sur HuggingFace")
 else:
+    print("Warning: HF_TOKEN non defini, push desactive")
+# Desactive wandb pour eviter les conflits de dependances
 report_to = "none"
+print("Tracking desactive (pas de wandb)")
 # ============================================================================
+# CHARGEMENT DU MODELE
 # ============================================================================
+print(f"\nChargement du modele: {MODEL_NAME}")
+# Configuration quantization si necessaire
 if USE_4BIT:
+    print("Mode 4-bit active")
     bnb_config = BitsAndBytesConfig(
         load_in_4bit=True,
         bnb_4bit_quant_type="nf4",
     tokenizer.pad_token = tokenizer.eos_token
 tokenizer.padding_side = "right"
+print(f"Modele charge: {model.config.num_hidden_layers} layers, {model.config.hidden_size} hidden size")
 # ============================================================================
 # CONFIGURATION LORA
 )
 # ============================================================================
+# CHARGEMENT DU DATASET (FIX: chargement direct JSON pour eviter les conflits de schema)
 # ============================================================================
 print(f"\nChargement du dataset: {DATASET_REPO}")
+def load_jsonl_dataset(repo_id: str, filename: str) -> Dataset:
+    """
+    Charge un dataset JSONL directement en ne gardant que la colonne 'messages'.
+    Evite les problemes de schema avec les colonnes struct comme 'nodes_used'.
+    """
+    # Telecharger le fichier
+    local_path = hf_hub_download(
+        repo_id=repo_id,
+        filename=filename,
+        repo_type="dataset"
+    )
+    # Lire le JSONL et extraire uniquement 'messages'
+    messages_list = []
+    with open(local_path, 'r', encoding='utf-8') as f:
+        for line in f:
+            data = json.loads(line)
+            messages_list.append({"messages": data["messages"]})
+    # Creer le Dataset
+    return Dataset.from_list(messages_list)
+# Charger train et validation
+train_dataset = load_jsonl_dataset(DATASET_REPO, TRAIN_FILE)
+val_dataset = load_jsonl_dataset(DATASET_REPO, VAL_FILE)
 print(f"Train: {len(train_dataset)} exemples")
 print(f"Validation: {len(val_dataset)} exemples")
 # Fonction de formatage
 def format_example(example):
+    """Formate les messages en texte pour l'entrainement"""
     messages = example["messages"]
     text = tokenizer.apply_chat_template(
         messages,
     return {"text": text}
 # Appliquer le formatage
+print("Formatage des donnees...")
 train_dataset = train_dataset.map(format_example, remove_columns=train_dataset.column_names)
 val_dataset = val_dataset.map(format_example, remove_columns=val_dataset.column_names)
 # Afficher un exemple
+print("\nExemple de donnees formatees:")
 print(train_dataset[0]["text"][:500] + "...")
 # ============================================================================
+# CONFIGURATION D'ENTRAINEMENT
 # ============================================================================
+print(f"\nConfiguration d'entrainement:")
 print(f"  - Epochs: {NUM_EPOCHS}")
 print(f"  - Batch size: {BATCH_SIZE}")
 print(f"  - Gradient accumulation: {GRAD_ACCUM}")
 )
 # ============================================================================
+# ENTRAINEMENT
 # ============================================================================
 print("\nInitialisation du trainer...")
     tokenizer=tokenizer,
 )
+# Afficher les parametres entrainables
 trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
 total_params = sum(p.numel() for p in model.parameters())
+print(f"\nParametres entrainables: {trainable_params:,} / {total_params:,} ({100 * trainable_params / total_params:.2f}%)")
 print("\n" + "=" * 60)
+print("DEMARRAGE DE L'ENTRAINEMENT")
 print("=" * 60)
 trainer.train()
 # SAUVEGARDE
 # ============================================================================
+print("\nSauvegarde du modele...")
 trainer.save_model(f"{OUTPUT_DIR}/final")
 if hf_token:
     print(f"Push vers {HF_REPO}...")
     trainer.push_to_hub()
+    print(f"Modele disponible sur: https://huggingface.co/{HF_REPO}")
 print("\n" + "=" * 60)
+print("ENTRAINEMENT TERMINE")
 print("=" * 60)