stmasson
/

training-scripts

stmasson commited on 29 days ago

Commit

80fe464

verified ·

1 Parent(s): 6d492a0

Upload scripts/train_n8n_sft.py with huggingface_hub

Files changed (1) hide show

scripts/train_n8n_sft.py CHANGED Viewed

@@ -154,16 +154,21 @@ lora_config = LoraConfig(
 print(f"\nChargement du dataset: {DATASET_REPO}")
-dataset = load_dataset(
     DATASET_REPO,
-    data_files={
-        "train": TRAIN_FILE,
-        "validation": VAL_FILE
-    }
 )
-print(f"Train: {len(dataset['train'])} exemples")
-print(f"Validation: {len(dataset['validation'])} exemples")
 # Fonction de formatage
 def format_example(example):
@@ -178,11 +183,12 @@ def format_example(example):
 # Appliquer le formatage
 print("Formatage des données...")
-dataset = dataset.map(format_example, remove_columns=dataset["train"].column_names)
 # Afficher un exemple
 print("\nExemple de données formatées:")
-print(dataset["train"][0]["text"][:500] + "...")
 # ============================================================================
 # CONFIGURATION D'ENTRAÎNEMENT
@@ -235,8 +241,8 @@ print("\nInitialisation du trainer...")
 trainer = SFTTrainer(
     model=model,
     args=training_args,
-    train_dataset=dataset["train"],
-    eval_dataset=dataset["validation"],
     peft_config=lora_config,
     tokenizer=tokenizer,
 )

 print(f"\nChargement du dataset: {DATASET_REPO}")
+# Charger train et validation séparément pour éviter les problèmes de schéma
+# (les colonnes metadata.node_types peuvent différer entre les splits)
+train_dataset = load_dataset(
     DATASET_REPO,
+    data_files={"train": TRAIN_FILE},
+    split="train"
+)
+val_dataset = load_dataset(
+    DATASET_REPO,
+    data_files={"train": VAL_FILE},
+    split="train"
 )
+print(f"Train: {len(train_dataset)} exemples")
+print(f"Validation: {len(val_dataset)} exemples")
 # Fonction de formatage
 def format_example(example):
 # Appliquer le formatage
 print("Formatage des données...")
+train_dataset = train_dataset.map(format_example, remove_columns=train_dataset.column_names)
+val_dataset = val_dataset.map(format_example, remove_columns=val_dataset.column_names)
 # Afficher un exemple
 print("\nExemple de données formatées:")
+print(train_dataset[0]["text"][:500] + "...")
 # ============================================================================
 # CONFIGURATION D'ENTRAÎNEMENT
 trainer = SFTTrainer(
     model=model,
     args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=val_dataset,
     peft_config=lora_config,
     tokenizer=tokenizer,
 )