Spaces:

mserras
/

somos-alpaca-es

Runtime error

mserras commited on Apr 6, 2023

Commit

6dbcc57

1 Parent(s): f06fcfd

Updated for logging messages

Files changed (1) hide show

load_data.py CHANGED Viewed

@@ -38,11 +38,11 @@ class LoadDatasets:
         # Leer el dataset del Hub
         try:
             print(f"Trying to sync with {HUB_DATASET_NAME}")
-            old_ds = load_dataset(HUB_DATASET_NAME, split="train")
         except Exception as e:
             print(f"Not possible to sync with {HUB_DATASET_NAME}")
             print(e)
-            old_ds = None
         # dataset = load_dataset("somosnlp/somos-clean-alpaca-es", split="train")
@@ -53,17 +53,19 @@ class LoadDatasets:
         #     print("Concatenated dataset is:")
         #     print(dataset)
-        # dataset = dataset.remove_columns("metrics")
-        if not old_ds:
             return
-        dataset = old_ds
-        records = rg.DatasetForTextClassification.from_datasets(dataset)
         settings = rg.TextClassificationSettings(
             label_schema=["BAD INSTRUCTION", "BAD INPUT", "BAD OUTPUT", "INAPPROPRIATE", "BIASED", "ALL GOOD", "HALLUCINATION", "UNPROCESSABLE"]
         )
         rg.configure_dataset(name="somos-alpaca-es", settings=settings, workspace="team")
         # Log the dataset
         rg.log(
             records,

         # Leer el dataset del Hub
         try:
             print(f"Trying to sync with {HUB_DATASET_NAME}")
+            dataset = load_dataset(HUB_DATASET_NAME, split="train")
         except Exception as e:
             print(f"Not possible to sync with {HUB_DATASET_NAME}")
             print(e)
+            dataset = None
         # dataset = load_dataset("somosnlp/somos-clean-alpaca-es", split="train")
         #     print("Concatenated dataset is:")
         #     print(dataset)
+        dataset = dataset.remove_columns("metrics")
+        if not dataset:
+            print(f"There is no DATASET - Skipping!")
             return
+        print(f"Generating records from the dataset")
+        records = rg.DatasetForTextClassification.from_datasets(dataset)
         settings = rg.TextClassificationSettings(
             label_schema=["BAD INSTRUCTION", "BAD INPUT", "BAD OUTPUT", "INAPPROPRIATE", "BIASED", "ALL GOOD", "HALLUCINATION", "UNPROCESSABLE"]
         )
         rg.configure_dataset(name="somos-alpaca-es", settings=settings, workspace="team")
+        print("Logging the dataset!")
         # Log the dataset
         rg.log(
             records,