Spaces:

Az-r-ow
/

TravelNER

Sleeping

File size: 4,227 Bytes

ddda2fe
 
 
 
 
 
 
50974f8
ddda2fe
50974f8
ddda2fe
50974f8
 
 
ddda2fe
50974f8
 
ddda2fe
 
50974f8
ddda2fe
 
50974f8
 
 
 
 
ddda2fe
 
 
 
 
 
50974f8
ddda2fe
50974f8
ddda2fe
50974f8
 
ddda2fe
50974f8
 
ddda2fe
 
50974f8
 
 
ddda2fe
 
 
 
50974f8
ddda2fe
50974f8
 
ddda2fe
6857b34
50974f8
3c21054
 
ddda2fe
 
50974f8
 
ddda2fe
 
50974f8
ddda2fe
50974f8
ddda2fe
50974f8
 
 
ddda2fe
 
50974f8
ddda2fe
50974f8
 
ddda2fe
50974f8
 
ddda2fe
50974f8
 
ddda2fe
 
 
 
 
 
50974f8
ddda2fe
50974f8
 
 
fcb3586
 
 
 
50974f8
0747c82
 
 
50974f8
 
 
 
ddda2fe
 
 
50974f8
 
ddda2fe
 
 
 
50974f8
ddda2fe
50974f8
ddda2fe
 
 
50974f8
 
 
 
 
ddda2fe
 
 
 
 
50974f8
ddda2fe

import os
import sys
import csv
import random
from typing import List


def make_unique_lines(f_in: str, f_out: str) -> int:
    """
    Delete all duplicate lines of a file.

    Args:
        f_in (str): File path to analyse, must contain extension.
        f_out (str): File path containing result, must contain extension.

    Returns:
        (int): The number of duplicate lines found.
    """

    seen_lines: set = set()
    duplicates: int = 0

    with open(f_in, "r") as in_f, open(f_out, "w") as out_f:
        for line in in_f:
            if line not in seen_lines:
                out_f.write(line)
                seen_lines.add(line)
            else:
                duplicates += 1

    return duplicates


def count_file_lines(f_path: str) -> int:
    """
    Count the number of lines in a file.

    Args:
        f_path (str): File path to analyse, must contain extension.

    Returns:
        (int): The number of lines found.
    """

    with open(f_path, "r") as f:
        lines = f.readlines()
        return len(lines)


def get_cities() -> List:
    """
    Returns all cities from sncf db_file.

    Returns:
        (List): All cities present in file.
    """

    cities = []
    stations_file = os.path.join(".", "data", "sncf", "sncf_stations_database.csv")
    with open(stations_file, "r") as csvfile:
        reader = csv.DictReader(csvfile, delimiter=";")
        for row in reader:
            cities.append(row["COMMUNE"])
    return cities


def generate_data(cities: List, file_out: str, nb_samples: int):
    """
    Generate dataset from template file.

    Args:
        cities (List): Cities from wich combinaison will generate.
        file_out (str): Output file, must contain extension.
    """

    user_comb = set()
    cities = get_cities()
    print(len(cities))
    line_count = 0

    with open("data_unique_tmp.txt", "r") as f_template:
        template_line = f_template.readlines()

    with open(file_out, "w") as f_sortie:
        while line_count <= nb_samples:
            arrival_city = random.choice(cities)
            departure_city = random.choice(cities)

            while arrival_city == departure_city:
                arrival_city = random.choice(cities)

            combination = (arrival_city, departure_city)

            if combination not in user_comb:
                user_comb.add(combination)
                line = random.choice(template_line)
                # .title() is used to capitalize the first letter of each word
                # in the string, the purpose if it is to have a unified format
                new_line = line.replace("{depart}", departure_city.title())
                new_line = new_line.replace("{arrivee}", arrival_city.title())
                try:
                    n_chars_written = f_sortie.write(new_line)
                    if n_chars_written != len(new_line):
                        raise Exception("Error while writing line")
                    line_count += 1
                except Exception as e:
                    print(e)
                    print(new_line)


def main():
    if len(sys.argv) != 4:
        print("Usage: python script.py <file_in> <file_out> <nb_sample>")
        sys.exit(1)
    else:
        file_in = sys.argv[1]
        file_out = sys.argv[2]
        nb_samples = int(sys.argv[3])

        duplicates: int = make_unique_lines(file_in, "data_unique_tmp.txt")

        cities: List = get_cities()

        generate_data(cities, file_out, nb_samples)

        initial_line_number: int = count_file_lines(file_in)
        unique_sentences_number: int = count_file_lines("data_unique_tmp.txt")
        final_data_number: int = count_file_lines(file_out)

        os.remove("data_unique_tmp.txt")

        print("Treatment is finished : ")
        print("     - Input file : " + file_in)
        print("     - Unitial number of lines : " + str(initial_line_number))
        print("     - Number of duplicates found : " + str(duplicates))
        print("     - Unique sentence forms : " + str(unique_sentences_number))
        print("     - Output file : " + file_out)
        print("     - Final dataset size : " + str(final_data_number))


if __name__ == "__main__":
    main()