{ "version": "1.0", "truncation": null, "padding": null, "added_tokens": [ { "id": 0, "content": "", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "special": true }, { "id": 1, "content": "", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "special": true }, { "id": 2, "content": "", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "special": true }, { "id": 3, "content": "", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "special": true }, { "id": 4, "content": "", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false, "special": true } ], "normalizer": null, "pre_tokenizer": { "type": "ByteLevel", "add_prefix_space": false, "trim_offsets": true, "use_regex": true }, "post_processor": { "type": "RobertaProcessing", "sep": [ "", 2 ], "cls": [ "", 0 ], "trim_offsets": true, "add_prefix_space": false }, "decoder": { "type": "ByteLevel", "add_prefix_space": true, "trim_offsets": true, "use_regex": true }, "model": { "type": "BPE", "dropout": null, "unk_token": null, "continuing_subword_prefix": "", "end_of_word_suffix": "", "fuse_unk": false, "byte_fallback": false, "ignore_merges": false, "vocab": { "": 0, "": 1, "": 2, "": 3, "": 4, "!": 5, "\"": 6, "#": 7, "$": 8, "%": 9, "&": 10, "'": 11, "(": 12, ")": 13, "*": 14, "+": 15, ",": 16, "-": 17, ".": 18, "/": 19, "0": 20, "1": 21, "2": 22, "3": 23, "4": 24, "5": 25, "6": 26, "7": 27, "8": 28, "9": 29, ":": 30, ";": 31, "<": 32, "=": 33, ">": 34, "?": 35, "@": 36, "A": 37, "B": 38, "C": 39, "D": 40, "E": 41, "F": 42, "G": 43, "H": 44, "I": 45, "J": 46, "K": 47, "L": 48, "M": 49, "N": 50, "O": 51, "P": 52, "Q": 53, "R": 54, "S": 55, "T": 56, "U": 57, "V": 58, "W": 59, "X": 60, "Y": 61, "Z": 62, "[": 63, "\\": 64, "]": 65, "^": 66, "_": 67, "`": 68, "a": 69, "b": 70, "c": 71, "d": 72, "e": 73, "f": 74, "g": 75, "h": 76, "i": 77, "j": 78, "k": 79, "l": 80, "m": 81, "n": 82, "o": 83, "p": 84, "q": 85, "r": 86, "s": 87, "t": 88, "u": 89, "v": 90, "w": 91, "x": 92, "y": 93, "z": 94, "{": 95, "|": 96, "}": 97, "~": 98, "¡": 99, "¢": 100, "£": 101, "¤": 102, "¥": 103, "¦": 104, "§": 105, "¨": 106, "©": 107, "ª": 108, "«": 109, "¬": 110, "®": 111, "¯": 112, "°": 113, "±": 114, "²": 115, "³": 116, "´": 117, "µ": 118, "¶": 119, "·": 120, "¸": 121, "¹": 122, "º": 123, "»": 124, "¼": 125, "½": 126, "¾": 127, "¿": 128, "À": 129, "Á": 130, "Â": 131, "Ã": 132, "Ä": 133, "Å": 134, "Æ": 135, "Ç": 136, "È": 137, "É": 138, "Ê": 139, "Ë": 140, "Ì": 141, "Í": 142, "Î": 143, "Ï": 144, "Ð": 145, "Ñ": 146, "Ò": 147, "Ó": 148, "Ô": 149, "Õ": 150, "Ö": 151, "×": 152, "Ø": 153, "Ù": 154, "Ú": 155, "Û": 156, "Ü": 157, "Ý": 158, "Þ": 159, "ß": 160, "à": 161, "á": 162, "â": 163, "ã": 164, "ä": 165, "å": 166, "æ": 167, "ç": 168, "è": 169, "é": 170, "ê": 171, "ë": 172, "ì": 173, "í": 174, "î": 175, "ï": 176, "ð": 177, "ñ": 178, "ò": 179, "ó": 180, "ô": 181, "õ": 182, "ö": 183, "÷": 184, "ø": 185, "ù": 186, "ú": 187, "û": 188, "ü": 189, "ý": 190, "þ": 191, "ÿ": 192, "Ā": 193, "ā": 194, "Ă": 195, "ă": 196, "Ą": 197, "ą": 198, "Ć": 199, "ć": 200, "Ĉ": 201, "ĉ": 202, "Ċ": 203, "ċ": 204, "Č": 205, "č": 206, "Ď": 207, "ď": 208, "Đ": 209, "đ": 210, "Ē": 211, "ē": 212, "Ĕ": 213, "ĕ": 214, "Ė": 215, "ė": 216, "Ę": 217, "ę": 218, "Ě": 219, "ě": 220, "Ĝ": 221, "ĝ": 222, "Ğ": 223, "ğ": 224, "Ġ": 225, "ġ": 226, "Ģ": 227, "ģ": 228, "Ĥ": 229, "ĥ": 230, "Ħ": 231, "ħ": 232, "Ĩ": 233, "ĩ": 234, "Ī": 235, "ī": 236, "Ĭ": 237, "ĭ": 238, "Į": 239, "į": 240, "İ": 241, "ı": 242, "IJ": 243, "ij": 244, "Ĵ": 245, "ĵ": 246, "Ķ": 247, "ķ": 248, "ĸ": 249, "Ĺ": 250, "ĺ": 251, "Ļ": 252, "ļ": 253, "Ľ": 254, "ľ": 255, "Ŀ": 256, "ŀ": 257, "Ł": 258, "ł": 259, "Ń": 260, "ra": 261, "an": 262, "á": 263, "ba": 264, "ca": 265, "ua": 266, "é": 267, "ç": 268, "ru": 269, "ana": 270, "Ca": 271, "im": 272, "Ara": 273, "na": 274, "ri": 275, "ti": 276, "ap": 277, "ê": 278, "ÃŃ": 279, "Am": 280, "ara": 281, "ã": 282, "Aba": 283, "Ġ(": 284, "Ja": 285, "uara": 286, "au": 287, "ré": 288, "uru": 289, "mb": 290, "ng": 291, "rá": 292, "ça": 293, "An": 294, "Ti": 295, "ira": 296, "ma": 297, "ta": 298, "Ka": 299, "bi": 300, "bu": 301, "cu": 302, "ni": 303, "ui": 304, "va": 305, "wa": 306, "Ana": 307, "bá": 308, "et": 309, "he": 310, "api": 311, "nga": 312, "Ai": 313, "Aj": 314, "Ju": 315, "Ma": 316, "Man": 317, "Para": 318, "eba": 319, "gua": 320, "mim": 321, "oca": 322, "quara": 323, "uã": 324, "ú": 325, "Cari": 326, "Amana": 327, "Ap": 328, "Aca": 329, "Aim": 330, "Ira": 331, "Ita": 332, "Juru": 333, "Ya": 334, "rê": 335, "ss": 336, "ue": 337, "uç": 338, "xana": 339, "and": 340, "ang": 341, "anã": 342, "Arac": 343, "auá": 344, "çaÃŃ": 345, "apixana": 346, "Ab": 347, "Ay": 348, "Awa": 349, "Gua": 350, "Guara": 351, "Nhe": 352, "Oca": 353, "Pe": 354, "Pi": 355, "Tu": 356, "Xim": 357, "ará": 358, "cá": 359, "di": 360, "eru": 361, "emb": 362, "it": 363, "ju": 364, "ka": 365, "mu": 366, "mÃŃ": 367, "oti": 368, "pi": 369, "po": 370, "ry": 371, "tê": 372, "uça": 373, "ó": 374, "camim": 375, "çu": 376, "ÃŃba": 377, "Abaca": 378, "biquara": 379, "buré": 380, "Maca": 381, "Mani": 382, "guar": 383, "úna": 384, "Tupi": 385, "Av": 386, "Ati": 387, "Ava": 388, "Da": 389, "Ia": 390, "Iba": 391, "Ibi": 392, "Jap": 393, "Lau": 394, "Mu": 395, "Mana": 396, "Puç": 397, "Pará": 398, "Poti": 399, "Qui": 400, "Ru": 401, "Tim": 402, "Tap": 403, "Ua": 404, "Wa": 405, "Xu": 406, "aÃŃ": 407, "bo": 408, "boca": 409, "ce": 410, "cl": 411, "cé": 412, "cê": 413, "eq": 414, "enga": 415, "erê": 416, "guara": 417, "ia": 418, "ita": 419, "jé": 420, "man": 421, "mana": 422, "nd": 423, "pauá": 424, "saÃŃ": 425, "tã": 426, "uca": 427, "uri": 428, "uet": 429, "yu": 430, "õ": 431, "ü": 432, "anhe": 433, "anbiquara": 434, "bara": 435, "baquara": 436, "uar": 437, "ém": 438, "çara": 439, "runa": 440, "Cai": 441, "Camu": 442, "Arap": 443, "Arara": 444, "tir": 445, "tiba": 446, "Ama": 447, "Amand": 448, "Abaet": 449, "Jacu": 450, "Java": 451, "auim": 452, "urui": 453, "mbeba": 454, "Anh": 455, "Tiju": 456, "Tiyu": 457, "buna": 458, "uia": 459, "Aju": 460, "ParaÃŃba": 461, "angü": 462, "Guará": 463, "Guarani": 464, "embé": 465 }, "merges": [ [ "r", "a" ], [ "a", "n" ], [ "Ã", "¡" ], [ "b", "a" ], [ "c", "a" ], [ "u", "a" ], [ "Ã", "©" ], [ "Ã", "§" ], [ "r", "u" ], [ "an", "a" ], [ "C", "a" ], [ "i", "m" ], [ "A", "ra" ], [ "n", "a" ], [ "r", "i" ], [ "t", "i" ], [ "a", "p" ], [ "Ã", "ª" ], [ "Ã", "Ń" ], [ "A", "m" ], [ "a", "ra" ], [ "Ã", "£" ], [ "A", "ba" ], [ "Ġ", "(" ], [ "J", "a" ], [ "ua", "ra" ], [ "a", "u" ], [ "r", "é" ], [ "u", "ru" ], [ "m", "b" ], [ "n", "g" ], [ "r", "á" ], [ "ç", "a" ], [ "A", "n" ], [ "T", "i" ], [ "i", "ra" ], [ "m", "a" ], [ "t", "a" ], [ "K", "a" ], [ "b", "i" ], [ "b", "u" ], [ "c", "u" ], [ "n", "i" ], [ "u", "i" ], [ "v", "a" ], [ "w", "a" ], [ "A", "na" ], [ "b", "á" ], [ "e", "t" ], [ "h", "e" ], [ "ap", "i" ], [ "ng", "a" ], [ "A", "i" ], [ "A", "j" ], [ "J", "u" ], [ "M", "a" ], [ "M", "an" ], [ "P", "ara" ], [ "e", "ba" ], [ "g", "ua" ], [ "m", "im" ], [ "o", "ca" ], [ "q", "uara" ], [ "u", "ã" ], [ "Ã", "º" ], [ "Ca", "ri" ], [ "Am", "ana" ], [ "A", "p" ], [ "A", "ca" ], [ "A", "im" ], [ "I", "ra" ], [ "I", "ta" ], [ "J", "uru" ], [ "Y", "a" ], [ "r", "ê" ], [ "s", "s" ], [ "u", "e" ], [ "u", "ç" ], [ "x", "ana" ], [ "an", "d" ], [ "an", "g" ], [ "an", "ã" ], [ "Ara", "c" ], [ "au", "á" ], [ "ça", "ÃŃ" ], [ "api", "xana" ], [ "A", "b" ], [ "A", "y" ], [ "A", "wa" ], [ "G", "ua" ], [ "G", "uara" ], [ "N", "he" ], [ "O", "ca" ], [ "P", "e" ], [ "P", "i" ], [ "T", "u" ], [ "X", "im" ], [ "a", "rá" ], [ "c", "á" ], [ "d", "i" ], [ "e", "ru" ], [ "e", "mb" ], [ "i", "t" ], [ "j", "u" ], [ "k", "a" ], [ "m", "u" ], [ "m", "ÃŃ" ], [ "o", "ti" ], [ "p", "i" ], [ "p", "o" ], [ "r", "y" ], [ "t", "ê" ], [ "u", "ça" ], [ "Ã", "³" ], [ "ca", "mim" ], [ "ç", "u" ], [ "ÃŃ", "ba" ], [ "Aba", "ca" ], [ "bi", "quara" ], [ "bu", "ré" ], [ "Ma", "ca" ], [ "Man", "i" ], [ "gua", "r" ], [ "ú", "na" ], [ "Tu", "pi" ], [ "A", "v" ], [ "A", "ti" ], [ "A", "va" ], [ "D", "a" ], [ "I", "a" ], [ "I", "ba" ], [ "I", "bi" ], [ "J", "ap" ], [ "L", "au" ], [ "M", "u" ], [ "M", "ana" ], [ "P", "uç" ], [ "P", "ará" ], [ "P", "oti" ], [ "Q", "ui" ], [ "R", "u" ], [ "T", "im" ], [ "T", "ap" ], [ "U", "a" ], [ "W", "a" ], [ "X", "u" ], [ "a", "ÃŃ" ], [ "b", "o" ], [ "b", "oca" ], [ "c", "e" ], [ "c", "l" ], [ "c", "é" ], [ "c", "ê" ], [ "e", "q" ], [ "e", "nga" ], [ "e", "rê" ], [ "g", "uara" ], [ "i", "a" ], [ "i", "ta" ], [ "j", "é" ], [ "m", "an" ], [ "m", "ana" ], [ "n", "d" ], [ "p", "auá" ], [ "s", "aÃŃ" ], [ "t", "ã" ], [ "u", "ca" ], [ "u", "ri" ], [ "u", "et" ], [ "y", "u" ], [ "Ã", "µ" ], [ "Ã", "¼" ], [ "an", "he" ], [ "an", "biquara" ], [ "ba", "ra" ], [ "ba", "quara" ], [ "ua", "r" ], [ "é", "m" ], [ "ç", "ara" ], [ "ru", "na" ], [ "Ca", "i" ], [ "Ca", "mu" ], [ "Ara", "p" ], [ "Ara", "ra" ], [ "ti", "r" ], [ "ti", "ba" ], [ "Am", "a" ], [ "Am", "and" ], [ "Aba", "et" ], [ "Ja", "cu" ], [ "Ja", "va" ], [ "au", "im" ], [ "uru", "i" ], [ "mb", "eba" ], [ "An", "h" ], [ "Ti", "ju" ], [ "Ti", "yu" ], [ "bu", "na" ], [ "ui", "a" ], [ "Aj", "u" ], [ "Para", "ÃŃba" ], [ "ang", "ü" ], [ "Gua", "rá" ], [ "Guara", "ni" ], [ "emb", "é" ] ] } }