A newer version of this model is available: DatarrX/myX-Tokenizer

DatarrX - myX-Tokenizer-Unigram ⚙️

myX-Tokenizer-Unigram is a specialized tokenizer for the Burmese language based on the Unigram Language Model algorithm. Developed by Khant Sint Heinn (Kalix Louis) under DatarrX (Myanmar Open Source NGO), this model is optimized for linguistic probabilistic segmentation.

🎯 Objectives & Characteristics

  • Unigram Excellence: Utilizes a probabilistic subword tokenization method that often aligns better with the morphological structure of the Burmese language than BPE.
  • Native Burmese Specialist: Trained exclusively on a massive Burmese-only corpus to ensure high-fidelity script recognition.
  • Optimized Efficiency: Developed using high-quality sampling to balance performance and model size.

🛠️ Technical Specifications

  • Algorithm: Unigram Language Model.
  • Vocabulary Size: 64,000.
  • Normalization: NFKC.
  • Features: Byte-fallback, Split Digits, and Dummy Prefix.

Training Data

Trained on the kalixlouiis/raw-data dataset, specifically utilizing 1.5 million cleaned Burmese sentences.

⚠️ Important Considerations (Limitations)

  • Limited English Support: This model is strictly a Burmese script specialist. It has significant limitations in processing English text, which may result in excessive subword splitting for Latin characters.
  • Script Sensitivity: Optimized for modern Burmese script; performance may vary with older orthography or heavy use of specialized Pali/Sanskrit loanwords.

Citation

If you use this tokenizer in your research or project, please cite it as follows:

APA 7th Edition

Khant Sint Heinn. (2026). myX-Tokenizer-Unigram: Probabilistic Burmese Script Tokenizer (Version 1.0) [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer-Unigram

BibTeX

@software{khantsintheinn2026unigram,
  author = {Khant Sint Heinn},
  title = {myX-Tokenizer-Unigram: Probabilistic Burmese Script Tokenizer},
  version = {1.0},
  year = {2026},
  publisher = {Hugging Face},
  url = {https://huggingface.co/DatarrX/myX-Tokenizer-Unigram},
  note = {Burmese-only training corpus}
}

DatarrX - myX-Tokenizer-Unigram (မြန်မာဘာသာ)

myX-Tokenizer-Unigram သည် Unigram Language Model algorithm ကို အသုံးပြု၍ မြန်မာဘာသာစကားအတွက် အထူးပြုလုပ်ထားသော Tokenizer ဖြစ်ပါသည်။ ဤ Model ကို DatarrX (Myanmar Open Source NGO) မှ ထုတ်ဝေခြင်းဖြစ်ပြီး Khant Sint Heinn (Kalix Louis) မှ အဓိက ဖန်တီးတည်ဆောက်ထားခြင်း ဖြစ်ပါသည်။

🎯 ရည်ရွယ်ချက်နှင့် ထူးခြားချက်များ

  • Unigram ၏ အားသာချက်: BPE ထက် ပိုမို၍ ဖြစ်နိုင်ခြေ (Probability) အပေါ် အခြေခံကာ ဖြတ်တောက်သဖြင့် မြန်မာစာ၏ ဝဏ္ဏဗေဒ သဘာဝနှင့် ပိုမိုကိုက်ညီစေရန်။
  • မြန်မာစာ အထူးပြု: ဤ Model ကို မြန်မာစာ သီးသန့်ဖြင့်သာ Train ထားသဖြင့် ဗမာ(မြန်မာ)စာသားများ၏ အနက်အဓိပ္ပာယ်ကို ပိုမိုတိကျစွာ ဖြတ်တောက်နိုင်ရန်။
  • စနစ်တကျ လေ့ကျင့်မှု: စာကြောင်းပေါင်း ၁.၅ သန်းကို အသုံးပြု၍ အရည်အသွေးမြင့် စံနှုန်းများဖြင့် တည်ဆောက်ထားပါသည်။

🛠️ နည်းပညာဆိုင်ရာ အချက်အလက်များ

  • Algorithm: Unigram Language Model။
  • Vocab Size: 64,000။
  • Normalization: NFKC။
  • Features: Byte-fallback, Split Digits နှင့် Dummy Prefix အင်္ဂါရပ်များ ပါဝင်ပါသည်။

အသုံးပြုထားသော Dataset

kalixlouiis/raw-data ထဲမှ သန့်စင်ပြီးသား မြန်မာစာကြောင်းပေါင်း ၁.၅ သန်း (1.5 Million) ကို အသုံးပြုထားပါသည်။

⚠️ သိထားရန် ကန့်သတ်ချက်များ

  • အင်္ဂလိပ်စာ အားနည်းမှု: ဤ Model သည် မြန်မာစာ သီးသန့်အတွက်သာ ဖြစ်သောကြောင့် အင်္ဂလိပ်စာလုံးများကို ဖြတ်တောက်ရာတွင် အလွန်အားနည်းပြီး စာလုံးအသေးလေးများအဖြစ် ကွဲထွက်သွားတတ်ပါသည်။
  • အရေးအသား စံနှုန်း: ခေတ်သစ်မြန်မာစာ အရေးအသားအပေါ် အခြေခံထားသဖြင့် ပါဠိ/သက္ကတ အသုံးများသော စာသားများတွင် ဖြတ်တောက်ပုံ ကွဲပြားနိုင်ပါသည်။

💻 How to Use (အသုံးပြုနည်း)

import sentencepiece as spm
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="DatarrX/myX-Tokenizer-Unigram", filename="myX-Tokenizer.model")
sp = spm.SentencePieceProcessor(model_file=model_path)

text = "မြန်မာစာကို Unigram algorithm နဲ့ စနစ်တကျ ဖြတ်တောက်ကြည့်ခြင်း။"
print(sp.encode_as_pieces(text))

✍️ Project Authors

Citation

အကယ်၍ သင်သည် ဤ model ကို သင်၏ သုတေသနလုပ်ငန်းများတွင် အသုံးပြုခဲ့ပါက အောက်ပါအတိုင်း ကိုးကားပေးရန် မေတ္တာရပ်ခံအပ်ပါသည်။

APA 7th Edition

Khant Sint Heinn. (2026). myX-Tokenizer-Unigram: Probabilistic Burmese Script Tokenizer (Version 1.0) [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer-Unigram

BibTeX

@software{khantsintheinn2026unigram,
  author = {Khant Sint Heinn},
  title = {myX-Tokenizer-Unigram: Probabilistic Burmese Script Tokenizer},
  version = {1.0},
  year = {2026},
  publisher = {Hugging Face},
  url = {https://huggingface.co/DatarrX/myX-Tokenizer-Unigram},
  note = {Burmese-only training corpus}
}

License 📜

This project is licensed under the Apache License 2.0.

What does this mean?

The Apache License 2.0 is a permissive license that allows you to:

  • Commercial Use: You can use this tokenizer for commercial purposes.
  • Modification: You can modify the model or the code for your specific needs.
  • Distribution: You can share and distribute the original or modified versions.
  • Sublicensing: You can grant sublicenses to others.

Conditions:

  • Attribute: You must give appropriate credit to the author (Khant Sint Heinn) and the organization (DatarrX).
  • License Notice: You must include a copy of the license and any original copyright notice in your distribution.

For more details, you can read the full license text at http://www.apache.org/licenses/LICENSE-2.0.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train DatarrX/myX-Tokenizer-Unigram

Collection including DatarrX/myX-Tokenizer-Unigram