myX-Semantic: A High-Performance Burmese Word Embedding Model
áá ááááŤááşá¸ (Introduction)
myX-Semantic áááş ááźááşááŹááŹááŹá ááŹá¸á áĄáááşáĄáááášááŹááş áááşá ááşáážáŻááťáŹá¸ááᯠááááşá¸ááááşá¸ááťáŹá¸áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸áááŻááşááąáŹ (Word Embedding) ááąáŹáşáááşáá áşááŻááźá áşáááşá á¤ááąáŹáşáááşáááş ááźááşááŹá áŹááŹá¸ááťáŹá¸áĄáá˝ááşá¸áážá á ááŹá¸ááŻáśá¸ááťáŹá¸á áážáąáˇááąáŹááşáááşá ááşáážáŻ (Contextual relationships) áážááˇáş áĄáááášááŹááşáá°ááŽáážáŻ (Semantic similarity) ááťáŹá¸ááᯠááŹá¸áááşáááŻááşáááş FastText (Skip-gram) áááşá¸áááŹááᯠáĄááźáąááśá áááşááąáŹááşááŹá¸ááźááşá¸ááźá áşáááşá
áá ááŻááşááŻááşáá° (Developer Information)
ᤠModel ááᯠDatarrX (Myanmar Open Source NGO) ááž ááŻááşááąááźááşá¸ááźá áşááźáŽá¸ [Khant Sint Heinn (Kalix Louis)(https://huggingface.co/kalixlouiis)] ááž áĄááá áááşááŽá¸áááşááąáŹááşááŹá¸ááźááşá¸ ááźá áşááŤáááşá ááźááşááŹááŹááŹá ááŹá¸áááŻááşáᏠáááŹáááŹááŹá ááŹá¸ á áŽááśááąáŹááşáá˝ááşáážáŻ (Natural Language Processing - NLP) áĄáááşá¸áĄááźá áşááťáŹá¸ááᯠáááŻáááŻááąáŤááťáŹá¸ááŹá áąáááş áááşáá˝ááşá áááşááŽá¸áá˛áˇááźááşá¸ááźá áşáááşá
áá áĄááŻáśá¸ááźáŻáááŻááşáááˇáş áááşáááşááťáŹá¸ (Intended Use)
myX-Semantic ááᯠáĄáąáŹááşá፠NLP ááŻááşáááşá¸á ááşááťáŹá¸áá˝ááş áĄááźáąááśáĄáŻááşááźá áşáĄááźá áş áĄááŻáśá¸ááźáŻáááŻááşáááş -
- Semantic Search: á áŹááŻáśá¸ááąáŤááşá¸ ááááááťááť ááá°ááąáŹáşáááşá¸ áĄáááášááŹááşáá°ááŽáááˇáş á áŹááŹá¸ááťáŹá¸ááᯠáážáŹáá˝áąááźááşá¸á
- Text Classification: á áŹááŹá¸ááťáŹá¸ááᯠáĄááťááŻá¸áĄá áŹá¸ áá˝á˛ááźáŹá¸ááźááşá¸á
- Sentiment Analysis: á áŹááŹá¸ááťáŹá¸á ááśá áŹá¸ááťááşááąáŹáşááźáážáŻááᯠáá˝á˛ááźáŹá¸ááźááşá¸á
- Foundation for LLMs: ááźáŽá¸ááŹá¸ááąáŹ ááŹááŹá ááŹá¸ááąáŹáşáááşááťáŹá¸ (Large Language Models) áĄáá˝ááş áĄáááášááŹááşáááŻááşá¸áááŻááşáᏠáĄááźáąááśáĄááźá áş áĄááŻáśá¸ááźáŻááźááşá¸á
áá áááşá¸áááŹáááŻááşáᏠáĄááťááşáĄáááşááťáŹá¸ (Technical Details)
á¤ááąáŹáşáááşááᯠááąáˇááťááˇáşááŹáá˝ááş áĄáąáŹááşá፠áááşá¸áááŹáááŻááşáᏠáááşáážááşááťááşááťáŹá¸ááᯠáĄááŻáśá¸ááźáŻááŹá¸áááş -
- ááąáŹáşáááşáááşááąáŹááşááŻáś (Architecture): FastText (Skip-gram)á
- ááąáˇááťááˇáşááŹá¸ááąáŹ ááąááŹáááŹá (Training Data): á áŹááźáąáŹááşá¸ááą áá áááşá¸ááťáąáŹáş (á .á GB áááşá¸ááťááş) áážáááąáŹ myX-Mega-Corpusá
- á ááŹá¸ááŻáśá¸áá˝á˛á áá áş (Tokenizer): myX-Tokenizer (64,000 Vocabulary size)á
- Vector Dimension: 100á
- áĄáááşá¸ááŻáśá¸ááŤáááşáážáŻáážáŻááşá¸ (Min Count): 20á
- Window Size: 5á
- Epochs: 3á
á á áááˇáşáááşááťááşááťáŹá¸áážááˇáş áááŻááşá ááş (Limitations and License)
á .á áááˇáşáááşááťááşááťáŹá¸ (Limitations)
- á¤ááąáŹáşáááşáááş Unicode á áśáážáŻááşá¸ááźááˇáş ááąá¸ááŹá¸ááŹá¸ááąáŹ á áŹááŹá¸ááťáŹá¸áá˝ááşáᏠáĄááąáŹááşá¸ááŻáśá¸ á á˝ááşá¸ááąáŹááşáááŻááşáááşááźá áşáááşá
- ááąáˇááťááˇáşááŹá¸ááąáŹ ááąááŹááťáŹá¸áĄáá˝ááşá¸ááž áááşáááŻááşáážáŻ (Bias) ááťáŹá¸áááş ááąáŹáşáááşá ááááşáĄááąáŤáş áááşááąáŹááşáážáŻ áážááááŻááşáááşá
á .á áááŻááşá ááş (License)
á¤ááąáŹáşáááşáĄáŹá¸ Apache License 2.0 áĄáąáŹááşáá˝ááş ááŻááşááąááŹá¸ááŤáááşá á áŽá¸áá˝áŹá¸ááąá¸ááŻááşáááşá¸ááťáŹá¸áážááˇáş ááŻááąááááŻááşáááşá¸ááťáŹá¸áá˝ááş áá˝ááşáááşá á˝áŹ áĄááŻáśá¸ááźáŻáááŻááşááąáŹáşáááşá¸ áá°áááşá¸áááşááŽá¸áá°ááᯠáááşáážááşááŹá¸áááˇáşáĄáááŻááşá¸ áááŻá¸ááŹá¸ááąáŹáşááźááááşááźá áşáááşá
áá áĄááŻáśá¸ááźáŻáááşá¸ áááşá¸áá˝ážááş (How to Use)
ᤠModel ááᯠPython environment áá˝ááş áĄáąáŹááşááŤáĄáááˇáşááťáŹá¸áĄáááŻááşá¸ áĄááŻáśá¸ááźáŻáááŻááşáááşá
á.á áááŻáĄááşááąáŹ Library ááťáŹá¸ áááˇáşáá˝ááşá¸ááźááşá¸ (Installation)
ááááŚá¸á á˝áŹ Model ááᯠLoad ááŻááşáááşáážááˇáş Hugging Face ááž Download ááá°áááş áááŻáĄááşááąáŹ Library ááťáŹá¸ááᯠInstall ááŻááşááŤá
pip install fasttext huggingface_hub
á.á Model ááᯠLoad ááŻááşááźááşá¸ (Loading the Model)
Hugging Face Hub ááž Model ááᯠáááŻááşáááŻááş Download ááá°ááźáŽá¸ Load ááŻááşáááş áĄáąáŹááşá፠Code ááᯠáĄááŻáśá¸ááźáŻááŤá
import fasttext
from huggingface_hub import hf_hub_download
# Hugging Face ááž model áááŻááşááᯠdownload áá˝á˛ááźááşá¸
model_path = hf_hub_download(repo_id="DatarrX/myX-Semantic", filename="myX-Semantic.bin")
# fasttext ááᯠááŻáśá¸ááźáŽá¸ model ááᯠload ááŻááşááźááşá¸
model = fasttext.load_model(model_path)
á.á áĄááźáąááś áĄááŻáśá¸ááźáŻáááşá¸ááťáŹá¸ (Basic Operations)
Model ááážáááźáŽá¸ááąáŹááş áĄáąáŹááşá፠NLP ááŻááşáááşá¸á ááşááťáŹá¸ááᯠá ááşá¸áááşáááŻááşáááşá
- á) áĄáááášááŹááşáá°ááŽááąáŹ á ááŹá¸ááŻáśá¸ááťáŹá¸ áážáŹáá˝áąááźááşá¸ (Finding Nearest Neighbors) á ááŹá¸ááŻáśá¸áá áşááŻáśá¸áážááˇáş áĄááŽá¸á ááşááŻáśá¸ áĄáááášááŹááşáážáááąáŹ á ááŹá¸ááŻáśá¸ (áá) ááŻáśá¸ááᯠáážáŹáá˝áąáááş:
# 'áááşá¸áááŹ' áážááˇáş áĄááŽá¸á
ááşááŻáśá¸á
ááŹá¸ááŻáśá¸ááťáŹá¸ áážáŹááźááşá¸
neighbors = model.get_nearest_neighbors("áááşá¸áááŹ")
for score, neighbor in neighbors:
print(f"{neighbor}: {score:.4f}")
- á) á ááŹá¸ááŻáśá¸áážá áşááŻáśá¸á áĄáááášááŹááş ááŽá¸á ááşáážáŻááᯠá á áşááąá¸ááźááşá¸ (Calculating Similarity Score) á ááŹá¸ááŻáśá¸áážá áşááŻáśá¸áááş áĄáááášááŹááşáĄá áááşááťáž ááŽá¸á ááşááá˛áááŻáááşááᯠáá˝ááşááťááşáááş:
import numpy as np
def get_similarity(w1, w2):
v1 = model.get_word_vector(w1)
v2 = model.get_word_vector(w2)
return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
score = get_similarity("ááťáąáŹáşáááş", "áááşá¸ááŹáááş")
print(f"Similarity Score: {score:.4f}")
- á) á áŹááźáąáŹááşá¸áá áşááŻááŻáśá¸á Vector ááᯠááá°ááźááşá¸ (Getting Sentence Vector) á áŹááźáąáŹááşá¸áá áşááŻááŻáśá¸ááᯠVector áĄááźá áş ááźáąáŹááşá¸áá˛áááş (Text Classification áááŻáˇáááŻááş Semantic Search ááŻááşáááşáĄáá˝ááş áĄááŻáśá¸áááşáááş):
sentence_vector = model.get_sentence_vector("ááźááşááŹáááŻááşááśá áááşá¸ááᏠááášá áááŻá¸áááşááŹááŻáś")
print(sentence_vector)
áá ááąáˇááťááˇáşáážáŻ ááźá áşá ááş áĄááťááşá¸ááťáŻááş (Training Procedure Summary)
á¤ááąáŹáşáááşááᯠáĄáááˇáş (á) áááˇáşááźááˇáş á áá áşáááť ááąáˇááťááˇáşáá˛áˇáááş -
- áĄáááˇáş (á) - Tokenization: myX-Tokenizer ááᯠáĄááŻáśá¸ááźáŻá áá áááşá¸ááťáąáŹáşááąáŹ á áŹááźáąáŹááşá¸ááťáŹá¸ááᯠSubword units ááťáŹá¸áĄááźá áş áá˝á˛ááźáŹá¸áá˛áˇáááşá ááŻááşááąáŹááşááťááş ááźááşáááşá áąáááş Multiprocessing á áá áşááᯠáĄááŻáśá¸ááźáŻáá˛áˇáááşá
- áĄáááˇáş (á) - FastText Training: áá˝á˛ááźáŹá¸ááŹá¸ááąáŹ Token ááťáŹá¸ááᯠFastText (Skip-gram) algorithm ááŻáśá¸á Dimension 100 ááźááˇáş ááąáˇááťááˇáşáá˛áˇáááşá áááŻáááŻááááťááąáŹ Context ááťáŹá¸ááážááááş Window Size 5 áážááˇáş Negative Sampling áááşá¸áááşá¸ááᯠáĄááŻáśá¸ááźáŻáá˛áˇáááşá
áá ááąáˇááťááˇáşáážáŻáááŻááşáᏠááŻááşááťáŹá¸ (Training Code)
ááąáŹáşáááşáĄáŹá¸ ááźááşáááşá ááşá¸áááşáááŻááşáááşáážááˇáş áá˝ááˇáşáááşá¸ááźááşááŹáážáŻáážáá áąáááşáĄáá˝ááş áĄááŻáśá¸ááźáŻáá˛áˇááąáŹ ááŻááşáĄááźááˇáşáĄá áŻáśááᯠáĄáąáŹááşá፠GitHub link áá˝ááş ááąáˇááŹáááŻááşáááş - đ https://github.com/DatarrX/myX-Semantic
áá ááąáŹáşáááşáááŻááşáᏠáĄááťááşáĄáááşááťáŹá¸ (Model File Info)
- Model Version: 1.0
- File Format: Binary (.bin)
- File Size: ~851.71 MB
- Vector Dimension: 100
- Architecture: FastText (Skip-gram)
ááá DatarrX áĄááźáąáŹááşá¸ (About DatarrX)
DatarrX áááş ááźááşááŹááŹááŹá ááŹá¸áĄáá˝ááş áĄáááˇáşááźááˇáş áááŹáááŹááŹá ááŹá¸ á áŽááśááąáŹááşáá˝ááşáážáŻ (Natural Language Processing) áĄáááşá¸áĄááźá áşááťáŹá¸ááᯠáááşááŽá¸ááąá¸ááąáááˇáş Open-source NGO áĄáá˝á˛áˇáĄá ááşá¸áá áşááŻááźá áşáááşá ááźááşááŹáááŻááşááśá áá áşááťá áşáááşáááşá¸áááŹááášááá˝ááş AI áážááˇáş Open Data ááťáŹá¸ áááŻáááŻááąáŤááťáŹá¸ááŹá áąáááşáážááˇáş ááźááşááŹááŹááŹá ááŹá¸áááŻááşáᏠááąááŹá áŻááťáŹá¸á ááąáŹáşáááşááťáŹá¸ááᯠáá°áááŻááşá¸ áĄááá˛áˇ áĄááŻáśá¸ááźáŻáááŻááşáááş áááşáá˝ááşá áá˝á˛áˇá ááşá¸ááŹá¸ááźááşá¸ááźá áşáááşá
ááá áááŻá¸ááŹá¸áĄááŻáśá¸ááźáŻáááş (Citation)
áááşá ááŻááąáá áááŻáˇáááŻááş áááąáŹááťááşááťáŹá¸áá˝ááş á¤ááąáŹáşáááşááᯠáĄááŻáśá¸ááźáŻááŤá áĄáąáŹááşááŤáĄáááŻááşá¸ áááŻá¸ááŹá¸ááąá¸ááŤáááş ááąáášááŹáááşááśáĄááşááŤáááş -
APA Style
Khant Sint Heinn. (2026). myX-Semantic: A Burmese word embedding model for NLP tasks [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Semantic
BibTeX
@software{khantsintheinn2026myxsemantic,
author = {Khant Sint Heinn},
title = {myX-Semantic: A Burmese Word Embedding Model for NLP Tasks},
year = {2026},
publisher = {DatarrX},
url = {https://huggingface.co/DatarrX/myX-Semantic},
note = {Myanmar Open Source NGO}
}
ááá áĄááŻáśá¸ááźáŻáááŻááşáááˇáş ááŹááŹá ááŹá¸ (Intended Language)
á¤ááąáŹáşáááşááᯠááźááşááŹááŹááŹá ááŹá¸ (Burmese) áá áşááťááŻá¸áááşá¸áĄáá˝ááşáᏠáááşáá˝ááşá áááşááąáŹááşááŹá¸ááźááşá¸ááźá áşáááşá áĄááźáŹá¸ááŹááŹá ááŹá¸ááťáŹá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻááŤá ááááşááąáŹááşá¸áá˝ááşáááş áĄáŹááááśááŤá
- Downloads last month
- 28