myX-Semantic: A High-Performance Burmese Word Embedding Model
áá áááá«ááºáž (Introduction)
myX-Semantic ááẠááŒááºáá¬áá¬áá¬á áá¬ážá á¡áááºá¡áááá¹áá¬áẠáááºá ááºááŸá¯áá»á¬ážááᯠááááºážááááºážáá»á¬ážá¡ááŒá ẠááŒá±á¬ááºážáá²áá±ážááá¯ááºáá±á¬ (Word Embedding) áá±á¬áºáááºáá áºáá¯ááŒá áºáááºá á€áá±á¬áºáááºááẠááŒááºáá¬á á¬áá¬ážáá»á¬ážá¡ááœááºážááŸá á áá¬ážáá¯á¶ážáá»á¬ážá ááŸá±á·áá±á¬ááºáááºá ááºááŸá¯ (Contextual relationships) ááŸáá·áº á¡áááá¹áá¬ááºáá°áá®ááŸá¯ (Semantic similarity) áá»á¬ážááᯠáá¬ážáááºááá¯ááºááẠFastText (Skip-gram) áááºážááá¬ááᯠá¡ááŒá±áá¶á áááºáá±á¬ááºáá¬ážááŒááºážááŒá áºáááºá
áá áá¯ááºáá¯ááºáá° (Developer Information)
ဠModel ááᯠDatarrX (Myanmar Open Source NGO) á០áá¯ááºáá±ááŒááºážááŒá áºááŒá®áž [Khant Sint Heinn (Kalix Louis)(https://huggingface.co/kalixlouiis)] á០á¡ááá áááºáá®ážáááºáá±á¬ááºáá¬ážááŒááºáž ááŒá áºáá«áááºá ááŒááºáá¬áá¬áá¬á áá¬ážááá¯ááºáᬠááá¬ááá¬áá¬á áá¬áž á á®áá¶áá±á¬ááºááœááºááŸá¯ (Natural Language Processing - NLP) á¡áááºážá¡ááŒá áºáá»á¬ážááᯠááá¯ááá¯áá±á«áá»á¬ážáá¬á á±ááẠáááºááœááºá áááºáá®ážáá²á·ááŒááºážááŒá áºáááºá
áá á¡áá¯á¶ážááŒá¯ááá¯ááºááá·áº áááºáááºáá»á¬áž (Intended Use)
myX-Semantic ááᯠá¡á±á¬ááºáá« NLP áá¯ááºáááºážá ááºáá»á¬ážááœáẠá¡ááŒá±áá¶á¡á¯ááºááŒá áºá¡ááŒá Ạá¡áá¯á¶ážááŒá¯ááá¯ááºááẠ-
- Semantic Search: á á¬áá¯á¶ážáá±á«ááºáž áááááá»áá» ááá°áá±á¬áºáááºáž á¡áááá¹áá¬ááºáá°áá®ááá·áº á á¬áá¬ážáá»á¬ážááᯠááŸá¬ááœá±ááŒááºážá
- Text Classification: á á¬áá¬ážáá»á¬ážááᯠá¡áá»áá¯ážá¡á á¬áž ááœá²ááŒá¬ážááŒááºážá
- Sentiment Analysis: á á¬áá¬ážáá»á¬ážá áá¶á á¬ážáá»ááºáá±á¬áºááŒááŸá¯ááᯠááœá²ááŒá¬ážááŒááºážá
- Foundation for LLMs: ááŒá®ážáá¬ážáá±á¬ áá¬áá¬á áá¬ážáá±á¬áºáááºáá»á¬áž (Large Language Models) á¡ááœáẠá¡áááá¹áá¬ááºááá¯ááºážááá¯ááºáᬠá¡ááŒá±áá¶á¡ááŒá Ạá¡áá¯á¶ážááŒá¯ááŒááºážá
áá áááºážááá¬ááá¯ááºáᬠá¡áá»ááºá¡áááºáá»á¬áž (Technical Details)
á€áá±á¬áºáááºááᯠáá±á·áá»áá·áºáá¬ááœáẠá¡á±á¬ááºáá« áááºážááá¬ááá¯ááºáᬠáááºááŸááºáá»ááºáá»á¬ážááᯠá¡áá¯á¶ážááŒá¯áá¬ážááẠ-
- áá±á¬áºáááºáááºáá±á¬ááºáá¯á¶ (Architecture): FastText (Skip-gram)á
- áá±á·áá»áá·áºáá¬ážáá±á¬ áá±áá¬ááá¬á (Training Data): á á¬ááŒá±á¬ááºážáá± áá áááºážáá»á±á¬áº (á .á GB áááºážáá»ááº) ááŸááá±á¬ myX-Mega-Corpusá
- á áá¬ážáá¯á¶ážááœá²á áá Ạ(Tokenizer): myX-Tokenizer (64,000 Vocabulary size)á
- Vector Dimension: 100á
- á¡áááºážáá¯á¶ážáá«áááºááŸá¯ááŸá¯ááºáž (Min Count): 20á
- Window Size: 5á
- Epochs: 3á
á á ááá·áºáááºáá»ááºáá»á¬ážááŸáá·áº ááá¯ááºá áẠ(Limitations and License)
á .á ááá·áºáááºáá»ááºáá»á¬áž (Limitations)
- á€áá±á¬áºáááºááẠUnicode á á¶ááŸá¯ááºážááŒáá·áº áá±ážáá¬ážáá¬ážáá±á¬ á á¬áá¬ážáá»á¬ážááœááºáᬠá¡áá±á¬ááºážáá¯á¶áž á áœááºážáá±á¬ááºááá¯ááºáááºááŒá áºáááºá
- áá±á·áá»áá·áºáá¬ážáá±á¬ áá±áá¬áá»á¬ážá¡ááœááºážá០áááºááá¯ááºááŸá¯ (Bias) áá»á¬ážááẠáá±á¬áºáááºá ááááºá¡áá±á«áº áááºáá±á¬ááºááŸá¯ ááŸáááá¯ááºáááºá
á .á ááá¯ááºá áẠ(License)
á€áá±á¬áºáááºá¡á¬áž Apache License 2.0 á¡á±á¬ááºááœáẠáá¯ááºáá±áá¬ážáá«áááºá á á®ážááœá¬ážáá±ážáá¯ááºáááºážáá»á¬ážááŸáá·áº áá¯áá±áááá¯ááºáááºážáá»á¬ážááœáẠááœááºáááºá áœá¬ á¡áá¯á¶ážááŒá¯ááá¯ááºáá±á¬áºáááºáž áá°áááºážáááºáá®ážáá°ááᯠáááºááŸááºáá¬ážááá·áºá¡ááá¯ááºáž ááá¯ážáá¬ážáá±á¬áºááŒááááºááŒá áºáááºá
áá á¡áá¯á¶ážááŒá¯áááºáž áááºážááœáŸáẠ(How to Use)
ဠModel ááᯠPython environment ááœáẠá¡á±á¬ááºáá«á¡ááá·áºáá»á¬ážá¡ááá¯ááºáž á¡áá¯á¶ážááŒá¯ááá¯ááºáááºá
á.á ááá¯á¡ááºáá±á¬ Library áá»á¬áž ááá·áºááœááºážááŒááºáž (Installation)
ááááŠážá áœá¬ Model ááᯠLoad áá¯ááºáááºááŸáá·áº Hugging Face á០Download ááá°ááẠááá¯á¡ááºáá±á¬ Library áá»á¬ážááᯠInstall áá¯ááºáá«á
pip install fasttext huggingface_hub
á.á Model ááᯠLoad áá¯ááºááŒááºáž (Loading the Model)
Hugging Face Hub á០Model ááᯠááá¯ááºááá¯áẠDownload ááá°ááŒá®áž Load áá¯ááºááẠá¡á±á¬ááºáá« Code ááᯠá¡áá¯á¶ážááŒá¯áá«á
import fasttext
from huggingface_hub import hf_hub_download
# Hugging Face á០model ááá¯ááºááᯠdownload ááœá²ááŒááºáž
model_path = hf_hub_download(repo_id="DatarrX/myX-Semantic", filename="myX-Semantic.bin")
# fasttext ááᯠáá¯á¶ážááŒá®áž model ááᯠload áá¯ááºááŒááºáž
model = fasttext.load_model(model_path)
á.á á¡ááŒá±áá¶ á¡áá¯á¶ážááŒá¯áááºážáá»á¬áž (Basic Operations)
Model áááŸáááŒá®ážáá±á¬áẠá¡á±á¬ááºáá« NLP áá¯ááºáááºážá ááºáá»á¬ážááᯠá ááºážáááºááá¯ááºáááºá
- á) á¡áááá¹áá¬ááºáá°áá®áá±á¬ á áá¬ážáá¯á¶ážáá»á¬áž ááŸá¬ááœá±ááŒááºáž (Finding Nearest Neighbors) á áá¬ážáá¯á¶ážáá áºáá¯á¶ážááŸáá·áº á¡áá®ážá ááºáá¯á¶áž á¡áááá¹áá¬ááºááŸááá±á¬ á áá¬ážáá¯á¶áž (áá) áá¯á¶ážááᯠááŸá¬ááœá±áááº:
# 'áááºážááá¬' ááŸáá·áº á¡áá®ážá
ááºáá¯á¶ážá
áá¬ážáá¯á¶ážáá»á¬áž ááŸá¬ááŒááºáž
neighbors = model.get_nearest_neighbors("áááºážááá¬")
for score, neighbor in neighbors:
print(f"{neighbor}: {score:.4f}")
- á) á áá¬ážáá¯á¶ážááŸá áºáá¯á¶ážá á¡áááá¹áá¬áẠáá®ážá ááºááŸá¯ááᯠá á áºáá±ážááŒááºáž (Calculating Similarity Score) á áá¬ážáá¯á¶ážááŸá áºáá¯á¶ážááẠá¡áááá¹áá¬ááºá¡á áááºáá»áŸ áá®ážá ááºááá²ááá¯áááºááᯠááœááºáá»ááºáááº:
import numpy as np
def get_similarity(w1, w2):
v1 = model.get_word_vector(w1)
v2 = model.get_word_vector(w2)
return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
score = get_similarity("áá»á±á¬áºáááº", "áááºážáá¬áááº")
print(f"Similarity Score: {score:.4f}")
- á) á á¬ááŒá±á¬ááºážáá áºáá¯áá¯á¶ážá Vector ááᯠááá°ááŒááºáž (Getting Sentence Vector) á á¬ááŒá±á¬ááºážáá áºáá¯áá¯á¶ážááᯠVector á¡ááŒá ẠááŒá±á¬ááºážáá²ááẠ(Text Classification ááá¯á·ááá¯áẠSemantic Search áá¯ááºáááºá¡ááœáẠá¡áá¯á¶ážáááºáááº):
sentence_vector = model.get_sentence_vector("ááŒááºáá¬ááá¯ááºáá¶á áááºážááᬠááá¹á ááá¯ážáááºáá¬áá¯á¶")
print(sentence_vector)
áá áá±á·áá»áá·áºááŸá¯ ááŒá áºá áẠá¡áá»ááºážáá»á¯áẠ(Training Procedure Summary)
á€áá±á¬áºáááºááᯠá¡ááá·áº (á) ááá·áºááŒáá·áº á áá áºááá» áá±á·áá»áá·áºáá²á·ááẠ-
- á¡ááá·áº (á) - Tokenization: myX-Tokenizer ááᯠá¡áá¯á¶ážááŒá¯á áá áááºážáá»á±á¬áºáá±á¬ á á¬ááŒá±á¬ááºážáá»á¬ážááᯠSubword units áá»á¬ážá¡ááŒá Ạááœá²ááŒá¬ážáá²á·áááºá áá¯ááºáá±á¬ááºáá»áẠááŒááºáááºá á±ááẠMultiprocessing á áá áºááᯠá¡áá¯á¶ážááŒá¯áá²á·áááºá
- á¡ááá·áº (á) - FastText Training: ááœá²ááŒá¬ážáá¬ážáá±á¬ Token áá»á¬ážááᯠFastText (Skip-gram) algorithm áá¯á¶ážá Dimension 100 ááŒáá·áº áá±á·áá»áá·áºáá²á·áááºá ááá¯ááá¯áááá»áá±á¬ Context áá»á¬ážáááŸáááẠWindow Size 5 ááŸáá·áº Negative Sampling áááºážáááºážááᯠá¡áá¯á¶ážááŒá¯áá²á·áááºá
áá áá±á·áá»áá·áºááŸá¯ááá¯ááºáᬠáá¯ááºáá»á¬áž (Training Code)
áá±á¬áºáááºá¡á¬áž ááŒááºáááºá ááºážáááºááá¯ááºáááºááŸáá·áº ááœáá·áºáááºážááŒááºáá¬ááŸá¯ááŸáá á±áááºá¡ááœáẠá¡áá¯á¶ážááŒá¯áá²á·áá±á¬ áá¯ááºá¡ááŒáá·áºá¡á á¯á¶ááᯠá¡á±á¬ááºáá« GitHub link ááœáẠáá±á·áá¬ááá¯ááºááẠ- ð https://github.com/DatarrX/myX-Semantic
áá áá±á¬áºáááºááá¯ááºáᬠá¡áá»ááºá¡áááºáá»á¬áž (Model File Info)
- Model Version: 1.0
- File Format: Binary (.bin)
- File Size: ~851.71 MB
- Vector Dimension: 100
- Architecture: FastText (Skip-gram)
ááá DatarrX á¡ááŒá±á¬ááºáž (About DatarrX)
DatarrX ááẠááŒááºáá¬áá¬áá¬á áá¬ážá¡ááœáẠá¡ááá·áºááŒáá·áº ááá¬ááá¬áá¬á áá¬áž á á®áá¶áá±á¬ááºááœááºááŸá¯ (Natural Language Processing) á¡áááºážá¡ááŒá áºáá»á¬ážááᯠáááºáá®ážáá±ážáá±ááá·áº Open-source NGO á¡ááœá²á·á¡á ááºážáá áºáá¯ááŒá áºáááºá ááŒááºáá¬ááá¯ááºáá¶á áá áºáá»á áºáááºáááºážááá¬ááá¹áááœáẠAI ááŸáá·áº Open Data áá»á¬áž ááá¯ááá¯áá±á«áá»á¬ážáá¬á á±áááºááŸáá·áº ááŒááºáá¬áá¬áá¬á áá¬ážááá¯ááºáᬠáá±áá¬á á¯áá»á¬ážá áá±á¬áºáááºáá»á¬ážááᯠáá°ááá¯ááºáž á¡ááá²á· á¡áá¯á¶ážááŒá¯ááá¯ááºááẠáááºááœááºá ááœá²á·á ááºážáá¬ážááŒááºážááŒá áºáááºá
ááá ááá¯ážáá¬ážá¡áá¯á¶ážááŒá¯ááẠ(Citation)
áááºá áá¯áá±áá ááá¯á·ááá¯áẠááá±á¬áá»ááºáá»á¬ážááœáẠá€áá±á¬áºáááºááᯠá¡áá¯á¶ážááŒá¯áá«á á¡á±á¬ááºáá«á¡ááá¯ááºáž ááá¯ážáá¬ážáá±ážáá«ááẠáá±áá¹áá¬áááºáá¶á¡ááºáá«ááẠ-
APA Style
Khant Sint Heinn. (2026). myX-Semantic: A Burmese word embedding model for NLP tasks [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Semantic
BibTeX
@software{khantsintheinn2026myxsemantic,
author = {Khant Sint Heinn},
title = {myX-Semantic: A Burmese Word Embedding Model for NLP Tasks},
year = {2026},
publisher = {DatarrX},
url = {https://huggingface.co/DatarrX/myX-Semantic},
note = {Myanmar Open Source NGO}
}
ááá á¡áá¯á¶ážááŒá¯ááá¯ááºááá·áº áá¬áá¬á áá¬áž (Intended Language)
á€áá±á¬áºáááºááᯠááŒááºáá¬áá¬áá¬á áá¬áž (Burmese) áá áºáá»áá¯ážáááºážá¡ááœááºáᬠáááºááœááºá áááºáá±á¬ááºáá¬ážááŒááºážááŒá áºáááºá á¡ááŒá¬ážáá¬áá¬á áá¬ážáá»á¬ážá¡ááœáẠá¡áá¯á¶ážááŒá¯áá«á ááááºáá±á¬ááºážááœááºááẠá¡á¬áááá¶áá«á
- Downloads last month
- 31