myX-Semantic: A High-Performance Burmese Word Embedding Model

၁။ နိဒါန်သ (Introduction)

myX-Semantic သည် မဌန်မာဘာသာစကာသ၏ အနက်အဓိပ္ပာယ် ဆက်စပ်မဟုမျာသကို ကိန်သဂဏန်သမျာသအဖဌစ် ပဌောင်သလဲပေသနိုင်သော (Word Embedding) မော်ဒယ်တစ်ခုဖဌစ်သည်။ ကမော်ဒယ်သည် မဌန်မာစာသာသမျာသအတလင်သရဟိ စကာသလုံသမျာသ၏ ရဟေ့နောက်ဆက်စပ်မဟု (Contextual relationships) နဟင့် အဓိပ္ပာယ်တူညီမဟု (Semantic similarity) မျာသကို နာသလည်နိုင်ရန် FastText (Skip-gram) နည်သပညာကို အခဌေခံ၍ တည်ဆောက်ထာသခဌင်သဖဌစ်သည်။

၂။ ထုတ်လုပ်သူ (Developer Information)

က Model ကို DatarrX (Myanmar Open Source NGO) မဟ ထုတ်ဝေခဌင်သဖဌစ်ပဌီသ [Khant Sint Heinn (Kalix Louis)(https://huggingface.co/kalixlouiis)] မဟ အဓိက ဖန်တီသတည်ဆောက်ထာသခဌင်သ ဖဌစ်ပါသည်။ မဌန်မာဘာသာစကာသဆိုင်ရာ သဘာဝဘာသာစကာသ စီမံဆောင်ရလက်မဟု (Natural Language Processing - NLP) အရင်သအမဌစ်မျာသကို ပိုမိုပေါမျာသလာစေရန် ရည်ရလယ်၍ ဖန်တီသခဲ့ခဌင်သဖဌစ်သည်။

၃။ အသုံသပဌုနိုင်သည့် နယ်ပယ်မျာသ (Intended Use)

myX-Semantic ကို အောက်ပါ NLP လုပ်ငန်သစဉ်မျာသတလင် အခဌေခံအုတ်မဌစ်အဖဌစ် အသုံသပဌုနိုင်သည် -

  • Semantic Search: စာလုံသပေါင်သ တိတိကျကျ မတူသော်လည်သ အဓိပ္ပာယ်တူညီသည့် စာသာသမျာသကို ရဟာဖလေခဌင်သ။
  • Text Classification: စာသာသမျာသကို အမျိုသအစာသ ခလဲခဌာသခဌင်သ။
  • Sentiment Analysis: စာသာသမျာသ၏ ခံစာသချက်ဖော်ပဌမဟုကို ခလဲခဌာသခဌင်သ။
  • Foundation for LLMs: ကဌီသမာသသော ဘာသာစကာသမော်ဒယ်မျာသ (Large Language Models) အတလက် အဓိပ္ပာယ်ပိုင်သဆိုင်ရာ အခဌေခံအဖဌစ် အသုံသပဌုခဌင်သ။

၄။ နည်သပညာဆိုင်ရာ အချက်အလက်မျာသ (Technical Details)

ကမော်ဒယ်ကို လေ့ကျင့်ရာတလင် အောက်ပါ နည်သပညာဆိုင်ရာ သတ်မဟတ်ချက်မျာသကို အသုံသပဌုထာသသည် -

  • မော်ဒယ်တည်ဆောက်ပုံ (Architecture): FastText (Skip-gram)။
  • လေ့ကျင့်ထာသသော ဒေတာပမာဏ (Training Data): စာကဌောင်သရေ ၁၆ သန်သကျော် (၅.၃ GB ဝန်သကျင်) ရဟိသော myX-Mega-Corpus။
  • စကာသလုံသခလဲစနစ် (Tokenizer): myX-Tokenizer (64,000 Vocabulary size)။
  • Vector Dimension: 100။
  • အနည်သဆုံသပါဝင်မဟုနဟုန်သ (Min Count): 20။
  • Window Size: 5။
  • Epochs: 3။

၅။ ကန့်သတ်ချက်မျာသနဟင့် လိုင်စင် (Limitations and License)

၅.၁ ကန့်သတ်ချက်မျာသ (Limitations)

  • ကမော်ဒယ်သည် Unicode စံနဟုန်သဖဌင့် ရေသသာသထာသသော စာသာသမျာသတလင်သာ အကောင်သဆုံသ စလမ်သဆောင်နိုင်မည်ဖဌစ်သည်။
  • လေ့ကျင့်ထာသသော ဒေတာမျာသအတလင်သမဟ ဘက်လိုက်မဟု (Bias) မျာသသည် မော်ဒယ်၏ ရလဒ်အပေါ် သက်ရောက်မဟု ရဟိနိုင်သည်။

၅.၂ လိုင်စင် (License)

ကမော်ဒယ်အာသ Apache License 2.0 အောက်တလင် ထုတ်ဝေထာသပါသည်။ စီသပလာသရေသလုပ်ငန်သမျာသနဟင့် သုတေသနလုပ်ငန်သမျာသတလင် လလတ်လပ်စလာ အသုံသပဌုနိုင်သော်လည်သ မူရင်သဖန်တီသသူကို သတ်မဟတ်ထာသသည့်အတိုင်သ ကိုသကာသဖော်ပဌရမည်ဖဌစ်သည်။

၆။ အသုံသပဌုနည်သ လမ်သညလဟန် (How to Use)

က Model ကို Python environment တလင် အောက်ပါအဆင့်မျာသအတိုင်သ အသုံသပဌုနိုင်သည်။

၆.၁ လိုအပ်သော Library မျာသ ထည့်သလင်သခဌင်သ (Installation)

ပထမညသစလာ Model ကို Load လုပ်ရန်နဟင့် Hugging Face မဟ Download ရယူရန် လိုအပ်သော Library မျာသကို Install လုပ်ပါ။

pip install fasttext huggingface_hub

၆.၂ Model ကို Load လုပ်ခဌင်သ (Loading the Model)

Hugging Face Hub မဟ Model ကို တိုက်ရိုက် Download ရယူပဌီသ Load လုပ်ရန် အောက်ပါ Code ကို အသုံသပဌုပါ။

import fasttext
from huggingface_hub import hf_hub_download

# Hugging Face မဟ model ဖိုင်ကို download ဆလဲခဌင်သ
model_path = hf_hub_download(repo_id="DatarrX/myX-Semantic", filename="myX-Semantic.bin")

# fasttext ကို သုံသပဌီသ model ကို load လုပ်ခဌင်သ
model = fasttext.load_model(model_path)

၆.၃ အခဌေခံ အသုံသပဌုနည်သမျာသ (Basic Operations)

Model ရရဟိပဌီသနောက် အောက်ပါ NLP လုပ်ငန်သစဉ်မျာသကို စမ်သသပ်နိုင်သည်။

  • က) အဓိပ္ပာယ်တူညီသော စကာသလုံသမျာသ ရဟာဖလေခဌင်သ (Finding Nearest Neighbors) စကာသလုံသတစ်လုံသနဟင့် အနီသစပ်ဆုံသ အဓိပ္ပာယ်ရဟိသော စကာသလုံသ (၁၀) လုံသကို ရဟာဖလေရန်:
# 'နည်သပညာ' နဟင့် အနီသစပ်ဆုံသစကာသလုံသမျာသ ရဟာခဌင်သ
neighbors = model.get_nearest_neighbors("နည်သပညာ")
for score, neighbor in neighbors:
    print(f"{neighbor}: {score:.4f}")
  • ခ) စကာသလုံသနဟစ်လုံသ၏ အဓိပ္ပာယ် နီသစပ်မဟုကို စစ်ဆေသခဌင်သ (Calculating Similarity Score) စကာသလုံသနဟစ်လုံသသည် အဓိပ္ပာယ်အရ မည်မျဟ နီသစပ်သလဲဆိုသည်ကို တလက်ချက်ရန်:
import numpy as np

def get_similarity(w1, w2):
    v1 = model.get_word_vector(w1)
    v2 = model.get_word_vector(w2)
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

score = get_similarity("ပျော်တယ်", "ဝမ်သသာတယ်")
print(f"Similarity Score: {score:.4f}")
  • ဂ) စာကဌောင်သတစ်ခုလုံသ၏ Vector ကို ရယူခဌင်သ (Getting Sentence Vector) စာကဌောင်သတစ်ခုလုံသကို Vector အဖဌစ် ပဌောင်သလဲရန် (Text Classification သို့မဟုတ် Semantic Search လုပ်ရန်အတလက် အသုံသဝင်သည်):
sentence_vector = model.get_sentence_vector("မဌန်မာနိုင်ငံ၏ နည်သပညာ ကဏ္ဍ တိုသတက်လာပုံ")
print(sentence_vector)

၇။ လေ့ကျင့်မဟု ဖဌစ်စဉ် အကျဉ်သချုပ် (Training Procedure Summary)

ကမော်ဒယ်ကို အဆင့် (၂) ဆင့်ဖဌင့် စနစ်တကျ လေ့ကျင့်ခဲ့သည် -

  • အဆင့် (၁) - Tokenization: myX-Tokenizer ကို အသုံသပဌု၍ ၁၆ သန်သကျော်သော စာကဌောင်သမျာသကို Subword units မျာသအဖဌစ် ခလဲခဌာသခဲ့သည်။ လုပ်ဆောင်ချက် မဌန်ဆန်စေရန် Multiprocessing စနစ်ကို အသုံသပဌုခဲ့သည်။
  • အဆင့် (၂) - FastText Training: ခလဲခဌာသထာသသော Token မျာသကို FastText (Skip-gram) algorithm သုံသ၍ Dimension 100 ဖဌင့် လေ့ကျင့်ခဲ့သည်။ ပိုမိုတိကျသော Context မျာသရရဟိရန် Window Size 5 နဟင့် Negative Sampling နည်သလမ်သကို အသုံသပဌုခဲ့သည်။

၈။ လေ့ကျင့်မဟုဆိုင်ရာ ကုဒ်မျာသ (Training Code)

မော်ဒယ်အာသ ပဌန်လည်စမ်သသပ်နိုင်ရန်နဟင့် ပလင့်လင်သမဌင်သာမဟုရဟိစေရန်အတလက် အသုံသပဌုခဲ့သော ကုဒ်အပဌည့်အစုံကို အောက်ပါ GitHub link တလင် လေ့လာနိုင်သည် - 👉 https://github.com/DatarrX/myX-Semantic

၉။ မော်ဒယ်ဆိုင်ရာ အချက်အလက်မျာသ (Model File Info)

  • Model Version: 1.0
  • File Format: Binary (.bin)
  • File Size: ~851.71 MB
  • Vector Dimension: 100
  • Architecture: FastText (Skip-gram)

၁၀။ DatarrX အကဌောင်သ (About DatarrX)

DatarrX သည် မဌန်မာဘာသာစကာသအတလက် အဆင့်မဌင့် သဘာဝဘာသာစကာသ စီမံဆောင်ရလက်မဟု (Natural Language Processing) အရင်သအမဌစ်မျာသကို ဖန်တီသပေသနေသည့် Open-source NGO အဖလဲ့အစည်သတစ်ခုဖဌစ်သည်။ မဌန်မာနိုင်ငံ၏ ဒစ်ဂျစ်တယ်နည်သပညာကဏ္ဍတလင် AI နဟင့် Open Data မျာသ ပိုမိုပေါမျာသလာစေရန်နဟင့် မဌန်မာဘာသာစကာသဆိုင်ရာ ဒေတာစုမျာသ၊ မော်ဒယ်မျာသကို လူတိုင်သ အခမဲ့ အသုံသပဌုနိုင်ရန် ရည်ရလယ်၍ ဖလဲ့စည်သထာသခဌင်သဖဌစ်သည်။

၁၁။ ကိုသကာသအသုံသပဌုရန် (Citation)

သင်၏ သုတေသန သို့မဟုတ် ပရောဂျက်မျာသတလင် ကမော်ဒယ်ကို အသုံသပဌုပါက အောက်ပါအတိုင်သ ကိုသကာသပေသပါရန် မေတ္တာရပ်ခံအပ်ပါသည် -

APA Style

Khant Sint Heinn. (2026). myX-Semantic: A Burmese word embedding model for NLP tasks [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Semantic

BibTeX

@software{khantsintheinn2026myxsemantic,
  author = {Khant Sint Heinn},
  title = {myX-Semantic: A Burmese Word Embedding Model for NLP Tasks},
  year = {2026},
  publisher = {DatarrX},
  url = {https://huggingface.co/DatarrX/myX-Semantic},
  note = {Myanmar Open Source NGO}
}

၁၂။ အသုံသပဌုနိုင်သည့် ဘာသာစကာသ (Intended Language)

ကမော်ဒယ်ကို မဌန်မာဘာသာစကာသ (Burmese) တစ်မျိုသတည်သအတလက်သာ ရည်ရလယ်၍ တည်ဆောက်ထာသခဌင်သဖဌစ်သည်။ အခဌာသဘာသာစကာသမျာသအတလက် အသုံသပဌုပါက ရလဒ်ကောင်သမလန်ရန် အာမမခံပါ။

Downloads last month
31
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train DatarrX/myX-Semantic