
Хэлний загварчлалын: Bigram модел

З.Номин-Эрдэнэ
Багш


З.Номин-Эрдэнэ
Багш
Хэлний загвар (Language Model) нь хиймэл оюун ухаан болон Natural Language Processing (NLP)-ийн хамгийн чухал ойлголтуудын нэг юм. Хэлний загварын үндсэн зорилго нь өгөгдсөн үгийн дараа ямар үг хамгийн өндөр магадлалтай гарч ирэхийг таамаглах явдал байдаг. Энэхүү технологи нь машин орчуулга, чатбот, текст үүсгэх систем, яриа таних зэрэг олон төрлийн AI системд өргөн ашиглагддаг.
Хэлний загваруудын хамгийн энгийн бөгөөд суурь хэлбэрийн нэг нь Bigram Model юм. Bigram загвар нь хоёр үгийн дарааллын магадлалыг ашиглан дараагийн үгийг таамагладаг хэлний загвар юм. Өөрөөр хэлбэл тухайн үгийн өмнөх нэг үгийг ашиглан дараагийн үгийг тодорхойлдог гэсэн үг.
Жишээлбэл:
“Би ном ...”
гэсэн өгүүлбэрийн дараа:
“уншиж”
“авч”
“зарж”
зэрэг олон үг гарч болох боловч өгөгдөл дотор хамгийн олон давтагдсан үг илүү өндөр магадлалтай гэж үзэгдэнэ.
Bigram загварын үндсэн санаа нь:
“Дараагийн үг зөвхөн өмнөх нэг үгээс хамаарна”
гэсэн таамаглал дээр суурилдаг.
Bigram model нь өгүүлбэрийг хоёр хоёр үгийн хос болгон задлаж боловсруулдаг.
Жишээ өгүүлбэр:
“Би ном уншиж байна”
Үүнийг bigram хэлбэрт задлавал:
(Би, ном)
(ном, уншиж)
(уншиж, байна)
гэсэн хосууд үүснэ.
Дараа нь эдгээр үгийн хос текстэнд хэдэн удаа давтагдсаныг тоолж, магадлалыг тооцоолдог.
Bigram model-ийн магадлалын үндсэн томьёо нь:


Зурагт Bigram model хэрхэн ажилладагийг маш энгийнээр харуулсан байна. Эхлээд систем текстээс үгийн хосуудын давтамжийг сурч авдаг. Жишээлбэл:

“a → cat” 2 удаа
“the → fish” 1 удаа
“cat → walk” 4 удаа
“cat → saw” 2 удаа
гэх мэтээр үг бүрийн дараа ямар үг хэдэн удаа гарсныг тоолж хадгалдаг.
Үүний дараа эхний үг өгөгдөхөд дараагийн хамгийн боломжит үгийг сонгодог. Жишээлбэл “cat” гэсэн үгийн дараа:
“walk” 4 удаа,
“saw” 2 удаа
гарсан бол Bigram model “walk” гарах магадлал илүү өндөр гэж үзнэ.
Тиймээс:
P(walk | cat) = 4/6
P(saw | cat) = 2/6 болно.
Энэ нь Bigram model өмнөх нэг үгийн давтамжийг ашиглан дараагийн үгийг таамаглаж байгааг харуулж байна.
Bigram model нь орчин үеийн хэлний загваруудын үндсэн санааны эхлэл болсон гэж үздэг. Хожим нь:
Trigram,
N-gram,
RNN,
LSTM,
Transformer зэрэг илүү хүчирхэг архитектурууд хөгжсөн.
Ялангуяа Transformer архитектур гарснаар урт context ойлгох чадвар эрс сайжирч, өнөөдрийн GPT, Gemini, Claude зэрэг системүүд бий болсон.