TF-IDF (Term Frequency-Inverse Document Frequency)

2025-03-30
ai, python, инженер, код

TF-IDF (Term Frequency – Inverse Document Frequency) нь NLP-(Natural Learning Processing) болон мэдээлэл хайлтын салбарт өргөн хэрэглэгддэг статистик арга юм. Энэ аргачлал нь тухайн тодорхойлсон үг нь документэд дахь давтамж болон нийт документийн хүрээн дэхь давтамжуудыг тодорхойлдог.

TF-IDF хэрхэн ажилладаг вэ?

Энэхүү аргачлал нь 2 үндсэн аргаар тогтоно.
1. Term Frequency- TF

Энэхүү томьёо нь үг нь тухайн бичвэрт хэдэн удаа давтагдахыг хэмжинэ. Давтамж өндөр байх тусмаа тухайн үг чухал үүрэг гүйцэтгэнэ. Мөн энэхүү үр дүнгийн тусламжтайгаар олон давтагдаж буй сул үгийг олж түүнийг багасгаж бас болно.

2. Inverse-Document-Frequency (IDF)

Энэхүү томьёо нь нийт байгаа бичвэрийн хүрээнд тухайн үг нь хэр их давтамжтай байхыг тодорхойлдог. IDF – ийн үр дүн нь өндөр байх тусам

Ховор үг (цөөн бичвэрт агуулагддаг) → өндөр IDF оноотой.

Түгээмэл үг (ихэнх бичвэрт байдаг, жишээ нь: “ба”, “энэ”, “бол”) → бага IDF оноотой.

Жишээ авч үзэцгээе!

Гурван бичвэр байг:

Бичвэр 1: “Муур дэвсгэр дээр байна.”
Бичвэр 2: “Нохой байшинд байна.”
Бичвэр 3: “Нохой, муур хоёр найзууд.”

“муур” гэдэг үгийн TF-IDF оноог тооцоолъё:

TF (Үгний давтамж) тооцоолол:
- Бичвэр 1: “муур” 1 удаа, нийт 5 үг →
- Бичвэр 2: “муур” байхгүй →
- Бичвэр 3: “муур” 1 удаа, нийт 5 үг →
IDF (Эсрэг бичвэрийн давтамж) тооцоолол:
- “муур” нь 3 бичвэрийн 2-т орсон.
- IDF = log(2/3) = 0.176
TF-IDF тооцоолол:
- Бичвэр 1: 1/5 * 0.176 = 0.0352
- Бичвэр 2: 0*0.176 = 0
- Бичвэр 3: 1/5 * 0.176 = 0.0352

Ингэснээр “муур” гэдэг үг Бичвэр 1 болон 3-д илүү ач холбогдолтой, харин Бичвэр 2-т хамааралгүй болохыг харуулж байна.

TF-IDF-ийн хэрэглээ

Хайлтын системүүд – Хайлтын үр дүнг эрэмбэлэх

Текстийн онцлог үгсийг тодорхойлох – Текстийн гол санааг олж илрүүлэх

Спам шүүлтүүр – Түгээмэл бус үгс дээр суурилан и-мэйлүүдийг ангилах

Машин сургалт, AI – Мэдээллийг тоон өгөгдөл болгон хувиргах

TF-IDF нь бичвэр дэх хамгийн чухал үгсийг тодорхойлох бөгөөд түгээмэл үгсийн нөлөөг бууруулдаг. Энэ аргыг хайлтын системүүд, NLP, машин сургалт зэрэг олон салбарт ашигладаг.

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

TF-IDF хэрхэн ажилладаг вэ?

Жишээ авч үзэцгээе!

TF-IDF-ийн хэрэглээ

Leave a Reply Cancel reply

Хайлт

Категори

Австралийн дижитал технологийн хөтөлбөртэй сургуулийн 2025-2026 оны элсэлт удахгүй хаагдах гэж байна.

Танд асуулт
байна уу?

Холбоо барих

Утас

Цагийн хуваарь

Хаяг

Хэрэгцээт холбоосууд

Ажилтнуудынхаа хүүхдүүдэд сургалт авах

Бага, дунд сургуулийнхаа хөтөлбөрийг баяжуулах

Ажилд орох

Automatic speech recognition 2026-04-03

Domain Hijacking 2026-04-01

Cloud computing vs Edge computing 2026-03-31

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF хэрхэн ажилладаг вэ?

Жишээ авч үзэцгээе!

TF-IDF-ийн хэрэглээ

Leave a Reply Cancel reply

Хайлт

Категори

Австралийн дижитал технологийн хөтөлбөртэй сургуулийн 2025-2026 оны элсэлт удахгүй хаагдах гэж байна.

Танд асуултбайна уу?

Холбоо барих

Утас

Цагийн хуваарь

Хаяг

Хэрэгцээт холбоосууд

Ажилтнуудынхаа хүүхдүүдэд сургалт авах

Бага, дунд сургуулийнхаа хөтөлбөрийг баяжуулах

Ажилд орох

Automatic speech recognition 2026-04-03

Domain Hijacking 2026-04-01

Cloud computing vs Edge computing 2026-03-31

Танд асуулт
байна уу?