fbpx

TF-IDF (Term Frequency – Inverse Document Frequency) нь NLP-(Natural Learning Processing) болон мэдээлэл хайлтын салбарт өргөн хэрэглэгддэг статистик арга юм. Энэ аргачлал нь тухайн тодорхойлсон үг нь документэд дахь давтамж болон нийт документийн хүрээн дэхь давтамжуудыг тодорхойлдог.

TF-IDF хэрхэн ажилладаг вэ?

Энэхүү аргачлал нь 2 үндсэн аргаар тогтоно.
1. Term Frequency- TF

The-TF-Formula

Энэхүү томьёо нь үг нь тухайн бичвэрт хэдэн удаа давтагдахыг хэмжинэ. Давтамж өндөр байх тусмаа тухайн үг чухал үүрэг гүйцэтгэнэ. Мөн энэхүү үр дүнгийн тусламжтайгаар олон давтагдаж буй сул үгийг олж түүнийг багасгаж бас болно.

2. Inverse-Document-Frequency (IDF)

IDF-Formula

Энэхүү томьёо нь нийт байгаа бичвэрийн хүрээнд тухайн үг нь хэр их давтамжтай байхыг тодорхойлдог. IDF – ийн үр дүн нь өндөр байх тусам

Ховор үг (цөөн бичвэрт агуулагддаг) → өндөр IDF оноотой.

Түгээмэл үг (ихэнх бичвэрт байдаг, жишээ нь: “ба”, “энэ”, “бол”) → бага IDF оноотой.

Жишээ авч үзэцгээе!

Гурван бичвэр байг:

  • Бичвэр 1: “Муур дэвсгэр дээр байна.”
  • Бичвэр 2: “Нохой байшинд байна.”
  • Бичвэр 3: “Нохой, муур хоёр найзууд.”

“муур” гэдэг үгийн TF-IDF оноог тооцоолъё:

  1. TF (Үгний давтамж) тооцоолол:
    • Бичвэр 1: “муур” 1 удаа, нийт 5 үг →
    • Бичвэр 2: “муур” байхгүй →
    • Бичвэр 3: “муур” 1 удаа, нийт 5 үг →
  2. IDF (Эсрэг бичвэрийн давтамж) тооцоолол:
    • “муур” нь 3 бичвэрийн 2-т орсон.
    • IDF = log(2/3) = 0.176
  3. TF-IDF тооцоолол:
    • Бичвэр 1: 1/5 * 0.176 = 0.0352
    • Бичвэр 2: 0*0.176 = 0
    • Бичвэр 3: 1/5 * 0.176 = 0.0352

Ингэснээр “муур” гэдэг үг Бичвэр 1 болон 3-д илүү ач холбогдолтой, харин Бичвэр 2-т хамааралгүй болохыг харуулж байна.

TF-IDF-ийн хэрэглээ

Хайлтын системүүд – Хайлтын үр дүнг эрэмбэлэх

Текстийн онцлог үгсийг тодорхойлох – Текстийн гол санааг олж илрүүлэх

Спам шүүлтүүр – Түгээмэл бус үгс дээр суурилан и-мэйлүүдийг ангилах

Машин сургалт, AI – Мэдээллийг тоон өгөгдөл болгон хувиргах

TF-IDF нь бичвэр дэх хамгийн чухал үгсийг тодорхойлох бөгөөд түгээмэл үгсийн нөлөөг бууруулдаг. Энэ аргыг хайлтын системүүд, NLP, машин сургалт зэрэг олон салбарт ашигладаг.

Leave a Reply