
Random Forest: Хамтдаа шийдвэр гаргадаг ойн загвар

Ө.Буянхангай
Багш


Ө.Буянхангай
Багш
Random Forest нь Machine Learning-ийн хамгийн алдартай, найдвартай алгоритмуудын нэг бөгөөд олон шийдвэрийн модыг (Decision Tree) нэгтгэн ажилладаг ensemble learning арга юм. Үүнийг энгийнээр “олон хүний санал нийлж шийдвэр гаргах” зарчимтай зүйрлэж болно. Нэг мод нь нэг хүний санал мэт ажиллах бол, олон мод нийлээд илүү зөв, тогтвортой хариу гаргадаг. Энэ алгоритм нь classification (ангилал) болон regression (урьдчилсан таамаглал) зэрэг хоёр үндсэн төрлийн асуудалд өргөн хэрэглэгддэг.
“Random” буюу санамсаргүй гэж нэрлэгддэг шалтгаан нь Random Forest дотор хоёр төрлийн санамсаргүй сонголт ашигладагтай холбоотой. Нэгдүгээрт, bootstrap sampling буюу өгөгдлийн санамсаргүй дээжлэлт хийдэг. Өөрөөр хэлбэл, мод бүр нийт өгөгдлийн өөр өөр хэсэг дээр сургагдана. Жишээлбэл, 1000 өгөгдөлтэй бол мод бүр санамсаргүйгээр сонгогдсон 700 орчим өгөгдөл дээр суралцаж болно. Хоёрдугаарт, feature randomness буюу шинж чанарын санамсаргүй сонголтыг ашигладаг. Модны салаа бүрийг байгуулахдаа бүх features-ийг ашиглахгүй, харин зөвхөн тодорхой хэсгийг нь сонгон шийдвэр гаргадаг.
Random Forest-ийн сургалтын үе шат нь хэд хэдэн алхмаас бүрдэнэ. Эхлээд өгөгдлөөс санамсаргүй дээж авч, түүн дээр нэг шийдвэрийн мод байгуулна. Дараа нь энэ үйлдлийг олон удаа давтаж, олон мод үүсгэнэ. Ингэснээр “ой” буюу forest бүрэлддэг. Харин таамаглал хийх үед classification асуудал дээр мод бүр санал өгч, хамгийн олон санал авсан ангиллыг эцсийн үр дүн болгодог. Regression асуудал дээр бүх модны гаргасан утгуудын дунджийг авч эцсийн таамаглалыг гаргадаг.
Random Forest нь өндөр нарийвчлалтай, overfitting багатай, олон төрлийн өгөгдөл дээр сайн ажилладаг зэрэг давуу талтай. Мөн хэрэглэхэд харьцангуй хялбар бөгөөд параметрийн тохиргоо бага шаарддаг учраас практикт маш өргөн хэрэглэгддэг. Хэдийгээр зарим тохиолдолд сургалтын хугацаа урт байх эсвэл тайлбарлахад төвөгтэй байж болох ч, “олон толгой нэг толгойноос дээр” гэсэн зарчмаар ажилладаг энэ алгоритм нь Machine Learning-ийн хамгийн хүчирхэг аргуудын нэг хэвээр байна.