Machine Learning-ийн хамгийн алдартай алгоритмуудын нэг болох Random Forest нь яагаад ийм хүчирхэг вэ?

Төсөөлөөд үз дээ, та нэг чухал шийдвэр гаргах гэж байна. Жишээ нь, ажлын саналыг хүлээн авах эсэх. Зөвхөн өөрөө бодохын оронд, та олон найз нөхдөөсөө зөвлөгөө авч, тэдний саналыг нэгтгээд эцсийн шийдвэрээ гаргавал илүү үнэн зөв байх магадлал өндөр биз дээ? Random Forest яг ийм зарчмаар ажилладаг – гэхдээ компьютерийн хувьд. Тэгвэл

Random Forest гэж юу вэ?

Random Forest (Санамсаргүй Ой) нь олон тооны шийдвэрийн модыг (decision trees) нэгтгэсэн ensemble learning аргын нэг төрөл юм. Энгийнээр хэлбэл:

  • Нэг мод – нэг хүний санал
  • Олон мод (Ой) – олон хүний саналын нийлбэр
  • Санамсаргүй – мод бүр өөр өөр өгөгдөл, өөр өөр шинж чанараар сургагдсан байдаг

Энэ нь classification (ангилал) болон regression (урьдчилсан таамаглал) гэсэн хоёр үндсэн даалгаварт хэрэглэгддэг.

Яагаад “Random” гэж нэрлэгддэг вэ?

Random Forest дахь санамсаргүй байдал нь 2 түвшинд байдаг:

1. Bootstrap Sampling (Өгөгдлийн санамсаргүй сонголт)

Мод бүр өгөгдлийн бүх багцаас биш, харин санамсаргүйгаар сонгогдсон дэд багц дээр сургагдана. Үүнийг bagging (Bootstrap Aggregating) гэдэг.

Жишээ нь: Танд 1000 өгөгдөл байвал, мод бүр эдгээрээс санамсаргүйгаар 700 өгөгдлийг сонгож сургагдах боломжтой.

2. Feature Randomness (Шинж чанарын санамсаргүй сонголт)

Модны салаа бүрийг үүсгэхдээ бүх features (шинж чанарууд) биш, харин зөвхөн санамсаргүй сонгогдсон хэсэг features дээр суурилж салгадаг.

Жишээ нь: Танд 20 features байвал, салаа бүр дээр зөвхөн 4-5 features-ийг авч үздэг.

Random Forest хэрхэн ажилладаг вэ?

Сургалтын үе шат:

  1. Өгөгдлийн дээж авах: Анхны өгөгдлөөс санамсаргүйгаар дээж авна (bootstrap sampling)
  2. Мод бүтээх: Энэ дээж дээр шийдвэрийн мод бүтээнэ
  3. Давтах: Энэ үйл явцыг олон удаа (50-500+ удаа) давтаж, олон мод үүсгэнэ
  4. Ой бүрдүүлэх: Бүх модыг нэгтгэж “ой” болгоно

Таамаглалын үе шат:

Classification (Ангилал)-ын хувьд:

  • Мод бүр өөрийн саналаа өгнө (voting)
  • Хамгийн олон санал авсан анги нь эцсийн хариулт болно

Regression (Урьдчилсан таамаглал)-ын хувьд:

Энэ дундаж нь эцсийн хариулт болно

Бүх модны таамаглалын дунджийг гаргана

Random Forest нь machine learning-ийн хамгийн найдвартай, хүчирхэг алгоритмуудын нэг юм. “Олон толгой нэг толгойноос дээр” гэсэн зарчмаар ажилладаг энэ арга нь олон төрлийн асуудалд амжилттай хэрэглэгддэг.

Хэдийгээр зарим сул талтай ч гэсэн, ихэнх практик асуудлуудад Random Forest нь маш сайн үр дүн өгдөг. Хамгийн гол нь – хэрэглэхэд хялбар, тохируулах параметр цөөтэй, гэхдээ үр дүн нь өндөр!

Leave a Reply