Сурах аргууд:
- Хяналттай сургалт
- Хагас хяналттай сургалт
- Хяналтгүй сургалт
- Хүчжүүлсэн сургалт
Энэхүү нийтлэл дээр Хүчжүүлсэн сургалт(Reinforcement Learning) талаар мэдэх болно.
Хүчжүүлсэн сургалт нь “Туршлагаас суралцах” аргачлал юм. Тодорхой орчин өгч, түүнийг судлан, туршилт хийх замаар суралцдаг. Жишээ нь хүүхэд алхаж сурах. Хүүхэд унаж, өвдөлт мэдэрч бүтэлгүйднэ. Олон оролдлого, туршлагын дараа алхаж сурдаг.
Хүчжүүлсэн сургалт(Reinforcement Learning) архитектур:
Ямар нэгэн орчин мөн мэдрэгч ашиглаж олж авсан мэдээллийн шинж чанаруудыг ялгаж, машин сургалтын функц, алгоритмуудаар төлөөлүүлж, мэдлэг болгон авч хоорондын учир шалтгааныг мэдэж авснаар үйлдэл хийх юм.
Мэдрэгч хэсгээс мэдлэг болгох хэсэг хүртэл гүн сургалт , харин мэдрэгч хэсгээс үйлдэл хийх хүртлэх хэсэг хүчжүүлсэн сургалт юм.
Reinforcement Learning ерөнхий бүтэц:
Агент маань алхам тутамд дараах үйлдлийг хийнэ.
- Одоогийн орчин, төлөвт тохирсон үйлдлийг сонгоно.
- Тухайн үйлдлийг хийсний дараа дараагийн шинэ төлөвийг ажиглана.
- Reward буюу шагналыг авна.
Жишээ нь: Зураг дээр харагдаж байгаа муур хажуудаа байгаа цагаан товчлуурыг дугарснаар эзэн нь шагнаж хоол өгнө. Дугаргаж чадахгүй бол хоол өгөхгүй.
Орчин ба Үйлдлүүд:
- Бүрэн ажиглагдахуйц VS Хэсэгчлэн ажиглагдахуйц
- Нэг агент VS Олон агент
- Детерминистик VS Стохастик
- Статик VS Динамик
- Дискрет VS Үргэлжилсэн
Бодит ертөнцийн орчин нь техникийн хувьд стохастик эсвэл хагас ажиглагдахуйц биш ч гэсэн түүний нарийн төвөгтэй байдлаас шалтгаалан дээрх байдлаар загварчлагдах боломжтой юм.
Хүчжүүлсэн суралцахуйн 3 төрлийн загвар:
1. Загвар суурилсан (Model-based):
– Орчны загварыг суралцах
– Загвар дээр тулгуурлан төлөвлөлт хийх
– Загварыг тогтмол шинэчлэх
– Төлөвлөлтийг тогтмол хийх
2. Утгад суурилсан (Value-based):
– Төлөвийн утга эсвэл төлөв-үйлдлийн утгыг суралцах
– Тухайн төлөвт хамгийн сайн үйлдлийг сонгох замаар үйлдэл хийх
– Хайгуул хийх нь зайлшгүй нэмэлт зүйл болно
3. Бодлого суурилсан (Policy-based):
– Төлөвөөс үйлдэл рүү хөтлөх стохастик бодлогыг шууд суралцах
– Бодлогод тулгуурлан үйлдэл дээж авах замаар үйлдэл хийх
– Хайгуул хийх нь бодлогод нэгтгэгдсэн байдаг.
Хайлт
Категори
Категори
- 1 минутын уншлага (287)
- 2 минутын уншлага (136)
- Богино прожектууд (9)
- боловсрол (76)
- Зөвлөгөө (60)
- Зөвлөгөө (22)
- Код (36)
- Хөндлөнгийн (14)