2.1. Алгоритм Q-Learning. Алгоритм Q-Learning є одним із популярних алгоритмів у навчанні з підкріпленням, і це безмодельний алгоритм тимчасової різниці (TD). [31]. Його мета полягає в тому, щоб інтелектуальний агент навчився оптимальній політиці, яка максимізує сукупну винагороду через взаємодію з навколишнім середовищем … 28 лютого 2024 р.
Q-навчання є алгоритм навчання з підкріпленням, який знаходить оптимальну політику вибору дій для будь-якого кінцевого марковського процесу прийняття рішень (MDP). Це допомагає агенту навчитися максимізувати загальну винагороду з часом через повторювані взаємодії з середовищем, навіть якщо модель цього середовища невідома.
Q-навчання є підхід машинного навчання, який дозволяє моделі ітеративно навчатися та вдосконалюватися з часом, виконуючи правильні дії. Q-навчання – це тип навчання з підкріпленням. За допомогою навчання з підкріпленням модель машинного навчання навчена імітувати спосіб навчання тварин або дітей.
Q-навчання (Watkins, 1989) — це метод оптимізації (накопичуваної) зниженої винагороди, що робить винагороди в далекому майбутньому менш пріоритетними, ніж винагороди в найближчій перспективі. R-навчання (Schwarz, 1993) — це метод оптимізації середньої винагороди, який однаково зважує винагороду у віддаленому та найближчому майбутньому.
Алгоритм Q∗ генерує вузли в просторі пошуку, застосовуючи семантичну та синтаксичну інформацію для керування пошуком. Використання семантики дозволяє припиняти шляхи та досліджувати плідні шляхи. Стаття обмежена описом використання синтаксичної та семантичної інформації в алгоритмі Q∗.
Мінуси Q-Learning: Виклики дослідження: Q-learning може вимагати багато досліджень, щоб знайти найкращу політику, яка в деяких випадках може бути неефективною. Повільна конвергенція: Conve.