EITC/AI/ARL Advanced Reinforcement Learning — це європейська програма ІТ-сертифікації за підходом DeepMind до навчання з підкріпленням у штучному інтелекті.
Навчальний план EITC/AI/ARL Advanced Reinforcement Learning зосереджується на теоретичних аспектах і практичних навичках у техніках навчання з підкріпленням з точки зору DeepMind, організованих у такій структурі, що включає повний дидактичний відеоконтент як довідник для цієї сертифікації EITC.
Підкріплення навчання (RL) - це область машинного навчання, яка стосується того, як розумні агенти повинні вживати дії в оточенні, щоб максимізувати поняття сукупної винагороди. Підкріплене навчання - одна з трьох основних парадигм машинного навчання, поряд з контрольованим навчанням та без нагляду.
Підсилене навчання відрізняється від контрольованого навчання тим, що йому не потрібні подані позначені пари введення/виведення, а також відсутністю необхідності явно коригувати неоптимальні дії. Натомість основна увага приділяється пошуку балансу між розвідкою (незвіданої території) та експлуатацією (на сьогоднішні знання).
Середовище, як правило, формулюється у формі процесу прийняття рішень Маркова (MDP), оскільки багато алгоритми навчання для підкріплення для цього контексту використовують методи динамічного програмування. Основна відмінність між класичними методами динамічного програмування та алгоритмами навчання з підкріпленням полягає в тому, що останні не передбачають знання точної математичної моделі MDP, і вони націлені на великі MDP, де точні методи стають неможливими.
Завдяки своїй загальності навчання підкріплення вивчається в багатьох дисциплінах, таких як теорія ігор, теорія управління, дослідження операцій, теорія інформації, оптимізація на основі симуляції, багатоагентні системи, інтелектуальний рій та статистика. У дослідницькій та контрольній літературі з операцій навчання підкріплення називається приблизним динамічним програмуванням або нейро-динамічним програмуванням. Проблеми, що представляють інтерес для навчання підкріплення, також вивчалися в теорії оптимального управління, яка займається здебільшого існуванням та характеристикою оптимальних рішень, а також алгоритмами їх точного обчислення, і менше вивченням чи наближенням, особливо за відсутності математична модель середовища. В економіці та теорії ігор підкріплення може бути використано для пояснення того, як може виникнути рівновага за обмеженої раціональності.
Базове підкріплення моделюється як процес прийняття рішення Маркова (ПМР). У математиці процес прийняття рішень Маркова (ПМР) - це процес стохастичного управління в дискретний час. Він забезпечує математичну основу для моделювання прийняття рішень у ситуаціях, коли результати частково випадкові, а частково під контролем директора. MDP корисні для вивчення задач оптимізації, вирішених за допомогою динамічного програмування. ПСР були відомі принаймні ще в 1950-х роках. Основна частина досліджень процесів прийняття рішень Маркова виникла в книзі Рональда Говарда "Динамічне програмування та процеси Маркова" 1960 року. Вони використовуються в багатьох дисциплінах, включаючи робототехніку, автоматичне управління, економіку та виробництво. Назва MDP походить від російського математика Андрія Маркова, оскільки вони є продовженням ланцюгів Маркова.
На кожному часовому кроці процес перебуває в якомусь стані S, і особа, що приймає рішення, може вибрати будь-яку дію a, яка доступна в стані S. Процес реагує на наступному кроці, випадковим чином переходячи в новий стан S ', і надаючи приймає рішення відповідну винагороду Ra (S, S ').
На ймовірність переходу процесу в новий стан S 'впливає обрана дія a. Зокрема, це задається функцією переходу стану Pa (S, S '). Таким чином, наступний стан S 'залежить від поточного стану S та дій а), що приймає рішення. Але враховуючи S і a, воно умовно не залежить від усіх попередніх станів та дій. Іншими словами, державні переходи МДП задовольняють властивість Маркова.
Процеси прийняття рішень Маркова є продовженням ланцюгів Маркова; різниця полягає в додаванні дій (дозволяючи вибір) і винагород (надання мотивації). І навпаки, якщо для кожного стану існує лише одна дія (наприклад, «почекати»), а всі винагороди однакові (наприклад, «нуль»), процес прийняття рішення Маркова зводиться до ланцюга Маркова.
Підсилюючий навчальний агент взаємодіє з навколишнім середовищем на дискретних часових кроках. У кожен момент часу t агент отримує поточний стан S (t) і винагороду r (t). Потім він вибирає дію a (t) із набору доступних дій, яка згодом надсилається в середовище. Середовище переходить в новий стан S (t + 1) і винагорода r (t + 1), пов'язана з переходом, визначається. Метою навчального агента з підкріплення є вивчення політики, яка максимізує очікувану сукупну винагороду.
Формулюючи проблему як ПДР, передбачається, що агент безпосередньо спостерігає за поточним станом навколишнього середовища. У цьому випадку проблема, як кажуть, має повну спостережливість. Якщо агент має доступ лише до підмножини станів або якщо спостережувані стани пошкоджені шумом, агент, як кажуть, має часткову спостережливість, і формально проблема повинна бути сформульована як Частково спостережуваний процес рішення Маркова. В обох випадках набір дій, доступних агенту, може бути обмежений. Наприклад, стан залишку на рахунку можна обмежити як позитивний; якщо поточне значення стану дорівнює 3, а перехід стану намагається зменшити значення на 4, перехід не буде дозволений.
Коли ефективність агента порівнюється з ефективністю агента, який діє оптимально, різниця в продуктивності породжує поняття жалю. Для того, щоб діяти майже оптимально, агент повинен міркувати про довгострокові наслідки своїх дій (тобто максимізувати майбутні доходи), хоча безпосередня винагорода, пов'язана з цим, може бути негативною.
Отже, навчання для підкріплення особливо добре підходить для проблем, які включають довгострокову та короткострокову компромісну винагороду. Він був успішно застосований до різних проблем, включаючи управління роботом, планування ліфтів, телекомунікації, нарди, шашки та Go (AlphaGo).
Два елементи роблять навчання посилення потужним: використання зразків для оптимізації продуктивності та використання наближення функцій для роботи з великими середовищами. Завдяки цим двом ключовим компонентам навчання з підкріплення можна використовувати у великих середовищах у таких ситуаціях:
- Модель середовища відома, але аналітичне рішення недоступне.
- Дається лише імітаційна модель середовища (предмет оптимізації на основі імітації).
- Єдиний спосіб збирати інформацію про довкілля - це взаємодіяти з ним.
Перші дві з цих проблем можна вважати проблемами планування (оскільки існує певна модель), тоді як останню можна вважати справжньою проблемою навчання. Однак навчання підкріплення перетворює обидві проблеми планування на проблеми машинного навчання.
Дослідження проти компромісу з експлуатацією було найбільш ретельно вивчене через проблему багатозбройних бандитів та для МДП кінцевих держав у Burnetas і Katehakis (1997).
Підсилення навчання вимагає розумних механізмів дослідження; випадковий вибір дій, без посилання на приблизний розподіл ймовірностей, показує низьку ефективність. Випадок (малих) кінцевих процесів прийняття рішень Маркова порівняно добре вивчений. Однак через відсутність алгоритмів, які добре масштабуються за кількістю станів (або масштабуються до проблем з нескінченними просторами станів), найпростішими є методи простого дослідження.
Навіть якщо питання розвідки не враховувати і навіть якщо держава спостерігалася, проблема залишається використовувати минулий досвід, щоб з'ясувати, які дії призводять до вищих кумулятивних винагород.
Для більш детального ознайомлення з навчальною програмою сертифікації Ви можете розгорнути та проаналізувати наведену нижче таблицю.
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum посилається на дидактичні матеріали відкритого доступу у формі відео. Навчальний процес поділений на покрокову структуру (програми -> уроки -> теми), що охоплює відповідні частини навчального плану. Також надаються необмежені консультації з експертами в галузі.
Детальніше про процедуру сертифікації див Як це працює?.
Довідкові ресурси навчальної програми
Контроль рівня людини за допомогою публікації Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Курс відкритого доступу з глибокого підкріплення в UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL застосовано до проблеми K-armbed bandit від Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Завантажте повні підготовчі матеріали для офлайн-самонавчання для програми Advanced Reinforcement Learning EITC/AI/ARL у файлі PDF
Підготовчі матеріали EITC/AI/ARL – стандартна версія
Підготовчі матеріали EITC/AI/ARL – розширена версія з контрольними запитаннями