Reinforcement Learning на Python для начинающих
Полное руководство по Обучению с подкреплением (Reinforcement Learning), процессу принятия решений Маркова, Q-Learning, приложениям использующим Python и OpenAI GYM
Авторы: Наука AI
Последнее обновление: 11/2020
Субтитры: Русский, Английский [Автоматически созданные]
Язык: Английский
Чему вы научитесь
- • Важность обучения с подкреплением (RL) в науке о данных.
- • Важные концепции с самого начала с подробным раскрытием примеров на Python.
- • Практическое объяснение и живое кодирование на Python.
- • Приложения теории вероятностей.
- • Марковские процессы принятия решений.
Обучение с подкреплением (RL) обладает огромным потенциалом и, несомненно, является одной из самых динамичных и стимулирующих областей исследований в области искусственного интеллекта. RL считается переломным моментом в науке о данных, особенно после наблюдения за выигрышами агентов AI AlphaGo Zero и OpenAI Five против лучших чемпионов среди людей. Однако RL не ограничивается играми.
Прогресс в обучении с подкреплением, особенно за последние несколько лет, стал сенсационным. RL теперь повсюду, от управления ресурсами до химии, от здравоохранения до финансов, от рекомендательных систем до более сложных приложений для прогнозирования запасов.
Поскольку RL - это целенаправленное обучение, понимание RL не только жизненно важно, но и необходимо во всех областях науки о данных. Этот курс позволит вам вывести свою карьеру на новый уровень, поскольку он представит вам четкое объяснение концепций и реализаций RL в Data Science.
Курс « Обучение, теория и практика с подкреплением в Python » предоставляет вам возможность инновационного, независимого обучения. Курс посвящен практическому применению RL и включает в себя практический проект. Курс:
· Легко понять.
· Описательный.
· Всесторонний.
· Практичен с живым кодированием.
· Богат передовыми и новейшими моделями RL от чемпионов в этой области.
Этот курс предназначен для начинающих, хотя сложные концепции будут рассмотрены позже.
Поскольку этот курс представляет собой сборник всех основ, он вдохновит вас двигаться вперед и испытать гораздо больше, чем вы узнали. В конце каждого модуля вам будут назначены домашние задания / задачи / мероприятия, которые будут оценивать / (развивать) ваше обучение на основе концепций и методов, которые вы изучили ранее. Поскольку цель состоит в том, чтобы научить вас работать с реализациями, многие из этих действий будут основаны на кодировании.
Наука о данных, несомненно, полезная карьера. Вам предстоит решить некоторые из самых интересных задач, и вы будете вознаграждены солидным пакетом заработной платы. Основное понимание RL даст вам больше инструментов искусственного интеллекта и обеспечит прогрессивный карьерный рост.
Как мы уже говорили, RL обладает огромным потенциалом. Не упустите возможность изучить передовые концепции и методологии RL по очень конкурентоспособной цене. Учебники разделены на более 75 коротких видеороликов в формате HD вместе с подробными блокнотами с кодами.
Обучение - это наша страсть:
Наши онлайн-руководства были созданы с учетом наилучшего возможного опыта, чтобы помочь вам четко понять концепции RL. Мы очень позаботились о том, чтобы кодовая база была актуальной. Мы действительно хотим, чтобы вы получили четкое базовое представление о RL, прежде чем переходить к расширенной версии. Преимущества этого увлекательного курса включают высококачественный видеоконтент, вопросы для оценки, содержательные материалы курса, заметки по курсу и раздаточные материалы. Вы также можете обратиться к нашей команде, когда у вас возникнут какие-либо вопросы.
Содержание курса:
Этот комплексный курс состоит из следующих тем:
1. Введение
а. Мотивация
я. Что такое обучение с подкреплением?
II. Чем он отличается от других платформ машинного обучения?
iii. Примеры из реального мира
iv. Упражнения и мысли
б. Терминология обучения с подкреплением
я. Агент
II. Окружающая среда
iii. Действие
iv. состояние
v. Transition
мы. Награда
vii. Политика
viii. Упражнения и мысли
c. Пример сеточного мира
я. Детерминированный мир
II. Стохастический мир
iii. Стационарный мир
iv. Нестационарный мир
v. Упражнения и мысли
2. Марковский процесс принятия решений (MDP)
а. Предпосылки
я. Обзор теории вероятностей
II. Моделирование неопределенности окружающей среды
iii. Средние беговые значения
iv. Моделирование на Python
v. Упражнения и мысли
б. Элементы MDP
я. Вход: пространство состояний
II. Вход: пространство действия
iii. Вход: Модель окружающей среды
iv. Вход: функция вознаграждения
v. Результат: Политика
vi. Примеры работы
vii. Упражнения и мысли
c. Подробнее о наградах
я. Отложенное вознаграждение
II. Масштабирование вознаграждения
iii. Изменения политики с масштабированием вознаграждения: рабочий пример
iv. Бесконечные горизонты и стационарность
v. Прогулки или последовательности
vi. Ценность прогулки
vii. Стационарность предпочтений
viii. Скидки на награды
ix. Упражнения и мысли
d. Решение MDP
я. Критерии оптимизации Беллмана
II. Итерации значений на основе моделей
iii. Функция оптимального значения
iv. Поиск оптимальной политики
v. Итерации политик на основе моделей
vi. Функции действия и значения
vii. Связь между функциями значения и функциями действия-значения
viii. Оценка политики
ix. Оценка учащегося
Икс. Упражнения и мысли
3. Образец свободного обучения
а. Приближение стоимости
я. Эпизоды
II. Приложения для средних значений
iii. Инкрементное обучение
iv. Свойства темпов обучения
v. Simulation in Python
vi. Упражнения и мысли
б. Обучение временной разнице (TD)
я. Что такое временная разница?
II. TD (1) Правило обновления
iii. Следы приемлемости
iv. TD (1) Алгоритм обучения
v. Implementation in Python
vi. Limitations of TD (1)
vii. Упражнения и мысли
c. В сторону TD (λ)
я. Оценка максимального правдоподобия
II. TD (0) Правило обновления
iii. TD ( λ )
iv. K-Step Look-a-head
v. Комбинации различных шагов Look-a-Head
vi. Хорошие значения λ
vii. TD (λ) Algorithm
viii. Реализация на Python
ix. Упражнения и мысли
d. Q-Learning
я. Q-функции
II. Картирование сокращения
iii. Операторы Беллмана
iv. Почему работает итерация значений?
v. Алгоритм Q-обучения
мы. Реализация на Python
vii. Упражнения и мысли
е. Итерация политики
я. Прямое изучение политики
II. Оценка стоимости в итерации политики
iii. Почему работает итерация политик
iv. Алгоритм итерации политики
v. Implementation in Python
vi. Упражнения и мысли
4. Проект
а. Игра в OpenAI GYM
5. Что дальше?
а. Теория игры
б. Как моделировать бесконечные состояния и действия?
c. Глубокое обучение с подкреплением
После успешного прохождения этого курса вы сможете:
- · Понять, как методы RL применяются для решения реальных проблем.
- · Разобраться в методологии RL с Data Science на интересных примерах.
- · Завершите проект с помощью инструментария OpenAI Gym.
12 разделов • 108 лекций • Общая продолжительность 9 ч 9 мин
Для кого этот курс:
- • Люди, которые хотят, чтобы их данные говорили.
- • Люди, которые хотят изучить RL с реальными приложениями в Data Science.
- • Люди, увлеченные числами и программированием.
- • Людей, которые хотят изучать обучение с подкреплением вместе с его реализацией в реалистичных проектах.
- • Новички в области науки о данных и искусственного интеллекта.
https://www.udemy.com/course/reinforcement-learning-with-python-explained-for-beginners/