MLOps [2022]
OTUS
Дмитрий Бугайченко, Андрей Кузнецов, Михаил Марюфич, Фаррух Кушназаров, Кирилл Султанов, Егор Матешук, Максим Мигутин, Павел Филонов
Единственный в России практический курс по инструментам и технологиям работы с большими данными.
Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.
Особенности курса:
- Много практики работы с данными
- Актуальные инструменты и технологии: Scala, Spark, Python, Docker
- Широкий спектр навыков от распределенного ML и потоковой обработки данных до вывода в продакшн
- Живое общение с экспертами на вебинарах и в чате Slack
- Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
- Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.
- Использовать стандартные инструменты ML-конвейеров в распределенной среде;
- Разрабатывать собственные блоки для ML-конвейеров;
- Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
- Использовать Spark, SparkML, Spark Streaming;
- Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
- Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Модуль 1 - Базовые вводные для старта курса
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Эволюция подходов работы с данными
Тема 4. Основы программирования на Scala
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Эволюция подходов работы с данными
Тема 4. Основы программирования на Scala
Модуль 2 - Технологические основы распределенной обработки данных
Тема 5. Распределенные файловые системы
Тема 6. Менеджеры ресурсов в распределенных системах
Тема 7. Эволюция фреймворков массивно-параллельного и распределенного вычисления
Тема 8. Основы Apache Spark 1
Тема 9. Основы Apache Spark 2
Модуль 3 - Основы распределенного МLТема 6. Менеджеры ресурсов в распределенных системах
Тема 7. Эволюция фреймворков массивно-параллельного и распределенного вычисления
Тема 8. Основы Apache Spark 1
Тема 9. Основы Apache Spark 2
Тема 10. Перенос МЛ-алгоритмов в распределенную среду
Тема 11. ML в Apache Spark
Тема 12. Разработка собственных блоков для SparkML
Тема 13. Оптимизация гиперпараметров и AutoML
Модуль 4 - Потоковая обработка данныхТема 11. ML в Apache Spark
Тема 12. Разработка собственных блоков для SparkML
Тема 13. Оптимизация гиперпараметров и AutoML
Тема 14. Потоковая обработка данных
Тема 15. Сторонние библиотеки для использования со Spark
Тема 16. Spark Streaming
Тема 17. Структурный и непрерывный стриминг в Spark
Тема 18. Альтернативные потоковые фреймворки
Модуль 5 - Целеполагание и анализ результатовТема 15. Сторонние библиотеки для использования со Spark
Тема 16. Spark Streaming
Тема 17. Структурный и непрерывный стриминг в Spark
Тема 18. Альтернативные потоковые фреймворки
Тема 19. Определение цели МЛ-проекта и предварительный анализ
Тема 20. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 21. А/Б тестирование
Тема 22. Дополнительные темы
Модуль 6 - Вывод результатов ML в продакшнТема 20. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 21. А/Б тестирование
Тема 22. Дополнительные темы
Тема 23. Подходы к выводу ML-решений в продакшн
Тема 24. Версионирование, воспроизводимость и мониторинг
Тема 25. Онлайн-сервинг моделей
Тема 26. Паттерны асинхронного потокового ML и ETL
Тема 27. Если надо Python
Модуль 7 - ML на Python в продакшнеТема 24. Версионирование, воспроизводимость и мониторинг
Тема 25. Онлайн-сервинг моделей
Тема 26. Паттерны асинхронного потокового ML и ETL
Тема 27. Если надо Python
Тема 28. Production Code на Python. Организация и Packaging кода
Тема 29. REST-архитектура: Flask API
Тема 30. Docker: Структура, применение, деплой
Тема 31. Kubernetes, контейнерная оркестрация
Тема 32. MLOPS инструменты для Kubernetes: KubeFlow, Seldon Core. Особенности эксплуатации гетерогенных систем в проме.
Тема 33. Amazon Sagemaker
Тема 34. AWS ML Service
Модуль 8 - Продвинутые топикиТема 29. REST-архитектура: Flask API
Тема 30. Docker: Структура, применение, деплой
Тема 31. Kubernetes, контейнерная оркестрация
Тема 32. MLOPS инструменты для Kubernetes: KubeFlow, Seldon Core. Особенности эксплуатации гетерогенных систем в проме.
Тема 33. Amazon Sagemaker
Тема 34. AWS ML Service
Тема 35. Нейросети
Тема 36. Распределенное обучение и инференс нейросетей
Тема 37. Градиентный бустинг на деревьях
Тема 38. Обучение с подкреплением
Модуль 9 - Проектная работаТема 36. Распределенное обучение и инференс нейросетей
Тема 37. Градиентный бустинг на деревьях
Тема 38. Обучение с подкреплением
Тема 39. Выбор темы и организация проектной работы
Тема 40. Консультация по проектам и домашним заданиям
Тема 41. Защита проектных работ
Тема 40. Консультация по проектам и домашним заданиям
Тема 41. Защита проектных работ
https://otus.ru/lessons/ml-bigdata/?int_source=courses_catalog&int_term=data-science