Набір учасників [Otus] промисловий ML на великих даних (Дмитро Бугайченко)

Gadzhi · Кві 5, 2022

Переглянути вкладення 24712

курс розрахований на Data Engineer-ів або фахівців в машинному навчанні.

ви навчитеся:

використовувати стандартні інструменти ml-конвеєрів в розподіленому середовищі;
розробляти власні блоки для ml-конвеєрів;
адаптувати ml-алгоритми до розподіленого середовища та інструментів big data;
використовувати Spark, SparkML, Spark Streaming;
організовувати промислові конвеєри збору даних;
розробляти алгоритми потокової підготовки даних для машинного навчання;
забезпечувати контроль якості на всіх етапах руху ML-рішень в промислову експлуатацію.

необхідні знання
Базові навички програмування:

Керуючі конструкції, цикли, рекурсія;
основні структури даних: масиви, списки, словники, дерева;
базові принципи ООП;
знайомство з однією з мов: Python, Java, Scala, C++.

Математика:

Лінійна алгебра: вектора, матриці та їх твори;
матан: похідна простих і композитних функцій;
вичметоди: градієнтний спуск, ньютонівські ітерації;
теорія ймовірності: випадкові події і величини, математичне очікування, дисперсія.

технології:

розуміння основ роботи обчислювальної техніки в рамках архітектури фон Неймана (процесор, пам'ять, кеш, підключається сховище);
розуміння загальних принципів реляційних СУБД, знання SQL.

Буде плюсом: знайомство з класичними алгоритмами машинного навчання.

в процесі навчання Ви отримаєте комплексні знання і навички.

Модуль 1. Базові Вступні для старту курсу Тема 1. Градієнтний спуск і лінійні моделі
Тема 2. Огляд основних методів і метрик машинного навчання
Тема 3. Основи програмування на Scala

Модуль 2. Технологічні основи розподіленої обробки даних
Тема 4. Розподілені сховища
Тема 5. Еволюція паралельних алгоритмів
Тема 6. Менеджери ресурсів у розподілених системах
Тема 7. Основи Apache Spark

Модуль 3. Основи розподіленого МL
Тема 8. Перенесення МЛ-алгоритмів у розподілене середовище
Тема 9. ML в Apache Spark
Тема 10. Розробка власних блоків для SparkML
Тема 11. Сторонні бібліотеки для використання зі Spark
Тема 12. Оптимізація гіперпараметрів і AutoML

Модуль 4. Потокова обробка даних
Тема 13. Потокова обробка даних
Тема 14. Spark Streaming
Тема 15. Структурний і безперервний стрімінг в Spark
Тема 16. Альтернативні потокові фреймворки

Модуль 5. Цілепокладання та аналіз результатів
Тема 17. Визначення мети МЛ-проекту та попередній аналіз
Тема 18. Довгострокові ML-цілі на прикладі задачі зменшення відтоку
Тема 19. А/Б тестування
Тема 20. Додаткові теми

Модуль 6. Висновок результатів ML в продакшн
Тема 21. Підходи до виведення ML-рішень в продакшн
Тема 22. Версіонування, відтворюваність і моніторинг
Тема 23. Онлайн-сервинг моделей
Тема 24. Патерни асинхронного потокового ML і ETL
Тема 25. Якщо треба Python
Тема 26. Альтернативні фреймворки з підтримкою Python і область застосовності Dusk, KubeFlow, Seldon Core, H2O. особливості експлуатації гетерогенних систем в проме

Модуль 7. ML на python в продакшні
Тема 27. Production Code на Python. Організація і Packaging коду
Тема 28. Rest-Архітектура: Flask API
Тема 29. Docker: Структура, застосування, деплой
Тема 30. Amazon Sagemaker
Тема 31. AWS ML Service

Модуль 8. Просунуті топіки
Тема 32. Нейромережі
Тема 33. Розподілене навчання та інференс нейромереж
Тема 34. Градієнтний бустинг на деревах
Тема 35. Навчання з підкріпленням

https://privatelink.de/?https://otus.ru/lessons/ml-bigdata/

Пошук

Пошук

Набір учасників [Otus] промисловий ML на великих даних (Дмитро Бугайченко)

Gadzhi

Модератор