курс розрахований на Data Engineer-ів або фахівців в машинному навчанні.
ви навчитеся:
- використовувати стандартні інструменти ml-конвеєрів в розподіленому середовищі;
- розробляти власні блоки для ml-конвеєрів;
- адаптувати ml-алгоритми до розподіленого середовища та інструментів big data;
- використовувати Spark, SparkML, Spark Streaming;
- організовувати промислові конвеєри збору даних;
- розробляти алгоритми потокової підготовки даних для машинного навчання;
- забезпечувати контроль якості на всіх етапах руху ML-рішень в промислову експлуатацію.
Базові навички програмування:
- Керуючі конструкції, цикли, рекурсія;
- основні структури даних: масиви, списки, словники, дерева;
- базові принципи ООП;
- знайомство з однією з мов: Python, Java, Scala, C++.
- Лінійна алгебра: вектора, матриці та їх твори;
- матан: похідна простих і композитних функцій;
- вичметоди: градієнтний спуск, ньютонівські ітерації;
- теорія ймовірності: випадкові події і величини, математичне очікування, дисперсія.
- розуміння основ роботи обчислювальної техніки в рамках архітектури фон Неймана (процесор, пам'ять, кеш, підключається сховище);
- розуміння загальних принципів реляційних СУБД, знання SQL.
в процесі навчання Ви отримаєте комплексні знання і навички.
Модуль 1. Базові Вступні для старту курсу Тема 1. Градієнтний спуск і лінійні моделі
Тема 2. Огляд основних методів і метрик машинного навчання
Тема 3. Основи програмування на Scala
Модуль 2. Технологічні основи розподіленої обробки даних
Тема 4. Розподілені сховища
Тема 5. Еволюція паралельних алгоритмів
Тема 6. Менеджери ресурсів у розподілених системах
Тема 7. Основи Apache Spark
Модуль 3. Основи розподіленого МL
Тема 8. Перенесення МЛ-алгоритмів у розподілене середовище
Тема 9. ML в Apache Spark
Тема 10. Розробка власних блоків для SparkML
Тема 11. Сторонні бібліотеки для використання зі Spark
Тема 12. Оптимізація гіперпараметрів і AutoML
Модуль 4. Потокова обробка даних
Тема 13. Потокова обробка даних
Тема 14. Spark Streaming
Тема 15. Структурний і безперервний стрімінг в Spark
Тема 16. Альтернативні потокові фреймворки
Модуль 5. Цілепокладання та аналіз результатів
Тема 17. Визначення мети МЛ-проекту та попередній аналіз
Тема 18. Довгострокові ML-цілі на прикладі задачі зменшення відтоку
Тема 19. А/Б тестування
Тема 20. Додаткові теми
Модуль 6. Висновок результатів ML в продакшн
Тема 21. Підходи до виведення ML-рішень в продакшн
Тема 22. Версіонування, відтворюваність і моніторинг
Тема 23. Онлайн-сервинг моделей
Тема 24. Патерни асинхронного потокового ML і ETL
Тема 25. Якщо треба Python
Тема 26. Альтернативні фреймворки з підтримкою Python і область застосовності Dusk, KubeFlow, Seldon Core, H2O. особливості експлуатації гетерогенних систем в проме
Модуль 7. ML на python в продакшні
Тема 27. Production Code на Python. Організація і Packaging коду
Тема 28. Rest-Архітектура: Flask API
Тема 29. Docker: Структура, застосування, деплой
Тема 30. Amazon Sagemaker
Тема 31. AWS ML Service
Модуль 8. Просунуті топіки
Тема 32. Нейромережі
Тема 33. Розподілене навчання та інференс нейромереж
Тема 34. Градієнтний бустинг на деревах
Тема 35. Навчання з підкріпленням
Модуль 1. Базові Вступні для старту курсу Тема 1. Градієнтний спуск і лінійні моделі
Тема 2. Огляд основних методів і метрик машинного навчання
Тема 3. Основи програмування на Scala
Модуль 2. Технологічні основи розподіленої обробки даних
Тема 4. Розподілені сховища
Тема 5. Еволюція паралельних алгоритмів
Тема 6. Менеджери ресурсів у розподілених системах
Тема 7. Основи Apache Spark
Модуль 3. Основи розподіленого МL
Тема 8. Перенесення МЛ-алгоритмів у розподілене середовище
Тема 9. ML в Apache Spark
Тема 10. Розробка власних блоків для SparkML
Тема 11. Сторонні бібліотеки для використання зі Spark
Тема 12. Оптимізація гіперпараметрів і AutoML
Модуль 4. Потокова обробка даних
Тема 13. Потокова обробка даних
Тема 14. Spark Streaming
Тема 15. Структурний і безперервний стрімінг в Spark
Тема 16. Альтернативні потокові фреймворки
Модуль 5. Цілепокладання та аналіз результатів
Тема 17. Визначення мети МЛ-проекту та попередній аналіз
Тема 18. Довгострокові ML-цілі на прикладі задачі зменшення відтоку
Тема 19. А/Б тестування
Тема 20. Додаткові теми
Модуль 6. Висновок результатів ML в продакшн
Тема 21. Підходи до виведення ML-рішень в продакшн
Тема 22. Версіонування, відтворюваність і моніторинг
Тема 23. Онлайн-сервинг моделей
Тема 24. Патерни асинхронного потокового ML і ETL
Тема 25. Якщо треба Python
Тема 26. Альтернативні фреймворки з підтримкою Python і область застосовності Dusk, KubeFlow, Seldon Core, H2O. особливості експлуатації гетерогенних систем в проме
Модуль 7. ML на python в продакшні
Тема 27. Production Code на Python. Організація і Packaging коду
Тема 28. Rest-Архітектура: Flask API
Тема 29. Docker: Структура, застосування, деплой
Тема 30. Amazon Sagemaker
Тема 31. AWS ML Service
Модуль 8. Просунуті топіки
Тема 32. Нейромережі
Тема 33. Розподілене навчання та інференс нейромереж
Тема 34. Градієнтний бустинг на деревах
Тема 35. Навчання з підкріпленням
https://privatelink.de/?https://otus.ru/lessons/ml-bigdata/