Придбаний [Data loves academy] Machine Learning для людей (Ганна Пилєва)

Gadzhi · Неділя о 5:23 PM

Курс від спеціалістки з Data Science Ганни Пилєвої

Machine Learning для людей

Навчись впевнено використовувати методи машинного навчання в роботі,щоб вони створювали справжнє бізнес-велʼю

Презентація курсу від авторки

Програма курсу

Модуль 0

Змінні, типи даних та базові операції з числами й рядками
Структури даних: списки, словники, кортежі та їх практичне застосування

Умовні конструкції та цикли для автоматизації обробки даних

Функції: створення, параметри та організація коду

Ключові бібліотеки: NumPy, Pandas, Matplotlib для роботи з даними та візуалізацією

Модуль 1
Тема 1.1. Світ штучного інтелекту

Що таке машинне навчання та як навчаються моделі

Навігація в світі методів машинного навчання

Процес розв'язку Data Science задач та інструменти для DS рішень

Тема 1.2. Дослідницький Аналіз Даних

З чого почати дослідницький аналіз даних

Обробка відсутніх значень та аналіз викидів

Аналіз залежностей між категоріальними змінними

Бонусний модуль

Що таке Git та чому він такий популярний. Встановлення і конфігурація

Команди: робота з репозиторієм

Гілки, pull-ріквести, merge та кращі практики коміту коду

GUI, історія комітів та що не варто комітити

Модуль 2
Функції та їх похідні

Тема 2.1 Лінійна та поліноміальна регресія. Методи оцінки точності прогностичної моделі

Тестування статистичних гіпотез

Підведення до задачі лінійної регресії

Статистичні методи перевірки на гаусовість

ЦГТ і пошук змінних-кандидатів для побудови лін. регресії

Поняття лінії та пошук найкращої лінії, яка описує дані

Вступ до лінійної алгебри. Робота з матрицями і векторами

Математичне формулювання задачі лінійної регресії

Припущення лін. регресії. Метод найменших квадратів

Вимірювання якості регресійної моделі

Градієнтний спуск для задачі лінійної регресії

Лінійна регресія багатьох змінних. Виявлення статистичної значущості коефіцієнтів

Використання категоріальних змінних у моделі машинного навчання

Удосконалення моделі

Тема 2.2 Задача класифікації. Логістична регресія. Принцип роботи та методи оцінки якості

Задачі класифікації. Математичне формулювання логістичної регресії

Моделювання поліноміальної регресії

Методи регуляризації в машинному навчанні

Розв'язок ML задачі step-by-step

Задача класифікації з Scikit-Learn. Завантаження даних з Kaggle. Заповнення пропущених значень

Масштабування числових ознак

Навчання логістичної регресії в scikit-learn та оцінка якості класифікатора

Класифікація нового значення. Збереження і завантаження моделі. Sklearn Pipelines

Стратегії вирішення дисбалансу класів у машинному навчанні

Проблема дисбалансу класів. Random oversampling, undersampling та метод SMOTE

Метод Adasyn, зв'язки Томека і комбінування oversampling з undersampling

Мультикласова та мультизначна класифікація

Ансамблі моделей. Базові техніки

Задачі мультикласової і мультизначної (multi-label) класифікації

Вимірювання якості мультикласової класифікації. Приклад мультиклас і мультилейбл класифікації на даних

Тема 2.3 Дерева прийняття рішень

Вступ до дерев прийняття рішень

Принцип побудови дерев прийняття рішень
Вибір критерія розбиття в процесі побудови дерева
Умови зупинки в побудові дерева. Prunning. Як витягнути конкретні правила з дерева
Майстер-клас з перенесення коду з jupyter notebook у Python модуль
Навчання Decision Trees на практиці

Тема 2.4 Методи ансамблювання. Кросвалідація

Метод крос-валідації для покращення якості моделі
Оптимізація гіперпараметрів

Класифікатор kNN (k-найближчих сусідів)

Ансамблі моделей. Базові техніки

Використання просунутих методів ансамблювання: Stacking та Bagging + MK з аналізом помилок класифікації

Просунуті методи побудови ансамблів

Алгоритми бустингу. Adaboost

Градієнтний бустинг. XGBoost, LightGBM. Вибір алгоритму під задачу

Демо використання бустингових моделей. Тюнінг гіперпараметрів з hyperopt

Тема 2.5 Аналіз часових рядів

Вступ в аналіз часових рядів. Компоненти часових рядів

Аналіз якості передбачень часових рядів. Автокореляція і часткова автокореляція в часових рядах

Поняття стаціонарності. Знайомство з базовим функціоналом бібліотеки Darts

Методи прогнозування часових рядів та їх застосування. Бейзлайн моделі для часових рядів. Exponential smoothing

Моделі ARIMA/SARIMAX та Theta

Facebook Prophet, RNN/LSTM, трансформери для прогнозування time series. Розгляд часових рядів з іншою природою

Backtesting і аналіз помилок в аналізі часових рядів

Модуль 3
Тема 3.1 Алгоритми кластеризації

Вступ до алгоритмів кластеризації у Machine Learning

KMeans: принцип роботи алгоритму та як визначити оптимальну кількість кластерів

Ієрархічна кластеризація

Метод кластеризації DBSCAN. Silhouette метрика для оцінки якості кластеризації

Тема 3.2 Методи пониження розмірності

Вступ до пониження розмірностей даних у машинному навчанні

Принцип роботи PCA

Прикладне використання PCA. Візуалізація, зниження шуму, стиснення зображення та аналіз даних за допомогою PCA

Побудова PCA вручну. Нелінійний алгоритм t-SNE

Тема 3.3 Основи побудови рекомендаційних систем

Collaborative Filtering і принципи побудови рек. систем

Рек. системи з fastai

Mid-term
Продемонструєте всі набуті навички з EDA, препроцесингу, вибору метрик, моделювання та інтерпретації результатів.

Модуль 4
Тема 4.1 Вступ у NLP

Вступ до Natural Language Processing

Класифікація тексту: основи, препроцесинг, навчання та оцінка ML-моделі

Векторизація тексту: TF-IDF

Ембединги слів: Word2Vec, GloVe, FastText (gensim)

Ембединги BERT та їх застосування

Файн-тюнінг BERT та інших мовних моделей з HuggingFace

Парсинг та аналіз тексту

Парсинг веб-сторінок та аналіз вакансій (HTML, BeautifulSoup)

Очистка тексту з ChatGPT, WordCloud та n-грами

Тема 4.2 Вступ у Deep Learning

Вступ до нейронних мереж

PyTorch та backpropagation: будуємо першу нейронну мережу

Feed-forward Neural Networks

Тема 4.3 Глибоке навчання для моделювання послідовностей

Моделювання послідовностей та принцип роботи RNN

Архітектура RNN всередині та критерії дизайну рекурентних мереж

RNN на практиці: від нуля до PyTorch RNN-cell, оверфіт і дебагінг моделі

Паралельна обробка послідовностей: Attention та архітектура трансформера

Модуль 5

Вступ до MLOps: життя моделі після тренування та способи розгортання

Деплоймент ML-моделі на Streamlit (практичний гайд)

Продакшн-деплоймент з FastAPI та Docker

Модуль 6

Алгоритм створення додатків з використанням мовних моделей.

LangChain: промпти, ланцюги, агенти та робота з пам'яттю
Порівняння мовних моделей та платформа Hugging Face
Побудова RAG-додатку: завантаження, індексація, retrieval & generation
Відстеження роботи LLM в LangSmith та мультиагентні системи з LangGraph

Модуль 7

Вступ до Computer Vision та його застосування

Робота із зображеннями в PyTorch: підготовка датасету та візуалізація

Baseline-модель для класифікації зображень з нуля

Згорткові нейронні мережі (CNN): Conv2d, MaxPool2d та цикли навчання

Детекція об'єктів: bounding boxes, IoU, mAP

Семантична та інстанс-сегментація зображень

Transfer learning для задач класифікації, детекції та сегментації

В цьому розділі ми начимсоь працювати з візуальнюю інформацією - зображеннями й відео

Модуль 8

Вступ до рекомендаційних систем: огляд основних підходів

Постановка задачі, baseline-методи та оцінка якості рекомендацій

Content-based recommendations та фільтрація на основі змісту на Python

Колаборативна фільтрація та факторизація матриці

Сучасні підходи: Vector Space Model та двоетапний retrieval & ranking

Two Tower Architecture, concat-based підхід та врахування часу

Покращення рекомендаційних систем: важливі аспекти та метрики

Модуль 9

Як створити ексклюзивне резюме

LinkedIn, який працює на вас

Оформлення WOW-портфоліо для Data Science спеціаліста

Огляд платформи для пошуку роботи Djinni. Реєстрація. Пошук вакансій

Лайфхаки успішного проходження співбесід

250+ питань до технічної співбесіди з відповідями

Гайд "Платформи для пошуку фріланс-проєктів і фултайм роботи в Україні і країнах Європи"

Додатковий модуль SQL
Тема 1. Основи SQL та Реляційних баз даних

Що таке SQL та реляційна база даних?

Термінологія, Зв'язки та Діалекти в SQL

Синтаксис SQL

Як користуватись SQL Practice. Приклади найпростіших запитів

Тема 2. Практика роботи з даними в SQL

Запити з однієї бази. Фільтрація

Робота з рядками та датами

Домашнє завдання №1 на практику SQL

Робота з JOINs: Пояснення та перші приклади

Використання JOIN та CASE WHEN

Об'єднання за допомогою UNION

Домашнє завдання №2 на практику SQL

Тема 3. Підключення до бази даних в Python

Завантаження бази даних локально

SQL-скрипт та SQL Client

Підключення до бази в Python: connection, cursor

Домашнє завдання №3 Python + SQL

Читання даних за допомогою Pandas

INSERT, DELETE, UPDATE та close connection

Classicmodel database (orders)

Бонус. SQL in Pandas

Домашнє завдання №4 Pandas + SQL

Фінальний проєкт
“Фінальний проєкт” - це максимально наближене завдання до умов реальної роботи в IT-компанії.

Студенти обирають цікавий для себе набір даних

Роблять дослідження, візуалізацію даних

Створюють інтерактивні дашборди

Використовують SQL, Python, BI-інструмент

Роблять оформлення за рекомендаціями

Це один із найважливіших етапів — бо саме він демонструє: ви готові до реальної роботи в ІТ.

Ціна: Від 599 USD

Уроків: 295

Мова курсу: Українська

https://www.dataloves.academy/courses/machine-learning

Придбаний [Data loves academy] Machine Learning для людей (Ганна Пилєва)

Gadzhi

Модератор