Про програму
Ozon Masters-це програма навчання в області аналізу даних.
Ми пропонуємо два напрямки: теоретичне з ухилом в програмування Data Science і Data Engineering і сфокусоване на практичних кейсах Business Intelligence.
Наша лінійка курсів відповідає програмам підготовки в області машинного навчання та бізнес-аналітики провідних університетів світу.
напрямки
1. Data Science and Data Engineering
Ця програма дає глибокі теоретичні та практичні навички в області аналізу даних. Фокус на тому, що реально працює. Жорстка математика і дуже багато практики.
2. Business Intelligence
Це програма з підготовки бізнес-аналітиків з глибоким знанням аналізу даних.
Модуль 1-Машинне навчання 1
Основне завдання програми-ознайомити студентів з теоретичними основами та основними принципами машинного навчання: з класами моделей (лінійні, логічні, нейромережеві), метриками та підходами до підготовки даних.
особлива увага в курсі приділяється питанням передобробки та підготовки даних, генерації та селекції ознак, розвідувального аналізу даних. В курсі багато прикладів і практичних порад. Крім класичних тем, приділяється час аналізу складних мереж, методам інтерпретації даних і моделей.
Блок 1-Вступна лекція
Основне завдання програми-ознайомити студентів з теоретичними основами та основними принципами машинного навчання: з класами моделей (лінійні, логічні, нейромережеві), метриками та підходами до підготовки даних.
особлива увага в курсі приділяється питанням передобробки та підготовки даних, генерації та селекції ознак, розвідувального аналізу даних. В курсі багато прикладів і практичних порад. Крім класичних тем, приділяється час аналізу складних мереж, методам інтерпретації даних і моделей.
Блок 1-Вступна лекція
- Наука про дані (Data Sciense)
- Статистика (Statistics)
- штучний інтелект (Artificial Intelligence)
- аналіз даних (Data Mining)
- Машинне навчання (Machine learning)
- великі дані (Big Data)
- навчання з учителем (з розміченими даними/мітками)
- цільова функція
- Об'єкт
- мітка
- Класифікація
- прогнозування
- простір об'єктів
- Ознаковий простір
- Витяг ознак
- Візуалізація завдань
- функції помилки
- емпіричний ризик
- Навчальна вибірка
- завдання оптимізації в навчанні
- модель алгоритмів
- Алгоритм
- навчання
- узагальнююча здатність
- Схема розв'язання задачі машинного навчання
- як вирішуються завдання
- навчання без вчителя/C нерозміченими даними
- навчання з частково розміченими даними
- Трансдуктивне навчання
- навчання з підкріпленням
- структурний висновок
- активне навчання
- онлайн-навчання
- Transfer Learning
- Multitask Learning
- Feature Learning
- проблеми в машинному навчанні
- приклади модельних задач
- Бритва Оккама
- Теорема про безкоштовний сир
- футбольний оракул
- відомості з твімс
- Завдання розподілів
- середні та відхилення
- умовна щільність, маргіналізація і обумовлення
- точкове оцінювання
- оцінка максимальної правдоподібності
- дивергенція Кульбака-Лейблера
- Коваріація та кореляція
- оцінка щільності
- Гістограмного підходу
- парзенівський підхід
- нормальний розподіл
- Центральна гранична теорема
- теорія інформації
- прокляття розмірності
- сингулярне розкладання матриці (SVD)
- матричне диференціювання
- методи безумовної оптимізації
- методи нульового порядку
- методи першого порядку
- методи другого порядку
- градієнтний спуск
- найшвидший градієнтний спуск
- стохастичний градієнтний спуск
- навчання: Пакетне, онлайн, по мінібатчам
- метод градієнтного спуску в машинному обу-чении
- стаціонарні точки
- метод Ньютона
- квазі-ньютонівські методи
- Оптимізація з обмеженнями
- метричні алгоритми (distance-based)
- найближчий Центроїд (Nearest centroid algorithm)
- підхід, заснований на близькості
- kNN в задачі класифікації
- kNN в задачі регресії
- обґрунтування 1NN
- ліниві (Lazy) і нетерплячі (Eager) алгоритми
- вагові Узагальнення kNN
- різні метрики: Мінковського, евклідова, Манхеттенська, Махалонобіса, Canberra distance, Хеммінга, косинусна, відстань Джаккарда, DTW, Левенштейна
- Додатки метричного підходу: нечіткий матчинг таблиць, Ленкор, в DL, Класифікація тек-стов
- ефективні методи пошуку найближчих сусідів
- регресія Надарая-Ватсона
- проблема контролю якості
- вибору моделі (Model Selection) в широкому сенсі
- правила розбиття вибірки
- Відкладений контроль (held-out data, hold-out set)
- ковзний контроль (cross-validation)
- Бутстреп (bootstrap)
- Контроль за часом (оut-of-time-контроль)
- локальний контроль
- криві навчання (Learning Curves)
- перебір параметрів
- лінійна регресія
- узагальнена лінійна регресія
- Проблема виродження матриці
- регуляризація. Основні види регуляризації
- гребенева регресія (Ridge Regression)
- LASSO (Least Absolute Selection and Shrinkage Operator)
- Elastic Net
- Селекція ознак
- помилка з вагами
- стійка регресія (Robust Regression)
- Лінійні скорингові моделі в задачі бінарної класифікації
- логістична регресія
- Probit-регресія
- Багатокласова логістична регресія
- лінійний класифіка-тор
- Персептрон
- оцінка функції помилок через гладку функцію
- SVM
- проблема лінійності
- поліноміальна модель
- ядерні методи (Kernel Tricks)
- приклади ядер
- Використання в SVM
- Використання в регресії
- Кернализация
- Математика ядер
- RBF, RBF-мережі
- дерева рішень (СART)
- предикати/розгалуження
- відповіді дерева
- Критерії розщеплення в задачах класифікації: Missclassification criteria, ентропійний, Джині
- Критерії зупинки при побудові дерев
- проблема перенавчання для дерев
- підрізування (post-pruning)
- класичні алгоритми побудови дерев рішень: ID3, C5.0
- важливості ознак
- проблема пропусків (Missing Values)
- категоріальні ознаки
- порівняння: дерева vs лінійні моделі
- ансамблі алгоритмів: приклади та обґрунтування
- комітети ( голосування)/усереднення
- Бэгинг
- кодування/перекодування відповідей, ECOC
- Стекінг і блендінг
- Бустинг: AdaBoost, Forward stagewise additive modeling (FSAM)
- "ручні методи"
- однорідні ансамблі
- універсальні методи
- випадковий ліс
- OOB (out of bag)
- налаштування параметрів методів
- області стійкості
- важливості ознак
- Boruta
- ACE
- близькості, обчислені за RF
- Extreme Random Trees
- градієнтний бустинг над деревами
- ітерація градієнтного бустингу
- Наискорейший спуск
- евристика скорочення-Shrinkage
- стохастичний градієнтний бустинг
- просунуті методи оптимізації
- Сучасні реалізації градієнтного бустингу
- вбудовані способи контролю
- параметри градієнтного бустингу
- Case: завдання скорингу (TKS)
- калібрування
- Case: передбачення відповідей на питання
- проблема Узагальнення
- перенавчання
- Недообучение
- складність алгоритмів
- зсув і розкид
- способи боротьби з перенавчанням
- Формула Байєса
- оптимальне рішення задач класифікації
- мінімізація середнього ризику
- наївний байес (naive Bayes)
- Байєсівський підхід в машинному навчанні
- метод максимальної правдоподібності
+ Байєсівський підхід у прикладі - MAP
- особливості байєсівського підходу
- байєсівська теорія для лінійної регресії
- логістична регресія
- байєсівські точкові оцінки
- байєсівські інтервальні оцінки
- RVM
- Завдання кластеризації, типи кластеризації
- k-середніх (Lloyds algorithm)
- Узагальнення k-means
- модельні завдання кластеризації
- affinity propagation: кластеризація повідомленнями між точками
- зсув середнього (Mean Shift): виявлення мод щільності
- ієрархічна кластеризація (Hierarchical clustering)
- типи Linkage
- кластеризація на основі мінімального остовного дерева
- спектральна кластеризація
- DBSCAN
- BIRCH
- CURE
- генеративні моделі
- EM
- Gaussian Mixture Model (GMM)
- Завдання UL
- зниження (скорочення) розмірності
- PCA
- нелінійне скорочення розмірності
- Kernel PCA
- t-SNE
- усунення шуму (Noise Reduction)
- генерація даних (Data Generation)
https://privatelink.de/?https://ozonmasters.ru/