Програма професійної перепідготовки.
програма професійної перепідготовки включає три курси:
- Аналіз зображень
- Аналіз текстів
- Машинне навчання на великих обсягах даних.
Блок 1 - Аналіз зображень
Модуль 1-Вступ до аналізу зображень. Основи обробки зображень
1.1. Введення в аналіз зображень.
2.1. Локальні особливості зображень
3.1. Категоризація зображень
4.1. Інтернет-зір
Модуль 1
Модуль 1 - методи оптимізації та лінійні моделі
Модуль 1-Вступ до аналізу зображень. Основи обробки зображень
1.1. Введення в аналіз зображень.
- Завдання комп'ютерного зору-метричний і семантичний зір.
- виникають труднощі і візуальні підказки.
- приклади сучасних систем і алгоритмів комп'ютерного зору.
- пристрій камери і оптичної системи людини.
- моделі кольору.
- основні завдання обробки зображень.
- корекція кольору зображень. Гістограми, лінійна і нелінійна корекції яскравості. Моделі камери і кольорокорекції.
- види шуму. Операція згортки. Фільтр гаусса, медіанний фільтр, підвищення різкості. Вирівнювання освітленості-алгоритм Retinex. Метрика PSNR.
- виділення країв, алгоритм Canny.
- частотне представлення зображень, частотна фільтрація зображень, алгоритм JPEG. Проста сегментація зображень-бінаризація, виділення пов'язаних компонент, математична морфологія.
- поняття текстури.
- евристичні методи розпізнавання за допомогою ознак сегментів.
2.1. Локальні особливості зображень
- Завдання зіставлення зображень. Поняття локальної особливості.
- Детектори Харріса, LoG, DOG, Harris-Laplacian.
- зіставлення особливостей за дескрипторами - метод SIFT, афінна адаптація.
- задачі оцінки параметрів геометричних моделей.
- DLT-метод для ліній і перетворень.
- Робастні алгоритми-м-оцінки, стохастичні алгоритми, схеми голосування. Застосування для побудови панорам і пошуку об'єктів.
3.1. Категоризація зображень
- поняття категорії.
- розпізнавання категорій людиною.
- Загальна схема категоризації зображень. Ознак. Гістограми ознак, піраміди. Візуальні слова і"мішок слів".
- Завдання виділення категорій об'єктів на зображенні. Ковзне вікно. Застосування "мішка слів" для виділення об'єктів.
- Метод HOG + SVM, розмноження вибірки та завантаження.
- методи на основі слабких класифікаторів. Алгоритм пошуку осіб Viola-Jones, ознаки Хоара, інтегральні зображення.
- шляхи розвитку детекторів та сучасний стан
- варіанти постановки задачі - пошук напівдублікатів, пошук схожих, пошук по класах. Пошук на основі кольорових гістограм (QBIC).
- Дескриптор GIST.
- пошук напівдублікатів-наближені методи найближчого сусіда, інвертований Індекс, хешування.
- пошук на основі "мішка слів", зворотний Індекс, використання просторової інформації для підвищення точності.
4.1. Інтернет-зір
- великі колекції зображень і методи їх складання.
- Доповнення зображень (Image completion) за допомогою великих колекцій. Класифікація зображень за допомогою великих колекцій.
- фотоколажі. Shape context. Об'єктні фільтри.
- введення в обробку та аналіз відео.
- поняття оптичного потоку. Глобальні та локальні (Lucas-Kanade) методи оцінки оптичного потоку.
- віднімання фону (BS - background subtraction). Алгоритми BS: одна гауссіана, суміш гауссіан, поблочні методи, об'єднання локальних і глобальних колірних моделей.
- Завдання супроводу об'єктів у відео, постановки, критерії якості та проблеми.
- супровід одного об'єкта - зіставлення шаблонів, на основі Chamfer-метрики, MeanShift, Flock of features, комбінації методів.
- супровід безлічі об'єктів - супровід через зіставлення.
- розпізнавання подій у відео, тестові бази, автоматична розмітка відео. Методи розпізнавання-дескриптори на основі оптичного потоку, локальні особливості, Класифікація, прицілювання.
- алгоритми доповненої реальності, вимоги до них.
- вирішальний ліс як один з базових методів для доповненої реальності.
- реєстрація зображень в реальному часі.
- система Kinect і оцінка пози людини в реальному часі.
Модуль 1
- Intro to NLP
- Lecture: Word embeddings
- Distributional semantics. Count-based (pre-neural) methods. Word2Vec: learn vectors. GloVe: count, then learn. N-gram (collocations) RusVectores. t-SNE.
- Practical: word2vec, fasttext
- Lecture: RNN + CNN, Text classification
- Neural Language Models: Recurrent Models, Convolutional Models. Text classification (architectures)
- Practical: Classification with LSTM, CNN
- Lecture: Language modelling and NER
- Task description, methods (Markov Model, RNNs), evaluation (perplexity), Sequence Labelling (NER, pos-tagging, chunking etc.) N-gram language models, HMM, MEMM, CRF
- Practical: NER
- Lecture: Machine translation, Seq2seq, Attention, Transformers
- Basics: Encoder-Decoder framework, Inference (e.g., beam search), Eval (bleu). Attention: general, score functions, models. Bahdanau and Luong models. Transformer: self-attention, masked self-attention, multi-head attention.
- Lecture: Transfer learning in NLP
- Bertology (BERT, GPT-s, t5, etc.), Subword Segmentation (BPE), Evaluation of big LMs.
- Practical: transformers models for classification task,
- Practical: Transfer learning
- Lecture & Practical: How to train big models? Part1. Distributed training, Part2. RuGPT3 Training
- Training Multi-Billion Parameter Language Models. Model Parallelism. Data Parallelism.
- Practical: DDP example
- Lecture: Syntax parsing
- Practical: Syntax
- Lecture: Question answering
- Practical: seminar QA, seminar chatbots
- Squads (one-hop, multi-hop), architectures, retrieval and search, chat-bots
- Lecture: Summarization, simplification, paraphrasing
- Practical: summarization seminar
- Lecture: Knowledge Distillation in NLP
Модуль 1 - методи оптимізації та лінійні моделі
- Машинне навчання з учителем на великих даних.
- Закон Ципфа.
- тематичне моделювання.
- Метод стохастичного градієнта.
- Постановка задачі.
- оптимізації навчання на великих даних: градієнтний спуск, стохастичний градієнт.
- ознаки.
- простору ознак, ваги ознак, нормалізація ознак.
- генерація та хешування ознак.
- Онлайн навчання лінійних моделей.
- Метод стохастичного градієнта: вибір функції втрат.
- оцінка якості методу стохастичного градієнта.
- Алгоритм Бутстрап.
- хешування, чутливе до відстані (LSH).
- заходи подібності: відстань Жаккара, Хеммінга, косинусна відстань, евклідова відстань.
- оптимізація та тестування гіперпараметрів.
- Симплекс-метод.
- графи, їх види.
- стохастичний граф.
- представлення графа: матриці суміжності, інцидентності, досяжності.
- Списки суміжності.
- алгоритми перекладу з одного подання в інше.
- соціальний граф.
- Завдання пошуку спільних друзів в соціальному графі.
- мова DSL.
- Граф користувальницьких переваг.
- Використання підходу BigData в аналізі графіків.
- Постановка ранжирування.
- основні підходи до вирішення завдання ранжирування.
- Метрики вимірювання точності ранжування.
- Клікові моделі.
- тематичне моделювання та його зв'язок з ранжуванням.
- проблеми тематичного моделювання при великих даних.
- AD-LDA, його недоліки, Y!LDA, Mr. LDA. ARTM.
- Архітектура бібліотеки BigARTM.
- Online LDA і його застосування в Vowpal Wabbit.
- рекомендаційні системи, постановка задачі передбачення/рекомендації.
- Класифікація рекомендаційних систем.
- Неперсоналізовані рекомендаційні системи, content-based рекомендаційні системи.
- Завдання колаборативної фільтрації, транзакційні дані та матриця суб'єкти—об'єкти.
- кореляційні методи, методи подібності (neighbourhood) - user-based, item-based.
- латентні методи на основі матричних розкладів.
- методи ALS та iALS.
https://privatelink.de/?https://fpmi-edu.ru/dpo-magistr/machinelearning