Машинное обучение в биологии и биомедицине [Openbio] [Илья Воронцов, Артем Касьянов, Александр Сарачаков]
Машинное обучение – это не только модная технология, это инструмент, который быстро развивается и меняет мир на наших глазах. Программа курса направлена на навигацию в “зоопарке” подходов в биологии и биомедицине, построена с постепенным усложнением и даст уверенное понимание, когда и как лучше применять классические методы ML, а когда пора переходить на нейросети. В завершающем модуле по Computer Vision раскрываются прикладные точечные технологии с освоением практических навыков инженерии.
По окончании курса вы получите конкурентное преимущество - не только опыт работы по готовым протоколам обработки конкретных типов данных, а понимание специфики мира ML в биологии и медицине, знания составных частей процессов, которые лежат в основе популярных пайплайнов. Наши эксперты передадут опыт изучения ML и расставят акценты, которые помогут сэкономить время, спланировать развитие карьеры в области DataScience и общаться на одном языке с другими коллегами.
Для кого этот курс:
Спикеры и организаторы проекта:
Илья Воронцов
Машинное обучение – это не только модная технология, это инструмент, который быстро развивается и меняет мир на наших глазах. Программа курса направлена на навигацию в “зоопарке” подходов в биологии и биомедицине, построена с постепенным усложнением и даст уверенное понимание, когда и как лучше применять классические методы ML, а когда пора переходить на нейросети. В завершающем модуле по Computer Vision раскрываются прикладные точечные технологии с освоением практических навыков инженерии.
По окончании курса вы получите конкурентное преимущество - не только опыт работы по готовым протоколам обработки конкретных типов данных, а понимание специфики мира ML в биологии и медицине, знания составных частей процессов, которые лежат в основе популярных пайплайнов. Наши эксперты передадут опыт изучения ML и расставят акценты, которые помогут сэкономить время, спланировать развитие карьеры в области DataScience и общаться на одном языке с другими коллегами.
Для кого этот курс:
- биологи, биоинженеры, биотехнологи, врачи-диагносты
- биостатистики и клинические биоинформатики
- аналитики и специалисты по данным в биологии/медицине
- научные сотрудники лабораторий и RnD центров
- руководители лабораторий и team-лиды научных групп
- а также разработчики Python, которые хотят решать проблемы биоинформатики и биомедицины
- Требуются знания Python, а также библиотек numpy и pandas.
- Хотите познакомиться с передовыми методами биоинформатики
- Ставите цель улучшить и систематизировать навыки программирования, которые были получены исключительно самообучением
- Вам нужно глубже изучить Python и получить практику в ML по биологическим или медицинским данным
- Стремитесь понять, как применять ML в NGS и распознавании изображений из клинических данных
- Прокачиваете свое резюме кейсами, которые помогут вам найти работу или получить повышениеХотите получить базу для потенциальной смены сферы деятельности в сторону IT для био/медицины
- Хотите сэкономить свое время и получить рафинированный набор ресурсов для дальнейшего развития
- Навигировать в “зоопарке” методов машинного обучения
- Применять методы классического машинного обучения для распространенных задач
- Оценивать качество моделей ML и корректно использовать метрики качества
- Решать задачи бинарной классификации и сегментации изображений самостоятельно
- Общаться с опытными ML-щиками на одном языке
- Показать работодателю ваши кейсы через ссылку на нашем сайте с отзывом наставника
- Эффективно развиваться в новых задачах на базе знаний курса
- Претендовать на новые зоны ответственности по задачам ML и Computer Vision в биомеде
- Python
- OpenAI
- Pandas
- NumPy
- Matplotlib
- Plotly
- Seaborn
- SciPy
- Git
- GitHub
- Scikit-team
- Kaggle
- PyTorch
- TensorFlow
- Теория вероятностей
- ML-алгоритмы
- ML-модели
- Линейная алгебра
- Нейронные сети
- Компьютерное зрение
- Ggplot2
- Bash
- R
- Модуль 1. Задачи классического ML в биологии и биомедицине.
- Модуль 2. Обучение без учителя. Кластеризация. Понижение размерности. Примеры биологических задач.
- Модуль 3. Нейронные сети с нуля. NEW
- Модуль 4. Нейронные сети и введение в DeepLearning.
- Модуль 5. Интеграция мультиомиксных данных.
- Модуль 6. Классификация и сегментация изображений с помощью технологий Computer Vision.
- Выпускной проект - групповое соревнование по теме Computer Vision.
Модуль 1. Задачи классического ML в биологии и биомедицине.
- Основные задачи машинного обучения: регрессия и классификация.
- Линейная регрессия. Функция потерь. Метрики MSE и R2
- Скоррелированные признаки. Проблема переобучения, гиперпараметры, Train/Test/Validation. L1 и L2 регуляризация.
- Шкалирование признаков. One-hot encoding категориальных признаков. Работа с пропущенными значениями.
- Логистическая регрессия. Метрики качества классификации: accuracy, AUROC, AUPRC. Задача мультиклассовой классификации. Линейная разделимость и feature engineering. Методы оценки значимости признаков.
- Библиотека sklearn и интерфейс fit/predict/predict_proba.
- Основные типы классических моделей: SVM, градиентный бустинг и случайный лес, kNN, кластеризация.
- Кластеризация. K-means, KNN, Иерархическая кластеризация, DBScan.
- Методы оценки качества кластеризации.
- Примеры биоинформатических задач, в решении которых применяются методы кластеризации.
- Методы понижения размерности. PCA, t-SNE, UMAP. Сравнительные характеристики методов.
- Практика применения методов понижения размерности.
- Фундаментальные математические основы нейронных сетей. Линейная алгебра, векторный анализ и теория вероятностей для ML.
- Построение базовых блоков нейросети с нуля. Реализация плотного слоя и векторизация операций на NumPy.
- Функции активации и их роль в обучении. ReLU, Sigmoid и численно устойчивая реализация Softmax.
- Функции потерь для задач классификации и регрессии. Cross-Entropy для Softmax и MSE для линейного выхода.
- Механизм обратного распространения ошибки (Backpropagation). Пошаговая реализация градиентного спуска на основе правила цепочки.
- Современные алгоритмы оптимизации. Разбор и реализация Momentum, RMSProp и Adam.
- Методы борьбы с переобучением. L1/L2 регуляризация и реализация Dropout.
- Построение полного тренировочного цикла "с нуля". Логирование метрик, валидация и сохранение лучшей модели.
- Практический проект на реальном датасете. Полный пайплайн от предобработки данных до финальной оценки модели.
- Переход от NumPy к профессиональным фреймворкам. Как фундаментальные знания ускоряют работу в PyTorch и TensorFlow.
- Введение в нейронные сети. Перцептрон. Вспоминаем бэкпроп и оптимизацию. Полносвязные нейронные сети.
- Введение в PyTorch, работа тензоров, .to("cuda"), как понимать написание сложных функций на примере функций потерь. Примеры построения линейной и логистической регрессий в pytorch.
- Оптимизационные методы первого порядка: SGD, Momentum, AdaGrad, Adam. Разбор работы современных оптимизаторов. Что такое learning rate и можно ли обойтись без него?
- Сверточные нейронные сети. Сверточное ядро, инвариантности, слои, архитектуры, работа основных составных блоков архитектур.
- Pytorch+Torchvision: знакомство, обучаем сверточные сети на классификации. Timm - библиотека для работы с нейронными сетями для обработки изображений.
- Диагностика проблем работы нейронной сети. Визуализация работы сверточного ядра.
- Разбор статей, ResNet, BatchNorm, Visual transformer. Как изменялись парадигмы с усовершенствованием архитектур.
- Омиксные данные. Обзор основных типов. Введение в анализ омиксных данных (основные подходы, best practices).
- Примеры задач для которых необходимо проводить интеграцию мультиомиксных данных.
- Итеграция мультиомиксных данных с использованием подходов, основанных на методах понижения размерности: MOFA, MCCA и другие.
- Использование нейросетей для понижения размерности. Автоэнкодеры и их архитектуры.
- Примеры использования автоэнкодеров для интеграции мультиомиксных данных в биоинформатике.
- Архитектуры автоэнкодеров
- Обзор задач CV в медицине и биотехнологиях.
- Работа с изображениями в python (numpy, Pillow, элементы opencv).
- Медицинские изображения в формате DICOM.
- Нейронные сети для обработки изображений (свёрточный слой и свёрточная нейронная сеть).
- Задача классификации изображений при помощи свёрточных нейронных сетей (построение функции потерь и функционала качества).
- Базовые методы улучшения качества и ускорения сходимости моделей: использование предобученных моделей, использование аугментаций.
- Методы аугментации изображений (transforms v2, Albumentations, kornia).
- Построение общего пайплайна классификации изображений на основе предобученных моделей из библиотеки pytorch image models (timm).
- Задача семантической сегментации изображений при помощи свёрточных нейронных сетей (построение функции потерь и функционала качества).
- Построение общего пайплайна семантической сегменации изображений на основе предобученных моделей из библиотеки segmentation models pytorch (smp).
- Проведение воспроизводимых ml-экспериментов: пайплайн обучения на pytorch lightning, запись и визуализация экспериментов в tensorboard и wandb.
- Проведение хакатона и разбор базового решения заключительного соревнования по машинному обучению.
Илья Воронцов
- 10 лет преподает компьютерные науки, машинное обучение и анализ данных.
- Data-исследователь, программист / computational researcher, teacher and programmer.
- Занимается биоинформатикой в области транскрипционной регуляции в ИОГен РАН с 2011 г.
- Alma mater: МФТИ
- PhD, 13 лет в преподавании биоинформатики, алгоритмов в области популяционной генетики, транскриптомики, геномики и методах ML.
- Assistant Researcher в BIOPOLIS, CiBio, Portugal.
- Alma mater: МГУ
- Экспертиза в ML - 10 лет и 5 лет преподавательского опыта.
- Team Leader отдела AI&ML в BostonGene, опыт работы в индустрии 10+ лет; 4 года - квант в хедж-фонде, 5 лет - преподает в Сбер.Университете на курсах "Байесовские методы машинного обучения" и "Компьютерное зрение", а так же в МФТИ и Санкт-Петербургской школе компьютерных наук.
- Alma mater: НГУ и Сколтех
- Продюсер и методолог программы, соучредитель и ex-руководитель образовательных программ ООО "Бластим" Международный эксперт по профориентации для взрослых
- C нуля разработала более 6 образовательных программ
- Запустила 33+ потоков курсов
- Более 15 лет в биотехе
- Более 18 лет в образовании
- Основатель и руководитель экосистемы OpenBio - Российского форума биотехнологий, Площадки открытых коммуникаций - мультиформатного пространства взаимодействия науки, бизнеса, государства и общества (11 лет работы в отрасли), экспертиза в сфере коммерциализации технологий, бизнес-инкубирования (Tech2B, Австрия)
- Более 10 лет организации экспертных мероприятий
- Более 15 лет в сопровождении высокотехнологичных проектов, преимущественно life science
https://edu.openbio.ru/mlforbiomed