Python/R for Data Science [2021]
Itea Online
Олег Сорокин, Роман Кириченко
Python/R for Data Science — это целый комплекс подготовки Data Science-специалистов к работе с большими данными и использованию возможностей программирования в обработке больших данных.
Использование R и Python поможет эффективнее кластеризировать и визуализировать большие массивы данных.
Для кого этот курс
- Курс нацелен на Data Scientists, которые имеют базовые навыки программирования и математического анализа.
- Также курс будет полезен специалистам, работающим с данными (аналитикам, бизнес-аналитикам, исследователям), которые хотят освоить новые гибкие инструменты для работы с данными.
- Понимать основные алгоритмы машинного обучения и практически их использовать для задач классификации и регрессии.
- Делать качественные и интерактивные визуализации данных
- Анализировать данные и строить модели машинного обучения с помощью языков Python и R
Модуль 1 - Введение в машинного обучения и Data science
- Определение машинного обучения и науки о данных, их задачи.
- Инструментарий для анализа данных: языки программирования Python и R.
- Типы машинного обучения.
- Составные части модели машинного обучения.
- Базовые концепты машинного обучения.
- IDE для удобной работы: Jupyter, Spyder & Rstudio.
- Семантика языка
- Типы данных
- Структуры данных
- Операторы контроля исполнения (разветвления и циклов)
- Векторизация в Python (numpy) i R
- Comprehension, Generators, Iterators в Python.
- Функции в Python i R.
- Встроенные функции Python.
- ФункцииApply-family в R.
- Библиотека purrr для функционального программирования в R.
- Numpy.
- Pandas.
- Фильтрация и агрегация данных в dplyr.
- Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.
- Визуализация данных в R.
- ggplot2 — grammar of graphics.
- Интерактивная графика в R.
- Matplotlib & seaborn.
- Scipy.stats.
- Описательные статистики.
- Зависимости между переменными.
- Преобразование факторных переменных.
- Борьба с пробелами в данных.
- Проблема мультиколлинеарности.
- Шкалирования данных.
- Выбор информативных переменных для модели.
- Типичный алгоритм подготовки данных к моделированию.
- Линейная регрессия.
- Полиномиальная регрессия.
- Метод ближайших соседей.
- Метрики оценки качества регрессии.
- Тюнинг регрессионных моделей.
- Логистическая регрессия.
- Метод опорных векторов.
- Наивный Байесовский классификатор.
- Метрики оценки качества классификации.
- Тюнинг параметров моделей классификации.
- Метод к-средних.
- Иерархический кластерный анализ.
- DBSCAN.
- Анализ.
- Корреспонденс-анализ.
- Базовые древовидные модели.
- Random forest.
- Xgboost, lightgbm.
- Тюнинг гиперпараметров в ансамблевых моделях.
- Аугментация.
- Feature engineering.
- Cross-validation.
- Борьба с переобучением.
- Борьба с дисбалансом данных.
- Регуляризация модели.
- Keras.
- tensorflow.
- Персептрон.
- CNN.
- AR, MA, ARMA.
- ARIMA.
- VAR.
- Lstm.
- Пути организации продакшна для data science-проектов.
- Специфика документации data science проектов.
- Markdown, Latex.
- Презентация и обсуждение курсовых проектов
- Подведение итогов курса
https://onlineitea.com/course/python-r-for-ds/