Основы Data Science [2021]
it-academy
Роман Сидоренко
Курс по Data Science направлен на приобретение знаний, навыков и умений по извлечению, структурированию и использованию полезной информации из неструктурированных, а также разрозненных источников.
Он охватывает основные современные средства Data Mining, Machine Learning и Big Data. Использование указанных технологий даёт неоспоримое преимущество не только организациям на рынке товаров и услуг, но и людям на рынке труда.
Для кого этот курс
- Для разработчиков, желающих расширить свои компетенции;
- Для студентов старших курсов и выпускников технических ВУЗов, которые хотят повысить свои шансы на трудоустройство;
- Для аспирантов и соискателей научных степеней, желающих приобрести навыки решения научных и исследовательских задач с использованием современных информационных технологий;
- Для специалистов, желающих повысить свою компетенцию в области Data Mining, Big Data и Data Science.
- Приобретения знаний в областях Data Mining, Big Data и Data Science;
- Формирования устойчивых навыков и умений по постановке и решению аналитических и исследовательских задач с использованием математической статистики и современных информационных технологий, а также разработки информационных рекомендательных систем.
- Осуществлять сбор, обобщение и очистку исходных информационных данных;
- Находить аналитические зависимости в структурированных и неструктурированных данных;
- Осуществлять постановку и решение задач математического программирования и исследования операций;
- Знать и уметь применять основные алгоритмы машинного обучения и математического программирования;
- Знать, как работает Machine Learning;
- Уметь пользоваться основными инструментами Data Mining, Big Data и Data Science;
- Знать основные типы и архитектуру нейронных сетей;
- Реализовывать, внедрять и обучать Machine Learning модели;
- Решать задачи Computer Vision, Natural Language Toolkit, а также прогнозирования временных рядов;
- Знать концепции Map Reduce и CUDA;
- Знать принципы функционирования высоконагруженных систем;
- Разрабатывать рекомендательные системы.
Модуль 1 - Введение в Data Science
- Объект Data Science.
- Взаимосвязь Data Mining, Big Data и Data Science.
- Инструментарий Data Science.
- Основные способы получения данных.
- Базовый эксплоративный анализ и визуализация данных.
- Основы матричного исчисления.
- Реализация матричных операций в Python.
- Основы теории вероятности и математической статистики.
- Проверка статистических гипотез в Python.
- Основы математического программирования и исследования операций.
- Классификация алгоритмов математического программирования.
- Визуализация данных в Python.
- Принципы построения моделей в Data Science.
- Метрики качества моделей. Проверка качества модели.
- Введение в Deep Learning и Machine learning.
- Объект Deep Learnig и Machine Learning. Классы решаемых задач.
- Большие данные и параллельные вычисления.
- Подходы к построению высоконагруженных систем.
- Обобщение и сбор данных для обучения их очистка и нормализация.
- Обзор и классификация алгоритмов ML.
- Алгоритмы «Дерево решений», «Случайный лес», «K-ближайших соседей», «Градиентный бустинг».
- Кластеризация и поиск ассоциаций.
- Линейная и логистическая регрессия. Ограничения, преимущества и недостатки.
- Обучение с учителем.
- Обучение классификатора на размеченных данных.
- Проверка качества модели: переобучение, регуляризация, обучающая и тестовая выборки.
- Борьба с переобучением: ансамблирование. Обзор методов ансамблирования.
- Реализация алгоритмов в Python.
- Снижение размерности, разреженные данные, многомерные пространства.
- Коррелирующие параметры.
- Нерациональное использование памяти, сложность моделей.
- Статистический анализ данных, выбор параметров на основе корреляции.
- Снижение размерности данных: поиск подмножеств, регуляризация, уменьшение пространства.
- Векторное разложение.
- Методы декомпозиции.
- Спрямляющие пространства.
- Введение в рекомендательные системы.
- Различие между предсказаниями и рекомендациями.
- Типы рекомендательных систем.
- Постановка целей.
- Неперсонализированные рекомендации.
- Способы построения рекомендательных систем.
- Цепи Маркова.
- Групповые рекомендации.
- Теоретические основы обработки изображений.
- Форматы данных (RGB, CMYK, B&W), принципы и алгоритмы сжатия изображений, примеры чтения и конвертации изображений.
- Выделение признаков изображений.
- Задача поиска изображения по шаблону, представление свойств изображения с помощью гистограмм.
- Поиск похожих картинок по контенту.
- Сегментация изображений, детекция объектов.
- Детектор лиц на изображении.
- Основные элементы нейронных сетей.
- Классификация архитектур нейронных сетей.
- Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
- Регуляризация.
- Инициализация весов.
- Сверточные нейронные сети.
- Практическое применение сверточных рекурентных и генеративно-конкурирующих сетей в задачах Computer Vision.
- Введение в обработку текста.
- Частотный анализ.
- Законы Ципфа и Хипса.
- Морфологический и синтаксический анализ.
- Векторная модель и методы снижения размерности в ней.
- Классификация текстов.
- Извлечение именованных сущностей.
- Языковые модели.
- Извлечение информации.
- Генерация текстов.
- Временные ряды.
- Модели построения прогнозов.
- Разложение временного ряда на компоненты.
- Автокорреляция и корелограммы.
- Стационарность ряда.
- Сложные модели прогнозирования.
- Прогнозирование временных рядов на цепях Маркова.
- Cпособы выяснения требований, проверка их выполнимости.
- Формализация и утверждение требований с заказчиком.
- Общий порядок составления отчетов.
- Цели, явные и неявные ожидания заказчиков проекта.
- Описание зависимостей и способов воздействия на важные для заказчика факторы.
- Практический опыт создания хайлоад моделей.
- Выбор алгоритмов, библиотек, тонкой настройки моделей.
- Защита дипломных проектов.
https://www.dist.it-academy.by/course/osnovy-data-science/osnovy-data-science/