DEV-PYDATA. Программирование на Python для анализа данных [2020]
Высшая инженерная школа СПбПУ (Санкт-Петербургский Политехнический Университет)
Дмитрий Федоров
Целью курса является формирование и/или совершенствование теоретических знаний и умений в области анализа данных с применением языка Python, а также приобретение практических навыков обработки данных на языке Python для широкого круга специалистов, работающих с данными.
Вы будите знать
- Основные принципы анализа данных с помощью возможностей языка Python.
- Возможности выполнения операций над векторами и матрицами в NumPy.
- Типы данных pandas.
- Основы обработки естественного языка.
- Принципы работы с файлами разных форматов.
- Методы очистки и подготовки данных.
- Принципы взаимодействия с базами данных (SQL).
- Умение использовать Jupyter Lab, использование системного командного процессора.
- Выполнение операций над векторами и матрицами с помощью модуля NumPy.
- Обработка табличных данных с помощью pandas.
- Умение выбрать подмножество из таблицы.
- Умение визуализировать данные.
- Умение осуществлять сбор и подготовку данных с помощью языка Python, работа с модулем requests.
- Умение взаимодействовать с базами данных (SQL).
- Осуществлять сбор и подготовку необходимых для анализа и визуализации данных с помощью языка Python.
- Работать с модулем requests.
- Осуществлять анализ данных из различных источников средствами языка Python.
- Использовать модули NumPy и pandas для анализа данных.
- Визуализировать аналитические данные.
Тема 1. Введение в анализ данных. Операции над векторами и матрицами в NumPy
1.1 Введение в анализ данных. Возможности Jupyter Lab
Работа с векторами и матрицами в NumPy.
Агрегирование данных массива.
Тема 2. Операции над таблицами в pandas- Введение в анализ данных.
- Выполнение внешнего кода %run.
- Длительность выполнения кода %timeit.
- Справка по магическим функциям.
- Использование системного командного процессора
- Операции над векторами и матрицами в NumPy.
- Сравнение list и ndarray.
- Создание ndarray из списка.
- Атрибуты массивов NumPy.
- Индексация массива.
- Срезы массива.
- Изменение формы массивов.
- Медлительность циклов Python.
- Универсальные функции NumPy.
- Агрегирование.
- Суммирование значений.
- Минимум и максимум.
- Транслирование.
- Сравнение, маски, булева логика.
- Прихотливая индексация. Сортировка массивов
Работа с векторами и матрицами в NumPy.
Агрегирование данных массива.
2.1 Общее знакомство с pandas, обзор возможностей
Построение графиков.
Работа с текстовыми данными.
Работа с объектами Series и DataFrame.
Тема 3. Сбор и подготовка данных с помощью языка Python- Обзор типов данных pandas.
- Выбор подмножества из таблицы.
- Построение графиков.
- Создание новых столбцов.
- Создание сводной статистики.
- Работа с текстовыми данными.
- Работа с объектами Series и DataFrame.
- Использование индексных объектов.
- Переиндексация.
- Удаление элементов из оси.
- Доступ по индексу, выборка, фильтрация.
- Сортировка и ранжирование
Построение графиков.
Работа с текстовыми данными.
Работа с объектами Series и DataFrame.
3.1 Работа с файлами разных форматов
Работа с файлами разных форматов.
Очистка и подготовка данных.
Тема 4. Анализ данных с помощью возможностей языка Python- Чтение и запись CSV, XML, JSON, Excel, HTML
- Обработка отсутствующих данных.
- Фильтрация отсутствующих данных.
- Восполнение отсутствующих данных.
- Устранение дубликатов.
- Преобразование данных.
- Замена значений.
- Манипуляции со строками
- Обзор возможностей модуля requests.
- Обращение к внешним API (погода, курс валют).
- Работа с реляционными БД (sqlite3), выполнение SQL-запросов.
- SQL-запросы из pandas
- Предварительная обработка текста.
- Лексемизация слов.
- Нормализация слов
Работа с файлами разных форматов.
Очистка и подготовка данных.
4.1 Операции над таблицами в pandas
Визуализация данных.
Анализ данных из социальной сети ВКонтакте.
5. Итоговая аттестация.- Иерархическое индексирование.
- Сводная статистика по уровню.
- Комбинирование и слияние наборов данных.
- Изменение формы и поворот.
- Агрегирование данных и групповые операции.
- Метод apply.
- Сводные таблицы
- Matplotlib: рисунки, подграфики, цвета, маркеры, аннотации.
- Seaborn/plotly: линейные графики, столбчатые диаграммы, гистограммы
- Типы данных, относящиеся к дате и времени.
- Диапазоны дат, сдвиг.
- Скользящие оконные функции
- Анализ данных из открытых источников
Визуализация данных.
Анализ данных из социальной сети ВКонтакте.
https://www.avalon.ru/Courses/Course/DEV-PYDATA-Programmirovanie-na-Python-dlya-analiza-dannyx/2171/