Python для работы с данными [2020] [Нетология] [О. Булыгин, К. Башевой, К. Гусев, Ю. Иванова]
Задачи по работе с данными востребованы во всех областях:от банковской сферы и ИТ до тяжелой промышленности и сельского хозяйства.
Python — простой и универсальный инструмент для решения любых аналитических задач.
Возможности после обучения
1. Больше автономности
Достигнутые результаты
Содержание Модуль 1 - Основы Python для работы с данными
Вы научитесь пользоваться базовыми инструментами Python. Для студентов без опыта в программировании модуль предполагает интенсивную самостоятельную работу. По ходу занятия преподаватель даст много полезных дополнительных библиотек и методов, которые ускорят работу с кодом, оставив больше времени на аналитические задачи.
Вы научитесь работать с главными аналитическими библиотеками, а визуализации помогут быстро находить зависимости и корреляции. Одно из больших преимуществ языка Python — это большое и сильное сообщество, которое ежедневно пополняет язык простыми готовыми решениями.
Навыки, которые вы получите
В этом модуле вы познакомитесь со статистикой: именно она помогает закопаться глубже в данные, чтобы найти интересные связи и эффективно генерировать гипотезы. Вас ждут не только среднее, медиана и квартили, но и одномерный и многомерный анализ, коллинеарность. Вы научитесь рассчитывать необходимую выборку и доверительный интервал для стат. значимости теста и проектировать дизайн A/B-тестов.
Навыки, которые вы получите
Вы изучите инструменты выбора и оценки фичей, научитесь оптимизировать их количество. Новые знания помогут плотнее общаться с разработкой в продукте и быстро вычленять ошибки в их логике. Также вы приобщитесь к главной библиотеке data scientists — sklearn для feature selection.
Навыки, которые вы получите
Кроме домашних заданий, в которых вы отрабатываете отдельные навыки, в курсе будет две проверочные точки. Они помогут вам оценить свои силы в комплексных задачах.
В рамках дипломного проекта вы будете работать с датасетом на медицинскую тематику. Вы не только самостоятельно подготовите данные для анализа в Python, но и напишете алгоритм, который предсказывает вероятность болезни у пациента по разным признакам.
Дипломная работа выполняется самостоятельно под руководством экспертов курса и позволяет закрепить весь спектр знаний и навыков, полученных на программе.
Задачи по работе с данными востребованы во всех областях:от банковской сферы и ИТ до тяжелой промышленности и сельского хозяйства.
Python — простой и универсальный инструмент для решения любых аналитических задач.
1. Автоматизируйте свою рутинную работу с помощью Python
- Обрабатывайте большие объемы информации без администрирования и баз данных
- Освойте ключевой инструмент в мире аналитики и машинного обучения
Возможности после обучения
1. Больше автономности
Перестанете зависеть от разработчиков в работе с данными и научитесь понимать программистов.
2. Автоматизация рутинных задачС Python вы почувствуете вкус к оптимизации процессов и освободите время для новых задач.
3. Широкий доступ к даннымУмение быстро парсить сайты — бесценно. Вы начнете видеть и получать данные там, где раньше не замечали их
4. Легкий переход в data sciencePython для аналитики — отличная база и возможность начать карьеру в data science.
5. Готовить данные для алгоритмовУмение использовать готовые решения для придания смысла сырой информации.
6. Поиск новых инсайтовНахождение новых взаимосвязей в данных и их интерпретация для улучшения показателей бизнеса.
Достигнутые результаты и ключевые навыки после обученияДостигнутые результаты
1. Работа с реальными дата-сетами
Ключевые навыки- Работа с логами и рекомендательными системами
- Получение минимального портфолио для старта в профессии
1. Работа с сырыми данными и их подготовка для анализа
- Работа с аналитическими библиотеками numpy, scipy и pandas
- Визуализация данных с помощью библиотек seaborn, plotly, matplotlib
- Статистический анализ данных
- Применение математических моделей
- Выбор и создание фич
- Применение основных алгоритмов для обработки данных
- Парсинг данных с сайтов и внешних источников
- Автоматизация процессов получения данных для отчетов
Содержание Модуль 1 - Основы Python для работы с данными
Вы научитесь пользоваться базовыми инструментами Python. Для студентов без опыта в программировании модуль предполагает интенсивную самостоятельную работу. По ходу занятия преподаватель даст много полезных дополнительных библиотек и методов, которые ускорят работу с кодом, оставив больше времени на аналитические задачи.
1. Вводные видео-уроки по установке, синтаксису и функциям Python
Навыки, которые вы получите- Основы Python и Git
- Базовые типы данных и циклы
- Функции и классы
- Продвинутые типы данных: массивы, множества, словари
1. Научитесь работать в Jupyter-ноутбуке
Содержание Модуль 2 - Знакомство с основными библиотеками для анализа данных- Освоите чтение файлов и запись данных в файлы
- Сможете делать первичную проверку данных на корректность и обработку ошибок
- Научитесь работать с датами с библиотекой DateTime
- Освоите работу с JSON-форматом
- Научитесь импортировать данные в Excel
- Познакомитесь с библиотекой DateTime
Вы научитесь работать с главными аналитическими библиотеками, а визуализации помогут быстро находить зависимости и корреляции. Одно из больших преимуществ языка Python — это большое и сильное сообщество, которое ежедневно пополняет язык простыми готовыми решениями.
1. numpy и scipy
- pandas
- Визуализация данных: seaborn, plotly, matplotlib
- Получение данных с внешних сайтов и API
- Data mining и парсинг
Навыки, которые вы получите
1. Сможете подготовить визуальные отчёты
Содержание Модуль 3 - Статистика в Python- Освоите эксплоративный анализ данных
- Научитесь работать с матрицами и векторами в Python
- Научитесь работать с pandas в таблицах
- Освоите работу с элементами массива разных размерностей в numpy
- Автоматизация получения данных из внешних источников
- Автоматизация парсинга с сайтов
В этом модуле вы познакомитесь со статистикой: именно она помогает закопаться глубже в данные, чтобы найти интересные связи и эффективно генерировать гипотезы. Вас ждут не только среднее, медиана и квартили, но и одномерный и многомерный анализ, коллинеарность. Вы научитесь рассчитывать необходимую выборку и доверительный интервал для стат. значимости теста и проектировать дизайн A/B-тестов.
1. Основы описательной статистики, виды распределений в Python
- Центральная предельная теорема и статистический анализ данных в Python
- Основные статистические тесты и проверка гипотез
- Кейс-стади. Статистические показатели в Python
Навыки, которые вы получите
1. Поймёте основы описательной статистики
Содержание Модуль 4 - Feature engineering и предобработка данных- Научитесь проводить основные статистические тесты (z-test, f-test, chi-2 test)
- Освоите проектирование экспериментов
- Научитесь проводить анализ A/B-тестов
- Научитесь интерпретировать исходные данные для нахождения зависимостей
- Применение математических моделей
Вы изучите инструменты выбора и оценки фичей, научитесь оптимизировать их количество. Новые знания помогут плотнее общаться с разработкой в продукте и быстро вычленять ошибки в их логике. Также вы приобщитесь к главной библиотеке data scientists — sklearn для feature selection.
1. Проверка и очистка данных с помощью pandas и numpy
- Проведение анализа и рекурсивного feature selection и на базе моделей
- Методы оценки значимости и отбора признаков и их использование
- «Проклятие размерности», основные алгоритмы и принципы их работы
- Использование алгоритмов sklearn
Навыки, которые вы получите
1. Освоите описание основных проблем данных
Содержание Модуль 5 - Лабораторные работы- Научитесь проверке данных на полноту, целостность, валидность, наличие шумов, ошибок и пропусков
- Сможете очистить данные с помощью numpy и pandas
- Разберётесь с сокращением размерности данных алгоритмами PCA, LDA, NMF с помощью sklearn
- Научитесь выбору и оценке фич
Кроме домашних заданий, в которых вы отрабатываете отдельные навыки, в курсе будет две проверочные точки. Они помогут вам оценить свои силы в комплексных задачах.
1. С помощью статистики изучите данные небольшого датасета на 200+ автомобилей по 26 параметрам, с помощью визуализаций выведете закономерности и протестируете несколько статистических гипотез.
2. Вместе с преподавателем подготовите датасет на 1500 строк к анализу, оцените и выберете из 80 признаков нужные и спрогнозируете стоимостную категорию дома.
Содержание Модуль 6 - Диплом2. Вместе с преподавателем подготовите датасет на 1500 строк к анализу, оцените и выберете из 80 признаков нужные и спрогнозируете стоимостную категорию дома.
В рамках дипломного проекта вы будете работать с датасетом на медицинскую тематику. Вы не только самостоятельно подготовите данные для анализа в Python, но и напишете алгоритм, который предсказывает вероятность болезни у пациента по разным признакам.
Дипломная работа выполняется самостоятельно под руководством экспертов курса и позволяет закрепить весь спектр знаний и навыков, полученных на программе.
https://netology.ru/programs/python-for-analytics#/lessons