Pandas для всех: анализ данных в Python
Автор: Daniel Y. Chen
Переводчик:
Оригинальное название: Pandas for Everyone: Python Data Analysis
Издательство: Addison-Wesley Professional
Объем в оригинале: 400 стр
Дата публикации: ноябрь 2017
Тип перевода: перевод на русский
Формат: текст, PDF
Книга в оригинале:
Скрытое содержимое.
Pandas – библиотека Python для обработки и анализа данных. Она построена на основе структуры данных, которая называется DataFrame и использует принципы таблицы данных (data frame) среды статистического программирования R. DataFrame библиотеки pandas – это таблица, похожая на электронную таблицу Excel. Для простоты я буду называть эту таблицу датафреймом. Если же говорить более точно, датафрейм представляет собой проиндексированный многомерный массив. В отличие от NumPy, который требует, чтобы все записи в массиве были одного и того же типа, каждый столбец датафрейма (Series) может иметь отдельный тип, то есть в столбцах могут быть записаны строковые значения, даты, целые числа, числа с плавающей точкой. Библиотека pandas может работать с различными форматами файлов и баз данных, например, с файлами SQL, Excel и CSV. Она является очень полезным инструментом, активно использующимся для предварительной обработки данных (обработка пропусков, дублей, агрегация данных и прочее).
Глава 1. Основные принципы датафрейма Pandas
Введение
Базовые понятия
Цели
Загрузка вашего первого набора данных
Анализ столбцов, строк и ячеек
Вычисления по группировке и агрегированию значений
Базовая графика
Выводы
Глава 2. Структуры данных Pandas
Введение
Базовые понятия
Цели
Подготовка ваших собственных данных
Серии
Датафрейм
Вносим изменения в серии и датафреймы
Импорт и экспорт данных
Выводы
Глава 3. Знакомство с графикой
matplotlib
Глава 4. Сбор данных
Введение
Базовые понятия
Цели
Конкатенация
Выводы
Глава 5. Работа с пропущенными значениями
Введение
Базовые понятия
Цели
Что такое значение NaN
Причина возникновения пропущенных данных
Значения, вводимые пользователем
Выводы
Глава 6. Преобразование данных в удобную форму
Введение
Базовые понятия
Столбцы являются значениями, а не переменными
Столбцы содержат несколько переменных
Переменные в строках и столбцах
Несколько одинаковых наблюдений в таблице
Получение наблюдений на базе нескольких таблиц
Выводы
Или лучше сделать перевод Learning Pandas - Python Data Discovery and Analysis Made Easy?
Скрытое содержимое.
Автор: Daniel Y. Chen
Переводчик:
Оригинальное название: Pandas for Everyone: Python Data Analysis
Издательство: Addison-Wesley Professional
Объем в оригинале: 400 стр
Дата публикации: ноябрь 2017
Тип перевода: перевод на русский
Формат: текст, PDF
Книга в оригинале:
Скрытое содержимое.
Pandas – библиотека Python для обработки и анализа данных. Она построена на основе структуры данных, которая называется DataFrame и использует принципы таблицы данных (data frame) среды статистического программирования R. DataFrame библиотеки pandas – это таблица, похожая на электронную таблицу Excel. Для простоты я буду называть эту таблицу датафреймом. Если же говорить более точно, датафрейм представляет собой проиндексированный многомерный массив. В отличие от NumPy, который требует, чтобы все записи в массиве были одного и того же типа, каждый столбец датафрейма (Series) может иметь отдельный тип, то есть в столбцах могут быть записаны строковые значения, даты, целые числа, числа с плавающей точкой. Библиотека pandas может работать с различными форматами файлов и баз данных, например, с файлами SQL, Excel и CSV. Она является очень полезным инструментом, активно использующимся для предварительной обработки данных (обработка пропусков, дублей, агрегация данных и прочее).
Глава 1. Основные принципы датафрейма Pandas
Введение
Базовые понятия
Цели
Загрузка вашего первого набора данных
Анализ столбцов, строк и ячеек
Вычисления по группировке и агрегированию значений
Базовая графика
Выводы
Глава 2. Структуры данных Pandas
Введение
Базовые понятия
Цели
Подготовка ваших собственных данных
Серии
Датафрейм
Вносим изменения в серии и датафреймы
Импорт и экспорт данных
Выводы
Глава 3. Знакомство с графикой
matplotlib
Глава 4. Сбор данных
Введение
Базовые понятия
Цели
Конкатенация
Выводы
Глава 5. Работа с пропущенными значениями
Введение
Базовые понятия
Цели
Что такое значение NaN
Причина возникновения пропущенных данных
Значения, вводимые пользователем
Выводы
Глава 6. Преобразование данных в удобную форму
Введение
Базовые понятия
Столбцы являются значениями, а не переменными
Столбцы содержат несколько переменных
Переменные в строках и столбцах
Несколько одинаковых наблюдений в таблице
Получение наблюдений на базе нескольких таблиц
Выводы
Или лучше сделать перевод Learning Pandas - Python Data Discovery and Analysis Made Easy?
Скрытое содержимое.
https://www.safaribooksonline.com/library/view/learning-pandas/9781783985128/