Введение в машинное обучение с помощью Python
Оригинальное название книги: Introduction to Machine Learning with Python
Название книги на русском: Введение в машинное обучение с помощью Python
Авторы: Адреас Мюллер, Сара Гидо
Объем книги: 392 страницы
Дата выхода книги: октябрь 2016 года (примеры даны для scikit-learn 0.18)
Ссылка на книгу:
Скрытое содержимое.
Практический пример использования методов машинного обучения в Python:
Логистическая регрессия
Скрытое содержимое.
Краткое описание:
Машинное обучение стало неотъемлемой частью различных коммерческих и исследовательских проектов, однако эта область не является прерогативой больших компаний с мощными аналитическими командами. Даже если вы еще новичок в использовании Python, эта книга познакомит вас с практическими способами построения систем машинного обучения. При всем многообразии данных, доступных на сегодняшний день, применение машинного обучения ограничивается лишь вашим воображением.
Вы изучите этапы, необходимые для создания успешного приложения на базе машинного обучения, используя Python и библиотеку scikit-learn. Авторы Андреас Мюллер и Сара Гидо сосредоточили свое внимание на практических аспектах применения алгоритмов машинного обучения. Знание библиотек NumPy и matplotlib позволит вам извлечь из этой книги еще больше полезной информации.
С помощью этой книги вы изучите:
• Фундаментальные понятия и сферы применения машинного обучения
• Преимущества и недостатки широко используемых алгоритмов машинного обучения
• Способы загрузки данных, обрабатываемых в ходе машинного обучения, включая различные аспекты работы с данными
• Продвинутые методы оценивания модели и тонкая настройка параметров
• Понятие конвейеров для изменения моделей и инкапсуляции вашего рабочего потока
• Методы работы с текстовыми данными
• Рекомендации по улучшению навыков, связанных с машинным обучением и наукой о данных
Содержание:
Скрытое содержимое.
Об авторах:
Андреас Мюллер получил ученую степень PhD по машинному обучению в Боннском университете. Занимал должность специалиста по машинному обучению в Amazon, где занимался разработкой приложений компьютерного зрения. В настоящий момент Андреас работает в Центре изучения данных Нью-Йоркского университета.
Сара Гидо – специалист по анализу данных, имеет большой опыт работы со стартапами, совсем недавно стала ведущим специалистом по анализу данных в компании Bitly, постоянный спикер конференций по машинному обучению. Кроме того, Сара имеет степень магистра по информатике Мичиганского университета.
Оригинальное название книги: Introduction to Machine Learning with Python
Название книги на русском: Введение в машинное обучение с помощью Python
Авторы: Адреас Мюллер, Сара Гидо
Объем книги: 392 страницы
Дата выхода книги: октябрь 2016 года (примеры даны для scikit-learn 0.18)
Ссылка на книгу:
Скрытое содержимое.
Практический пример использования методов машинного обучения в Python:
Логистическая регрессия
Скрытое содержимое.
https://yadi.sk/i/DBkgwweDxRLoe
Краткое описание:
Машинное обучение стало неотъемлемой частью различных коммерческих и исследовательских проектов, однако эта область не является прерогативой больших компаний с мощными аналитическими командами. Даже если вы еще новичок в использовании Python, эта книга познакомит вас с практическими способами построения систем машинного обучения. При всем многообразии данных, доступных на сегодняшний день, применение машинного обучения ограничивается лишь вашим воображением.
Вы изучите этапы, необходимые для создания успешного приложения на базе машинного обучения, используя Python и библиотеку scikit-learn. Авторы Андреас Мюллер и Сара Гидо сосредоточили свое внимание на практических аспектах применения алгоритмов машинного обучения. Знание библиотек NumPy и matplotlib позволит вам извлечь из этой книги еще больше полезной информации.
С помощью этой книги вы изучите:
• Фундаментальные понятия и сферы применения машинного обучения
• Преимущества и недостатки широко используемых алгоритмов машинного обучения
• Способы загрузки данных, обрабатываемых в ходе машинного обучения, включая различные аспекты работы с данными
• Продвинутые методы оценивания модели и тонкая настройка параметров
• Понятие конвейеров для изменения моделей и инкапсуляции вашего рабочего потока
• Методы работы с текстовыми данными
• Рекомендации по улучшению навыков, связанных с машинным обучением и наукой о данных
Содержание:
Скрытое содержимое.
Введение в машинное обучение с помощью Python
Руководство для специалистов по анализу данных
Андреас Мюллер и Сара Гидо
Предисловие
1. Введение
Зачем нужно использовать машинное обучение?
Проблемы, которые можно решить с помощью машинного обучения
Постановка задач и знакомство с данными
Почему нужно использовать Python?
scikit-learn
Установка scikit-learn
Основные библиотеки и инструменты
Jupyter Notebook
NumPy
SciPy
Matplotlib
pandas
mglearn
Сравнение Python 2 и Python 3
Версии, использованные в этой книге
Первый пример: классификация ирисов
Знакомимся с данными
Метрики эффективности: обучающий и тестовый наборы
Первое, что нужно сделать: посмотрите на Ваши данные
Построение Вашей первой модели: метод k ближайших соседей
Прогнозы
Оценка модели
Выводы и перспективы
2. Методы обучения с учителем
Классификация и регрессия
Обобщающая способность, переобучение и недообучение
Взаимосвязь между сложностью модели и размером набора данных
Алгоритмы машинного обучения с учителем
Некоторые наборы данных
Метод k ближайших соседей
Линейные модели
Наивный байесовский классификатор
Деревья решений
Ансамбли деревьев решений
Машины опорных векторов
Нейронные сети (Глубинное обучение)
Оценки неопределенности классификаторов
Функция решений
Прогнозирование вероятностей
Неопределенность в мультиклассовой классификации
Подведение итогов и перспективы
3. Методы обучения без учителя и предварительная обработка
Виды обучения без учителя
Проблемы методов обучения без учителя
Предварительная обработка и масштабирование
Различные виды предварительной обработки
Применение преобразования данных
Масштабирование обучающих и тестовых данных
Влияние предварительной обработки на обучение с учителем
Снижение размерности, извлечение признаков и множественное обучение
Анализ главных компонент
Факторизация неотрицательных матриц
Множественное обучение с помощью алгоритма t-SNE*
Кластеризация
Кластеризация методом k-средних
Агломеративная кластеризация
DBSCAN**
Сравнительная оценка алгоритмов кластеризации
Выводы по методам кластеризации
Выводы и перспективы
4. Представление данных и конструирование признаков
Категориальные переменные
Дамми-кодирование (создание фиктивных переменных)
Числа можно закодировать в виде категорий
Биннинг, дискретизация, линейные модели и деревья
Взаимодействия и полиномы
Одномерные нелинейные преобразования
Автоматический отбор признаков
Одномерные статистики
Отбор признаков на основе модели
Итеративный отбор признаков
Использование экспертных знаний
Выводы и перспективы
5. Оценка модели и ее улучшение
Перекрестная проверка
Перекрестная проверка в scikit-learn
Преимущества перекрестной проверки
Стратифицированная k-кратная перекрестная проверка и другие стратегии
Решетчатый поиск
Простой решетчатый поиск
Опасность переобучения и проверочный набор
Решетчатый поиск с перекрестной проверкой
Оценочные метрики и скоринг
Помните о конечной цели
Метрики для бинарной классификации
Метрики для мультиклассовой классификации
Метрики для регрессии
Использование оценочных метрик при выборе модели
Выводы и перспективы
6. Цепочки и конвейеры алгоритмов обработки данных
Выбор параметров с помощью предварительной обработки
Создание конвейеров
Использование конвейеров в решетчатом поиске
Общий интерфейс конвейеров
Создание удобного конвейера с помощью make_pipeline
Работа с атрибутами компонент конвейера
Работа с атрибутами в конвейере решетчатого поиска
Решетчатый поиск параметров предварительной обработки и модели
Решетчатый поиск полезной модели
Выводы и перспективы
7. Работа с текстовыми данными
Типы данных, представленные в виде строк
Практический пример: Анализ тональности на основе отзывов о фильмах
Представление текстовых данных в виде «мешка слов»
Применение «мешка слов» к набору данных Toy
«Мешок слов» для отзывов о фильмах
Стоп-слова
Масштабирование данных с помощью tf-idf
Исследование коэффициентов модели
Применение «мешка слов» для n-грам
Продвинутая токенизация, стемминг и лемматизация
Моделирование топиков и кластеризация документов
Латентное размещение Дирихле
Выводы и перспективы
8. Подведение итогов
Приближаясь к проблеме машинного обучения
Вмешательство человека в процесс построения модели
От прототипа к производству
Тестирование систем
Построение собственной модели
Куда нужно двигаться
Теория
Другие платформы и пакеты для машинного обучения
Ранжирование, рекомендательные системы и другие виды обучения
Вероятностное моделирование, статистический вывод и вероятностное программирование
Нейронные сети
Масштабирование для работы с большими наборами данных
Оттачивание навыков
Заключение
Индекс
*t-SNE (t-distributed stochastic neighbor embedding – стохастическое вложение соседей
с распределением Стьюдента)
** DBSCAN (density-based spatial clustering of applications with noise – плотностный алгоритм кластеризации пространственных данных с присутствием шума)
Об авторах:
Андреас Мюллер получил ученую степень PhD по машинному обучению в Боннском университете. Занимал должность специалиста по машинному обучению в Amazon, где занимался разработкой приложений компьютерного зрения. В настоящий момент Андреас работает в Центре изучения данных Нью-Йоркского университета.
Сара Гидо – специалист по анализу данных, имеет большой опыт работы со стартапами, совсем недавно стала ведущим специалистом по анализу данных в компании Bitly, постоянный спикер конференций по машинному обучению. Кроме того, Сара имеет степень магистра по информатике Мичиганского университета.