Observability: мониторинг, логирование, трейсинг (2025) [OTUS] [Иван Федоров, Антон Касимов]
Best Practice по мониторингу инфраструктуры и отдельных её компонентов: приложения, баз данных, etc.
Курс обновлен!
Мы следим за всеми обновлениями в индустрии и собираем best practices. Теперь в программе 5 новых занятий, для вашего профессионального развития
Для кого этот курс?
Никакого хаоса и бессвязных метрик. После курса вы сможете правильно строить системы мониторинга и логирования, что позволит более точно понимать текущее состояние всех систем и быстрее реагировать на инциденты.
Вы научитесь:
Observability - и что он включает. GAP-stack (Grafana, Prometheus, Alertmanager)
Введение в мониторинг, логирование, трейсинг и алертинг. Рассмотрим основу Gap-стека. Поговорим об устройстве и принципах работы Prometheus, о том как он собирает метрики и хранит их. Разберем основы работы с PromQl. Рассмотрим Alertmanager, обсудим его устройство и то как он работает с алертами. Научимся визуализировать метрики с помощью дашбордов в Grafana.
Тема 1: Задачи мониторинга, логирования, трейсинга
Тема 2: Prometheus - как новый виток развития систем мониторинга
Тема 3: Prometheus - Exporters, Service Discovery // ДЗ
Тема 4: Grafana - основной инструмент визуализации данных
Тема 5: Отказоустойчивость Prometheus, хранилища метрик для Prometheus (Thanos, VictoriaMetrics, Mimir) // ДЗ
Тема 6: Prometheus, Alertmanager - работа с метриками (PromQL), написание алертов и их ротация // ДЗ
Тема 7: Grafana - продвинутое использование // ДЗ
Тема 8: Kube-prometheus-stack - мониторинг Kubernetes при помощи Prometheus operator
Тема 9: Q&A сессия по разбору домашних заданий
Zabbix
В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим как создаются алерты и графики по метрикам.
Тема 1: Установка и конфигурация
Тема 2: Мониторинг порталов и баз данных
Тема 3: Настройка алертинга // ДЗ
Тема 4: Discovery Trapper
Тема 5: Графики и комплексные экраны. Q&A по модулю zabbix
TICK стек
В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим как создаются алерты и графики по метрикам.
Тема 1: Установка и конфигурация
Тема 2: Мониторинг порталов и баз данных
Тема 3: Настройка алертинга // ДЗ
Тема 4: Discovery Trapper
Тема 5: Графики и комплексные экраны. Q&A по модулю zabbix
Логирование
В данном модуле: - разберем какие способы логирования существуют - сравним популярные стеки для логирования (Elastic stack, Opensearch, Loki, Graylog), разберемся чем они отличаются.
Тема 1: Классическое логирование в Linux
Тема 2: Централизованные системы логирования
Elastic stack
В данном модуле: - рассмотрим устройство стека и его задачи - подробно рассмотрим компоненты стека по отдельности.
Тема 1: Построение системы централизованного логирования на основе Elasticsearch, Logstash, Kibana, Beats. Введение в Elasticsearch
Тема 2: Elasticsearch
Тема 3: Beats - инструменты доставки данных // ДЗ
Тема 4: Системы агрегации сообщений Logstash/Vector // ДЗ
Тема 5: Kibana как инструмент визуализации логов
Тема 6: Q&A сессия по разбору домашних заданий
Системы централизованного логирования
- Рассмотрим систему логирования от компании Grafana, вдохновленную Prometheus подходом к данным; - Бесплатный форк Elastic stack от Amazon; - Opensource систему централизованного логирования Graylog; - Рассмотрим роль Apache Kafka как очереди сообщений в схемах систем логирования.
Тема 1: Grafana Loki - управление логами и доставка // ДЗ
Тема 2: Opensearch // ДЗ
Тема 3: Graylog // ДЗ
Тема 4: Apache Kafka в логировании
Системы распределенного трейсинга
- Разберем систему хранения трейсов Tempo - Рассмотрим систему распределенного трейсинга Zipkin.
Тема 1: Построение распределенного трейсинга на примере Zipkin
Тема 2: Jaeger и Grafana Tempo
Проектная работа
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Консультация по проектам и домашним заданиям // Проект
Тема 2: Защита проектной работы
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
- Артем Полозов. Senior Java Developer
Best Practice по мониторингу инфраструктуры и отдельных её компонентов: приложения, баз данных, etc.
Курс обновлен!
Мы следим за всеми обновлениями в индустрии и собираем best practices. Теперь в программе 5 новых занятий, для вашего профессионального развития
Для кого этот курс?
- DevOps инженерам курс поможет быстро выявлять и устранять проблемы в инфраструктуре с помощью мониторинга, логов и трассировки. Также Вы сможете начать создавать метрики и алерты для автоматизации мониторинга, что оптимизирует использование ресурсов и улучшает; пользовательский опыт;
- Системным администраторам курс позволит улучшить контроль за инфраструктурой, создавая полноценную систему наблюдаемости для быстрого обнаружения и устранения неполадок;
- Разработчикам Backend и FullStack, так как курс позволяет глубже понять поведение приложений в продакшене, что помогает в быстром выявлении и устранении проблем;
- Администраторам Linux курс поможет разобраться в разработке комплексного подхода к управлению инфраструктурой.
- Вам подойдет курс если необходимо настроить мониторинг, логирование и трейсинг с помощью Prometheus, Grafana, ELK, Tempo.
Никакого хаоса и бессвязных метрик. После курса вы сможете правильно строить системы мониторинга и логирования, что позволит более точно понимать текущее состояние всех систем и быстрее реагировать на инциденты.
Вы научитесь:
- строить сложные эффективные системы мониторинга и логирования инфраструктуры и приложений
- следить за работой большого количества серверов и работать в связке c Prometheus, Grafana, ELK, etc.
- обеспечивать визуализацию метрик и настраивать оповещения о критически важных событиях
- Вы рассмотрите следующий стек технологий и инструментов: Prometheus, AlertManager, Grafana, Thanos, VictoriaMetrics, Kube-prometheus-stack, ELK, EFK, Graylog2, Beats, Apache Kafka, Kibana, Loki, Tempo(Jaeger), Vector, Logstas
Observability - и что он включает. GAP-stack (Grafana, Prometheus, Alertmanager)
Введение в мониторинг, логирование, трейсинг и алертинг. Рассмотрим основу Gap-стека. Поговорим об устройстве и принципах работы Prometheus, о том как он собирает метрики и хранит их. Разберем основы работы с PromQl. Рассмотрим Alertmanager, обсудим его устройство и то как он работает с алертами. Научимся визуализировать метрики с помощью дашбордов в Grafana.
Тема 1: Задачи мониторинга, логирования, трейсинга
Тема 2: Prometheus - как новый виток развития систем мониторинга
Тема 3: Prometheus - Exporters, Service Discovery // ДЗ
Тема 4: Grafana - основной инструмент визуализации данных
Тема 5: Отказоустойчивость Prometheus, хранилища метрик для Prometheus (Thanos, VictoriaMetrics, Mimir) // ДЗ
Тема 6: Prometheus, Alertmanager - работа с метриками (PromQL), написание алертов и их ротация // ДЗ
Тема 7: Grafana - продвинутое использование // ДЗ
Тема 8: Kube-prometheus-stack - мониторинг Kubernetes при помощи Prometheus operator
Тема 9: Q&A сессия по разбору домашних заданий
Zabbix
В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим как создаются алерты и графики по метрикам.
Тема 1: Установка и конфигурация
Тема 2: Мониторинг порталов и баз данных
Тема 3: Настройка алертинга // ДЗ
Тема 4: Discovery Trapper
Тема 5: Графики и комплексные экраны. Q&A по модулю zabbix
TICK стек
В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим как создаются алерты и графики по метрикам.
Тема 1: Установка и конфигурация
Тема 2: Мониторинг порталов и баз данных
Тема 3: Настройка алертинга // ДЗ
Тема 4: Discovery Trapper
Тема 5: Графики и комплексные экраны. Q&A по модулю zabbix
Логирование
В данном модуле: - разберем какие способы логирования существуют - сравним популярные стеки для логирования (Elastic stack, Opensearch, Loki, Graylog), разберемся чем они отличаются.
Тема 1: Классическое логирование в Linux
Тема 2: Централизованные системы логирования
Elastic stack
В данном модуле: - рассмотрим устройство стека и его задачи - подробно рассмотрим компоненты стека по отдельности.
Тема 1: Построение системы централизованного логирования на основе Elasticsearch, Logstash, Kibana, Beats. Введение в Elasticsearch
Тема 2: Elasticsearch
Тема 3: Beats - инструменты доставки данных // ДЗ
Тема 4: Системы агрегации сообщений Logstash/Vector // ДЗ
Тема 5: Kibana как инструмент визуализации логов
Тема 6: Q&A сессия по разбору домашних заданий
Системы централизованного логирования
- Рассмотрим систему логирования от компании Grafana, вдохновленную Prometheus подходом к данным; - Бесплатный форк Elastic stack от Amazon; - Opensource систему централизованного логирования Graylog; - Рассмотрим роль Apache Kafka как очереди сообщений в схемах систем логирования.
Тема 1: Grafana Loki - управление логами и доставка // ДЗ
Тема 2: Opensearch // ДЗ
Тема 3: Graylog // ДЗ
Тема 4: Apache Kafka в логировании
Системы распределенного трейсинга
- Разберем систему хранения трейсов Tempo - Рассмотрим систему распределенного трейсинга Zipkin.
Тема 1: Построение распределенного трейсинга на примере Zipkin
Тема 2: Jaeger и Grafana Tempo
Проектная работа
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Консультация по проектам и домашним заданиям // Проект
Тема 2: Защита проектной работы
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
- Руководитель курса: Иван Федоров Технический директор Inotechgroup
- Антон Касимов. Технический директор. Более 15 лет с сфере IT
- Сергей Бывшев. Ведущий инженер автоматизации IT-инфраструктуры. В сфере IT более 9 лет из них 6 занимаюсь автоматизацией, внедрением devops практик.
- Олег Нова. Senior DevOps Engineer. в ИТ с 2005: хостинг > заказная разработка > ИТ-консалтинг > классические банки > финтех
- Сергей Андрюнин. DevOps инженер. В данный момент я работаю на должности DevOps инженера в нескольких крупных проектах, в том числе имеющих статус Государственной Информационной системы.
- Эрик Арайс. Специалист группы эксплуатации вычислительной систем
- Артем Полозов. Senior Java Developer
https://otus.ru/lessons/monitoring/#guardverified