Набір учасників [МФТІ] Старт в Data Engineering (Антон Поляков, Гайк Інанц)

Gadzhi · Кві 5, 2022

Переглянути вкладення 24713

Автоматизуєте процеси збору, очищення та аналізу реальних даних без розробників (ETL)
освоїте інструменти: Git, SQL, базовий Python
Навчіться працювати зі сховищами даних (DWH)

[COLOR=# ff0000]для кого курс?[/COLOR]

Аналітики

отримайте навички роботи зі сховищами даних.
зможете автоматизувати збір, трансформацію і очищення даних за допомогою SQL і Python без розробників.
Підвищіть компетенції для переходу в роль Data engineer або data scientist.

початківці IT-фахівці

отримайте навички роботи зі сховищами даних, SQL, базовим Python і репозиторієм GitHub.
Наб'єте руку в зборі, очищенні і зберіганні даних.
зможете далі розвиватися як data engineer або аналітик.

Маркетологи

Навчіться швидко витягувати потрібні дані без допомоги розробників.
Навчіться рахувати статистику за витягнутими даними без залучення аналітиків.
Навчіться працювати з одними з найбільш затребуваних в ІТ інструментами: SQL, Python, GitHub.

менеджери, власники бізнесів

дізнаєтеся, як влаштовані процеси збору, очищення, зберігання та аналізу даних в сучасних компаніях.
зрозумієте, навіщо потрібні сховища даних (DWH) і як їх використовувати.
Навчіться швидко витягувати потрібні дані без допомоги розробників.

початківці розробники

Навчіться проектувати і реалізовувати процеси збору, очищення, зберігання та аналізу даних.
отримайте навички роботи зі сховищами даних, SQL, Python і GitHub.
Підвищіть компетенції для переходу в роль Data engineer або data scientist.

опис курсу

На курсі ми навчимося налаштовувати і автоматизувати процеси збору, трансформації, очищення, зберігання і первинного аналізу даних за допомогою SQL і базового Python на прикладах реальних завдань (приклади завдань можна подивитися в програмі нижче).

У другому блоці курсу починається робота над випускним проектом, для якого є два варіанти виконання:

взяти завдання, заздалегідь підготовлену викладачами;
узгодити власну тему, наприклад, пов'язану з роботою слухача.

на проекті, який підготували викладачі, слухачів чекає робота з реальними транзакційними банківськими даними. За допомогою Python і SQL слухачі реалізують:

власне сховище даних-DWH;
процес збору, очищення, трансформації та зберігання даних;
систему автоматичного пошуку шахрайських операцій (AntiFraud-система).

БЛОК i

тиждень 1.
Створення та заповнення таблиць, Базовий синтаксис запитів SQL

Навчимося будувати таблиці, задавати в них формати полів і обмеження, заповнювати таблиці даними. Будемо практикуватися писати звернення до таблиць і отримувати з них дані за простими умовами.

Ми разом виконаємо наступне завдання:

створимо ER-модель процесу купівлі-продажу акцій Компанії користувачем;
створимо таблиці за спроектованою моделлю;
сформуємо таблиці з даними певних груп користувачів:
користувачі з Москви;
акції компаній, виставлені на торги менше тижня тому;
дані про акції певної цінової категорії;
дані про акції певних компаній.

тиждень 2.
Об'єднання та агрегація даних

Навчимося об'єднувати дані з різних таблиць і формувати більш складні запити, звертаючись відразу до декількох таблиць. Попрактикуємося в агрегації даних, що дозволить нам будувати запити для отримання найпростішої статистики з даних.

Ми завантажимо таблицю про клієнтів інтернет-магазину, таблицю з їх замовленнями і таблицю з описом цих замовлень. Після чого відповімо на питання:

Скільки клієнти всього витратили грошей за рік?
Яке співвідношення онлайн і оффлайн замовлень серед клієнтів?
Яких товарів продали найбільше?
Які товари принесли найбільшу виручку за останній рік?

тиждень 3.
Регулярні вирази та очищення даних

Розберемо просунуті методи роботи з рядками, вивчимо регулярні вирази. Це дозволить робити більш складну і тонку обробку рядків і пошук по рядках. Крім того, почнемо практикуватися в очищенні даних.

Ми реалізуємо процес з очищення, валідації та приведення до єдиного виду даних, залишених користувачами при реєстрації в wifi-мережі банківського відділення.

БЛОК II

тиждень 4.
Старт випускного проекту. Основи UNIX (Linux) систем. Python для створення процесів обробки даних

Почнемо готуватися до випускного проекту і вибирати тему. Слухач може виконувати заздалегідь підготовлений викладачем проект, або узгодити власне завдання. На цьому тижні ми навчимося вибудовувати повноцінний процес обробки даних з використанням декількох самописних Python додатків.

Крім того, на цьому тижні буде короткий екскурс в *Nix системи, дізнаємося, як підключатися по ssh до *Nix сервера, як виконувати пакети і як планувати завдання за допомогою crontab.

тиждень 5.
Віконні функції в SQL. Бібліотека SQLite

Навчимося створювати CRUD додатки на python, яке буде зберігати дані в базі даних SQLite.

Після цього ми перейдемо до досить складної – але дуже корисної теми-віконним функцій. З їх допомогою ми навчимося вирішувати складні аналітичні завдання.

Навчимося створювати локальні бази даних (без підключення до стороннього сервера) і обробляти дані – дуже корисно, наприклад, якщо служба безпеки не дає підключатися до сторонніх сервісів.

тиждень 6.
Віконні функції та патерни зберігання даних

Розберемося, які існують шаблони (патерни) зберігання даних і продовжимо практикуватися в написанні складних віконних функцій. Вивчимо, які шаблони зберігання використовуються в сучасних DWH, навчимося зберігати історію зміни Даних.

тиждень 7.
Инкрементальная завантаження. Оптимізація запитів

Ми вивчимо підхід інкрементального Завантаження, що дозволяє знімати з системи актуальний стан і записувати дані в історичну таблицю. Крім того, ми будемо практикуватися в аналізі запитів і їх оптимізації.

Ми створимо ETL-процес щоденного завантаження транзакційних даних телекому і за допомогою індексів прискоримо роботу деяких запитів.

тиждень 8.
Розбір завдань з співбесід і повторення матеріалу
Будемо практикуватися у вирішенні найбільш часто зустрічаються завдань з співбесід на початківців Data Engineer, аналітиків та інші близьких data-спеціальностей. Згадаймо і ще раз систематизуємо все, що вивчили на курсі.

тиждень 9-10.
Доопрацювання випускного проекту. Консультації з викладачами

У ці два тижні допрацьовуємо випускні проекти, консультуємося з викладачами.
Слухачі приходять до викладача на консультації зі своїми питаннями

тиждень 11.
Захист проектів. Підведення підсумків курсу.

https://privatelink.de/?https://fpmi-edu.ru/sql_course

Пошук

Пошук

Набір учасників [МФТІ] Старт в Data Engineering (Антон Поляков, Гайк Інанц)

Gadzhi

Модератор