- Автоматизуєте процеси збору, очищення та аналізу реальних даних без розробників (ETL)
- освоїте інструменти: Git, SQL, базовий Python
- Навчіться працювати зі сховищами даних (DWH)
Аналітики
- отримайте навички роботи зі сховищами даних.
- зможете автоматизувати збір, трансформацію і очищення даних за допомогою SQL і Python без розробників.
- Підвищіть компетенції для переходу в роль Data engineer або data scientist.
- отримайте навички роботи зі сховищами даних, SQL, базовим Python і репозиторієм GitHub.
- Наб'єте руку в зборі, очищенні і зберіганні даних.
- зможете далі розвиватися як data engineer або аналітик.
- Навчіться швидко витягувати потрібні дані без допомоги розробників.
- Навчіться рахувати статистику за витягнутими даними без залучення аналітиків.
- Навчіться працювати з одними з найбільш затребуваних в ІТ інструментами: SQL, Python, GitHub.
- дізнаєтеся, як влаштовані процеси збору, очищення, зберігання та аналізу даних в сучасних компаніях.
- зрозумієте, навіщо потрібні сховища даних (DWH) і як їх використовувати.
- Навчіться швидко витягувати потрібні дані без допомоги розробників.
- Навчіться проектувати і реалізовувати процеси збору, очищення, зберігання та аналізу даних.
- отримайте навички роботи зі сховищами даних, SQL, Python і GitHub.
- Підвищіть компетенції для переходу в роль Data engineer або data scientist.
На курсі ми навчимося налаштовувати і автоматизувати процеси збору, трансформації, очищення, зберігання і первинного аналізу даних за допомогою SQL і базового Python на прикладах реальних завдань (приклади завдань можна подивитися в програмі нижче).
У другому блоці курсу починається робота над випускним проектом, для якого є два варіанти виконання:
- взяти завдання, заздалегідь підготовлену викладачами;
- узгодити власну тему, наприклад, пов'язану з роботою слухача.
- власне сховище даних-DWH;
- процес збору, очищення, трансформації та зберігання даних;
- систему автоматичного пошуку шахрайських операцій (AntiFraud-система).
БЛОК i
тиждень 1.
Створення та заповнення таблиць, Базовий синтаксис запитів SQL
Навчимося будувати таблиці, задавати в них формати полів і обмеження, заповнювати таблиці даними. Будемо практикуватися писати звернення до таблиць і отримувати з них дані за простими умовами.
Ми разом виконаємо наступне завдання:
Об'єднання та агрегація даних
Навчимося об'єднувати дані з різних таблиць і формувати більш складні запити, звертаючись відразу до декількох таблиць. Попрактикуємося в агрегації даних, що дозволить нам будувати запити для отримання найпростішої статистики з даних.
Ми завантажимо таблицю про клієнтів інтернет-магазину, таблицю з їх замовленнями і таблицю з описом цих замовлень. Після чого відповімо на питання:
Регулярні вирази та очищення даних
Розберемо просунуті методи роботи з рядками, вивчимо регулярні вирази. Це дозволить робити більш складну і тонку обробку рядків і пошук по рядках. Крім того, почнемо практикуватися в очищенні даних.
Ми реалізуємо процес з очищення, валідації та приведення до єдиного виду даних, залишених користувачами при реєстрації в wifi-мережі банківського відділення.
БЛОК II
тиждень 4.
Старт випускного проекту. Основи UNIX (Linux) систем. Python для створення процесів обробки даних
Почнемо готуватися до випускного проекту і вибирати тему. Слухач може виконувати заздалегідь підготовлений викладачем проект, або узгодити власне завдання. На цьому тижні ми навчимося вибудовувати повноцінний процес обробки даних з використанням декількох самописних Python додатків.
Крім того, на цьому тижні буде короткий екскурс в *Nix системи, дізнаємося, як підключатися по ssh до *Nix сервера, як виконувати пакети і як планувати завдання за допомогою crontab.
тиждень 5.
Віконні функції в SQL. Бібліотека SQLite
Навчимося створювати CRUD додатки на python, яке буде зберігати дані в базі даних SQLite.
Після цього ми перейдемо до досить складної – але дуже корисної теми-віконним функцій. З їх допомогою ми навчимося вирішувати складні аналітичні завдання.
Навчимося створювати локальні бази даних (без підключення до стороннього сервера) і обробляти дані – дуже корисно, наприклад, якщо служба безпеки не дає підключатися до сторонніх сервісів.
тиждень 6.
Віконні функції та патерни зберігання даних
Розберемося, які існують шаблони (патерни) зберігання даних і продовжимо практикуватися в написанні складних віконних функцій. Вивчимо, які шаблони зберігання використовуються в сучасних DWH, навчимося зберігати історію зміни Даних.
тиждень 7.
Инкрементальная завантаження. Оптимізація запитів
Ми вивчимо підхід інкрементального Завантаження, що дозволяє знімати з системи актуальний стан і записувати дані в історичну таблицю. Крім того, ми будемо практикуватися в аналізі запитів і їх оптимізації.
Ми створимо ETL-процес щоденного завантаження транзакційних даних телекому і за допомогою індексів прискоримо роботу деяких запитів.
тиждень 8.
Розбір завдань з співбесід і повторення матеріалу
Будемо практикуватися у вирішенні найбільш часто зустрічаються завдань з співбесід на початківців Data Engineer, аналітиків та інші близьких data-спеціальностей. Згадаймо і ще раз систематизуємо все, що вивчили на курсі.
тиждень 9-10.
Доопрацювання випускного проекту. Консультації з викладачами
У ці два тижні допрацьовуємо випускні проекти, консультуємося з викладачами.
Слухачі приходять до викладача на консультації зі своїми питаннями
тиждень 11.
Захист проектів. Підведення підсумків курсу.
тиждень 1.
Створення та заповнення таблиць, Базовий синтаксис запитів SQL
Навчимося будувати таблиці, задавати в них формати полів і обмеження, заповнювати таблиці даними. Будемо практикуватися писати звернення до таблиць і отримувати з них дані за простими умовами.
Ми разом виконаємо наступне завдання:
- створимо ER-модель процесу купівлі-продажу акцій Компанії користувачем;
- створимо таблиці за спроектованою моделлю;
- сформуємо таблиці з даними певних груп користувачів:
- користувачі з Москви;
- акції компаній, виставлені на торги менше тижня тому;
- дані про акції певної цінової категорії;
- дані про акції певних компаній.
Об'єднання та агрегація даних
Навчимося об'єднувати дані з різних таблиць і формувати більш складні запити, звертаючись відразу до декількох таблиць. Попрактикуємося в агрегації даних, що дозволить нам будувати запити для отримання найпростішої статистики з даних.
Ми завантажимо таблицю про клієнтів інтернет-магазину, таблицю з їх замовленнями і таблицю з описом цих замовлень. Після чого відповімо на питання:
- Скільки клієнти всього витратили грошей за рік?
- Яке співвідношення онлайн і оффлайн замовлень серед клієнтів?
- Яких товарів продали найбільше?
- Які товари принесли найбільшу виручку за останній рік?
Регулярні вирази та очищення даних
Розберемо просунуті методи роботи з рядками, вивчимо регулярні вирази. Це дозволить робити більш складну і тонку обробку рядків і пошук по рядках. Крім того, почнемо практикуватися в очищенні даних.
Ми реалізуємо процес з очищення, валідації та приведення до єдиного виду даних, залишених користувачами при реєстрації в wifi-мережі банківського відділення.
БЛОК II
тиждень 4.
Старт випускного проекту. Основи UNIX (Linux) систем. Python для створення процесів обробки даних
Почнемо готуватися до випускного проекту і вибирати тему. Слухач може виконувати заздалегідь підготовлений викладачем проект, або узгодити власне завдання. На цьому тижні ми навчимося вибудовувати повноцінний процес обробки даних з використанням декількох самописних Python додатків.
Крім того, на цьому тижні буде короткий екскурс в *Nix системи, дізнаємося, як підключатися по ssh до *Nix сервера, як виконувати пакети і як планувати завдання за допомогою crontab.
тиждень 5.
Віконні функції в SQL. Бібліотека SQLite
Навчимося створювати CRUD додатки на python, яке буде зберігати дані в базі даних SQLite.
Після цього ми перейдемо до досить складної – але дуже корисної теми-віконним функцій. З їх допомогою ми навчимося вирішувати складні аналітичні завдання.
Навчимося створювати локальні бази даних (без підключення до стороннього сервера) і обробляти дані – дуже корисно, наприклад, якщо служба безпеки не дає підключатися до сторонніх сервісів.
тиждень 6.
Віконні функції та патерни зберігання даних
Розберемося, які існують шаблони (патерни) зберігання даних і продовжимо практикуватися в написанні складних віконних функцій. Вивчимо, які шаблони зберігання використовуються в сучасних DWH, навчимося зберігати історію зміни Даних.
тиждень 7.
Инкрементальная завантаження. Оптимізація запитів
Ми вивчимо підхід інкрементального Завантаження, що дозволяє знімати з системи актуальний стан і записувати дані в історичну таблицю. Крім того, ми будемо практикуватися в аналізі запитів і їх оптимізації.
Ми створимо ETL-процес щоденного завантаження транзакційних даних телекому і за допомогою індексів прискоримо роботу деяких запитів.
тиждень 8.
Розбір завдань з співбесід і повторення матеріалу
Будемо практикуватися у вирішенні найбільш часто зустрічаються завдань з співбесід на початківців Data Engineer, аналітиків та інші близьких data-спеціальностей. Згадаймо і ще раз систематизуємо все, що вивчили на курсі.
тиждень 9-10.
Доопрацювання випускного проекту. Консультації з викладачами
У ці два тижні допрацьовуємо випускні проекти, консультуємося з викладачами.
Слухачі приходять до викладача на консультації зі своїми питаннями
тиждень 11.
Захист проектів. Підведення підсумків курсу.
https://privatelink.de/?https://fpmi-edu.ru/sql_course