Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продует появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектав в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.
Из видео вы узнаете:
📌 В чем заключается роль Инженера Данных
📌 В чем заключается роль BI инженера
📌 История Amazon Redshift
📌 S curve в технологическом прогрессе
📌 Решение по аналитики мобильного приложения на Amazon Redshift
📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌 Работа с ETL или ELT для Amazon Redshift
📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌 Встроенный ML для Amazon Redshift
📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌 Про Хранилище данных Амазон Алекса и трудности масштабирования
📌 Несколько примеров архитектуры из индустрии
На лабораторной работе вам нужно будет:
📌 Создать свой кластер Amazon Redshift
📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌 Загрузить данные с использование COPY и манифеста
📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding
Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!
=========================================
В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.
Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata
Негізгі бет DATALEARN | DE - 101 | МОДУЛЬ 6-3 ЗНАКОМСТВО С AMAZON REDSHIFT
Пікірлер: 8