В 95 процентах аналитических решений используется хранилище данных. Давайте будем считать, что это аналитическое хранилище данных. Но что это такое? Какие они бывают? Как давно они на рынке? На эти вопросы и другие я отвечу в этом уроке.
На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов. Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.
Из модуля вы узнаете:
📌 История хранилищ данных
📌 База данных vs Хранилище данных
📌 Хранилище данных (DW) vs Платформа данных
📌 Характеристики хранилища данных
📌 Архитектура Shared Nothing vs Shared Everything
📌 Cloud vs On-premise Хранилища данных
📌 Облачная экономика на примере ETL jobs
📌 Open Source vs Commercial Хранилища данных
📌 Хранилища данных на базе существующей технологии (Postgres) или свои разработки
📌 Data warehouse as a Service или в ручную тюнить
📌 Современные и Legacy Хранилища данных
📌 OLTP vs OLAP
📌 ETL vs ELT
📌 Вендоры Хранилища данных на рынке (Gartner and Forrester)
📌 Сравнение скорости - benchmarking - TPC
📌 Benchmarking, отчет Gigaom и Fivetran по облачных хранилищам данных
📌 История Teradata
📌 Основы MPP Teradata, Data Distribution, Data Skew и Teradata CLI
На лабораторной работе вы будете использовать виртуальную мащину Teradata DW, вам нужно будет скачать ее и настроить доступ через конфигурацию сети. Дальше вы сможете загрузать данные через CLI инструмент и подключить Power BI. Таким образом у вас будет полноценное аналитическое решение (портативное), которое работает во многих компаниях.
В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.
Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata
Негізгі бет DATALEARN | DE - 101 | МОДУЛЬ 6-2 ЧТО ТАКОЕ АНАЛИТИЧЕСКОЕ ХРАНИЛИЩЕ ДАННЫХ
Пікірлер: 8