Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL
В этом видео вы узнаете про:
📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed vs Unmanaged
📌 Примеры SQL запросов в PySpark
📌 Кеш в Spark
📌 Результат SQL запроса в DataFrame и наоборот
📌 Пример работы с различными файлами в Spark - Parquet, CSV, JSON, AVRO, ORC
📌 Пример использования Spark для бинарных файлов и изображений
📌 Функции и операции Spark
📌 UNION, JOIN для DataFrame
📌 Window Functions
📌 UDF
📌 Партиционирование данных и оптимизация с командами coalesce, repartition.
В качестве лабораторной работы вам нужно будет выполнить все запросы из примеров в CLI и Databricks.
=====
В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks и аналгоми Amazon Glue и Azure Synapse. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata
Негізгі бет DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции
Пікірлер: 5