Estamos en un contexto en el que los datos son la materia prima más importante para los productos que construimos.
La calidad implica solo a los datos, sino más bien a todo el proceso de transformación que atraviesan.
Trabajar con datos de calidad no se reduce a un problema de tecnología, ni se resuelve con más presupuesto. Es un tema profundamente conceptual: la calidad de datos no existe si no la garantizamos de forma continua y eso hoy por hoy no (siempre) lo hacemos.
Por eso en esta charla:
• Damos un marco teórico de calidad de datos.
• Explicamos cómo aplicar todo eso de forma práctica en Databricks.
• Mostramos cómo automatizarlo con Great Expectations.
-
🏅 En Datalytics somos partners certificados de Databricks, Microsoft, AWS, dbt y más.
⚡ Si querés aprender más o desarrollar proyectos en data & AI - www.datalytics.com/
Nuestras redes sociales:
🟠 LinkedIn - / datalytics
🟠 Instagram - / datalytics.bi
🟠 Medium - / datalytics
🟠 KZitem - / @datalytics.mejorcondatos
-
Capítulos:
00:00:00 Introducción
00:01:22 Calidad de datos, la vigencia de un clásico.
00:09:41 Herramientas disponibles para trabajar la calidad de datos.
00:13:11 ¿Qué entendemos por calidad de datos?
00:17:22 Palabras claves que hacen a la calidad de datos (consistencia, precisión, completitud, actualidad y relevancia).
00:20:00 ¿Por qué es importante la calidad de datos?
00:21:15 ¿Cómo asegurar la calidad del dato?
00:23:03 ¿En qué momentos tenemos que asegurar la calidad del dato?
00:25:06 Reglas de calidad de datos.
00:29:30 Acciones a tener en cuenta.
00:32:43 ¿Cómo llevar esto a la práctica en Databricks?
00:34:51 Análisis exploratorio.
00:40:02 Pipeline - Ingesta histórica con calidad.
00:42:00 Reglas de calidad.
00:50:49 Ingesta diaria (capa plata).
00:55:52 Pipeline - Consumo con calidad (capa oro).
00:59:10 Frameworks de calidad (Great Expectations)
01:05:35 Calidad para democratización de datos.
Негізгі бет 🟡 Calidad de Datos: Una guía práctica
Пікірлер: 1