Kedro: La herramienta que une a Data Scientists y Developers

15/06/2023

19:00 h

2 hrs

Spanish

Closed

We are no longer accepting registrations, sorry.

Registration: 7 (0 online)

Capacity: 40

Confirm your attendance

This event is closed for registration, but you can log in or register to sign up for other events of interest.

On-site

Avoris Corporación

Online

Only attendees can see the link

Event details

El próximo 15 de junio tendremos dos ponencias que nos introducirán a Kedro, marco de desarrollo de pipelines de datos, una herramienta open source creada por QuantumBlack, AI by McKinsey para afrontar el gran reto de llevar modelos diseñados por científicos de Datos al nivel de implementación a gran escala.

Para empezar Juan Luis Cano Rodríguez Developer Advocate, nos brindará la charla:

Acercando la ciencia de datos a entornos productivos con Kedro

Los notebooks han sido fundamentales para el surgimiento de la ciencia de datos como campo, ya que brindan una interfaz fácil de usar, ofrecen un feedback rápido, y constituyen tanto un entorno de desarrollo como un formato de intercambio. Sin embargo, también se reconoce ampliamente que a menudo plantean problemas de reproducibilidad y mantenibilidad: el 90 % de los notebooks de Jupyter publicados no indican explícitamente las dependencias de los paquetes (Wang et al, 2021), y el 96 % de ellos contienen errores o estado oculto que impidió obtener los mismos resultados después de volver a ejecutar (Pimentel et al, 2019).

Se han propuesto varias herramientas y enfoques para mitigar los problemas de los notebooks para datos de producción. En esta charla Juan Luis explicará cómo Kedro puede ayudar a convertir notebooks de Jupyter existentes en código modular que se pueda poner en producción de manera más fiable.

Luego, Sonia Alhama, Senior Engineer en APSL, nos ofrece:

Domando a la Bestia: Manejando eficientemente más de 500 nodos en Kedro

En esta charla, Sonia nos contará cómo Kedro, un marco de desarrollo de pipelines de datos, le ha ayudado a potenciar su trabajo como desarrolladora al abordar los desafíos asociados con pipelines de gran escala.

A partir de su experiencia en APSL diseñando y desarrollando soluciones de Datos para varios clientes, nos ilustrará sobre las ventajas que Kedro ofrece para gestionar pipelines con más de 500 nodos, aprovechando su catálogo y capacidades de manejo de parámetros. Además, exploraremos la reutilización de nodos y pipelines, así como la construcción de pipelines condicionales basados en el contenido de los datos iniciales.

Uno de los aspectos críticos en el procesamiento de datos es la validación, por ello en el segundo punto de su charla, veremos cómo Kedro, en combinación con Great Expectations, puede ayudarnos a validar los datos de entrada, intermedios y finales; descubriremos cómo realizar estas validaciones y cómo tratar los resultados obtenidos.

Por último, abordaremos el despliegue de nuestros pipelines de Kedro en producción utilizando MLFlow. Sonia compartirá cómo esta integración nos permite gestionar y monitorear nuestros flujos de trabajo de manera eficiente y confiable, asegurando una implementación sólida y escalable.