Apache Airflow se actualiza para mejorar la orquestación de datos y rastrear su origen.

El avance en la orquestación de datos se ha convertido en un tema central en el mundo de la analítica de datos y la inteligencia artificial. En este contexto, el proyecto de código abierto Apache Airflow se prepara para lanzar su actualización 2.10, marcando un hito importante desde su última versión, la 2.9 en abril pasado.

La versión 2.10 de Apache Airflow introduce la ejecución híbrida, lo que permite a las organizaciones optimizar la asignación de recursos en una variedad de cargas de trabajo, desde consultas SQL simples hasta tareas de aprendizaje automático (ML) intensivas en cómputo. Además, ofrece capacidades mejoradas de linaje para brindar una mayor visibilidad en los flujos de datos, aspecto crucial para la gobernanza y la conformidad.

En un paso adicional, Astronomer, el principal proveedor comercial detrás de Apache Airflow, está actualizando su plataforma Astro para integrar la tecnología de código abierto dbt-core (Data Build Tool), unificando así los flujos de trabajo de orquestación y transformación de datos en una única plataforma.

Estas mejoras buscan optimizar las operaciones de datos y acortar la brecha entre los flujos de trabajo tradicionales de datos y las aplicaciones de inteligencia artificial emergentes. Las actualizaciones ofrecen a las empresas un enfoque más flexible para la orquestación de datos, abordando los desafíos en la gestión de entornos de datos diversos y procesos de inteligencia artificial.

«Si consideramos por qué se adopta la orquestación desde el principio, es porque se quiere coordinar las cosas a lo largo de toda la cadena de suministro de datos, se quiere esa visibilidad central», afirmó Julian LaNeve, CTO de Astronomer, en declaraciones a VentureBeat.

Uno de los aspectos destacados de Airflow 2.10 es la introducción de la ejecución híbrida, que permite a los usuarios elegir el modo de ejecución tanto para el despliegue total como a nivel de tarea y de pipeline, brindando una flexibilidad y eficiencia sin precedentes para los usuarios de Airflow. Esta capacidad se aleja significativamente de las versiones anteriores, donde los usuarios debían seleccionar un único modo de ejecución para todo el despliegue.

La importancia del linaje de datos en la orquestación de datos se vuelve fundamental para las cargas de trabajo de inteligencia artificial, donde es necesario comprender de dónde provienen los datos. Con las nuevas características de linaje de Airflow 2.10, se mejora la capacidad para capturar las dependencias y el flujo de datos en los pipelines, incluso para el código Python personalizado. Este seguimiento mejorado del linaje es crucial para los flujos de trabajo de IA y aprendizaje automático, donde la calidad y procedencia de los datos son primordiales.

A medida que Airflow 2.10 introduce mejoras significativas, LaNeve ya mira hacia el futuro con Airflow 3.0, que buscará modernizar la tecnología para la era de la generación de IA. Entre las prioridades clave para Airflow 3.0 se encuentra hacer que la plataforma sea más independiente del lenguaje, permitiendo a los usuarios escribir tareas en cualquier idioma, así como aumentar la conciencia de los datos, desplazando el enfoque de orquestar procesos a gestionar flujos de datos.

En definitiva, Apache Airflow continúa evolucionando para ofrecer soluciones más avanzadas y flexibles en la orquestación de datos, acercando a las organizaciones a una gestión más eficiente y efectiva de sus flujos de trabajo en un entorno cada vez más complejo y exigente.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Juez estadounidense reabre caso por accidente aéreo fatal en Reno.

Los partidos más atractivos de la temporada 2024-25 de la NBA.