Desarrollo y optimización de pipelines: construya y mantenga pipelines ETL/ELT confiables y escalables utilizando herramientas modernas y mejores prácticas, asegurando un flujo de datos eficiente para análisis y conocimientos.
Modelado y transformación de datos: diseñar e implementar modelos de datos efectivos que respalden las necesidades del negocio, lo que permite generar informes de alta calidad y análisis posteriores.
Colaboración entre equipos: trabaje en estrecha colaboración con analistas de datos, gerentes de productos y otros ingenieros para comprender los requisitos de datos y brindar soluciones que satisfagan las necesidades del negocio.
Garantizar la calidad de los datos: desarrollar y aplicar controles de calidad de datos, marcos de validación y monitoreo para garantizar la consistencia, precisión y confiabilidad de los datos.
Rendimiento y eficiencia: Identifique y solucione problemas de rendimiento en pipelines, consultas y almacenamiento de datos. Sugiera e implemente optimizaciones que mejoren la velocidad y la confiabilidad.
Seguridad y cumplimiento: siga las mejores prácticas de seguridad de datos y asegúrese de que los canales estén diseñados para cumplir con los estándares de privacidad y cumplimiento de datos.
Innovación y mejora continua: pruebe nuevas herramientas y enfoques mediante la creación de pruebas de concepto (PoC) y la realización de evaluaciones comparativas de rendimiento para encontrar las mejores soluciones.
Prácticas de automatización y CI/CD: Contribuir al desarrollo de pipelines de CI/CD robustos (GitLab CI o similar) para flujos de trabajo de datos, respaldando pruebas e implementaciones automatizadas.
Requisitos:
Más de 4 años de experiencia en ingeniería de datos o desarrollo backend, con un fuerte enfoque en la creación de canales de datos de nivel de producción.
Sólida experiencia trabajando con servicios de AWS ( Redshift , Spectrum, S3, RDS, Glue, Lambda, Kinesis, SQS).
Competente en Python y SQL para transformación y automatización de datos.
Experiencia con dbt para modelado y transformación de datos.
Buen conocimiento de arquitecturas de transmisión y microlotes para necesidades de datos en tiempo real.
Experiencia con pipelines CI/CD para flujos de trabajo de datos (preferiblemente GitLab CI).
Familiaridad con herramientas/soluciones de validación de esquemas de eventos (Snowplow, Schema Registry).
Excelentes habilidades de comunicación y colaboración. Sólidas habilidades de resolución de problemas: capacidad para analizar a fondo los problemas de datos, proponer soluciones y ofrecer resultados claros y fiables.
Una mentalidad de crecimiento: entusiasta por aprender nuevas herramientas, compartir conocimientos y mejorar las prácticas del equipo.
Deseables:
Experiencia con servicios adicionales de AWS : EMR, EKS, Athena, EC2.
Conocimiento práctico de almacenes de datos alternativos como Snowflake u otros.
Experiencia con PySpark para procesamiento de big data.
Familiaridad con herramientas de recopilación de datos de eventos (Snowplow, Rudderstack, etc.).