Explorando la intersección entre la fiabilidad de sistemas distribuidos y el potencial transformador de la inteligencia artificial a escala empresarial.
Explorar el BlogProyectos innovadores en la intersección de SRE e IA
Diseñé y gestioné una plataforma de intermediación de recursos GPU distribuidos, optimizando la asignación dinámica de cargas de trabajo de machine learning across clusters heterogéneos. La solución implementa algoritmos de scheduling inteligente que maximizan la utilización de recursos mientras minimiza la latencia de entrenamiento, resultando en una mejora del 40% en eficiencia computacional.
Desarrollé pipelines de procesamiento de documentos legales utilizando LangGraph y técnicas de Retrieval-Augmented Generation (RAG). El sistema procesa miles de documentos jurídicos diariamente, extrayendo información clave y generando resúmenes automáticos con una precisión del 94%. La arquitectura incluye embeddings vectoriales y búsqueda semántica para consultas complejas.
Implementé un sistema de procesamiento de imágenes a gran escala capaz de analizar millones de fotografías hoteleras utilizando algoritmos de machine learning. La solución emplea k-nearest neighbor optimizado con estructuras VPTree para búsquedas de similitud sub-lineales, mejorando la experiencia de búsqueda de usuarios en un 60% y reduciendo costos de almacenamiento mediante deduplicación inteligente.
Orquesté clusters de Kubernetes con más de 10,000 CPUs distribuidos across múltiples zonas de disponibilidad, implementando patrones avanzados de observabilidad con Prometheus y Grafana. Desarrollé un Docker Model Runner personalizado para deployment automatizado de modelos ML, reduciendo el tiempo de deployment de horas a minutos. La plataforma maneja peticiones con sub-segundo de latencia usando GitHub Copilot y Cursor para desarrollo acelerado.
Mi trayectoria profesional en empresas tecnológicas
Guztia Consulting (Feb 2019 - Present)
Especialista en cloud computing para la región APAC, con expertise en proveedores cloud específicos de China y Asia-Pacífico. Proporciono servicios de implementación y consultoría para AWS, Alibaba Cloud, Tencent Cloud y Huawei Cloud. Ayudo a empresas con migraciones cloud, arquitectura de soluciones, health checks y reporting personalizado para el despliegue en la región APAC.
ManoMano (Oct 2021 - Apr 2022)
Site Reliability Engineer senior en una de las plataformas de e-commerce más grandes de Europa. Trabajé en la optimización de infraestructura multi-cloud (AWS y GCP), implementando soluciones de container orchestration y Infrastructure as Code. Responsable de mantener alta disponibilidad y performance en sistemas que manejan millones de transacciones diarias.
Nov 2017 - Present · 7+ años
May 2022 - Present
Liderando iniciativas de Site Reliability Engineering y arquitectura técnica. Responsable de mejorar la confiabilidad del sistema, implementar planes de recuperación ante desastres, y proporcionar coaching técnico al equipo de desarrollo.
Nov 2017 - Sep 2021
Lideré la transformación DevOps del equipo, mejorando la consistencia de entornos en AWS y reduciendo significativamente el estrés durante deployments. Implementé soluciones combinando Kubernetes, Terraform y Jenkins.
Alibaba Cloud (Jan 2018 - Jun 2020)
Blogger técnico especializado en Alibaba Cloud, contribuyendo al ecosistema de conocimiento de cloud computing en la región APAC. Durante este período desarrollé expertise profundo en las tecnologías cloud específicas de China y Asia, posicionándome como especialista en soluciones cloud para mercados asiáticos. Esta experiencia complementó perfectamente mi trabajo como consultor APAC, permitiéndome ofrecer insights únicos sobre las diferencias entre proveedores cloud occidentales y asiáticos.
¿Interesado en colaborar o discutir sobre SRE e IA? Me encantaría escuchar tu perspectiva.