2016-2021: Recuento de una evolución continua

Creamos Datio a mediados de 2016 para construir, desplegar y operar una plataforma de datos avanzada con la funcionalidad, seguridad, operatividad y gobierno necesarias para para cubrir a escala global las necesidades de un banco Tier 1.

En este cierre de año y de ciclo, es oportuno resumir el camino que nos ha traído hasta lo que es hoy la plataforma Datio.

El origen

En 2016, las arquitecturas de datos high-end en las grandes empresas estaban dominadas por productos analíticos propietarios (Teradata, Oracle, SAS…) integrados con los sistemas operacionales. También estaban presentes en muchas compañías las distribuciones big data basadas en el ecosistema Hadoop/Spark para el procesamiento distribuido pero, en su mayoría, se limitaban a ámbitos de grupos de usuarios pequeños y con pocos casos de uso.

Independientemente de las tecnologías base, existían problemas comunes no resueltos:

  • Dificultad para disponibilizar los datos: procesos de carga complejos, desgobierno de las fuentes, poca profundidad histórica, datos desactualizados…
  • Modelo de seguridad limitado: lo que suponía en la práctica restringir el número de usuarios con acceso al sistema, el tipo de datos disponibles o ambas cosas.
  • Innovación condicionada a la proporcionada por el proveedor de la tecnología base, poco permeable a las tendencias de las comunidades

Nuevas necesidades

Así, nos marcamos como objetivo construir una plataforma que pudiera dar cabida a todo tipo de cargas: procesamiento masivo, exploración de datos, analítica, desarrollo de engines y modelos IA, etc. para dar servicio a cientos o miles de usuarios analíticos y centenares de miles de procesos mensuales, con un modelo de seguridad y gobierno global a la altura de la escala y las exigencias de un sector fuertemente regulado.

También incorporamos como atributos requeridos algunos no estrictamente funcionales, pero que consideramos importantes para asegurar la adopción y la continuidad:

  • Tecnología no propietaria: basada en estándares abiertos de mercado, como medio de asegurar el acceso permanente a la innovación y el mejor talento.
  • Globalidad e Integración: para proveer una plataforma única, con capacidad de desplegarse en una o varias instalaciones en función de la conveniencia, dando cobertura tanto a las necesidades globales de la organización como a las particulares de los distintos países e integrada con el resto del ecosistema de la organización.
  • Operatividad: con capacidad para que las áreas de negocio desarrollaran y desplegaran sus propios artefactos (modelos, procesos…) y los incorporasen en sus procesos productivos con poca o ninguna dependencia respecto a las áreas centrales de IT.

Primeros pasos: las tecnologías base

Partimos de una plataforma que ya permitía la ingesta de datos en un Data Lake y la analítica avanzada. Los ingredientes básicos eran:

  • Spark como tecnología de procesamiento distribuido masivo capaz de trabajar con todo tipo de persistencias.
  • Entorno de trabajo con notebooks basados en Jupyter/Jupyter Hub.
  • Mesos como gestor de los recursos de cómputo y las cargas de trabajo (particularmente Spark) probado a escala en organizaciones como Twitter, Apple, Netflix…

Sobre esta base, proporcionada por nuestro partner Stratio, se añadieron integraciones con el ecosistema bancario y elementos específicos orientados al despliegue y la operación.

Los servicios a usuario

Las capacidades que teníamos inicialmente debían ser empleadas por parte de un gran número de usuarios en áreas funcionales y geografías distintas. Para hacerlo posible, desarrollamos servicios que permitieran abordar un amplio rango de casuísticas:

  • Procesamiento Spark distribuido masivo (batch y streaming), aplificado para ser invocado desde otros sistemas (incluidos los planificadores corporativos) y con funciones especializadas para facilitar el desarrollo de procesos de ingesta y transformación de datos. Para desplegar esta capacidad a escala fue necesario contar con un sistema que gestionara la distribución de los procesos (cientos de miles al mes) sobre la infraestructura de cómputo disponible teniendo en cuenta prioridades, cuotas, carriles reservados y horarios.
  • Entorno analítico End-to-End: con integración de todas las capacidades que necesita un analista de negocio o un científico de datos para su trabajo: notebooks, herramientas BI y Data Discovery, workflows…, permitiendo el ciclo completo de desarrollo tanto de procesos de transformación (engines) como de modelos AI, desde la exploración inicial hasta el despliegue y la integración en procesos productivos.
  • Gobierno del Dato integrado con las piezas técnicas: cubriendo el ciclo completo (modelado-ingesta-seguridad-calidad-trazabilidad…) de los procesos asociados al acopio y explotación de los datos.

El despliegue y la operación

La implantación a escala exigía poder operar con un alto grado de automatización en las tareas habituales: despliegues, actualización de componentes, escalado-desescalado, gestión de usuarios y permisos, monitorización y alertado, etc. Para ello, hubo que desarrollar componentes específicos integrados en muchos casos con sistemas corporativos (gestión de identidades corporativa, sala de operación…) así como con el stack CI/CD utilizado para el desarrollo de aplicaciones de nueva generación.

2022: Próximos retos

Datio ha supuesto la inclusión de capacidades de datos avanzadas en un ecosistema tan complejo como el bancario, pero el crecimiento continuo de la demanda y la rápida evolución de la tecnología disponible nos exige seguir actualizando plataforma a la vez que continuamos mejorando la calidad del servicio.

Dos son las grandes líneas de trabajo que nos ocuparán durante el próximo año:

  • Plataforma y calidad de servicio reforzadas: con actualización de componentes del stack (incluida una migración de los servicios a Kubernetes) y nuevos procedimientos de trabajo para facilitar la gestión de la producción y la optimización de los desarrollos que corren sobre la plataforma.
  • Servicios de Public Cloud: aprovecharemos las ventajas que las Public Cloud pueden ofrecer, no solo en infraestructura elástica ilimitada sobre la que ya podemos desplegar, sino también por la oferta de servicios gestionados de todo tipo que nos aportarán mejoras en resiliencia, facilidad de operación, optimización de costes e innovación permanente.

Estamos seguros de que la plataforma de Datio seguirá cubriendo las necesidades que demanden nuestros clientes y usuarios. Para ello contamos con el talento y el entusiasmo de todas las personas que desde aquel 2016 nos han acompañado y se han ido sumando en este camino.

mm

Manuel Vigil

I am really motivated by technology, teamwork and the development of end to end and transforming solutions. My career path has been tied to technological companies like Indra, Meta4, Calculo, Paradigma and Stratio, where I have the chance to grow and enjoy myself implementing solutions for the most important Spanish companies of Telecommunication, Finance, Industry and Government. Nowadays I am CEO in Datio and my role is helping to combine people, methodologies and technologies, to build the best data solutions for the bank industry.

More Posts