en Ultima publicación En su blog oficial de ingeniería, Uber reveló su estrategia para migrar su conjunto de capacitación en análisis de datos por lotes y aprendizaje automático (ML) a… Plataforma en la nube de Google (JCB). Uber, dirige una de las empresas más grandes hadoop GE es uno de los proveedores de servicios de datos más grandes del mundo y administra más de exabytes de datos en decenas de miles de servidores en cada una de sus dos regiones. El ecosistema de datos de código abierto, especialmente Hadoop, ha sido la piedra angular de la plataforma de datos.
El plan estratégico de migración consta de dos pasos: migración inicial y aprovechamiento de los servicios nativos de la nube. La estrategia inicial de Uber implica aprovechar el almacén de objetos de GCP para almacenar el almacén de datos mientras migra el resto de su conjunto de datos a la infraestructura como servicio (IaaS) de GCP. Este enfoque permite una migración rápida con una interrupción mínima de la funcionalidad y los canales existentes, ya que pueden replicar versiones exactas de la pila de software, los motores y el modelo de seguridad interna en IaaS. Después de esta fase, el equipo de ingeniería de Uber planea adoptar gradualmente las ofertas de Google Cloud Platform como servicio (PaaS), por ejemplo proceso de datos Y Gran consultapara aprovechar al máximo los beneficios de flexibilidad y rendimiento que brindan los servicios nativos de la nube.
Una vez que se complete la migración inicial, el equipo se concentrará en integrar servicios nativos de la nube para maximizar el rendimiento y la escalabilidad de la infraestructura de datos. Este enfoque gradual garantiza que los usuarios de Uber, desde los propietarios de paneles hasta los profesionales del aprendizaje automático, experimenten una transición fluida sin cambiar sus flujos de trabajo o servicios existentes.
Para garantizar un proceso de migración fluido y eficiente, el equipo de Uber ha establecido varias pautas:
- Minimizar la interrupción del uso trasladando la mayoría del paquete de datos recopilados a la nube IaaS tal cual; Su objetivo es proteger a sus usuarios de cualquier cambio en sus productos o servicios. Utilizando abstracciones conocidas y estándares abiertos, se esfuerzan por hacer que el proceso de migración sea lo más transparente posible.
- Dependerán de un conector de almacenamiento en la nube que implemente la interfaz Hadoop FileSystem con Google Cloud Storage, garantizando la compatibilidad con HDFS. Al unificar los clientes Apache Hadoop HDFS, abstraeremos los detalles de la implementación HDFS local, lo que permitirá una integración perfecta con la capa de almacenamiento de GCP.
- El equipo de Uber ha desarrollado agentes de acceso a datos para Presto, Chispa – chispearY Colmena Estos servidores proxy abstraen los grupos informáticos físicos subyacentes. Estos agentes admitirán el enrutamiento selectivo del tráfico de prueba a clústeres basados en la nube durante la fase de prueba y enrutarán consultas y tareas completas al clúster de nube durante la migración completa.
- Aproveche la infraestructura de nube de Uber. El entorno de contenedores, la plataforma informática y las herramientas de implementación existentes de Uber están diseñados para estar separados entre la nube y las instalaciones. Estas plataformas permitirán que los microservicios del ecosistema de datos agregados se extiendan fácilmente en la nube (IaaS).
- El equipo trabajará para crear y mejorar los servicios de gestión de datos existentes para respaldar los servicios en la nube seleccionados y aprobados, y garantizar una sólida gobernanza de los datos. La empresa pretende mantener los mismos niveles permitidos de acceso y seguridad que en las instalaciones, al tiempo que admite una autenticación de usuario perfecta en el lago de datos del almacén de objetos y otros servicios en la nube.
El equipo de Uber se centra en asignar depósitos y planificar recursos de nube para la migración. Es fundamental asignar archivos y directorios HDFS a objetos de la nube en uno o más depósitos. Deben aplicar políticas de IAM en diferentes niveles de granularidad, teniendo en cuenta las limitaciones de los depósitos y objetos, como la velocidad de lectura/escritura y la limitación de IOPS. El equipo tiene como objetivo desarrollar un algoritmo de mapeo que satisfaga estas limitaciones y organice los recursos de datos de una manera jerárquica y centrada en la empresa, mejorando la gobernanza y la gestión de datos.
La integración de la seguridad es otro curso de acción; Es esencial adaptar los tokens basados en Kerberos y los tokens de delegación de Hadoop para PaaS en la nube, especialmente Google Cloud Storage (GCS). Este flujo de trabajo está destinado a admitir una autenticación y autorización fluida de usuarios, grupos y cuentas de servicio, manteniendo al mismo tiempo niveles de acceso consistentes a nivel local.
El equipo también se centra en la replicación de datos. HiveSync, un servicio de replicación de datos bidireccional basado en permisos, permite a Uber operar en modo activo-activo. Amplía las capacidades de HiveSync para replicar datos del lago de datos local a un lago de datos basado en la nube y al Hive Metastore correspondiente. Esto implica una migración masiva inicial y actualizaciones incrementales continuas hasta que la suite basada en la nube se convierta en la norma.
El último curso de acción es aprovisionar nuevos clústeres YARN y Presto en GCP Iaas. Los agentes de acceso a datos de Uber enrutarán el tráfico de consultas y tareas a estos clústeres basados en la nube durante la migración, asegurando una transición sin problemas.
A medida que Uber traslada big data a Google Cloud, espera desafíos como diferencias de rendimiento en el almacenamiento y problemas inesperados debido a su sistema heredado. El equipo planea abordar estos desafíos aprovechando herramientas de código abierto, aprovechando la flexibilidad de la nube para administrar costos, trasladando el uso no central a almacenamiento dedicado, probando integraciones de manera proactiva y eliminando prácticas heredadas.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos