¿Hadoop como Servicio?

Hadoop es un proyecto Open Source de la fundación Apache, y que se fue transformando en sinónimo de Big Data.

La verdad acerca de Hadoop

Pero la administración de los clusters, sumado a los grandes costos asociados a hardware y licenciamiento, fueron potenciando el concepto de HadoopAsAService (#HDaaS) como una plataforma lista para usar en soluciones de #BigData basadas en #Hadoop.

Los principales proveedores de servicios Hadoop fueron Cloudera y Hortonworks, hoy unificados bajo una misma empresa. Actualmente los proveedores de nube son algunos proveedores de servicios desafiantes, como Amazon Web Service con EMR, Microsoft con HDInsights sobre Azure o IBM con BigInsight; y que permiten a los usuarios crear cluster según sus necesidades de una manera muy simple, autoadministrable y con costos muy convenientes que permiten lograr un rápido TCO.

Diferencias entre un ambiente on-premise contra uno Cloud

On Premise vs Cloud | EBC Group

Como mencionamos, mantener Hadoop on-premise conlleva la gestión de la infraestructura, la performance de Hadoop, la configuración, el aprovisionamiento y la disponibilidad. Todas estas tareas son difíciles y costosas de mantener. Respecto a Hadoop en la nube, existen grandes ventajas que están llevando a las empresas a migrar sus cargas de trabajo, entre estos beneficios, podemos enumerar:

  • Facilidad de implementación al generarse ambientes con muy pocos clicks.
  • Simplifica la administración al permitir a los usuarios redimensionar, agregar o quitar servidores según se necesite.
  • Mayor simpleza en las actualizaciones de versiones.

Estos beneficios dan como resultado una marcada reducción en el costo de la innovación, y recordemos que en el mundo de los datos, este beneficio es significativo en cuanto al aporte de valor que los datos generar sobre las utilidades de las compañías.

Optimización de Costos

En entornos de Big Data, un científico de datos pasa la mayor parte del tiempo dedicado a la preparación de datos, a través de herramientas como Pig o Hive y otras herramientas destinadas a ciencia de datos, de manera que la optimización de las operaciones de cómputo sin muchas demoras para implementar clústeres de Hadoop, cargar datos y procesar los grandes volúmenes de datos dan como resultado una mayor rentabilidad en el tiempo de los científicos (que por cierto no son nada baratos) conllevando a un mejor ROI proveniente de los análisis efectuados por ellos.

Look After Your IT Assets for Cost Reduction & Estate Optimization | Ivanti

En cuanto a la operación existen ahorros significativos respecto a los gastos de mantenimiento, dado que los entornos HDaaS garantizan una plataforma Hadoop disponible, con un nivel de parcheado up2date, con escalado automático, lo que reduce los costos de mantenimiento al delegar el mantenimiento en el proveedor de nube seleccionado. Adicionalmente, los grandes vendors cloud, brindan excelentes herramientas de monitoreo que permiten un exhausto control de disponibilidad y performance sobre la plataforma donde estamos operando.

Beneficios adicionales

Vale destacar que nuestra plataforma por si sola no va a generar buenos resultados. Necesitamos de todo un ecosistema de herramientas para la integración y procesamiento de datos. Las plataformas de nube tienen completamente resuelto ese tema al brindar soluciones Hadoop con sus propios productos basados en Hive, Pig, MapReduce, Presto, Oozie, Spark y Sqoop. Además ofrecen herramientas tipo conectores para la integración de datos y la creación de pipelines #dataops que garantizan un flujo automatizado y simplificado para todo el ciclo de vida de la información. En el caso de Azure, existen herramientas como DataFactory, Synapse y Databricks que son una navaja suiza para plataformas de Big Data, se integran de forma nativa, muy simple de implementar y mantener.

Conclusión

Es posible que las empresas aún necesiten tiempo para reemplazar las inversiones que hicieron en sus plataformas de datos existentes, pero sin dudas que el crecimiento del mercado de Hadoop-as-a-service obligará a las organizaciones a considerar las migraciones hacia la nube.


[contact-form-7 id=”56″ title=”Contact form 1″]