20 de junio de 2016

MapD: Base de Datos que funciona en GPUs

Hoy en día nos encontramos viviendo el fenómeno de la Big Data, podemos obtener una inmensa cantidad de datos de una infinidad de fuentes. Esta inmensa cantidad de datos trae muchos beneficios, sin embargo también trae consigo muchos desafíos. El más común de ellos: los tiempos de respuesta en set de datos masivos.

1

MapD nace para ofrecer altas velocidades en el campo de las bases de datos analíticas. Diseñada para procesar billones de registros en cuestión de milisegundos aprovechando el poder de cómputo que ofrecen los GPUs. Construida precisamente para aprovechar al máximo todas las capacidades de hardware y software disponibles en tarjetas gráficas, ofrece a los analistas y científicos de datos, tiempos de respuesta de unos 3 órdenes de magnitud (x1000) por encima sobre las tecnologías empleadas anteriormente para estos propósitos. Aprovechando el paralelismo de los GPUs (Aproximadamente unos 80000 núcleos en las GPUs modernas) y los grandes anchos de banda de memoria (Alrededor de 8Gbps) para realizar tareas de álgebra lineal y búsquedas en base de datos, empleando LLVM para compilar en tiempo real cada consulta, además de mantener la data más consultada en el caché del GPUs (Memorias DDR5 de alta velocidad).

Debemos recordar que en el mundo de Big Data no suelen emplearse bases de datos las bases de datos tradicionales, fundamentadas en la escritura y preservación de archivos, ya que estas causarían una excesiva cantidad de tareas de I/O en disco duro. Para el propósito de analizar billones de registros, se emplean las bases de datos in-memory, como Apache Spark. Sin embargo, para obtener la cantidad de memoria necesaria y el rendimiento deseado, es necesario un clúster de servidores y sabemos que eso implica costos en hardware, cableado de redes y un mayor número de técnicos. Por lo tanto, MapD ofrece la capacidad de obtener alto rendimiento con menos costo y complejidad, permitiendo que mayor cantidad de personas tengan acceso a tecnologías de alto rendimiento para análisis de datos.

3

Gracias a estar sustentada por GPUs, MapD también ofrece un entorno para visualización de datos aprovechando las capacidades gráficas de los GPUs. Facilita la creación de gráficos interactivos con un alto volumen de datos, permitiendo interactuar con la información casi en tiempo real (el sueño húmedo de todo analista de datos). Además de incluir algunos algoritmos de aprendizaje automático (Machine Learning), para realizar análisis avanzados con el mismo entorno usando las GPU.

2

Te invitamos a pasearte por la página oficial de MapD para revisar con más detalle cada una de sus características. También ofrecen un paper, que puedes descargar de forma gratuita,  donde detallan las tecnologías y enfoques que han hecho posible a MapD. Incluso puedes disfrutar de algunas demos sorprendentes!
Actualmente, MapD se encuentra en fase beta y disponible para Linux,  puedes escribirles (junto con una exposición de motivos) para participar en ella.

Let's block ads! (Why?)


Fuente: Desde Linux

0 comentarios: