Big Data o Human Data

De Glosario Médico-IT-Administración para Hospitales
Saltar a: navegación, buscar

Nota: Si quieres contribuir a hacer crecer este glosario, te invitamos a agregar las palabras y definiciones que le puedan ayudar a la comunidad de innovadores de salud. Por favor:

  • Agrega la palabra y su definición en orden alfabético.
  • Agrega la fuente de donde obtuviste la definición al final de la página y agrega el número de la misma al final de la nueva definición.

Iniciativa de Hacking Health Monterrey


Base de datos:

Cluster:

Datos abiertos

Hadoop: Plataforma de código abierto que se encuentra inspirada en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el procesamiento.[5] Hadoop está compuesto de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common. Otros componentes son: Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Lucene, Oozie, Pig, ZooKeeper. (1).

Hadoop Common: Hadoop Common Components son un conjunto de librerías que soportan varios subproyectos de Hadoop. (1)

Hadoop Distributed File System (HDFS): Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes. (1)

Hadoop MapReduce: MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico. (1)

Nodo:

Tipos de Datos de Big Data:

  • Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. (1)
  • Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. (1)
  • Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc. (1)
  • Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. Utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa. (1)
  • Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs. (1)

Referencias

1. Barranco, R. (2012). ¿Que es Big Data?. IBM. Recuperado de: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/

2.