Bienvenidos a la segunda entrega acerca de la big data, espero se suscriban, interactuen y le den Resteem. Gracias @javf1016
- Primera entrega: https://steemit.com/spanish/@javf1016/big-data
La importancia de la Big Data ha venido creciendo en los últimos años, pero muchas personas no conocen su significado, varias empresas como IBM , han venido desarrollando investigaciones y recopilado información para que todos logren entender que es y su importancia. “En términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis” (Fragoso, Ricardo Barranco. 2012. IBM developerWorks. [En línea] 18 de 06 de 2012.).
Big Data nos proporciona una gran posibilidad de aprovechar grandes cantidades de datos generados por sistemas o usuarios procesándolos de forma con convencional, un volumen elevado de información considerable se podría medir de la siguiente forma:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
La gran variedad de datos es otro factor muy importante, por ejemplo cuando se usa un reloj inteligente este puede medir valores diferentes como la temperatura, humedad, ritmo cardiaco, los cuales nos pueden llegar a dar información importante y en tiempo real, lo que implica que analizar todo lo dicho anteriormente no lo podría realizar una aplicación normal.
En la actualidad cada día se generan cantidades enormes de información, cada segundo se generan transacciones ya sean recopilando información de productos, clientes, proveedores, datos de población, a lo que debemos sumar que compañías como Twitter y Facebook generan cantidades que están sobre los Petabyte ya que cada segundo se suben millones de fotos y videos en ellas.
Las maquinas también juegan un papel importante en la recolección de datos, lo que denominamos M2M , en las que encontramos sensores de todo tipo para diversos sectores que se encuentran actualmente establecidos, por ejemplo, en el sector eléctrico, los cuales nos ayudan a medir la intensidad y consumo.
Dependiendo del problema que se esté afrontando, tenemos diferentes tipos de datos. Fig. 1
Fig. 1 Tipos de datos en la Big Data [1]
No basta solamente con llegar a conocer que tipo de datos hemos recopilado, debemos encontrar la forma de analizarlo de pasar de datos a información y así obtener un conocimiento adecuado y que se adapte a las necesidades por las cuales se ha implantado la Big Data. Como observaremos más adelante varias técnicas usan análisis diferentes, por el momento las necesarias son cuatro, prescriptivas, predictivas, de diagnóstico y descriptivas.
Los cuatro tipos de análisis van enfocados a necesidades diferentes, las descriptivas van dirigidas a saber Cómo actuar (¿Cuántos empleados se necesitan?), las predictivas a Qué sucederá (¿Cuánto será el crecimiento de la empresa en el año?), la de diagnóstico a Por qué ha sucedido (¿Por qué nuestros proyectos no reflejan lo que hacemos?) y la descriptiva a Qué hacer para que suceda (¿Cómo llegamos a un aumento de 100% en ventas?). Los tipos de análisis presentados, tienen puntos en común que ayudan en la toma de decisiones, las cuales basadas en los análisis nos garantizan un alto nivel de seguridad de que alcanzaremos los resultados esperados.
Las fases que componen el análisis de estos datos, tienen que seguir una línea para garantizar buenas prácticas en este proceso y son las siguientes:
• Obtener datos
• Procesar datos
• Limpiar datos
• Análisis exploratorio
• Modelos y algoritmos
• Productos
Las fases presentadas, funcionan como un ciclo el cual es mostrado en la siguiente imagen, Fig. 2, y las cuales serán explicadas de manera ordenada más delante cuando se vean técnicas, procedimientos que usan estos pasos.
Fig. 2. Proceso en el análisis de datos
Hasta el momento, la necesidad de la Big Data se encuentra en obtener velocidad, volumen y variedad en los datos recopilados, pero como vemos en el la gráfica se encuentran varios tipos de datos, los cuales se enfocan en diferentes ámbitos cotidianos, encontramos datos especializados para lo que sería nuestra interacción diaria en las redes sociales como Facebook y Twitter, el reconocimiento de la huella que tienen integrados algunos celulares, en el registro de la huella en diferentes empresas, todos son datos importantes pero si se desea un análisis oportuno y eficaz debemos reconocer que tipo de dato es y asi saber cómo es su manejo y su comportamiento.
Al inicio no es fácil manejar una Big Data, su seguridad es algo primordial, ¿Cómo los protegeremos?, ¿Cómo accederemos a ellos?, ¿Cuántos son privados?, ¿Se pueden perder?, son algunas preguntas que se nos vienen a la cabeza cuando empezamos a descubrir este océano de información.
Enfocados en la seguridad informática, se busca que esa cantidad de información que se genera y a su vez constituyen un pilar de registros, bitácoras, logs, que por lo general nadie revisa, analiza, sean considerados como una problemática de primer nivel.
Los ataques cibernéticos tienen algo en común, están diseñados para funcionar bajo las alertas IDS /IPS , resguardándose dentro de los grandes volúmenes de datos generados a diario en una organización, todo ataque deja una huella ya sea en los registros, logs , el problema al que nos debemos enfrentar que ya sea un análisis exhaustivo de esa información, un estudio después del ataque, nos encontramos que la información recolectada excede la capacidad de análisis en tiempo real, además que la conservación de los logs en algunas empresas es considerado de bajo nivel.
Para poder enfrentar esta problemática es necesaria una herramienta que pueda realizar un pre-análisis de la información con reglas que dependiendo de la temática puedan ser proporcionadas o establecidas con anterioridad; las organizaciones saben que existe la tecnología para ese tipo de análisis, esto permite que la toma de decisiones y la planificación en respuesta a incidentes en la seguridad de los datos sean tomadas en cuenta.
Tradicionalmente el análisis de seguridad se lleva a cabo a través de paquetes y registros, pero con el volumen creciente de datos y su velocidad, ha resultado ser costoso y demandante.
Glosario
IBM International Business Machines Corp.
Twitter y Facebook, redes sociales con mayor popularidad
M2M machine to machine – maquina a maquina
IDS Sistema de Detección de Intrusiones
IPS Sistema de Prevención de Intrusos
Log, referente a una bitácora.
Bibliografía
[1] Sunil, Soares. Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today. [En línea] http://www.dataversity.net/not-your-type-big-data-matchmaker-on-five-data-types-you-need-to-explore-today/
Muy interesante.
Gracias!