La foto de la portada es una imagen de libre uso de Pixabay y editada por @abdulmath con GIMP, los emoji son creados con Bitmoji
El término explosión de datos, que es a lo que nos referimos en esta serie de publicaciones, hace referencia a las cantidades cada vez más ingentes de datos estructurados, no-estructurados y semiestructurados que se generan minuto a minuto; a continuación veremos algunas de las muchas fuentes diferentes que producen todos estos tipos de datos.
Big Data
Sólo con la búsqueda de material para está serie, me he visto desbordado por el enorme volumen de datos disponibles en la red, desde sitios web, revistas científicas y libros de texto electrónicos.
Según un reciente estudio mundial realizado por IBM, cada día se generan unos 2,5 exabytes (Eb) de datos.
Un Eb son 1018 bytes o un millón de terabytes (Tb).
Un buen computador portátil comprado en el momento de escribir estas líneas suele tener un disco duro con 1 ó 2 Tb de espacio de almacenamiento.
Originalmente, el término Big Data se refería simplemente a las grandes cantidades de datos que se producen en la era digital.
Estas enormes cantidades de datos, tanto estructurados como no estructurados, incluyen todos los datos web generados por los correos electrónicos, los sitios web y las redes sociales.
Aproximadamente el 80% de los datos del mundo no están estructurados en forma de texto, fotos e imágenes, por lo que no son susceptibles de los métodos tradicionales de análisis de datos estructurados.
El término Big Data se utiliza ahora para referirse no sólo a la cantidad total de datos generados y almacenados electrónicamente, sino también a conjuntos de datos específicos de gran tamaño y complejidad, con los que se requieren nuevas técnicas algorítmicas para extraer información útil de ellos. Estos grandes conjuntos de datos proceden de diferentes fuentes.
Imagen de Pixabay y editada por @abdulmath con GIMP.
Datos de los buscadores
En 2015, Google fue, con diferencia, el motor de búsqueda más popular en todo el mundo, con Bing de Microsoft y Yahoo Search en segundo y tercer lugar, respectivamente.
En 2012, se realizaron más de 3.500 millones de búsquedas al día solo en Google.
Al introducir un término clave en un motor de búsqueda se genera una lista de los sitios web más relevantes, pero al mismo tiempo se recopila una cantidad considerable de datos.
El seguimiento de la web genera grandes datos. Por ejemplo, si usted coloca en el buscador la frase fronteras cercanas y hace click en el primer sitio web devuelto.
Al utilizar un software de seguimiento básico, puede descubrir que se generaron alrededor de unas 100 conexiones a sitios de terceros sólo por hacer clic en este sitio web.
Así, para rastrear los intereses de las personas que acceden al sitio, la información se comparte de esta manera entre las empresas comerciales.
Cada vez que utilizamos un motor de búsqueda, se crean registros que recogen los sitios recomendados que visitamos.
Estos registros contienen información útil como el propio término de la consulta, la dirección IP del dispositivo utilizado, la hora a la que se envió la consulta, cuánto tiempo permanecimos en cada sitio y en qué orden los visitamos, todo ello sin identificarnos por nuestro nombre.
Además, los registros de clics registran la ruta que seguimos al visitar varios sitios web, así como nuestra navegación dentro de cada sitio.
Cuando navegamos por la web, cada clic que hacemos queda registrado en algún lugar para su uso futuro.
Existe un software que permite a las empresas recoger los datos de clickstream generados por su propio sitio web, una valiosa herramienta de marketing.
Por ejemplo, al proporcionar datos sobre el uso del sistema, los registros pueden ayudar a detectar actividades maliciosas como el robo de identidad.
Los registros también se utilizan para medir la eficacia de la publicidad en línea, básicamente contando el número de veces que un visitante del sitio web hace clic en un anuncio.
Al permitir la identificación del cliente, las cookies se utilizan para personalizar su experiencia de navegación.
Cuando realice su primera visita al sitio web elegido, se enviará a su ordenador una cookie, que es un pequeño archivo de texto, normalmente compuesto por un identificador del sitio web y un identificador del usuario, a menos que haya bloqueado el uso de cookies.
Cada vez que usted visita este sitio web, la cookie envía un mensaje al sitio web y, de esta manera, hace un seguimiento de sus visitas.
Las cookies se utilizan a menudo para registrar los datos de los clics, para mantener un registro de sus preferencias o para añadir su nombre a la publicidad dirigida.
Continuará . . .
Imagen de Pixabay y editada por @abdulmath con GIMP, e Inkscape.
Si te gusto este tema y quieres seguir profundizando acerca de Los datos: Explosión, no te pierdas la próxima publicación, pero si aún así deseas conocer otra perspectiva del mismo, te invito a investigar en las siguientes referencias que acá te comparto:
- David J. Hand, Information Generation: How Data Rule Our World. 2007.
- Jeffrey Quilter and Gary Urto (eds), Narrative Threads: Accounting and Recounting in Andean Khipu. University of Texas Press, 2002.
- David Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. Freeman and Company, 2001.
- Thucydides, History of the Peloponnesian War, ed. and intro. M. I. Finley, trans. Rex Warner. Penguin Classics, 1954.