Los datos: Explosión - 3ra Parte

in GEMS3 years ago


big_data.png
La foto de la portada es una imagen de libre uso de Pixabay y editada por @abdulmath con GIMP, los emoji son creados con Bitmoji


¿Qué son los datos? (Continuación)



En el censo estadounidense de 1.870 ya funcionaba una sencilla máquina de recuento, pero su éxito fue limitado a la hora de reducir el trabajo de la Oficina del Censo.


El avance llegó a tiempo para el censo de 1.890, cuando se utilizó el tabulador de tarjetas perforadas de Herman Hollerith para almacenar y procesar los datos.



El tiempo que se tardaba en procesar los datos del censo de EE.UU. solía ser de unos ocho años, pero con este nuevo invento el tiempo se redujo a un año.


La máquina de Hollerith revolucionó el análisis de los datos del censo en países de todo el mundo, como Alemania, Rusia, Noruega y Cuba.

Posteriormente, Hollerith vendió su máquina a la empresa que evolucionó hasta convertirse en IBM, que desarrolló y produjo una serie de máquinas de tarjetas perforadas ampliamente utilizadas.

En 1.969, el American National Standards Institute (ANSI) definió el código de tarjetas perforadas de Hollerith (o código de tarjetas de Hollerith), en honor a Hollerith por sus primeras innovaciones en materia de tarjetas perforadas.



information.png
Imagen de Pixabay y editada por @abdulmath con GIMP.


Los datos en la era digital



Antes de que se hiciera común el uso de los computadores, los datos del censo, los experimentos científicos o las encuestas y cuestionarios por muestreo cuidadosamente diseñados se registraban en papel, un proceso que requería mucho tiempo y era caro.


La recopilación de datos sólo podía llevarse a cabo una vez que los investigadores habían decidido qué preguntas querían que respondieran sus experimentos o encuestas, y los datos resultantes, muy estructurados, se transcribían en papel en filas y columnas ordenadas, y se podían someter a los métodos tradicionales de análisis estadístico.



En la primera mitad del siglo XX, algunos datos se almacenaban en computadores, lo que ayudaba a aliviar parte de este trabajo intensivo, pero fue con el lanzamiento de la World Wide Web (o Web) en 1.989, y su rápido desarrollo, que se hizo cada vez más factible generar, recoger, almacenar y analizar datos electrónicamente.


En ese momento, era necesario abordar los problemas que inevitablemente generaba el gran volumen de datos al que daba acceso la Web, y lo primero que se hace es ver cómo podemos distinguir entre los distintos tipos de datos.



Los datos que obtenemos de la Web pueden clasificarse como estructurados, no estructurados o semiestructurados.


Los datos estructurados, del tipo que se escribía a mano y se guardaba en cuadernos o en archivadores, ahora se almacenan electrónicamente en hojas de cálculo o bases de datos, y consiste en tablas de estilo hoja de cálculo con filas y columnas, cada fila cada fila es un registro y cada columna un campo bien definido, como por ejemplo: nombre, dirección y edad.



Una forma en la cual nosotros contribuimos a estos almacenamientos de datos estructurados, es cuando, por ejemplo proporcionamos la información necesaria para hacer un pedido en línea.


Los datos cuidadosamente estructurados y tabulados son relativamente fáciles de gestionar y son susceptibles de ser analizados estadísticamente.



Hasta hace poco, los métodos de análisis estadístico sólo podían aplicarse a los datos estructurados.


En cambio, los datos no estructurados no son tan fáciles de clasificar e incluyen fotos, vídeos, tweets y documentos de textos.

Una vez que el uso de la de la World Wide Web, se vio que muchas de esas fuentes potenciales de información seguían siendo inaccesibles porque carecían de la estructura necesaria para aplicar las técnicas de análisis existentes.



Sin embargo, al identificar las características clave, los datos que a primera vista parecen no estar estructurados pueden no estar completamente desestructurados.


Los correos electrónicos, por ejemplo, están estructurados en el encabezado, así como el propio mensaje no estructurado en el texto, por lo que pueden clasificarse como datos semiestructurados.



Las etiquetas de metadatos, que son esencialmente referencias descriptivas, pueden utilizarse para estructurar los datos no estructurados.


La adición de una etiqueta de palabra a una imagen en un sitio web la hace identificable y, por tanto, más fácil de buscar.

Los datos semiestructurados también se encuentran en las redes sociales, que utilizan hashtags para que los mensajes (que son datos no estructurados) sobre un tema concreto puedan ser tema en particular.



El tratamiento de los datos no estructurados es un reto.


Como no se pueden no pueden almacenarse en bases de datos u hojas de cálculo tradicionales, se han tenido que desarrollar herramientas especiales para extraer información útil.


Continuará . . .



science00.png
Imagen de Pixabay y editada por @abdulmath con GIMP, e Inkscape.


Si te gusto este tema y quieres seguir profundizando acerca de Los datos: Explosión, no te pierdas la próxima publicación, pero si aún así deseas conocer otra perspectiva del mismo, te invito a investigar en las siguientes referencias que acá te comparto:

  1. David J. Hand, Information Generation: How Data Rule Our World. 2007.
  2. Jeffrey Quilter and Gary Urto (eds), Narrative Threads: Accounting and Recounting in Andean Khipu. University of Texas Press, 2002.
  3. David Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. Freeman and Company, 2001.
  4. Thucydides, History of the Peloponnesian War, ed. and intro. M. I. Finley, trans. Rex Warner. Penguin Classics, 1954.


HiveFirma.png


Sort:  


The rewards earned on this comment will go directly to the person sharing the post on Twitter as long as they are registered with @poshtoken. Sign up at https://hiveposh.com.

Congratulations @abdulmath! You have completed the following achievement on the Hive blockchain and have been rewarded with new badge(s) :

You distributed more than 17000 upvotes.
Your next target is to reach 18000 upvotes.

You can view your badges on your board and compare yourself to others in the Ranking
If you no longer want to receive notifications, reply to this comment with the word STOP

Your post has been curated by us! Received 20.00% upvote from @opb. Do consider delegate to us to help support our project.

Do join our discord channel to give us feedback, https://discord.gg/bwb2ENt

* This bot is upvoting based on the criteria : 1. Not plagiarised, 2. Persistent previous quality posts, 3. Active engagement with other users
Do upvote this commment if you 💚 our service :)