Datos en bruto

De Wikipedia, la enciclopedia libre
La segunda columna, empezando a contar por la izquierda, de esta tabla son datos en bruto de colesterol "bueno" (HDL, lipoproteína de alta densidad) de 18 pacientes. La cuarta columna contiene los mismos datos, pero ordenados de menor a mayor, por lo que ya no son datos en bruto, sino datos procesados.

Los datos en bruto, también conocidos como datos brutos, datos primarios o datos sin procesar son los datos (p. ej., pesos de productos envasados, mediciones de piezas fabricadas, etc.) tal como se toman inicialmente de la fuente, sin ninguna transformación, limpieza u organización.

Si un científico configura un termómetro computarizado que registra la temperatura de una mezcla química en un tubo de ensayo cada minuto, la lista directa de lecturas de ese termómetro son los datos en bruto. Estos datos no se han sometido a ningún tratamiento ni procesamiento, "limpieza" por parte de los investigadores (o de algún programa informático) para eliminar valores atípicos, errores obvios de lectura del instrumento o errores de ingreso de datos, ni a ningún análisis, como la media aritmética o la mediana (estadística).

El término datos en bruto es relativo (ver Dato), porque una vez que un equipo de investigadores ha limpiado y procesado los datos iniciales, otro equipo puede considerar estos datos procesados como "datos sin procesar" para otra etapa de la investigación. Los datos sin procesar pueden ingresarse en un programa informático o usarse en procedimientos manuales.

Generación de datos[editar]

Hay 2 formas de generar datos. La primera es capturarlos,[1]​ y se realiza colocando expresamente un dispositivo adecuado (sensor, medidor) en un punto apropiado para medir la magnitud que se desea conocer (por ejemplo, un sensor de óxido nitroso se coloca en una calle de mucho tráfico para capturar los niveles de este contaminante). La segunda es aprovechar datos que se originaron con otro propósito,[1]​ y normalmente los recopilan máquinas o terminales como una función secundaria. En inglés se conocen como exhaust data, por analogía con exhaust gas (gas de escape), pero en español no se emplea lo que sería la traducción literal, datos de escape, sino datos desechables.[2]​ Por ejemplo, los terminales de punto de venta recopilan datos de lo que compran los clientes con tarjeta de crédito para cargarles el importe en sus cuentas bancarias. Ese es el propósito inicial. Pues bien, el Instituto Nacional de Estadística (España) utiliza esos datos para seguir la evolución de los precios.[3]

Los datos "desechables" se consideran generalmente demasiado voluminosos o de poca utilidad, por lo que frecuentemente, al poco tiempo se borran, o se sobrescriben con nuevos datos.[1]​ Pero precisamente esos datos son el objeto de deseo de la minería de datos y los macrodatos (big data),[4]​ que los llaman "secundarios" (no porque deriven de los primarios o datos en bruto, sino porque son el resultado de un propósito principal) y los aprovechan para aplicaciones de inteligencia artificial[5]​ e inteligencia empresarial.

Características[editar]

En informática, los datos en bruto pueden tener las siguientes características: posiblemente contengan errores humanos, de máquina o de instrumentos; es posible que no estén validados; podrían estar en diferentes formatos; sin codificar o sin formato; o algunas entradas pueden ser "sospechosas" (p. ej., valores atípicos), lo que requiere confirmación o referencia bibliográfica. Por ejemplo, una hoja de entrada de datos puede contener fechas en muchos formatos: "31 de enero de 1999", "31/01/1999", "31/1/99", "31 de enero" u "hoy". Una vez capturados, estos datos en bruto se pueden procesar almacenados en un formato normalizado, por ejemplo una fecha juliana, para que sean más fáciles de interpretar por los ordenadores y los humanos. Los datos brutos (a veces denominados coloquialmente "datos de fuente" o "datos crudos" —en referencia a que los datos están sin cocinar, como un huevo crudo—) son la entrada de datos para el procesamiento. Se hace una distinción entre datos e informaciónː la información es el producto final del procesamiento de datos.

Aunque los datos en bruto tienen el potencial de transformarse en información, normalmente se requiere un examen analítico, una limpieza y alguna forma de organización (en gráficos, en tablas, con textos explicativos...) para que puedan convertirse en información utilizable. Los datos procesados a veces se denominan coloquialmente datos "cocinados".

Por ejemplo, un terminal de punto de venta (TPV o datáfono), una caja registradora computarizada) en un supermercado concurrido, recopila todos los días grandes volúmenes de datos brutos sobre las compras de los clientes. Sin embargo, esta lista de artículos, sus precios y la hora y fecha de compra no brinda mucha información hasta que se procesa. Una vez procesados y analizados por un programa informático de análisis de datos, pueden indicar los artículos particulares que compra cada cliente, cuándo los compra y a qué precio; asimismo, un analista o gerente podría calcular las ventas totales promedio por cliente o el gasto promedio por cada hora de cada día de la semana. Estos datos procesados y analizados proporcionan información al gerente, que luego podría usar para determinar, por ejemplo, cuántos cajeros contratar y en qué horarios.

Como resultado del procesamiento, los datos recopilados de una fuente a veces terminan en una base de datos, lo que permite que sean accesibles para su posterior análisis de muchas maneras diferentes.

Unos datos ya procesados pueden someterse a un nuevo procesamiento, diferente del inicial, que encuentre en ellos información distinta.

Activismo[editar]

Tim Berners-Lee (inventor de la World Wide Web) sostiene que compartir datos sin procesar es importante para la sociedad. Inspirado en una publicación de Rufus Pollock de Open Knowledge Foundation, su llamada a la acción es "Raw Data Now" Archivado el 21 de noviembre de 2011 en Wayback Machine. (Datos brutos ahora), lo que significa que todo el mundo debería exigir que los gobiernos y las empresas compartan los datos brutos que recopilan. Señala que «los datos impulsan una gran cantidad de lo que sucede en nuestras vidas... porque alguien toma los datos y hace algo con ellos». Para Berners-Lee, es esencialmente a partir de este intercambio de datos brutos que surgirán los avances en la ciencia.

Los defensores de los datos abiertos argumentan que, una vez que los ciudadanos y las organizaciones de la sociedad civil tengan acceso a los datos de las empresas y los gobiernos, podrán realizar su propio análisis, lo que les permitiría sus propias interpretaciones y alentaría las iniciativas resultantes. Por ejemplo, un gobierno puede afirmar que sus políticas están reduciendo el desempleo, pero, si los datos en bruto están disponibles, un grupo de activistas contra la pobreza puede hacer que sus econometristas realicen su propio análisis, lo que le puede llevar a conclusiones diferentes.

Importancia de conservar los datos en bruto[editar]

Podría parecer que lo importante es la información resultante de procesar los datos en bruto, y que por tanto se pueden borrar o tirar, pero en realidad resulta muy conveniente conservarlos por diversas razonesː

  • Se pueden producir errores durante el procesamiento que dejen fuera aspectos importantes. Si se conservan los datos brutos, se les puede someter a un nuevo procesamiento, mejorado.
  • En el caso de investigaciones científicas, por ejemplo durante una revisión por pares, puede necesitarse examinar los datos brutos para comprobar los resultados alegados. Lo mismo para investigaciones periodísticas.[6]

Véase también[editar]

Referencias[editar]

  1. a b c Kitchin, Rob (2014). The Data Revolution. United States: Sage. p. 6. 
  2. Toharia, José Juan (18 de diciembre de 2015). «Humanizar los datos». El País (Madrid, España). Consultado el 18 de agosto de 2022. 
  3. «El presidente del INE destaca el amplio uso de registros administrativos y bases de datos privadas en la estadística oficial». INE. 20 de diciembre de 2021. 
  4. «Sus datos, a buen recaudo». 8 de septiembre de 2016. 
  5. «Datos primarios y secundarios para explicar big data y data exhaust». 13 de febrero de 2017. 
  6. SÁNCHEZ DE LA VIÑA LÓPEZ-URRUTIA, SUSANA (2014/2016). «Verdad, valor social, aprendizaje». En Víctor Sampedro, ed. FILTRACIONES CIUDADANAS. PERIODISMO DE INVESTIGACIÓN MANCOMUNADO. España. p. 23. ISBN 978-84-617-7648-1. Consultado el 18 de agosto de 2022. 

Para saber más[editar]