Conjunto de datos

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada.

En el caso de datos tabulados, un conjunto de datos contiene los valores para cada una de las variables organizadas como columnas, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos, que están organizados en filas. Cada uno de estos valores se conoce con el nombre de dato. El conjunto de datos también puede consistir en una colección de documentos o de archivos.

Conjuntos de datos tan grandes que aplicaciones tradicionales de procesamiento de datos no los pueden tratar se llaman big data.^[1]

Método científico[editar]

Véanse también: Tamaño de la muestra y Desviación estándar.

La publicación de los conjuntos de datos usados en un experimento son clave para su reproducibilidad, y cada vez son más las leyes públicas y normas de revistas científicas que obligan a hacerlos públicos, para evitar sesgos.

Propiedades[editar]

Según el estudio, es un factor clave de las propiedades del conjunto: dispersión, curtosis, etc.^[2] Los valores pueden ser números, como números reales o enteros, por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos), por ejemplo, que representan la etnia de una persona. De manera más general, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición.^[3]

Para cada variable, los valores son normalmente todos del mismo tipo. Sin embargo, también pueden faltar valores, que deben indicarse de alguna manera.

En estadística, los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una población estadística, y cada fila corresponde a las observaciones de un elemento de esa población. Además, se pueden generar conjuntos de datos mediante algoritmos con el fin de probar ciertos tipos de software. Algunos software de análisis estadístico moderno, como SPSS, todavía presentan sus datos en la forma clásica de conjuntos de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos.

Véase también[editar]

Referencias[editar]

↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1-5.
↑ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.
↑ Frank Kane (2017). Taming Big Data with Apache Spark and Python. Packt. ISBN 978-1787287945.

Enlaces externos[editar]

Research Pipeline (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última). Wikipedia que enlaza conjuntos de datos de diversos temas.
GCMD Archivado el 8 de mayo de 2014 en Wayback Machine. Web del Global Change Master Directory. Contiene más de 20.000 conjuntos de datos sobre la Tierra.

Datos: Q1172284

[Editorial-1] Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1-5.

[2] Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.

[3] Frank Kane (2017). Taming Big Data with Apache Spark and Python. Packt. ISBN 978-1787287945.

[1]

[2]

[3]