¿Qué es un Dato?

Hoy te ofrecemos una definición de datos aplicada a la Ciencia de Datos, porque en el mundo de las definiciones, ¡todo depende de a quién le preguntes!

¿Qué son los Datos?

Si le preguntas a la RAE te dirá esto:

Definición dato RAE
Qué significa dato para la RAE.

Si le preguntas a la Wikipedia te dirá esto otro:

Definición de dato Wikipedia
Qué es un dato según Wikipedia.

No obstante, desde el punto de vista de la Ciencia de Datos, un dato es la unidad mínima de información. Con muchos datos, conseguimos tener información, que después se puede transformar en conocimiento. De hecho, hace ya años que el matemático y científico de datos Clive Humby acuñó la siguiente frase:

Los datos son el nuevo petróleo.

Clive Humby, 2006.

Y no le falta razón, sin datos ¡no somos nada! Ahora veamos los distintos tipos de datos que existen.

La Importancia del Contexto

Un dato no solo está formado por el componente numérico (1,5, 69, 201 o 1200), ni por la unidad que le acompaña (litros, metros, personas por km2, o grados) sino que, además, hay que dotarle de un contexto. Si nos quedamos, por ejemplo, con los 1200 grados… ¿Es mucha cantidad? Pues todo depende de con qué prisma se mire. Si estamos hablando de la temperatura que alcanza el magma, es una temperatura razonable. Ahora, si estamos hablando de la temperatura que hubo en Valencia en el verano más caluroso que se recuerda… Pues ya es otra cosa.

Es imprescindible que un dato tenga contexto, porque es el mismo contexto el que nos ayuda a cribar si ese dato es o no correcto, o si está dentro de los parámetros que consideramos normales, o si es anómalo. Por lo tanto, un dato es la unidad primaria de información que, además, está contenido en un contexto determinado.

Tipos de Datos

Las clasificaciones son siempre complejas porque no todo el mundo otorga la misma importancia a las mismas características. Nosotros hemos elegido la que consideramos más sencilla e intuitiva:

Esquema de tipos de datos
Esquema de los tipos de datos que existen.

Cuando hablamos de datos, lo habitual es centrarse en datos puramente numéricos, pero hay infinidad de características que no se pueden expresar de esa manera. Si nos apuntamos a un experimento sociológico y nos preguntan nuestro color favorito, ¿acaso responder <amarillo> no es un dato?

A este tipo de datos que representan características se les llama cualitativos. En función de si hay un orden intrínseco o no, podemos diferenciar entre:

  • Ordinales: Son variables que cuentan con un orden inherente. Por ejemplo, las tallas de ropa. La talla L es mayor que la M y esta a su vez es mayor que la S.
  • Nominales: Son variables que no se pueden ordenar. Por ejemplo, el color de los ojos, o la personalidad (afable, irascible…). Dentro de esta categoría se encuentran también los atributos binarios. Una puerta puede estar abierta o cerrada, un interruptor puede estar en on/off.

Si nos estamos refiriendo a datos que expresan cantidades, estamos hablando de datos cuantitativos. Y, en función de su dominio, podemos diferenciar entre:

  • Continuos: Son variables que pueden tomar cualquier valor real. Por ejemplo, el peso de la fruta. Puede pesar 1kg, 1.23kg, 2.3548kg, etc…
  • Discretos: Son variables que expresan cantidades precisas y que no pueden tomar valores intermedios. Por ejemplo, el número de frutas que compras, el número de niños en una clase. Se expresan con números enteros.

Pero hay variables que pueden ser complicadas de categorizar. Y en estos casos, de nuevo, el contexto vuelve a ser la clave.

Los Problemas de la Clasificación

Los problemas de clasificación están provocados, normalmente, por variables que se expresan de múltiples formas dependiendo del contexto. Variables que pueden llegar a ser ambiguas en la manera de expresarse.

Imaginemos que estamos hablando de variables cuantitativas y estamos midiendo la altura de las personas de nuestra clase de matemáticas. Entonces le preguntamos a María y nos dice que mide 1 metro y 50 cm. Según la forma en que María expresa su altura, da la impresión de que la variable es continua porque hay valores intermedios válidos. María ha dicho 1.50 m, pero otro nos dirá 1.54 m o 1.651 m, etc..

Luego le preguntamos a Luis, y nos dice 175 cm. Según este dato, podríamos pensar que la variable es discreta. Entre el 175cm y 176cm no habrá un dato intermedio porque no es la forma habitual de expresar centímetros. ¿Y quién tiene razón? ¿Cómo trato el dato de la altura? ¿Cómo lo clasifico? ¡Pues todos tienen razón! La clasificación depende de nosotros y de la finalidad del estudio. A sabiendas de que hay variables que se pueden expresar perfectamente de forma continua y discreta, nuestra tarea será discernir cuándo resulta más ventajoso usar una o la otra. Hay veces que, incluso, el resultado será el mismo se tome la que se tome. ¡Y lo mismo pasa con la edad y con otras muchas variables y tipos de datos!

Algunos ejemplos de clasificación de los tipos de datos

Pero estos problemas no solo son propios de los datos cuantitativos, incluso en la diferenciación entre cuantitativos y cualitativos ocurre. Un ejemplo muy fácil es el de los terremotos.

Imaginemos que ahora mismo hay un terremoto en una localidad de España. Dura unos segundos, pero los medios se hacen eco de la noticia y le preguntan a una vecina de la región que cómo ha sido el terremoto <Ha sido un susto, pero el terremoto ha sido muy leve>, contesta ella. Más tarde hablan con un sismólogo y le realizan la misma pregunta <No ha sido muy preocupante, solo un 2.9 en la escala de Richter>. Misma pregunta. Dos respuestas distintas. Dos clasificaciones posibles.

Si seguimos el hilo de la vecina, podríamos diferenciar entre leves, moderados, fuertes y épicos, por ejemplo, y sería una variable cualitativa ordinal. Si seguimos al sismólogo, la escala de Richter es puramente numérica y continua.  Vuelve a estar del lado del científico de datos determinar cuándo usar qué escala.

Se puede decir que en el caso de terremotos (aunque es extrapolable a otras muchas variables) hay una correspondencia entre expresar la misma variable de forma cualitativa que cuantitativa. Y esto puede ser extremadamente útil.

La Importancia de una Correcta Clasificación

Toda esta clasificación es importante, porque dependiendo del tipo de dato que estemos manejando y de la finalidad del tratamiento será necesario un pre-procesado u otro y eso marcará la validez de nuestros modelos… ¡Pero eso es material para otro artículo! Si tienes cualquier duda, déjanosla en los comentarios.