Aprendizaje No Supervisado

El agrupamiento no supervisado es utilizado por empresas como Amazon, Netflix o Facebook. Hoy te contamos qué es y sus distintos subtipos: el agrupamiento y la reducción de la dimensión.

¿Qué es el Agrupamiento No Supervisado?

El aprendizaje no supervisado es el conjunto de algoritmos en los que los datos tienen la variable dependiente sin etiquetar, es decir, es desconocida.

Esto quiere decir que no se puede saber si el aprendizaje es acertado o no, aunque existen métricas que permiten determinar si el resultado es mejor o peor, según los resultados que se deseen.

Clustering o agrupamiento machine learning
El agrupamiento permite encontrar elementos similares, como las ramas del mismo color de este árbol.

Tipos de Aprendizaje No Supervisado

A continuación, te explicamos las dos aplicaciones principales del aprendizaje no supervisado: el agrupamiento y la reducción de la dimensión de los datos.

Clustering o Agrupamiento de Datos

El clustering o agrupamiento es el conjunto de técnicas de Machine Learning que permiten clasificar los datos de una base de datos en grupos según su parecido.

Para ello, se utilizan los valores de las distintas variables, y se dividen en grupos dependiendo de su distancia, si pertenecen a grupos de mayor densidad u otras formas.

Esto es útil en cantidad de aplicaciones, como encontrar productos similares en una tienda online, o películas y series parecidas a las que un usuario ha visto. Empresas como Amazon, Netflix o muchos periódicos utilizan esto en sus recomendadores para que los usuarios consuman más contenido o compren más productos.

Reducción de la Dimensionalidad

Uno de los problemas al manejar datos con muchas variables es que se tienen pocos puntos de datos en comparación con estas y que el procesamiento es muy costoso (pues para analizar cada dato, se han de analizar todas sus variables).

Esto dificulta el entrenamiento de los modelos de aprendizaje automático, por lo que conviene «comprimir» los datos a un espacio con menos dimensiones. Para ello, se crean nuevas variables que contengan información de varias de las originales, reduciendo el número total. El método más conocido para hacer esto es PCA.

Esta categoría también tiene subtipos, aunque en este caso son bastante fáciles de comprender:

  • Reducciones de la dimensión lineales: son los que aplican transformaciones lineales de los datos.
  • Reducciones de la dimensión no lineales o Manifold Learning: aplican transformaciones no lineales para conservar información sobre superestructuras de los datos, las manifolds. En este artículo no profundizaremos en el concepto de manifold, porque es complejo de explicar.

Aplicaciones del Aprendizaje No Supervisado

resolver problemas con aprendizaje no supervisado
Resolver problemas con aprendizaje no supervisado es como hacer un puzzle sin saber cuál será la imagen final.

Ya hemos nombrado algunos de los usos del aprendizaje no supervisado, pero aquí tienes una lista más detallada:

  • Permite descubrir patrones desconocidos: al agrupar datos por su parecido, permite encontrar patrones desconocidos previamente o Análisis Exploratorio de Datos. Es por esto que se usar en el Data Mining para generar información nueva.
  • Permite clasificar entidades sin conocer su categoría: muchas veces no se tiene la categoría a la que pertenecen los datos (perfiles de pacientes, de clientes, etc.), por lo que el clustering es esencial para tratar ciertos problemas, pues no necesitan etiquetas previas.
  • Permite simplificar problemas: la reducción de la dimensionalidad permite aplicar algoritmos supervisados sobre datos con demasiadas dimensiones sin que el coste sea excesivo.
  • Permite visualizar datos multidimensionales: al poder reducir las variables combinando su información, el aprendizaje no supervisado facilita la visualización de datos con 4 o más dimensiones, que son difíciles de representar en gráficos.

Ejemplos de Aprendizaje No Supervisado

Algunas de las aplicaciones y webs que más utilizamos hacen uso del aprendizaje no supervisado, algunas de las más conocidas son:

  • El recomendador de Netflix: tanto esta plataforma como muchas otras utilizan en parte el aprendizaje no supervisado para segmentar las películas y series por categorías. También segmentan a los usuarios, de forma que si dos personas pertenecen al mismo grupo, se les recomienda el contenido que ha visto la otra, pues es probable que les interese.
  • Compresión de imágenes: en este caso, estamos ante una reducción de la dimensión. Cuantas más variables tenga una foto, más espacio ocupa, por lo que se trata de comprimir esta información es espacios de colores más pequeños o con una nueva codificación (la forma en que se almacena la información de cada color).

Esperamos que ahora entiendas todo sobre el aprendizaje no supervisado. ¡Es una herramienta esencial para el análisis de datos! Comparte este artículo con una persona que no sepa lo que es, y si tienes cualquier duda, déjanosla en los comentarios. ¡Un saludo!