¿Qué es el aprendizaje no supervisado?

Para que las máquinas aprendan hay que enseñarlas. Enseñarlas a pensar y a que piensen por sí mismas, sin orientación previa. A esto último se refiere el aprendizaje no supervisado: se trata de que la máquina encuentre por sí sola patrones en una base de datos sin ninguna guía previa

Telefónica

Equipo de Comunicación

05/10/2023

Tiempo de lectura: 5 min

Escuchar

Tenemos dos maneras distintas de que las máquinas aprendan. Y, en numerosas ocasiones, trabajan juntas. Para entender en toda su magnitud el aprendizaje no supervisado es prioritario arrojar luz sobre el aprendizaje supervisado.

¿Qué es el aprendizaje supervisado y cómo funciona? Ejemplos prácticos

Imagina que un ordenador está aprendiendo a identificar animales. A través del aprendizaje supervisado, este recibe las imágenes previamente etiquetadas. De este modo, el ordenador sabrá cuándo un mono es un mono, y no es un perro, debido a sus características físicas. O, por ejemplo, si necesita identificar distintos tipos de fruta. Un plátano no es lo mismo que una manzana, o un kiwi: el plátano es alargado, amarillo, y tiene motas negras (si es de Canarias, claro), y la manzana tiene una forma más bien esférica. A este etiquetado previo se le conoce como datos de entrada.

El aprendizaje supervisado, a su vez, se divide en dos tipos distintos: por clasificación y por regresión:

Aprendizaje supervisado por clasificación: el algoritmo utiliza los datos de entrada para clasificar los elementos. Una vez que reconoce qué es una pera gracias al etiquetado, las posteriores peras serán reconocidas y clasificadas como tales. El resultado que obtenemos es una clase, una categoría, entre muchas posibles.
Aprendizaje supervisado por regresión: En esta ocasión, el resultado obtenido no va a ser una clase, sino un número: la computadora predecirá un valor numérico con relación entre varias variables de entrada y una de salida. Imagina que trabajas en una plataforma de estudio online y quieres predecir las puntuaciones que los alumnos sacarán en un examen. Para ello, dispones de información valiosa: las horas de estudio de exalumnos y su nota en el examen final. En este sentido, el aprendizaje supervisado por regresión calculará la posible nota de los nuevos estudiantes basándose en el tiempo de estudio de los nuevos estudiantes.
El aprendizaje automático también puede ser de utilidad para detectar bulos y noticias falsas. Por ejemplo, a través de la búsqueda inversa de imágenes de Google (es decir: en lugar de buscar por una palabra, subimos una imagen y nos da un resultado determinado) podemos ver si la foto que ilustra la portada corresponde con dicha noticia.

Para detectar un vídeo falso, se pueden extraer fotogramas y luego realizar la búsqueda inversa. Alan Bursztyn, Estudiante de Ingeniería en Sistemas de Información en Facultad Regional Buenos Aires de la Universidad Tecnológica Nacional, en un artículo en LinkedIn, explica cómo gracias al aprendizaje automático lograron detectar como falso un vídeo en el que una orangután se lavaba las manos durante la pandemia, como imitando a los humanos. Gracias a la imagen que extrajeron y a la búsqueda inversa, comprobaron que ya había noticias en Google que aseguraban que el vídeo era falso.

¿Qué es el aprendizaje no supervisado y cómo funciona?

Una vez tenemos ya claro qué es el aprendizaje supervisado, pasamos ahora a profundizar en el aprendizaje no supervisado. En este último, no existen las etiquetas previas. El sistema, por sí solo, intenta localizar patrones o relaciones entre los datos por sí solo. Por ejemplo, si la computadora tiene imágenes de perros y gatos sin datos previos, su algoritmo es incapaz de identificar las características de dichas imágenes. Lo que hace, por lo tanto, es agruparlas según los parecidos que encuentra entre las mismas.

En definitiva, el objetivo primordial del aprendizaje no supervisado es el estudio de la estructura de los datos, que suelen permanecer ocultos.

El aprendizaje no supervisado se logra a través de distintas reglas que pasamos a explicar a continuación.

Reglas de agrupamiento (Clustering). Esta es una de las técnicas más comunes en el aprendizaje no supervisado. El objetivo es encontrar grupos naturales en los datos sin que haya información previa de cómo agruparlos. Tomemos como ejemplo una tienda online: gracias al agrupamiento se podría identificar distintas categorías de clientes que tienen patrones de compra similares. Esto es muy adecuado para estrategias de publicidad personalizadas, por ejemplo.
Reglas de asociación. Gracias a la técnica de asociación el algoritmo es capaz de encontrar qué relaciones hay entre las distintas variables de una gran base de datos. Un ejemplo de esta técnica se aplica, según expertos como IBM, en secciones de tiendas online en las que se recomienda una lista de determinados artículos según el consumo previo de quién está en la página. O, por ejemplo, la lista de descubrimiento semanal de Spotify. Para conseguir estas reglas de asociación, el aprendizaje automático utiliza diferentes algoritmos: el más común es el algoritmo Apriori. Este algoritmo detecta patrones frecuentes para “identificar la probabilidad de consumir un producto dado el consumo de otro producto”. Por ejemplo, si escuchamos una canción heavy, es probable que la siguiente sea del mismo género.
Reducción de dimensionalidad. Esta técnica se emplea cuando el número de características es muy elevado. Para ello se usan varios métodos, como el análisis de componentes principales (PCA), que reduce la dimensionalidad de los mismos preservando la mayor cantidad de información valiosa posible. Imagina, por ejemplo, que tienes una serie de números escritos a mano del 0 al 9. Cada imagen se compone de diferentes píxeles: esto ya revela una alta dimensionalidad. Si cada imagen es de 28×28, nos daría un total de 784 características (píxeles) por imagen. El análisis de componentes principales toma estas 784 características y crea nuevas supercaracterísticas llamadas componentes principales.

Aplicaciones de aprendizaje no supervisado

Google News ya utiliza aprendizaje no supervisado para establecer diferentes categorías de noticias y agruparlas según su temática
Detectar anomalías e irregularidades dentro de un grupo masivo de datos
Hábitos de compra de un cliente para publicidad personalizada
Recomendaciones de películas o canciones que pueden gustarle al suscriptor
Reconocimiento de objetos
Ayuda al sector médico en funciones básicas de dispositivos de creación de imágenes