Telefónica presenta LEIA-X, la nueva extensión para mejorar la comprensión lectora basada en la inteligencia artificial

Desde hoy hasta el jueves 30 de marzo tiene lugar en Cádiz el IX Congreso Internacional de la Lengua Española (CILE), el foro más importante de reflexión sobre nuestro idioma organizado por el Instituto Cervantes y la Real Academia Española junto con la Asociación de Academias de la Lengua Española.

Richard Benjamins

Richard Benjamins Seguir

Tiempo de lectura: 5 min

En la sesión especial presidida por Su Majestad el Rey «Unidad y diversidad del español. La tradición y el reto de la inteligencia artificial», Telefónica junto con Microsoft, Google, Amazon y Meta, hemos dado a conocer los avances alcanzados en la iniciativa de LEIA cuyo objetivo es ayudar a que las máquinas hablen un español correcto y asegurarse que las reglas, elaboradas por la Real Academia Española (RAE), son respetadas por las herramientas automáticas de apoyo a la generación y entendimiento de la lengua.

Comprometidos con la lengua española

Ángel Vilá, Consejero delegado de Telefónica, ha hecho un repaso en el evento de todos los avances de Telefónica para fomentar el buen uso del español en productos y servicios del hogar como es el caso de la Living App de la RAE de Movistar Plus+ para consultar definiciones o aprender más acerca del idioma, el juego de la RAE disponible en el dispositivo Movistar Home. Como novedad, ha presentado el prototipo LEIA-X, una extensión para navegadores Chrome que usa inteligencia artificial para mejorar la comprensión del español. Esta herramienta destaca la acepción o significado más adecuado según el contexto. Para ello usa una IA que ha sido entrenado con más de 70.000 ejemplos de varios diccionarios de la RAE.

Esta funcionalidad es especialmente útil para los más de 100 millones de hispanohablantes no nativos. Además, utilizando APIs de traducción automática, es capaz de dar respuesta en cualquier idioma, siempre orientado a mejorar la comprensión del usuario en español.

LEIA-X da respuesta a la necesidad que hay de mejorar la comprensión de la lectura en un navegador web en un portátil, un libro electrónico o simplemente un móvil. Hoy en día todos los lectores pueden acceder a una funcionalidad denominada en inglés “look up” o “define” que permite seleccionar una palabra y automáticamente abrir una ventana de diccionario con su entrada correspondiente. Desde allí, como lector, tenemos que navegar por todas las acepciones para encontrar la que más se ajusta; tarea que distrae de la lectura, sobre todo en pantallas pequeñas o dispositivos que no sean especialmente rápidos. LEIA-X ofrece gracias a la IA una definición exacta a una palabra según su contexto, facilitado mucho la lectura.

Cómo funciona LEIA-X

La extensión se basa en un modelo entrenado específicamente con texto en español (concretamente el modelo BETO[1], entrenado por la Universidad de Chile) para la resolución de un problema que no necesita los grandes modelos del lenguaje (LLMs por sus siglas en inglés) como GPT3 o 4: la desambiguación del significado de una palabra.

El modelo (BETO) se entrenó, por la universidad de Chile, en una tarea que se conoce como “fill the mask”, relleno de máscara, y que consiste en, dada una frase, enmascarar una palabra y pedir al modelo que intente predecir cuál es la palabra que mejor se ajusta. Este método de aprendizaje automático se llama “auto supervisado”. Al realizar esto un número suficiente de veces, el modelo es capaz de extrapolar qué palabras están relacionadas con el contexto en la frase o cuál es, por ejemplo, el sentimiento de la frase, cuando se requiere utilizar un verbo o un sustantivo. En resumen, la IA aprende a extraer el conocimiento o correlaciones entre las palabras que componen una frase.

Para desambiguar una palabra en español, hay que usar el contexto donde aparece la palabra Por poner un ejemplo, la palabra “banco” toma distintos significados según el contexto:

“He ido al banco a hacer un ingreso”

O si decimos:

“Estoy en el banco del parque leyendo un libro”

Si bien las personas hacemos este proceso de forma automática y prácticamente inconsciente, para un algoritmo es realmente complejo saber a cuál de las definiciones de la palabra “banco” se está referenciando en cada caso. La única forma de saberlo es entender cada una de las palabras y como se relacionan entre ellas dado un contexto.

Partiendo del modelo BETO, LEIA-X se ha entrenado con un corpus de ejemplos positivos y negativos de palabras con sus acepciones de la siguiente manera: dada una palabra y una frase, por ejemplo: la palabra “banco” y la oración:

“He ido al banco a hacer un ingreso”

Emodelo, durante el proceso de aprendizaje automático, toma como entrada las diferentes definiciones de la palabra banco.; entre cuales según el diccionario de la RAE:

  • Asiento, con respaldo o sin él, en que pueden sentarse dos o más personas.
  • Empresa dedicada a realizar operaciones financieras con el dinero procedente de sus accionistas y de los depósitos de sus clientes.

Para construir el corpus de entrenamiento de LEIA-X se ha etiquetado de forma automática cada oración y la palabra objetivo mediante su acepción correcta, ejemplos positivos, o una incorrecta, ejemplos de uso negativos.

Los ejemplos en el corpus tendrán finalmente la siguiente forma:

  • He ido al “banco” a hacer un ingreso [SEP][2] donde “banco” significa: Asiento, con respaldo o sin él, en que pueden sentarse dos o más personas. [incorrecta]
  • He ido al “banco” a hacer un ingreso [SEP] donde “banco” significa: Empresa dedicada a realizar operaciones financieras con el dinero procedente de sus accionistas y de los depósitos de sus clientes. [correcta]

De esta manera, se ha construido un corpus de más de 70.000 ejemplos basado en varios diccionarios provisto por la RAE.  En el Diccionario del Estudiante cada acepción o definición de una entrada tiene un ejemplo positivo, la acepción correcta. Para complementar dicho corpus, también se ha aprovechado el conocimiento provisto por el Diccionario de la lengua española (DLE) en el cual aproximadamente el 15% de sus acepciones tiene ejemplos de uso. Gracias al corpus generado se ha adaptado el modelo BETO incorporándole la capacidad de desambiguar.

Una vez adaptado, el modelo -LEIA-X- es capaz de asignar a cada una de las duplas palabra-oración la confianza o probabilidad que un significado concreto sea el correcto. En el caso del ejemplo de «banco», para la primera oración el modelo asignaría una probabilidad cercana al 0% y para la segunda una confianza cercana al 100%, mostrándonos esta última como el significado más probable. Ha conseguido, por tanto, desambiguar la palabra.


 

 

Compártelo en tus redes sociales


Medios de comunicación

Contacta con nuestro departamento de comunicación o solicita material adicional.