Modo Oscuro
LucasFilms/Disney

Si alguna vez has intentado tener una conversación con un chatbot, sabes que incluso los sistemas de última generación de hoy en día no son exactamente elocuentes, regularmente dando respuestas sin sentido o muy genéricas.

Ahora, sin embargo, Google ha creado Meena, un chatbot que dice que es mejor que cualquier otro que ha probado – una afirmación que la compañía apoya utilizando una nueva métrica que desarrolló específicamente para medir las habilidades conversacionales de una IA.

Después de crear Meena y detallarlo en un artículo publicado en arXiv, Google necesitaba una manera de evaluar el chatbot. Para ello, desarrolló algo que llama Sensibilidad y Especificidad Promedio (SSA, por sus siglas en inglés).

Para calcular esta métrica, Google pidió a los trabajadores humanos que realizaran alrededor de 100 conversaciones de forma libre con Meena y varios otros chatbots de dominio abierto. Cada vez que el chatbot respondía, el trabajador tenía que responder a dos preguntas sobre la respuesta.

En primer lugar, ¿tenía sentido lógico y contextual dentro de la conversación? En caso afirmativo, entonces respondían otra pregunta: “¿Fue específico en la conversación?” Esto era para eliminar cualquier respuesta genérica, por ejemplo, si el humano escribió que le gustaba el tenis, y el chatbot respondía algo como: “Eso es bueno”, la respuesta sería etiquetada como “no específica”.

Google determinó que un humano promedio alcanzaría una puntuación de SSA del 86 por ciento.

Los otros chatbots en el estudio del equipo obtuvieron una puntuación de entre el 31 y el 56 por ciento. Meena, sin embargo, obtuvo un 79 por ciento, poniendo la IA más cerca del nivel de conversación que se espera de un humano que otro chatbot.

Comentarios