11 junio 2024

La IA generativa legal necesita mejorar

Jorge MorellPor Jorge Morell

 

“Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools” es el reciente y controvertido estudio de la Universidad de Stanford que ha analizado herramientas de búsqueda legal con características de inteligencia artificial (IA) generativa (LexisNexis y Thomson Reuters, entre otros) y ha concluido que las herramientas alucinan bastante, a pesar de lo publicitado.

Las herramientas comparadas, tras una ampliación del estudio, fueron:

– Lexis+ AI

– Westlaw AI-Assisted Research

– Ask Practical Law AI

Se incluía también a GPT4 Plus para ver cómo respondía frente a herramientas especializadas.

Hay que pensar que ChatGPT se estima que en temas legales puede alucinar entre el 58% y 82% de las ocasiones, lo que es un problema serio sin supervisión. Y más cuando estudios recientes indican que en el sector legal anglosajón entre el 15 y 35% de los abogados ya está usando IA generativa, incluso semanalmente.

Las herramientas especializadas que el sector legal está comenzando a proporcionar dicen evitar el 100% de las alucinaciones al usar “retrieval-augmented generation” o RAG, una técnica vendida como la gran solución al uso de IA generativas en campos de conocimiento específico.

El “truco” utilizado por RAG consiste en incluir entre el prompt (las instrucciones dadas) y el resultado obtenido, 2 pasos intermedios, por un lado la recuperación y por otro la generación. Una particularidad grande es que en la recuperación se tienen en cuenta documentos específicos del usuario, no el dataset general de la IA generativa.

Es decir, el prompt (por ejemplo, ¿cuál es la sentencia que generó el derecho al olvido en Europa?) se usa para buscar en Westlaw los documentos relevantes a la pregunta (como si de una búsqueda normal se tratara).

Luego el prompt + esos documentos se envían al LLM para que genere (la segunda fase, “generation”) el resultado. Pero no de acuerdo a su nebuloso y genérico dataset sino respecto a uno en teoría mucho más adecuado gracias a los documentos recuperados en la primera fase. Es como alimentar al sistema de información relevante y específica por materia antes de generar la respuesta.

Por eso se dice que RAG debería eliminar en buena parte las alucinaciones.

El estudio de Stanford dice que RAG mejora los resultados de cosas como ChatGPT4, pero que el nivel de alucinación no es “100% free” como se publicita, y de hecho en ocasiones es considerable.

En ese sentido, es importante destacar que el estudio define alucinaciones como las respuestas falsas pero también las que afirman falsamente que una fuente respalda una afirmación. Además, incluye también las respuestas incompletas, consistentes en aquellas que son negativas o infundadas.

Por ejemplo, al hacer prácticas con las diferentes herramientas, una de las preguntas era cuáles eran algunas de las opiniones más destacadas del juez Luther A. Wilgarten. La herramienta Lexis+ AI respondió citando un caso de 2010, dónde se decidió y qué ocurrió con el recurso.

El problema viene cuando, si bien el caso citado es real, no fue escrito por el juez Luther A. Wilgarten, que en realidad no existe y era una invención :p Además, la respuesta contradecía la mención al citar a otro juez de forma errónea y por si fuera poco incumplía la premisa solicitada, ya que esa opinión no era considerada como una de las notables por parte del juez Brinkema, quien de verdad la había escrito.

En resumen, la respuesta era un compendio de alucinaciones y errores.

Dicho lo anterior, ¿quién dio mayor porcentaje de respuestas correctas según el estudio?

– Lexis+ AI -> 65% de aciertos

– GPT-4 -> 49% de aciertos

– Westlaw AI-Assisted Research -> 42% de aciertos

– Ask Practical Law AI -> 20% de aciertos

El estudio analiza mucho más en detalle los resultados, pero extrae conclusiones que es bueno tener presentes:

– El sistema RAG hace que en general las IA generativas legales fallen menos que ChatGPT4, pero aún así éste queda segundo en el ranking global.

– Las herramientas suelen errar más en preguntas relativas a tiempos, jurisdicción y especialmente falsas premisas, preguntas que incluyen un error en la comprensión de la ley por parte de quien la plantea.

– Mientras más larga la respuesta ofrecida por la herramienta, mayor cantidad de errores.

– Mientras menos documentos y peor dataset tenga la herramienta en la fase de “Recuperación”, más errores ofrece la herramienta de IA generativa legal.

– Las respuestas todavía incluyen en general muchos fallos de comprensión legal básica: la identificación de las partes o la jerarquía de organismos judiciales, por ejemplo.

En conclusión, está claro que estas herramientas son un buen primer paso y que la tecnología usada para mejorar las alucinaciones (RAG) ayuda en ello, pero siguen necesitando igual o más supervisión que un ChatGPT normal y por supuesto no están libres de errores como publicitan, lo que sin duda es problemático.

Parece que el Skynet abogado todavía tendrá que esperar.

Comparte: