01 abril 2025

Los “jueces IA” son más legalistas que los jueces humanos

Jorge MorellPor Jorge Morell

El paper “Judge AI: Assessing Large Language Models in Judicial Decision-Making” está dando mucho que hablar y afecta de pleno a la llegada de la inteligencia artificial al sistema de Justicia.

El estudio analiza y compara cómo los jueces humanos y los jueces basados en inteligencia artificial (concretamente el modelo GPT-4o) emiten sentencias sobre el mismo tema. El objetivo era ver si los antecedentes relativos al demandado y cómo se presentaban condicionaban o no el fallo.

La conclusión es que si presentas a los jueces humanos y a la inteligencia el mismo material sobre el que decidir, los humanos parecen ser más fácilmente influenciados por factores “legalmente irrelevantes”. Pero el juez humano aporta otras inteligencias no puramente racionales: empatía o compasión, por ejemplo.

El experimento tiene su origen en uno ya realizado en 2015, donde 31 jueces federales de EEUU debían analizar una apelación basada en un caso real de crímenes de guerra en los Balcanes. Los jueces tuvieron 55 minutos para confirmar o anular la condena y argumentar las razones.

Pero los documentos tenían dos variantes: 1) a veces el acusado era presentado, sutilmente, como más comprensivo, incluso expresando “un profundo pesar por cualquier derramamiento de sangre en esta trágica guerra”; 2) a algunos jueces se les presentó un precedente que insinuaba que la condena del acusado era legalmente defectuosa, mientras que a otros se les presentó un precedente que insinuaba que la condena era válida.

El resultado: aunque los jueces dijeron que basaban sus decisiones en la ley, al parecer los antecedentes tuvieron muy poco peso y había una relación muy importante entre cómo había sido presentado el acusado ante el juez, de forma más o menos agradable.

Ahora esa prueba se ha repetido pero introduciendo a ChatGPT para juzgar, y al parecer es implacable a la hora de decidir.

Según el estudio, la probabilidad de la inteligencia artificial de anular una condena “no se ve afectada por si el acusado es retratado como comprensivo o antipático”. De hecho, dice el estudio que “GPT sigue el precedente de manera más consistente, demostrando una mayor probabilidad de afirmar cuando el precedente apoya la confirmación del fallo y una menor probabilidad cuando el precedente apoya la anulación”.

Por ejemplo, la mayoría de jueces humanos anularon el fallo cuando se presentó la versión más empática del acusado, a pesar de los antecedentes. Mientras tanto, ChatGPT confirmó la condena en los 25 casos.

Lo dicho, implacable.

Incluso cuando el prompt (las instrucciones indicadas a la inteligencia artificial) se cambió para que la misma tuviera más en cuenta elementos humanos y no puramente legales, la inteligencia artificial siguió priorizando la ley.

Recientemente se anunció que Cataluña comenzará a realizar pruebas en juzgados de los mercantil con inteligencia artificial que redactarán sentencias. La iniciativa, impulsada por el Govern de la Generalitat, se aplicará inicialmente a procedimientos de menor complejidad, como reclamaciones por cláusulas hipotecarias o litigios de transporte aéreo. Son resoluciones mecánicas y repetitivas, que suponen el 60% de la carga de trabajo de los jueces de la jurisdicción mercantil.

El objetivo es ahorrarse hasta 600 horas de trabajo por juez.

Desde el Congreso de la Abogacía en Valladolid en 2019, donde hablé de las implicaciones de la Justicia predictiva, vengo sosteniendo que los gobiernos recurrirán a la inteligencia artificial como solución mágica al problema de la Justicia y su falta de medios, priorizando este tipo de soluciones antes que otras más comunes y trabajosas (formar más jueces o construir más juzgados).

Sin duda usar tecnología tiene mucha lógica y es necesario en la administración de Justicia. Además, ahora que tenemos un primer benchmark o test para IAs legales, podemos elegir con más criterio.

En cualquier caso, el estudio citado nos recuerda los riesgos inherentes a la implementación de este tipo de sistemas en la toma de decisiones con consecuencias legales, demostrando que los mismos tienen sesgos pero quizá no como muchas veces los habíamos imaginado.

Veremos cómo progresa esta cuestión en el futuro.

Mientras tanto, parece que Skynet prepara oposiciones a juez.

Comparte: