09 diciembre 2024

Los agentes autónomos serán la gran tendencia de 2025

Jorge MorellPor Jorge Morell

Los agentes autónomos, o “Agentic AI” en su acepción anglosajona, son la siguiente gran frontera en inteligencia artificial. Consisten en sistemas capaces de resolver problemas complejos y que requieren múltiples pasos, de modo que a la pregunta/prompt “Exporta y descarga una hoja de cálculo de Google para abrirla en local en Excel”, es capaz de trazar un plan de acción, dividirlo en múltiples etapas, ejecutarlo, ir comprobando su ejecución y aprender de lo realizado una vez completada la tarea.

Que los agentes autónomos serán la tendencia de 2025 no lo digo yo, lo comenta la responsable financiera de OpenAI, lo dice NVIDIA o lo explicaba Forbes hace unos días.

La ventaja de los agentes autónomos, que obviamente utilizan un modelo fundacional o LLM del tipo GPT4 o similar como refuerzo de su conocimiento, es que no solo podrían anticipar una tendencia (1ª generación de IA) o generar contenido (2ª generación de IA), es que son capaces de ejecutar tareas objetivamente complejas sin necesidad de constante observación humana y además pueden interactuar con otros agentes (3ª generación de IA).

¿Pero eso es una automatización de toda la vida, no? La idea es que no ya que los agentes autónomos que nos llegarán durante los próximos años van un paso más allá en al menos tres cuestiones: 1) les podemos hacer la petición (por ejemplo, “Modifica el título de todas las diapositivas de mi PowerPoint y dibuja un triángulo en la primera”) usando lenguaje natural; 2) son capaces de encadenar múltiples tareas diferentes sin intervención humana y ellos deciden el orden y lógica de esas tareas; y 3) lo hacen no mediante APIs, sino usando las interfaces de los programas como si tuvieran ojos humanos.

Veamos un ejemplo.

Hace unos meses Anthropic, una de las empresas líderes en inteligencia artificial, lanzó una nueva versión (en pruebas) de su LLM, Claude. Se trata de Claude 3.5 Sonnet – Computer Use. La particularidad de Computer Use es que es un modelo fundacional que interactúa, a partir de un prompt como los indicados anteriormente, con la interfaz gráfica de los programas que necesite manejar para ejecutar la tarea y con ello generar acciones.

Por tanto, Computer Use utiliza un Large Vision Language Model o LVLM que le permite interactuar con imagen y texto y de ese modo ejecutar tareas que implican lenguaje y visión. Además, interactúa con el sistema operativo y programas mediante acciones de ratón y teclado como si un humano estuviera “viendo” el programa y su interfaz.

De ese modo, Computer Use y otros agentes autónomos que nos llegarán no generan automatismos a partir de conexiones mediante API o similares, ya que muchos programas las impiden. El sistema, a partir del prompt del usuario, planifica lo que debe hacer, pone en marcha el plan y finalmente comprueba el resultado.

¿Pero cómo ve si no tiene ojos? Constantemente hace capturas de pantalla de lo que tiene delante y va visualizando la interfaz pantallazo a pantallazo. De ese modo, su capacidad de reconocer imagen y texto le permiten distinguir por ejemplo dónde está un menú u otro (en función de lo que debe ejecutar según el plan previo), mientras que su capacidad de usar teclado y ratón (incluso atajos de teclas) le permiten interactuar con esa interfaz que segundo a segundo va visionando.

Ojo, no veremos cómo se mueven físicamente el teclado o el ratón, simplemente ejecutará las acciones propias de pulsar Intro o hacer clic derecho pero a nivel del sistema operativo/programa.

El ShowLab de la Universidad Nacional de Singapur ha sido el primero en poner a prueba Claude 3.5 Sonnet – Computer Use. Para ello, planificó 20 tests y medió la capacidad de planificación, ejecución y crítica del agente autónomo. El paper que recoge su trabajo se llama “The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use” y es fascinante por lo que anticipa.

De los 20 tests, divididos en tareas de búsqueda online, flujos de trabajo, productividad de Office y videojuegos (sus interfaces son muy complejas y un gran test), tuvo éxito en 16, solo erró en 4. Hay que pensar que el modelo todavía está en pruebas y con limitaciones importantes.

Entre los aciertos, fue capaz de ir hasta la web de Amazon para localizar unos auriculares con unas características específicas y precio concreto, hacer una lista de productos a comprar en Amazon y crear un hoja de Excel con sus precios, descargar una documento de Google Sheets en el formato correcto para abrirlo en Excel, reenviar un correo a alguien y poner en copia a otra persona, poner un documento A4 en formato A3 y luego modificar el texto a dos columnas o ganar una partida a Hearthstone (un juego de rol).

Sus principales fallos se debieron a las dificultades que todavía tiene para seleccionar texto (eso le hizo fallar una tarea donde debía sustituir el nombre de una persona en un formulario), que no siempre hace scroll correctamente (eso le hizo fallar una tarea donde debía suscribirse al canal de deportes de la cadena Fox) o dar por correctas algunas tareas no bien finalizadas.

Pero incluso en sus fallos realizó buena de planificación, incluyendo correcciones del plan si fallaba la primera propuesta.

Si uno pone todas las piezas en el tablero, es difícil no empezar a anticipar hacia donde se mueve la pelota para la abogacía. Es decir, tenemos ya IAs generativas que crean texto decente o incluso bueno (y con sus peros, poco a poco mejorando), y ahora sumaremos agentes capaces de incorporar a esa generación de texto la posibilidad de planificar y ejecutar tareas cada vez más y más complejas sin supervisión.

¿Pone esto en peligro al abogado? Al que sepa de lo suyo, lo dudo. Pero en unos años sí creo que puede poner en peligro a muchos pasantes que realizan tareas de dificultad muy baja, baja o incluso media, y que serían potencialmente delegables a agentes autónomos.

Por no hablar de la mejora en la productividad del propio abogado.

En resumen, los agentes autónomos serán una de las tendencias del 2025. Como es normal, habrá una buena dosis de humo. Pero si uno empieza a unir los puntos y entender cómo funcionan los avances de los últimos dos años en IA (más los que nos vienen), se hace difícil no anticipar cambios serios en determinadas áreas del Derecho.

Comparte: