14 junio 2021

Qué es qué en Inteligencia Artificial y Procesamiento de Lenguaje Natural

Elen IrazabalPor Elen Irazabal

La Inteligencia Artificial (IA) y el Procesamiento de Lenguaje Natural (PLN) avanzan a un ritmo exponencial. Al sector jurídico le afecta de dos maneras esta revolución:

En primer lugar, la aplicación de la IA y del PLN incide en todos los datos que el sector jurídico genera. Siendo la aplicación de las dos totalmente transversal, como la búsqueda de información jurídica, resúmenes de textos, chatbots…

En segundo lugar, la futura regulación que va a intervenir directamente en Inteligencia Artificial. En este caso, los abogados y juristas que investiguen y asesoren respecto a esta materia, se encuentran en la labor de entender en qué consiste esta disciplina.

Por ello, lanzo este diccionario o ‘qué es qué’ en el campo de Inteligencia Artificial y Procesamiento de Lenguaje Natural. Es un diccionario que consiste en describir las definiciones más relevantes hoy en día, como conceptos un poco más técnicos que manejan los profesionales que se dedican a hacer análisis con IA.

Inteligencia Artificial (IA): Programas que intentan simular inteligencia humana, pero por ahora, lo que mejor hace es el Machine Learning. Se estudia desde hace muchos años, pero hasta ahora no teníamos resultados aceptables.

Machine Learning o Aprendizaje Automático: La aplicación por excelencia de la IA hoy en día. La máquina aprende por sí misma a través de los datos mediante algoritmos. De ahí que los datos se consideren el nuevo petróleo. Detrás del Machine Learning está la estadística.

Aprendizaje supervisado: La máquina aprende con ayuda del ser humano. En este caso el humano le indica la característica que quiere predecir, para que aprenda. Un ejemplo sería ver si el siguiente correo que me llegue al buzón va a ser spam. Para ello, tendremos ya identificados un conjunto de correos de los que sabremos cuáles son spam y cuáles no. De esta manera, la máquina aprende bajo esa identificación. En esta categoría hay varios algoritmos, y dependiendo lo que queremos conseguir, escogeremos uno u otro.

Aprendizaje no supervisado: La máquina aprende patrones de los datos por sí sola, esto es, no le indicamos ninguna característica que queramos predecir. Al no tener datos previamente etiquetados donde aprender, lo hace por sí solo. Siguiendo el ejemplo anterior, tendríamos correos electrónicos ordinarios y spam, sin identificar cuál es cuál. En este caso, la máquina tendría que identificar patrones por su cuenta. En esta categoría, hay distintos algoritmos que en el caso del Aprendizaje Supervisado, y escogeremos uno u otro en base al objetivo que queramos conseguir.

Aprendizaje por refuerzo: Aprendizaje bajo recompensas. El algoritmo busca maximizar la recompensa, y se le da según lo bien que lo haga, de modo que “descubre” maneras de hacer bien lo que se le ha pedido. Se utiliza en el caso de los coches autónomos.

Deep Learning o Aprendizaje Profundo: Es la versión 4.0 del Machine Learning. Podríamos decir que es una evolución sofisticada del Aprendizaje Automático, ya que simula un sistema inspirado en redes neuronales del cerebro humano. Toda la innovación en Procesamiento de Lenguaje Natural es gracias al Deep learning.

Procesamiento Lenguaje Natural (PLN): Es un campo de conocimiento de la IA que se ocupa de investigar la manera en que las máquinas y los humanos se comunican a través de las lenguas naturales. Los textos jurídicos se encuentran en el idioma español, cayendo en este campo y siendo las innovaciones que se consiguen en PLN, aplicados a textos jurídicos. Cuando queramos hacer un análisis de PLN, para obtener valor de esa información, utilizaremos IA.

Big Data: Datos masivos, estructurados o no estructurados. Tiene siete características llamadas las 7 Vs: Volumen, velocidad, variedad, veracidad, viabilidad, visualización y valor de los datos.

Big Data Arquitect: Se encarga de diseñar la infraestructura informática por donde se recolectarán y tranformarán los datos masivos (Big Data) de modo que puedan estar listos para el análisis por el Data Scientist.

Data Scientist: Se encarga de analizar los datos y obtener un valor sobre los mismos. Los datos pueden o no consistir en Big Data, pero cuantos más datos para analizar, mejor.

Data Science: Es un campo interdisciplinario centrado en analizar grandes volúmenes de datos para obtener valor sobre ellos. Para ello, utiliza técnicas de IA como el Aprendizaje Automático.

Business Intelligence (BI): Tomar decisiones empresariales con grandes volúmenes de datos. Tanto el Data Science y el BI, utilizan IA para obtener valor.

Chief Data Oficer (CDO): Responsable de los datos de una empresa. Se encarga de la estrategia y gobierno del dato. En caso de necesitar una estrategia de datos e IA, lo mejor es acudir a un CDO.

Python y R: Son lenguajes de programación open source y sirven para que los humanos demos instrucciones a la máquina. Cuando hacemos un análisis con IA, utilizamos estos dos lenguajes para poder decirle a la máquina qué tiene que hacer: desde la lectura de datos, limpieza, expresiones regulares, vectorización, IA, resultado, etc.

Librerías y paquetes: Para programar en python, se utilizan librerías. Para toda tarea hay una librería; esto facilita el código que hacemos para instruir a la máquina. Por ejemplo, para hacer la limpieza de datos hay varias librerías disponibles, para un algoritmo de IA hay otras librerías disponibles, etc.  En R, su función es la misma, pero les llamamos paquetes.

Algoritmo: Una serie de pasos lógicos y ordenados para que la máquina realice una tarea. Son instrucciones que damos a través de los lenguajes de programación.

Scrapping: Técnicas para extraer información de un sitio web. Puede servir como fuente de datos para poder analizar después con IA. ¡Ojo con la legalidad! Algunas webs prohíben descargas masivas.

Datos estructurados: Datos estructurados: Datos que están organizados. Por ejemplo, bases de datos relacionales o hojas de cálculo. Se puede identificar cada categoría.

Datos no estructurados: Son la gran mayoría de los datos que se generan hoy en día: correos electrónicos, tweets de twitter, vídeos, imágenes etc. En el sector jurídico tenemos contratos, sentencias, leyes, etc. La diferencia con los datos estructurados es que no se guardan de manera organizada y no tienen una estructura interna identificable.

Expresiones Regulares: Forma de especificar un patrón de búsqueda dentro de textos. Si quisiéramos encontrar palabras, números, etc. en un texto jurídico, utilizaríamos las expresiones regulares.

Limpieza de datos: Para introducir datos dentro de un modelo de Machine Learning, tenemos que limpiar el texto de aquellas palabras o símbolos que no sirven para que el modelo aprenda. Para la limpieza tenemos distintas librerías y paquetes que facilitan su programación. Algunas técnicas de limpieza para el caso de texto son:

Lemma: Reducir las palabras a su palabra de origen: Hice a hecho a hacer.

Stemming: Reduce la palabra a su raíz:  Universitarios y universidades a universi.

Tokenización: Es una manera de separar un texto en unidades más pequeñas llamadas tokens, por ejemplo: “Esto es un diccionario de IA” a “Esto”, “es”, “un”, “diccionario”, “de”, “IA”.

Stopwords: Quitar palabras que no son útiles para el significado del texto, como preposiciones.

Vectorización: Para poder hacer análisis con IA tenemos que pasar todo texto a números. A este proceso le llamamos vectorización.

Modelo: Cuando salen noticias que empiezan por “un algoritmo…”, en realidad se refieren a un modelo de Machine Learning. El modelo de Machine Learning se entrena y aprende de los datos y puede realizar predicciones. Ese aprendizaje automático lo realiza a través de algoritmos. Para aprendizaje supervisado, se dividen los datos en train y test:

Train o entrenamiento: En entrenamiento, el modelo aprende patrones o características de los datos.

Test o validación: En test, se utiliza los datos no utilizados en train, para validar el modelo, esto es, ver cuán bien lo hace el modelo en datos que no han servido para su entrenamiento.

Accuracy y precisión: El modelo nos devuelve una predicción. Si comparamos esa predicción con lo que debería haber salido, podemos calcular unas métricas de cuan bien funciona nuestro modelo. Por ejemplo, un 75% de acierto sobre una predicción es mejor que un 25%.

Elen Irazabal

Comparte: