Vale, lo quiero, ¿por dónde empiezo?

A lo largo de varios años dedicados a la divulgación científica y técnica una de las preguntas más habituales desde el mundo empresarial es: ¿Cómo puedo empezar con esto de la inteligencia artificial? Pues bien, sobre esto es sobre lo que trataremos en el artículo de esta semana.

Comentábamos en el artículo de la semana pasada que existen diferentes enfoques a la hora de afrontar estas nuevas tecnologías. Existe una aproximación a nivel de usuario, que llegará a ser la más habitual, en la que un usuario utilizará diferentes herramientas de inteligencia artificial en su trabajo con el fin de hacerlo de forma más ágil y productiva. Por otro lado, los ingenieros de datos serán contratados para resolver problemas concretos de una empresa concreta en un sector específico. Estos últimos casos son los que vamos a analizar en el día de hoy.

Y es que el primer paso para sacarle todo el partido a estas nuevas herramientas es tener un problema que solucionar. Todo ejercicio de inteligencia artificial parte de un problema a resolver. Y es el uso de las técnicas y algoritmos de inteligencia artificial los que nos pueden aportar una solución específica al problema que nos ocupe.

Se puede considerar que debemos usar las herramientas como lo que son, un medio y no como un fin en sí mismas. No se trata por tanto de incorporar inteligencia artificial a mi empresa, sino utilizar la inteligencia artificial
para conseguir una mejora en mi trabajo.

De acuerdo, pero ¿por dónde empiezo?

Pues bien, el proceso de resolución de un problema mediante algoritmos de aprendizaje automático se basa en los datos. Los datos son los que entrenan un algoritmo, los datos son los que nos proporcionarán los patrones y el aprendizaje necesarios para generar resultados.

Pero no cualquier tipo de datos, pues estos deben ser de calidad, es decir, que tengan todo un formato adecuado, que sean lo más estándar posibles, que sean fiables, veraces y precisos. De la calidad de los datos dependerá la calidad del algoritmo entrenado. Si los datos no son de calidad, el algoritmo no solucionará con eficiencia el problema.

Tal es la importancia que ya se están creando puestos de trabajo solo para el tratamiento de los datos. Y es que, aunque aún no tengas un problema concreto a resolver, disponer de la mayor cantidad de datos en las diferentes etapas de un negocio nos permitirá abordar en un futuro los problemas con mayor probabilidad de éxito. Y para esto hace años se hace hincapié en la automatización de los procesos.

Aquellos procesos que pueden ser digitalizados y automatizados nos darán como resultado unos datos de mayor calidad en cuanto a formato. Hoy en día se guardan los datos obtenidos por los sensores de las fábricas, la temperatura, la humedad, los datos de fichajes de todas las mañanas, las facturas, las órdenes de trabajo, etc… todos esos datos correctamente almacenados serán necesarios para el desarrollo de algoritmos eficientes. Y son los sistemas de RPA (Automatización robótica de procesos) lo que puede generarnos un gran valor a la hora de obtenerlos y almacenarlos.

Pero no solamente los datos han de tener un formato adecuado, además debemos tener continuidad en su almacenamiento. Cuantos más datos dispongamos, más preciso será el algoritmo. Se recomiendan no menos de dos o tres años de registro de datos fiables para poder abordar un problema desde esta perspectiva, sin embargo, la cantidad de datos requeridos la determinará el problema que queramos resolver.

Este es uno de los principales stoppers a la hora de abordar la introducción de algoritmos en la resolución de un problema y es por esto por lo que es recomendable empezar a analizar los datos de los que se dispone y diseñar un plan de captación y almacenamiento de estos que nos habilite en un futuro para la implementación de algoritmos en nuestro negocio o en nuestros estudios.

Otro factor muy importante es el Sesgo. Los algoritmos son entrenados con los datos disponibles y estos no siempre son objetivos. Los estereotipos o la infrarrepresentación de las minorías pueden dar como resultado un sesgo en función del tipo de datos que se usen para un entrenamiento. Para mejorar la calidad de la información se propone una buena comprensión de los datos almacenados y tratar de disponer así de datos balanceados.

Hoy en día se dispone de una gran cantidad de información que se puede obtener de fuentes de datos abiertos, de las redes sociales, de los sistemas de información de una empresa o de los históricos y logs de nuestro software.

La comprensión y el buen cuidado de estos serán fundamentales para que se puedan afrontar proyectos basados en Machine Learning para obtener mejoras de nuestros procesos o productos de calidad. Por estos motivos se propone el uso y cuidado de los datos disponibles como uno de los activos más valiosos en tu trabajo.