Uno de los temas más fascinantes en el desarrollo de los últimos años tiene que ver con el avance de la inteligencia artificial y sus aplicaciones a situaciones cotidianas.

En la mente tenemos el ejemplo de Deep Blue, el gigantesco sistema que desarrolló IBM para vencer al campeón mundial de ajedrez.

Menos evidente resulta saber que el sistema se puede usar como SaaS y que hasta hay versiones gratuitas. Similares iniciativas de Microsoft, HP y otros hacen que los negocios puedan beneficiarse de éstos avances.

Las técnicas que usan se basen en conceptos relativamente sencillos y pueden implementarse, no es ese volumen, con herramientas relativamente sencillas.

En mi trabajo de los últimos 5 años hemos buscado extraer más y más inteligencia del contenido digital (noticias, reportes, comentarios, datos, formularios) que se acumulan en nuestras bases de dato. No solo la información estructurada, sino sobretodo la información semi-estructurada o no estructurada.

La pregunta que tratamos de responder es ¿qué significa ésto? para luego contestar la siguiente y más interesante ¿qué hacemos ahora?

Normalmente podemos hacer ésto con datos estructurados usando técnicas estadísticas, sobre información exacta y significado unívoco. ¿cuál es el flujo de caja proyectado para Julio? ¿qué talla de camisa se vende más?

Es cuando nos movemos a categorías más complejas que necesitamos mejorar los modelos.

¿qué color de camisa se vende más? Es una pregunta similar, pero de respuesta mucho más compleja (probablemente un mal ejemplo, ya que la respuesta debe ser blanca).

Un mismo objeto, una misma transacción puede corresponder a varias categorías. Las fronteras de dichas categorías pueden superponerse. Podemos tener información parcial o contradictoria.

Las taxonomías permiten administrar estas clasificaciones más amplias en significado. Tener varios colores agrupados en verde…e incluso el mismo color como verde y amarillo (¿verde-limón?, la verdad lo de los colores no es lo mío) o bajo verde y bajo claro, como color primaveral o femenino.

Así podemos encontrar patrones más significativos sobre información que no podemos clasificar directamente. Aplicando técnicas estadísticas similares a las de los valores estructurados, puedo describir objetos, clientes, contenido u otros atributos de mi información en formas que no es posible si consideramos solo su valor directo.

Las taxonomías no solo describen categorías, sino que describen relaciones, <la camisa> tiene <color verde>; <la camisa> es de talla <XL> y así sucesivamente.

La naturaleza jerárquica de las categorías y las redes semánticas que determinan permiten buscar respuestas a nuevas preguntas y anticipar situaciones que no existen en los modelos de dato. Las herramientas ayudan, pero es el poder modelar las categorías y sus significados que hacen la magia.

¿Puedo ayudar?