Resumen

  • Desde hace un par de años, la inteligencia artificial está permitiendo la interpretación de documentos y su clasificación en niveles similares a los realizados por expertos humanos.
  • A través de años de experiencia concreta en la automatización de procesos de consolidación, edición, revisión y publicación de datos, he desarrollado un modelo que permite balancear ambos requerimientos
  • Adquirir masivamente información desde fuentes públicas
  • Clasificar el contenido en formas taxativas y valorativas, descubrir los datos estructurados presentes en dichos documentos y clasificar en ontologías que reflejen su intención y discurso.

Introducción

En general pensamos que el contenido de un periódico, revista, sitio web o blog es solo un trozo de texto que contiene ideas o imágenes o números. Sin embargo dicha página o segmento contienen toda una carga de significado que da  sentido a dicho contenido. (Estoy usando el término contenido en un sentido amplio, tanto para información estructurada, semi-estructurada o no estructurada).

La invasión o inundación de información, real, apócrifa, errónea o derechamente falsa, crea la necesidad de veracidad y credibilidad en la fuente. Asimismo la inundación de información dificulta la ecualización, la búsqueda y la valoración de los documentos.

Paradójicamente los usuarios esperan el volumen y el detalle de estar flotando en la mitad del océano de datos y la precisión quirúrgica de encontrar la información precisa.

Por otra parte la estructuración de la información en formas consistentes y semánticamente relevantes se hace más y más difícil.

El modelo se basa en 4 elementos arquitectónicos que dan cuenta de la adquisición, la clasificación, la distribución y el análisis de la información

Estos elementos los he integrado en una arquitectura que permite el avance escalonado y en etapas.

Una nota de advertencia: No estoy pensando el proceso como una solución para el escritor ocasional de blog, cómo esta publicación por ejemplo, sino para las empresas o unidades que se dedican a proveer de información a sus organizaciones o al público de manera más industrial. Los conceptos son similares, pero el volumen hace una gran diferencia.

Etapas de una arquitectura de contenido

Proceso de creación de contenido

Adquisición

Aún en los casos de documentos o contenido originales, una gran cantidad de información es usada como fuente o referencia. Con mayor proporción en los casos de compilaciones o referencias.

La primera parte del proceso es buscar dichas referencias, limpiarlas, catalogarlas y almacenarlas en una forma independiente de su formato original. En los procesos subsecuentes es importante la estandarización y ecualización de la información.

Las técnicas de machine learning permiten capturar y limpiar muchas fuentes en forma automática para generar gran cantidad de referencias.

La ecualización de formato permite la integración de contenido diverso para el enriquecimiento de conocimiento.

Clasificación

Asignar las etiquetas apropiadas a un componente del contenido requiere un modelo de metadata. No me refiero acá a la metadata básica, como fecha de creación o autor, sino a las etiquetas que definen su significado.

En general pensamos en un contenido: un texto, una imagen o un número como una entidad autónoma y auto explicada. Para entender el texto hay que leerlo y para entender la imagen, hay que mirarla.

Hay 2 temas que se debe considerar,

Que mucho contenido es un compendio de varios otros (combina texto e imágenes, datos y gráficos, video y datos, etc.) y

Aunque dispongamos de herramienta de indexación poderosas (como Google) el documento se puede buscar sólo por su contenido literal (por ejemplo, palabras que se encuentren dentro del texto, elementos de la imagen) y no por lo que ellas puedan significar o relacionarse semánticamente con otros documentos.

Sin embargo, cuando buscamos información, algo no trivial, necesitamos contar con una herramienta que permita “entender” lo que dicen dichos documentos que almacenan el contenido.

La clasificación entonces, permite dotar a los documentos (o contenido) de un significado.

En la forma más básica son tags sencillos que describen lo que contienen (fútbol, farándula, estadísticas de minería, tipos de cambio) en su forma más rica permiten tener un modelo semántico de lo que contiene (precios de intercambio de jugadores de futbol, matrimonio entre modelo y millonario, precio en dólares de producción mensual de cobre en Chile). Donde cada uno de los componentes de la oración descriptiva es parte de una estructura multidimensional (taxonomía y/u ontología).

Es acá donde se puede integrar herramientas de clasificación de documentos y machine learning para automatizar la clasificación y enriquecer las catalogaciones.

Distribución y Publicación

Una vez que se ha creado, integrado y clasificado el contenido, está listo para ser publicado distribuido.

El formato y los canales de distribución pueden ser múltiples, pero al basarse en un mismo repositorio de información, es más simple administrar las idiosincrasias de cada uno de ellos.

Análisis

Con la publicación no terminan las posibilidades del aprovechamiento del contenido.

Con el proceso propuesto se pueden estructurar bases de dato de información que poseen relaciones explícitas (a través de llaves y campos como cualquier base de datos), pero también relaciones semánticas.

Las técnicas estadísticas y de machine learning permiten analizar dichas relaciones para crear conocimiento, detectar patrones y tendencias.

El océano de información disponible se puede entonces navegar con sentido y utilidad.

Integración de las componentes del proceso

El siguiente diagrama intenta ilustrar una forma de conexión entre los componentes de la arquitectura que permite implementar esta arquitectura

componentes de la arquitectura

Puedo ayudar?