miércoles, 24 de octubre de 2007

Automatic Content Analisis (Parte I)

Acabo de terminar de leer por encima el artículo "Automatic Content Analysis in Information Retrieval" y voy a realizar una segunda lectura más detenida mientras resumo su contenido en el blog.

Como en los anteriores casos de una introducción sobre IR añadiendo en este caso una división conceptual de los "trabajos" en los sistemas de IR:

1. Analisis de información: Identificación para cada término almacenado y cada búsqueda de indicadores de contenidos.
2. Búsqueda y recuperación: Operación de matching entre los indicadores de contenidos de los términos almacenados y los de las consultas. También incluye la selección (recuperación) de aquellos elementos que tienen un nivel de similitud mayor de cierto grado con la consulta.

El análisis de contenido puede ser muy exhaustivo (muchos indicadores de contenido muy especídicos) o puede ser poco detallado dando un conjunto pequeño de indicadores muy generales.

En el primer caso se daría sistema de IR cuyas respuestas tendrían precisión y poca exhaustividad, al contrario que el el segundo caso. Llegados a este punto se definen ambos términos:

Precisión(precision): Porcentaje de documentos relevantes respecto de los recuperados.
Exhaustividad (recall): Porcentaje de documentos recuperados de los relevantes totales.

Lo normal es intentar tener un recall razonablemente alto manteniendo la precisión en uno intervalo razonable.

--------
El siguiente punto del artículo es la presentación de los problemas del analisis de contenido, definiendo dos categorias de sistemas automáticos de procesamiento de texto:

1. Text inference systems: Sistemas de procesamiento que permiten confirmar o negar hipótesis en función del texto procesado.

2. Text retrieval systems: Sistemas de procesamiento que indican si el texto procesado puede incluirse en la descripción del usuario de lo que quiere.

Funcionamiento de un sistema de analisis de contenido:
1. Introducción de consultas
2. Conversión de consultas en componentes aceptados por el sistema
3. (resultado del punto anterior) Obtención de conjuntos de indicadores de contenido (vectores de concepto).
4. Comparación de los vectores de las consultas con los indicadores de contenido del sistema de información dado
5. Se extraen los docuementos cuyos vectores coinciden (match) lo suficientemente bien con los de las consultas.

----------------------
Características del sistema SMART

SMART es (en 1968) un sistema autónomo (completamente) de recuperación de información. No necesita ningún tipo de interacción por parte de personas, al contrario de otros sistemas que necesitaban la asignación de terminos del índice, usando para ello principalmente la frecuencia de ocurrencia de ciertas palabras o frases en el texto de los documentos.

El sistema utiliza varias técnicas tales como procedimientos de matching de palabras simples, diccionarios de sinónimos, organización jerárquica de identificadores, generación de frases de manera estadística y sintactica, ...

Una de las características del sistema es que es controlado por el usuario. De esta manera puede configurarse para producir respuestas más cercanas a las esperadas. El sistema se creó como un sistema experimiental de IR e incorpora muchos módulos, algunos de los más interesantes son:

a). Sistema de stemming para el lenguaje inglés: Permite obtener raíz y sufijos de las palabas.

b). Diccionario de sinónimos (también conocido como tesauro): Cambia sinonimos por un "número de concepto" sirviendo además como identificadores de concepto para el sistema.

c). Organización jerárquica de identificadores: A partir de los identificadores del tesauro es posible realizar una organización jerárquica. Una vez realizado esto podemos obtener, para un término dado, sus padres, hijos o hermanos en la jerarquía. Esto permite especializar (hijos), generalizar (padres) y extender con referencias cruzadas (hermanos) las consultas.

d). Estadísticos para calcular coeficientes de similaridad a partir de coocurrencias de conceptos en las sentencias de la colección.

e). Métodos de analisis sintáctico para comparar las sentencias de documentos y consultas con un diccionario de estructuras sintácticas.

f). Métodos estadísticos de matching entre frases

g). Sistema de actualización de diccionarios.

El sistema SMART esta diseñado de tal manera (los detalles no importan) que permite comparar los resultados de los distintos métodos utilizados. En el resto del artículo se presentan tablas y resultados en distintos contextos.

No hay comentarios: