lunes, 19 de noviembre de 2007

Automatic Content Analisis (Parte V)

En esta entrada (espero que sea la última de este tema) se van a resumir las partes del artículo relacionados con el asociamiento estadístico de términos y con la búsqueda de información controlada por usuario.

Asociación estadística de términos
En esta parte del artículo se observa cómo el análisis de contenido no ha tenido en cuanta ciertos tipos de asociación entre términos (solo tienen en cuenta relaciones existentes en los diccionarios).

El tipo de relación que se cita a continuación se basa en que dos términos están relacionados entre si cuando son "encontrados" de manera coocurrente frecuentemente en el mismo contexto. A partir de este hecho, dado un vector de conceptos asignado a un documento o a una consulta, puede expandirse añadiendo aquellos conceptos que tienen un nivel de similitud por encima de cierto umbrál.

El artículo explica (después de realizar experimentos) que un sistema de recuperación usando asociación da un grado de efectividad mayor que un sistema basado únicamente en matching de palabras. Sin embargo también defiende que un proceso normal de tesauro es mucho mejor como dispositivo de procesamiento de lenguaje que el método de asocición estadística.

Los sistemas de asociación estadística son por lo tanto más eficientes en los casos en los que no se dispone de un tesauro.
--------------------------------

Busqueda de información controlada por usuario
En el sistema SMART los vectores de concepto generados para cada documento individual en la fase de análisis se comparan con los vectores asignados con las consultas realizadas y aquellos documentos que son encontrados más similares son devueltos al usuario.

El sistema SMART tiene la particularidad de tener múltiples sistemas de análisis de contenidos que devuelven unos resultados u otros en función de los distintos usuarios (algunos centrados en la precisión, otros en el recall). De esta forma es obvio que no puede haber una solución correcta para todos los usuarios.

En este punto del artículo se propone un feddback de tal manera que se realice una búsqueda parcial. A partir de los resultados mostrados se podrá realizar un ajuste de parámetros antes de realizar una segunda búsqueda más refinada.

Hay muchos métodos que se basan en sistemas de feedback. El artículo cita varios de ellos:

1. Diccionario mecánico -> Presenta al usuario una lista de los posibles términos relacionados con la consulta realizada por el usuario. Se sugiere al usuario que puede reformular la pregunta con alguno de los términos nuevos.

El uso de terminos asociados de manera estadística tambien puede proporcionar nuevos potenciales términos de búsqueda, al igual que las clases de un tesauro en caso de usarse.

El problema de este método es que deja la carga de la reformulación de la consulta en manos del usuario.

2. Reformulación automatica de consulta -> A partir de los resultados de una búsqueda previa se realiza una reformulación de la consulta. El usuario (a partir de los resultados de una primera búsqueda) dice, para documento, si es relevante o no para su propósito.

Con esta información se reformula la consulta con los términos de los documentos relevantes y sin los conceptos de sean irrelevantes para todos los documentos escogidos. Este método produce considerables mejoras en la efectividad de la búsqueda.

3. Alterar el proceso de análisis -> Esta solución solo es posible en sistemas como SMART que tengan implementadas varias estrategias de análisis de contenidos. Este método tiene como ventaja añadida el poder elegir qué método de análisis puede ser mejor para cada caso.

No hay comentarios: