lunes, 19 de noviembre de 2007

Automatic Content Analisis (Parte V)

En esta entrada (espero que sea la última de este tema) se van a resumir las partes del artículo relacionados con el asociamiento estadístico de términos y con la búsqueda de información controlada por usuario.

Asociación estadística de términos
En esta parte del artículo se observa cómo el análisis de contenido no ha tenido en cuanta ciertos tipos de asociación entre términos (solo tienen en cuenta relaciones existentes en los diccionarios).

El tipo de relación que se cita a continuación se basa en que dos términos están relacionados entre si cuando son "encontrados" de manera coocurrente frecuentemente en el mismo contexto. A partir de este hecho, dado un vector de conceptos asignado a un documento o a una consulta, puede expandirse añadiendo aquellos conceptos que tienen un nivel de similitud por encima de cierto umbrál.

El artículo explica (después de realizar experimentos) que un sistema de recuperación usando asociación da un grado de efectividad mayor que un sistema basado únicamente en matching de palabras. Sin embargo también defiende que un proceso normal de tesauro es mucho mejor como dispositivo de procesamiento de lenguaje que el método de asocición estadística.

Los sistemas de asociación estadística son por lo tanto más eficientes en los casos en los que no se dispone de un tesauro.
--------------------------------

Busqueda de información controlada por usuario
En el sistema SMART los vectores de concepto generados para cada documento individual en la fase de análisis se comparan con los vectores asignados con las consultas realizadas y aquellos documentos que son encontrados más similares son devueltos al usuario.

El sistema SMART tiene la particularidad de tener múltiples sistemas de análisis de contenidos que devuelven unos resultados u otros en función de los distintos usuarios (algunos centrados en la precisión, otros en el recall). De esta forma es obvio que no puede haber una solución correcta para todos los usuarios.

En este punto del artículo se propone un feddback de tal manera que se realice una búsqueda parcial. A partir de los resultados mostrados se podrá realizar un ajuste de parámetros antes de realizar una segunda búsqueda más refinada.

Hay muchos métodos que se basan en sistemas de feedback. El artículo cita varios de ellos:

1. Diccionario mecánico -> Presenta al usuario una lista de los posibles términos relacionados con la consulta realizada por el usuario. Se sugiere al usuario que puede reformular la pregunta con alguno de los términos nuevos.

El uso de terminos asociados de manera estadística tambien puede proporcionar nuevos potenciales términos de búsqueda, al igual que las clases de un tesauro en caso de usarse.

El problema de este método es que deja la carga de la reformulación de la consulta en manos del usuario.

2. Reformulación automatica de consulta -> A partir de los resultados de una búsqueda previa se realiza una reformulación de la consulta. El usuario (a partir de los resultados de una primera búsqueda) dice, para documento, si es relevante o no para su propósito.

Con esta información se reformula la consulta con los términos de los documentos relevantes y sin los conceptos de sean irrelevantes para todos los documentos escogidos. Este método produce considerables mejoras en la efectividad de la búsqueda.

3. Alterar el proceso de análisis -> Esta solución solo es posible en sistemas como SMART que tengan implementadas varias estrategias de análisis de contenidos. Este método tiene como ventaja añadida el poder elegir qué método de análisis puede ser mejor para cada caso.

miércoles, 14 de noviembre de 2007

Automatic Content Analisis (Parte IV)

Jerarquía de conceptos

El artículo continua explicando cómo se utilizaban desde hace muchos años las jerarquías de conceptos en las bibliotecas. Partiendo de esta base indica que pueden usarse en los sistemas de análisis de contenido para la identificación de información y para propósitos de recuperación.

Usando está técnica, es posible extender busquedas a través de los conceptos de la jerarquía.
(Nota mia) Por ejemplo, en el caso de no encontrar sufucientes documentos con una búsqueda podemos devolver los documentos asociados con su concepto padre.

El sistema SMART incluye la jerarquía de conceptos. Se asume que una consulta al tesauro precede cualquier operación de expansión jerárquica.
(Nota: Las jerarquías de conceptos también pueden representar relaciones de referencia cruzada además de relaciones padre-hijo. Este tipo de relaciones no especificadas reciben una interpretación distinta al resto de relaciones)

En cuanto a la estructura misma de la jerarquía, es lógico pensar que los términos más generales estarán cerca de la raíz mientras que los más especificos más cerca de las hojas. El artículo, además de este razonamiento también dice que parece haber una relación entre la frecuencia de ocurrencia de un término y su lugar en la jerarquía.

Los términos con mayor frecuencia (y por lo tanto "teoricamente" los más comunes) deberían colocarse en un nivel superior a aquellos con menor frecuencia.

Las jerarquías de conceptos dependen de los documentos o los usuarios en sí. Un concepto, en función del contexto, tendrá un concepto padre u otro. Partiendo de esta premisa está claro que no puede haber una jerarquía genérica que sirva a todos los usuarios y circunstancias.

Los sistemas de jerarquía pueden servir para sugerir ampliaciones o reducciones de una consulta o de cierta interpretación.

martes, 13 de noviembre de 2007

Automatic Content Analisis (Parte III)

Diccionarios de frases de manera sintáctica y estadística:

Los métodos considerados anteriormente se basaban en el análisis de palabras sueltas. En este caso se utiliza como unidad la frase en vez de la palabra. El usar un conjunto de palabras tiene ventajas respecto a cada una de sus palabras por separado, una de estas ventajas es que su significado suele ser más especifico y por lo tanto menos ambigüo.

Los diccionarios de frases incluyen normalmente pares, triplas o cuadruplas de palabras de tal forma que identifican combinaciones de conceptos. Estas frases son las que se presuponen más esperadas para indicar el contenido de un tema dado.

Para la construcción de este tipo de diccionarios hay varias técnicas. Una de ellas es basarse en las combinaciones de palabras con una alta frecuencia en los documentos o en las consultas. Por otra parte se puede partir de un tesauro previamente creado.

En el sistema SMART se optó por basar el diccionario de frases en coocurrencias de los conceptos del tesauro.

Principalmente hay dos técnicas de detección de frases. Los métodos estadísticos (que usan las estadísticas de co-ocurrencias entre componentes de frases) y los métodos sintácticos (que se basan en reglas sintácticas para detectar las frases).

(Nota: Según experimentos del artículo las frases suelen tener normalmente dos términos o como mucho tres)

En el caso del análisis sintáctico (dependiente de idioma), para cada frases sintáctica se obtiene no solo la lista de conceptos de los componentes sino también ciertos indicadores sintácticos de tal manera que se pueden observar las relaciones sintácticas entre componentes.

El artículo, apoyado en experimientos, defiende que el uso de técnicas de procesamiento de frases son más efectivas que el uso único del tesauro.

Por otra parte también concluye que el uso de técnicas estadísticas o sintácticas no tienen una gran diferencia de efectividad, sin embargo, el análisis sintáctico necesita mucha mayor potencia computacional.

(Nota: Otro problema es que el análisis sintáctico es diferente para cada idioma)

lunes, 12 de noviembre de 2007

Automatic Content Analisis (Parte II)

Los diccionarios de raices y la lista de sufijos:
Una de las primeras idéas para la recuperación de la información fue el uso de las palabras contenidas en los documentos y de las búsquedas para propositos de identificación de contenidos. El documento además defiende que los métodos de matching de vocabulario son satisfactorios para ciertos tipos de usuarios.

A continuación se citan algunas "entidades" usadas en los métodos de matching:

a. El diccionario de palabras inglesas

b. Vocabulario omitiendo la "s" final para equiparar singulares a plurales y la tercera persona de los verbos

c. Mediante una técnica más refinada pueden convertir cada palabra a su raíz eliminando prefijos y sufijos típicos antes de hacer el matching.

Cualquiera de las tres técnicas anteriores pueden ser aplicadas a todo el texto o a ciertas palabras comunes (el resto no se tendrá en cuenta).

(Nota: Hay que recordar que estos métodos, tal y como estan expuestos son dependientes completamente del idioma)

Los términos pueden tener cierto peso asociado en función de su importancia en un texto (normalmente proporcional a la frecuencia de aparición). En el caso del sistema SMART la decisión fue aplicar al menos una normalización mínima realizando stemming, usar una lista de exclusión para eliminar palabras comunes y dar a cada palabra un peso proporcional a su frecuencia en el texto. Del mismo modo el sistema tiene ciertas reglas morfológicas incorporadas para la correcta obtención de la raíz.

(Nota: En el caso del uso del stemming obviamente el peso es con relación a la frecuencia de la raíz)

El texto concluye en la parte del sistema de stemming que en un sistema sencillo de recuperación, dado un conjunto de raíces y consultas de búsqueda pueden ser usados directamente como indicadores de similitud de contenido aunque también pueden usarse otros métodos más sofisticados como se verán a continuación.

-----------------------------------
Diccionario de sinónimos (Tesauro)

Un tesauro es un conjunto de palabras (o raíces de palabras) agrupados en categorias, llamadas clases. Una de las posibles implementaciones es relacionar cada clases conceptual con algún número.

Al construir los tesauros se dan tres tipos de problemas:
1. Decidir qué palabras se incluyen
2. Decidir qué tipo de categorias de sinónimos deben usarse
3. Decidir dónde debe aparecer cada palabra en la estructura del tesauro

Por supuesto no existe una configuración "mágica" válida para todos los casos por lo que dicha configuración depende del contexto y del propio tesauro. Aún así el texto (basandose en experimentos con tesauros) defiende que ciertos tipos de tesauros son más efectivos que otros.

En particular defiende el uso de tesauros en los que los términos con alta frecuencia deban ser eliminados o deban aparecer por si mismos en clases de concepto. Los términos con baja frecuencia deben agruparse en clases con otros términos de baja frecuencia.

Por último los términos con poca significación técnica deben ser eliminados y los términos ambigüos solo deben aparecer en aquellas clases en las que pueden llegar a necesitarse en la práctica.

El peso de un concepto es determinado tanto por el número de palabras mapeadas en la clase como por el tipo de tesauro utilizado. El peso de palabras ambigüas mapeados en más de una clase es dividido entre el número posible de clases.

La filosofía del sistema SMART se podría resumir en que no es necesario eliminar asignaciones ocasionales incorrectas dado que está diseñado para asignar un número grande de conceptos de los cuales una gran parte se espera que estén bien asignados.