lunes, 12 de noviembre de 2007

Automatic Content Analisis (Parte II)

Los diccionarios de raices y la lista de sufijos:
Una de las primeras idéas para la recuperación de la información fue el uso de las palabras contenidas en los documentos y de las búsquedas para propositos de identificación de contenidos. El documento además defiende que los métodos de matching de vocabulario son satisfactorios para ciertos tipos de usuarios.

A continuación se citan algunas "entidades" usadas en los métodos de matching:

a. El diccionario de palabras inglesas

b. Vocabulario omitiendo la "s" final para equiparar singulares a plurales y la tercera persona de los verbos

c. Mediante una técnica más refinada pueden convertir cada palabra a su raíz eliminando prefijos y sufijos típicos antes de hacer el matching.

Cualquiera de las tres técnicas anteriores pueden ser aplicadas a todo el texto o a ciertas palabras comunes (el resto no se tendrá en cuenta).

(Nota: Hay que recordar que estos métodos, tal y como estan expuestos son dependientes completamente del idioma)

Los términos pueden tener cierto peso asociado en función de su importancia en un texto (normalmente proporcional a la frecuencia de aparición). En el caso del sistema SMART la decisión fue aplicar al menos una normalización mínima realizando stemming, usar una lista de exclusión para eliminar palabras comunes y dar a cada palabra un peso proporcional a su frecuencia en el texto. Del mismo modo el sistema tiene ciertas reglas morfológicas incorporadas para la correcta obtención de la raíz.

(Nota: En el caso del uso del stemming obviamente el peso es con relación a la frecuencia de la raíz)

El texto concluye en la parte del sistema de stemming que en un sistema sencillo de recuperación, dado un conjunto de raíces y consultas de búsqueda pueden ser usados directamente como indicadores de similitud de contenido aunque también pueden usarse otros métodos más sofisticados como se verán a continuación.

-----------------------------------
Diccionario de sinónimos (Tesauro)

Un tesauro es un conjunto de palabras (o raíces de palabras) agrupados en categorias, llamadas clases. Una de las posibles implementaciones es relacionar cada clases conceptual con algún número.

Al construir los tesauros se dan tres tipos de problemas:
1. Decidir qué palabras se incluyen
2. Decidir qué tipo de categorias de sinónimos deben usarse
3. Decidir dónde debe aparecer cada palabra en la estructura del tesauro

Por supuesto no existe una configuración "mágica" válida para todos los casos por lo que dicha configuración depende del contexto y del propio tesauro. Aún así el texto (basandose en experimentos con tesauros) defiende que ciertos tipos de tesauros son más efectivos que otros.

En particular defiende el uso de tesauros en los que los términos con alta frecuencia deban ser eliminados o deban aparecer por si mismos en clases de concepto. Los términos con baja frecuencia deben agruparse en clases con otros términos de baja frecuencia.

Por último los términos con poca significación técnica deben ser eliminados y los términos ambigüos solo deben aparecer en aquellas clases en las que pueden llegar a necesitarse en la práctica.

El peso de un concepto es determinado tanto por el número de palabras mapeadas en la clase como por el tipo de tesauro utilizado. El peso de palabras ambigüas mapeados en más de una clase es dividido entre el número posible de clases.

La filosofía del sistema SMART se podría resumir en que no es necesario eliminar asignaciones ocasionales incorrectas dado que está diseñado para asignar un número grande de conceptos de los cuales una gran parte se espera que estén bien asignados.

No hay comentarios: