Blog de Miguel Martínez Álvarez: Tercer artículo (Parte IV)

Medida de Relevancia.

Partiendo de los problemas de las técnicas convencionales se puede concluir que, dado un interes de un usuario (representado por sus términos de consulta), hay una probabilidad de que un documento dado (representado por los mismos términos) sea relevante realmente para dicho usuario.

Las técnicas convencionales usaban medidas lógicas (si-no) entre los términos del índice y los documentos siendo mucho más razonable el uso de una medida probabilística.

Dado un indice con pesos es más posible caracterizar con más precisión el contenido de un documento. Estos pesos serán utilizados para obtener las medidas de relevancia de los documentos.

En el siguiente punto del artículo se explican conceptos de la relevancia y la "cantidad de información" (amount of information) . El problema en este punto es definir de una manera precisa el concepto de relevancia y el poder tener una medida cuantitativa de esta. Al menos deberiamos ser capaces de tener una medida comparativa para ordenar los documentos.

Explicar la noción de relevancia es similar a explicar el concepto de cantidad de información (concepto básico en teoría de la comunicación). En el libro "The Mathematical Theory of Communication" Shannon explica la cantidad de información de un mensaje dado en términos probabilísticos de una manera similar a como se calcularía la relevancia de un texto.

P(A,B) simboliza la probabilidad de que un evento de la clase B ocurra con referencia a un evento de la clase A.

Di: Obteniendo el documento i-ésimo y buscando su relevancia
Ii: Pidiendo información sobre documentos designados con el término j-ésimo del índice
A: Solitidando información de la biblioteca

Así puede decirse que P(A.Ij,Di) = La probabilidad de que una petición de usuario sobre Ij sea satisfecha con el documento Di. De esta manera si P(A.Ij,D1) > P(A.Ij,D2) entonces D1 es más relevante que D2.

Utilizando nociones de calculo de probabilidades (para toda petición Ij P(A, Ij) es una constante) se puede llegar a la conclusión de que:

P(A.Ij,Di) = (P(A,Di)*P(A.Di,Ij)) / P(A,Ij)
P(A.Ij,Di) ~ P(A,Di)*P(A.Di, Ij)

Siendo P(A.Di,Ij) la probabilidad de que si se requiere buscar información del tipo contenido en el documento se hará formulando una petición con Ij.

A la probabilidad P(A.Ij, Di) se la llamara número de relevancia del documento i-ésimo respecto a la petición dada.

Partiendo de la hipótesis de que el peso de una etiqueta para un documento puede ser interpretada como un estimador de P(A.Di, Ij) entonces:

P(A.Ij, Di) = aj * P(A, Di) wij;
wij es el grado en el que el término j-ésimo se aplica al i-ésimo documento
P(A, Di) es la probabilidad del documento Di
aj es el factor de escalada

Podemos definir el peso de una etiqueta como Wij = estimación de P(A.Di, Ij). Este término se conoce como el peso modificado ("modified weight").

Como resumen de esta pequeña as parte decir que las estadísticas de biblioteca nos dan P(A, Di), los pesos (una vez escalados) estiman P(A.Di, Ij) por lo que podemos hallar P(A.Ij, Di) por lo que se pueden ordenar los documentos en función de la relevancia.

--------------------- ------------------------
Elaboración de un proceso de selección automático

Dada una petición esta selecciona una clase de documentos a través de una función de matching. El articulo propone dos métodos por el cual se extiende la clase C en la dirección más probable:

1. Transformar la petición R en R' de tal forma que R' selecciona una clase de documentos C' que contiene más elementos (y más elementos relevantes) que C.

2. Usar la clase C para generar una nueva clase C'' en función de parecidos semánticos entre terminos y documentos.

Un conjunto de reglas que indican cómo transformar una consulta en una clase de documentos obtenidos es una estrategia. Dicha estrategia involucra varias técnicas de medida de similitudes entre términos y documentos. En este punto se explican con un mayor detalle las dos tecnicas anteriores:

1. Definimos f(R) = C siendo f una función que transforma consultas de entrada en una clase de documentos. El problema a solucionar es agrandar C para obtener más documentos relevantes y menos irrelevantes. Suponiendo que R' es una consulta similar a R definimos la función f' como sigue:

f'(R) = f(R) v f(R') = C v C'

Obviamente debemos definir una medida de similitud en el espacio de consultas. Suponiendo que tenemos una medida de similitud f'(R) sería la unión de todas las clases de documentos obtenidos a partir de una consulta R' tal que la similitud entre R y R' fuera mayor que cierto umbral (e)

2. Del mismo modo para la técnica dos, si tenemos una medida de la distancia entre documentos, podemos definir:

f''(R) = C''

-------------------------------- -----------------------------

Agrupamientos en el espacio de índices

Entre los términos del índice pueden darse dos tipos de relaciones.

1. Relaciones semánticas: Que van desde los sinónimos hasta relaciones del tipo "parcialmente implicado por" e "implica parcialmente". Este tipo de relaciones se basa en el contenido semántico de los términos.

2. Relaciones estadísticas: Basadas en la frecuencia relativa de ocurrencias de los términos usados como índices.

Las relaciones semánticas se basan sólamente en el significado de los términos, de manera independiente del contexto del documento. Por su parte las relaciones estadísticas se basan en el contenido de los documentos (ej: "Shannon" y "information theory" posiblemente tengan una relación estadística en textos informáticos pero no una relación semántica).

Una vez identificadas estas relaciones hacen falta reglas para moverse en el espacio de los puntos conectados. Al este conjunto de reglas se le conoce como heurístico. Básicamente el heurístico indica (A partir de una consulta) que términos "ver" y "ver también". También indica la profundidad de la búsqueda y cuando parar el algoritmo (en función normalmente del número de documentos obtenidos y su relevancia).

El conjunto de dispositivos, reglas, heurísticos, ... que permite pasar de una entrada (consulta) a una salida (clases de documentos recuperados) es una estrategia.

Blog de Miguel Martínez Álvarez

miércoles, 10 de octubre de 2007

Tercer artículo (Parte IV)

No hay comentarios:

Archivo del blog

Datos personales