miércoles, 17 de octubre de 2007

Tercer artículo (Parte V)

En la que será la última entrada del blog sobre este artículo se indican tres medidas de similitud en el espacio del índice además de conceptos de distancia en el espacio de documentos y estrategias de búsqueda.

Las tres medidas de similitud en el espacio del índice permiten seleccionar nuevos términos sobre los que hacer consultas similares a la dada.

1. Al primer heurístico se le conoce como la probabilidad condicional. Definimos N(Ij) como la frecuencia con la que cada término es usado para etiquetar un documento y N(Ij,.Ik) como la frecuencia con la que ambos términos (juntos) son usados para etiquetar documentos. A partir de esta definición obtenemos P(Ij.Ik) que es la probabilidad de que si Ij está asignado a un documento Ik también lo está:

P(Ij, Ik) = N(Ij.Ik) / N(Ij)

Al repetir este proceso para cada par de términos se conoce qué términos son similares a otros, pero sigue sin tenerse una medida cuantitativa. Definimos pj como:

pj = P(Ij, Ij'); Siendo el Ik que hace P(Ij, Ik) máximo para un Ij dado.

Normalizamos pj sobre los términos usados en la consulta. A partir de este momento reemplazamos wi(Ii') [el peso asignado a Ij' para el documento i-ésimo) por la normalización de pj multiplicada por wi(Ii').

Este es un método elemental basado en relaciones estadísticas entre términos del índice.

2. El segundo heurístico se conoce como probabilidad condicional inversa. En este caso se calcula la medida de similitud de los términos hacia el término buscado (Ij). Al calcular el máximo de P(Ik, Ij) variando Ik obtenemos la etiqueta que más fuertemente implica al término dado Ij.

En este heurístico se define:
pj = P('Ij, Ij) ; Siendo 'Ij el Ik que hace P(Ik, Ij) máximo para un Ij dado.

A continuación al igual que en el punto anterior debe normalizarse el resultado.

3. El tercer heurístico es el más prometedor de los comentados. Se conoce como los coeficientes de asocicación entre predicados.

Partiendo de las etiquetas Ik e Ij se parte la biblioteca en cuatro particiones (nota: La sintaxis de complemento sería una ralla sobre los términos, por problemas con el editor se utilizara "!" para preceder al término):

1. Documentos indexados por Ik e Ij (Ij.Ik)
2. Documentos indexados por Ij pero no por Ik (Ij.!Ik)
3. Documentos indexados por Ik pero no por Ij (!Ij.!k)
4. Documentos no indexados por ninguno de los términos (!Ij.!Ik)

En este punto se deduce que Ij es estadísticamente independiente de Ik si:
P(Ij, Ik) = P(Ik)
P(In.Ik) = P(Ij)*P(Ik)
N(Ij.Ik) = N(Ij)*N(Ik)/n

Para cada par de valores observamos el exceso de N(Ij.Ik) sobre su valor de independencia.
a(Ij,Ik) = N(Ij.Ik) - N(Ij)*N(Ik)/n

Definimos sobre las condiciones anteriores un coeficiente cuyo rango varía entre -1 y 1 de tal manera que es 0 en el caso de que a(Ij,Ik) sea 0:

Q(Ij,Ik) = (N(Ij.Ik) * N(!Ij.!Ik) - N(Ij.!Ik) * N(!Ij.Ik)) / (N(Ij.Ik) * N(!Ij.!Ik) + N(Ij.!Ik) * N(!Ij.Ik))

El algoritmo, dada una consulta R = Ij, selecciona Ik (distinto de Ij) con el máximo coeficiente Q(Ij,Ik). El valor debe de estar comprendido entre 0 y 1 o ningún término será seleccionado. Del mismo modo que se hacia en los anteriores heurísticos, debe normalizarse el resultado multiplicando wi(Ik) por el valor de Q(Ij, Ik).

Los tres heurísticos que se han citado son heurísticos de profundidad uno. Si se volviera a utilizar el heurístico (con el valor Ik) tendríamos heurísticos de profundidad dos en cadena,... En el caso de reuilizar el heurístico con el valor Ij en vez de Ik tendríamos heurísticos de profundidad dos concentrada (two-deep hub search). Para configuraciones más complejas podrían cambiarse las medidas de cercanía para las posteriores búsquedas, construyendo así sistemas de búsquedas todo lo complejas que se quieran.

---------------------------- -----------------------

Heurísticos en el espacio de documentos (edición del 24 Oct 07)

Se desea tener una clase de heurísticos (extension heuristics) mediante los cuales se pueda extender una clase de documentos atendiendo a dicha clase (que sería una "pista" sobre la intención de búsqueda del usuario).

A(Di, Dj) = Distancia entre documento i y documento j

Partiendo de wi(R) y A(Di, Dj) podemos definir la distancia entre una petición y un documento Di como:

d(R, Di) = -log wi(R)

No hay comentarios: