viernes, 26 de septiembre de 2008

Semántica Latente

Acabo de hacer la primera lectura a los artículos sobre semántica latente y he de decir que me parece una técnica que parte de unas ideas muy interesantes.

Si he entendido bien los artículos, el modelo de semántica latente parte del hecho de que una query y un documento sin términos comunes podrían estar hablando de lo mismo (dado que puede tener términos sinónimos) mientras que si tuvieran términos comunes podrían hablar de cosas completamente distintas (polisemia).

Partiendo de estos problemas esta técnica se resume de forma muy esquematizada como sigue:

1. Partimos de una representación similar a la del modelo vectorial de tal manera que tenemos un vector de pesos (un peso por cada término del índice) para cada documento.

2. Se aplica un método estadístico conocido como "singular-value-decomposition" descomponiendo la matriz original en 3 matrices de una forma muy específica. Esta descomposición permite observar la relevancia de cada término de manera independiente del resto de los términos.

3. Algunos de los componenetes de las matrices anteriores tienen valores muy pequeños y pueden ignorarse. Una vez aplicada una reducción de los términos tendremos una versión reducida de las matrices anteriores.

4. Al considerar únicamente los componentes más importantes de forma independiente estamos teniendo en cuenta las asociaciones más fuertes dentro de la estructura estudiada. El utilizar sólo las relaciones más fuertes posibilita la eliminación, al menos en parte, del "ruido" producido por la polisemia y la sinonimia.

5. A partir del modelo reducido se puede aproximar mediante combinación lineal el resto de valores de la matriz termino-documento. Las filas de la matriz aproximada de término-documento son utilizadas para el cálculo de similitud entre documentos ya sea por el método del coseno o por cualquier método similar.

Nota: a partir de la descomposición SVD se pueden observar relaciones independientes entre términos y / o documentos mediante cálculos matriciales sencillos

No hay comentarios: