martes, 30 de septiembre de 2008

SVD en la semántica latente

En el anterior artículo se explicaba por encima el funcionamiento de la semántica latente pero uno de los puntos clave apenas se citó. La técnica conocida como "Singular value decomposition" analiza la matriz de pesos original (termino-documento) obteniendo a continuación tres matrices distintas que interpretadas correctamente proporcionan el modelo de semántica latente. Explicada de una manera más sencilla podría decirse que a partir de esta técnica podemos observar las relaciones entre distintos elementos del sistema excluyendo buena parte del "ruido" existente en dichas relaciones.

Este tipo de análisis no se va a analizar en detalle dado que no es el objeto de este proyecto pero si se van a analizar las matrices obtenidas y las posibilidades que nos ofrecen.

* Se van a escribir las matrices poniendo entre paréntesis sus dimensiones debido a las limitaciones del editor.

Partiendo de la matriz original X(txo) que relaciona términos con documentos se descompone en un conjunto de factores ortogonales , en los estudios se utiliza un valor entre 50 y 100. A partir de estos elementos se puede aproximar la matriz original X mediante combinaciones lineales. La descomposición de la matriz original es la siguiente:

X(txo) = T0(txr) S0(rxr) O0'(rxo)

T0 y O0 tienen columnas ortogonales mientras que S0 es la diagonal. En el caso de observar solamente los k valores independientes más significativos la ecuación cambia convirtiendose en el modelo reducido que es el que se utiliza en la técnica de la semántica latente.

X(txr) "parecido" X^(txo) T(txk) S(kxk) O'(kxo)

Comparación de dos términos
Se puede obtener de una manera sencilla la matriz de relaciones entre cada par de términos utilizando la ecuación siguiente:

TS²T'

Comparación de dos documentos
Para obtener la relación existente entre cada par de documentos ha de aplicarse la siguiente ecuación:

DS²D'

Comparación entre término y documento
La matriz que almacena la comparación entre cada par término-documento se puede obtener aplicando:

TSD'

viernes, 26 de septiembre de 2008

Semántica Latente

Acabo de hacer la primera lectura a los artículos sobre semántica latente y he de decir que me parece una técnica que parte de unas ideas muy interesantes.

Si he entendido bien los artículos, el modelo de semántica latente parte del hecho de que una query y un documento sin términos comunes podrían estar hablando de lo mismo (dado que puede tener términos sinónimos) mientras que si tuvieran términos comunes podrían hablar de cosas completamente distintas (polisemia).

Partiendo de estos problemas esta técnica se resume de forma muy esquematizada como sigue:

1. Partimos de una representación similar a la del modelo vectorial de tal manera que tenemos un vector de pesos (un peso por cada término del índice) para cada documento.

2. Se aplica un método estadístico conocido como "singular-value-decomposition" descomponiendo la matriz original en 3 matrices de una forma muy específica. Esta descomposición permite observar la relevancia de cada término de manera independiente del resto de los términos.

3. Algunos de los componenetes de las matrices anteriores tienen valores muy pequeños y pueden ignorarse. Una vez aplicada una reducción de los términos tendremos una versión reducida de las matrices anteriores.

4. Al considerar únicamente los componentes más importantes de forma independiente estamos teniendo en cuenta las asociaciones más fuertes dentro de la estructura estudiada. El utilizar sólo las relaciones más fuertes posibilita la eliminación, al menos en parte, del "ruido" producido por la polisemia y la sinonimia.

5. A partir del modelo reducido se puede aproximar mediante combinación lineal el resto de valores de la matriz termino-documento. Las filas de la matriz aproximada de término-documento son utilizadas para el cálculo de similitud entre documentos ya sea por el método del coseno o por cualquier método similar.

Nota: a partir de la descomposición SVD se pueden observar relaciones independientes entre términos y / o documentos mediante cálculos matriciales sencillos

jueves, 25 de septiembre de 2008

Organización del pfc

Estoy teniendo algunos dilemas últimamente en cómo organizar bien la parte de Antecedentes (estado del arte) para que resulte intuitivo y fácil de leer.

La idea que manejo ahora y que me parece la más correcta es la siguiente:

1. Conceptos previos
1.1. Objetivos de la recuperación de información
1.2. Análisis de información
1.3. Complejidad
2. Resumen historico
2.1. Inicios
2.2. Sistemas automáticos para bibliotecas
2.3. World Wide Web
2.4. Nuevas investigaciones
3. Modelos de recuperación de información
3.1. Modelo booleano
3.2. Modelo Booleano extendido
3.3. Modelo probabilístico
3.4. Modelo vectorial
3.5. Modelos basados en lógica borrosa
3.6. Modelos lógicos
3.7. Modelo basados en la interactividad
3.8. Modelos basados en la Inteligencia Artificial
3.9. Modelos basados en semántica latente
3.10. Modelos basados en semántica distribuida
4. Técnicas de procesamiento
4.1. Escaneado de sentencias clave
4.2. Proceso de eliminación sintáctica
4.3. Selección de frases preposicionales
4.4. Lematización
4.5. Detección de sinónimos
4.6. Diccionarios de frases
4.7. Metodos de expansión jerárquicos
4.8. Elaboración automática del proceso de selección


De esta forma describo por una parte los modelos y por otra las técnicas específicas (que pueden usar varios modelos) referenciandolos correctamente según corresponda...

jueves, 18 de septiembre de 2008

Resurgimiento

Después de un curso bastante intenso he retomado estos días el proyecto fuertemente. Por fin he comenzado a redactar parte de los antecedentes de la documentación (lo que se suele llamar estado del arte) y a recordar todo lo aprendido hace casi un año.

De momento no he tenido problemas graves y todo sigue su ritmo por lo cual este mensaje solo será un formalidad para indicar que sigo trabajando en ello. A lo largo de la semana que viene publicare la jerarquía del documento y cuando Dani vuelva de sus vacaciones le enviaré el borrador que tenga en ese momento.