martes, 30 de septiembre de 2008

SVD en la semántica latente

En el anterior artículo se explicaba por encima el funcionamiento de la semántica latente pero uno de los puntos clave apenas se citó. La técnica conocida como "Singular value decomposition" analiza la matriz de pesos original (termino-documento) obteniendo a continuación tres matrices distintas que interpretadas correctamente proporcionan el modelo de semántica latente. Explicada de una manera más sencilla podría decirse que a partir de esta técnica podemos observar las relaciones entre distintos elementos del sistema excluyendo buena parte del "ruido" existente en dichas relaciones.

Este tipo de análisis no se va a analizar en detalle dado que no es el objeto de este proyecto pero si se van a analizar las matrices obtenidas y las posibilidades que nos ofrecen.

* Se van a escribir las matrices poniendo entre paréntesis sus dimensiones debido a las limitaciones del editor.

Partiendo de la matriz original X(txo) que relaciona términos con documentos se descompone en un conjunto de factores ortogonales , en los estudios se utiliza un valor entre 50 y 100. A partir de estos elementos se puede aproximar la matriz original X mediante combinaciones lineales. La descomposición de la matriz original es la siguiente:

X(txo) = T0(txr) S0(rxr) O0'(rxo)

T0 y O0 tienen columnas ortogonales mientras que S0 es la diagonal. En el caso de observar solamente los k valores independientes más significativos la ecuación cambia convirtiendose en el modelo reducido que es el que se utiliza en la técnica de la semántica latente.

X(txr) "parecido" X^(txo) T(txk) S(kxk) O'(kxo)

Comparación de dos términos
Se puede obtener de una manera sencilla la matriz de relaciones entre cada par de términos utilizando la ecuación siguiente:

TS²T'

Comparación de dos documentos
Para obtener la relación existente entre cada par de documentos ha de aplicarse la siguiente ecuación:

DS²D'

Comparación entre término y documento
La matriz que almacena la comparación entre cada par término-documento se puede obtener aplicando:

TSD'

No hay comentarios: