Blog de Miguel Martínez Álvarez: Semántica Distribuida

El modelo de recuperación de información basada en la semántica distribuida es un tipo específico de modelo vectorial en el cual se tiene en cuenta el contenido semántico de las unidades de información representando este significado mediante vectores multidimensionales.

Este tipo de vectores pueden hayarse a partir de la matriz de co-ocurrencias entre términos en la colección utilizada. A partir de la representación multidimensional de los documentos y peticiones se pueden hacer comparaciones entre ellos utilizando medidas de proximidad geométrica entre dichos vectores.

El modelo trata de obtener, para cada uno de los términos lingüisticos observados, su significado y para ello se parte de la siguiente premisa:

Se asume que existe una correlación entre el significado de una palabra y sus características dentro de cierto contexto dentro de un lenguaje.

Explicandolo de una manera más sencilla se puede decir que el significado de una palabra dentro de un contexto determinado (un párrafo, una frase, un texto completo) puede determinarse observando qué palabras aparecen más comunmente en dicho contexto. Por ejemplo a partir del término perro podría obtenerse un conjunto de palabras tales como {mascota, amigo, hombre, animal, domestico} que ciertamente podría constituir una representación del concepto de perro.

Representación de documentos
En el modelo vectorial genérico cada documento es representado por un vector representando el peso de cada uno de los términos existentes en el índice respecto del documento (ver sección....). El modelo basado en semántica distribuida sin embargo asume que existe una correlación entre la distribución de caracteristicas de una palabra y su significado.

El modelo parte de una matriz de co-ocurrencias entre cada una de las unidades lingüisticas del texto y un conjunto de N términos de definición. Cada elemento nij de la matriz de co-ocurrencias se define como la frecuencia de aparición del término i-ésimo del texto junto con un término j-ésimo de definición.

De esta forma puede definirse el contenido semántico de la unidad lingistica i-ésima por el vector (ni1, ni2, ... nin) mientras que un documento completo se define como la suma de todos los productos entre la definición de cada uno de los términos del índice (ci) y su peso:

dn = sumatorio(Wni Ci)

Cálculo de similitudes
Una vez que se han convertido tanto los documentos como las consultas al nuevo espacio semántico pueden aplicarse cualquiera de las técnicas estudiadas anteriormente para el modelo vectorial (ver sección ...)

Blog de Miguel Martínez Álvarez

jueves, 9 de octubre de 2008

Semántica Distribuida

No hay comentarios:

Archivo del blog

Datos personales