martes, 18 de noviembre de 2008

Estancamiento

La modificación del prototipo es completa y apenas ocupa memoria ram en comparación con la anterior implementación. Por desgracia no todo van a ser buenas noticias...

Actualmente mi portatil sigue indexando 10 documentos del clef (unos 1300 documentos en total) y lleva 10 horas... (estimo que tardará 2 o 3 más). Llevo muchos días intentando optimizar cada fragmento de código y no he conseguido tiempos de ejecución razonables hasta ahora. En el último modelo tuve que aplicar una modificación "mia" para limar un poco el tiempo de ejecución y el algoritmo simplemente no tiene en cuenta ninguna coocurrencia que se de con una probabilidad menor de 0.05

El problema que tengo es que utilizo TODOS los terminos del índice como nuevo espacio vectorial por lo que la matriz de ocurrencias tiene que almacenar relaciones entre muchísimos términos. Esto puede arreglarse utilizando SVD posteriormente o solo almacenando relaciones entre ciertas palabras (nombres, verbos, ...) o entre ciertas partes de la frase (con análisis sintactico).

En varios artículos de DS se habla incluso de decidir "a mano" los términos conceptuales (en torno a 1000) lo cual en el caso de adoptarse en mi prototipo daría unos tiempos mucho más razonables.

La cuestión es que si en dos días más no consigo mejoras sustanciales me veré obligado a hacer algún cambio en la elección de los conceptos... El no haber avanzado apenas en 2 semanas me agobia...

PD: El SVD tiene otro problema añadido y es que si parto de la matriz de coocurrencias completa (para quitar el ruido) tendría que dar al algoritmo la matriz de 25000 x 25000 y, al menos la implementación de numpy no es capaz de procesarla sin utilizar muchísima memoria...

miércoles, 5 de noviembre de 2008

Prototipo V1.0

Hace mucho tiempo que no edito el blog pero no por ello he estado sin trabajar este mes. Llevo todo este tiempo trabajando en el diseño e implementación de mi primer prototipo en Python.

El prototipo es un sistema de recuperación de información que implementa un modelo básico de semántica distribuida. Está en pruebas y da unos resultados bastante buenos con la salvedad de que utiliza una cantidad desmesurada de memoria RAM y que las consultas son algo lentas (no así el indexado). Es un problema que estoy tratanto de arreglar actualmente y con el que estaré hasta la semana que viene cuando debería de dar por finalizado el primer prototipo.

El problema que tengo es que las pruebas las estoy realizando en mi ordenador y no se qué cantidad de datos podría utilizar para las pruebas. Actualmente utilizo de 1 a 15 documentos del clef lo cual pueden ser de 500 a 3000 documentos aproximadamente. Aún mejorando sustancialmente la necesidad de memoria no creo que pueda llegar a procesar los 300 documentos del clef del 95.

La semana que viene enviaré un mail a Dani para que definamos las pruebas para las comparaciones en un futuro.

Las tres siguientes iteraciones serán la posibilidad de un coeficiente de hibridación respecto del modelo vectorial, la incorporación del SVD (ya he realizado algunas pequeñas pruebas) para eliminar ruido en la matriz de coocurrencias y la aplicación de análisis sintactico para obtener solo las coocurrencias más relevantes.

jueves, 9 de octubre de 2008

Semántica Distribuida

El modelo de recuperación de información basada en la semántica distribuida es un tipo específico de modelo vectorial en el cual se tiene en cuenta el contenido semántico de las unidades de información representando este significado mediante vectores multidimensionales.

Este tipo de vectores pueden hayarse a partir de la matriz de co-ocurrencias entre términos en la colección utilizada. A partir de la representación multidimensional de los documentos y peticiones se pueden hacer comparaciones entre ellos utilizando medidas de proximidad geométrica entre dichos vectores.

El modelo trata de obtener, para cada uno de los términos lingüisticos observados, su significado y para ello se parte de la siguiente premisa:

Se asume que existe una correlación entre el significado de una palabra y sus características dentro de cierto contexto dentro de un lenguaje.

Explicandolo de una manera más sencilla se puede decir que el significado de una palabra dentro de un contexto determinado (un párrafo, una frase, un texto completo) puede determinarse observando qué palabras aparecen más comunmente en dicho contexto. Por ejemplo a partir del término perro podría obtenerse un conjunto de palabras tales como {mascota, amigo, hombre, animal, domestico} que ciertamente podría constituir una representación del concepto de perro.

Representación de documentos
En el modelo vectorial genérico cada documento es representado por un vector representando el peso de cada uno de los términos existentes en el índice respecto del documento (ver sección....). El modelo basado en semántica distribuida sin embargo asume que existe una correlación entre la distribución de caracteristicas de una palabra y su significado.

El modelo parte de una matriz de co-ocurrencias entre cada una de las unidades lingüisticas del texto y un conjunto de N términos de definición. Cada elemento nij de la matriz de co-ocurrencias se define como la frecuencia de aparición del término i-ésimo del texto junto con un término j-ésimo de definición.

De esta forma puede definirse el contenido semántico de la unidad lingistica i-ésima por el vector (ni1, ni2, ... nin) mientras que un documento completo se define como la suma de todos los productos entre la definición de cada uno de los términos del índice (ci) y su peso:

dn = sumatorio(Wni Ci)

Cálculo de similitudes
Una vez que se han convertido tanto los documentos como las consultas al nuevo espacio semántico pueden aplicarse cualquiera de las técnicas estudiadas anteriormente para el modelo vectorial (ver sección ...)

martes, 30 de septiembre de 2008

SVD en la semántica latente

En el anterior artículo se explicaba por encima el funcionamiento de la semántica latente pero uno de los puntos clave apenas se citó. La técnica conocida como "Singular value decomposition" analiza la matriz de pesos original (termino-documento) obteniendo a continuación tres matrices distintas que interpretadas correctamente proporcionan el modelo de semántica latente. Explicada de una manera más sencilla podría decirse que a partir de esta técnica podemos observar las relaciones entre distintos elementos del sistema excluyendo buena parte del "ruido" existente en dichas relaciones.

Este tipo de análisis no se va a analizar en detalle dado que no es el objeto de este proyecto pero si se van a analizar las matrices obtenidas y las posibilidades que nos ofrecen.

* Se van a escribir las matrices poniendo entre paréntesis sus dimensiones debido a las limitaciones del editor.

Partiendo de la matriz original X(txo) que relaciona términos con documentos se descompone en un conjunto de factores ortogonales , en los estudios se utiliza un valor entre 50 y 100. A partir de estos elementos se puede aproximar la matriz original X mediante combinaciones lineales. La descomposición de la matriz original es la siguiente:

X(txo) = T0(txr) S0(rxr) O0'(rxo)

T0 y O0 tienen columnas ortogonales mientras que S0 es la diagonal. En el caso de observar solamente los k valores independientes más significativos la ecuación cambia convirtiendose en el modelo reducido que es el que se utiliza en la técnica de la semántica latente.

X(txr) "parecido" X^(txo) T(txk) S(kxk) O'(kxo)

Comparación de dos términos
Se puede obtener de una manera sencilla la matriz de relaciones entre cada par de términos utilizando la ecuación siguiente:

TS²T'

Comparación de dos documentos
Para obtener la relación existente entre cada par de documentos ha de aplicarse la siguiente ecuación:

DS²D'

Comparación entre término y documento
La matriz que almacena la comparación entre cada par término-documento se puede obtener aplicando:

TSD'

viernes, 26 de septiembre de 2008

Semántica Latente

Acabo de hacer la primera lectura a los artículos sobre semántica latente y he de decir que me parece una técnica que parte de unas ideas muy interesantes.

Si he entendido bien los artículos, el modelo de semántica latente parte del hecho de que una query y un documento sin términos comunes podrían estar hablando de lo mismo (dado que puede tener términos sinónimos) mientras que si tuvieran términos comunes podrían hablar de cosas completamente distintas (polisemia).

Partiendo de estos problemas esta técnica se resume de forma muy esquematizada como sigue:

1. Partimos de una representación similar a la del modelo vectorial de tal manera que tenemos un vector de pesos (un peso por cada término del índice) para cada documento.

2. Se aplica un método estadístico conocido como "singular-value-decomposition" descomponiendo la matriz original en 3 matrices de una forma muy específica. Esta descomposición permite observar la relevancia de cada término de manera independiente del resto de los términos.

3. Algunos de los componenetes de las matrices anteriores tienen valores muy pequeños y pueden ignorarse. Una vez aplicada una reducción de los términos tendremos una versión reducida de las matrices anteriores.

4. Al considerar únicamente los componentes más importantes de forma independiente estamos teniendo en cuenta las asociaciones más fuertes dentro de la estructura estudiada. El utilizar sólo las relaciones más fuertes posibilita la eliminación, al menos en parte, del "ruido" producido por la polisemia y la sinonimia.

5. A partir del modelo reducido se puede aproximar mediante combinación lineal el resto de valores de la matriz termino-documento. Las filas de la matriz aproximada de término-documento son utilizadas para el cálculo de similitud entre documentos ya sea por el método del coseno o por cualquier método similar.

Nota: a partir de la descomposición SVD se pueden observar relaciones independientes entre términos y / o documentos mediante cálculos matriciales sencillos

jueves, 25 de septiembre de 2008

Organización del pfc

Estoy teniendo algunos dilemas últimamente en cómo organizar bien la parte de Antecedentes (estado del arte) para que resulte intuitivo y fácil de leer.

La idea que manejo ahora y que me parece la más correcta es la siguiente:

1. Conceptos previos
1.1. Objetivos de la recuperación de información
1.2. Análisis de información
1.3. Complejidad
2. Resumen historico
2.1. Inicios
2.2. Sistemas automáticos para bibliotecas
2.3. World Wide Web
2.4. Nuevas investigaciones
3. Modelos de recuperación de información
3.1. Modelo booleano
3.2. Modelo Booleano extendido
3.3. Modelo probabilístico
3.4. Modelo vectorial
3.5. Modelos basados en lógica borrosa
3.6. Modelos lógicos
3.7. Modelo basados en la interactividad
3.8. Modelos basados en la Inteligencia Artificial
3.9. Modelos basados en semántica latente
3.10. Modelos basados en semántica distribuida
4. Técnicas de procesamiento
4.1. Escaneado de sentencias clave
4.2. Proceso de eliminación sintáctica
4.3. Selección de frases preposicionales
4.4. Lematización
4.5. Detección de sinónimos
4.6. Diccionarios de frases
4.7. Metodos de expansión jerárquicos
4.8. Elaboración automática del proceso de selección


De esta forma describo por una parte los modelos y por otra las técnicas específicas (que pueden usar varios modelos) referenciandolos correctamente según corresponda...

jueves, 18 de septiembre de 2008

Resurgimiento

Después de un curso bastante intenso he retomado estos días el proyecto fuertemente. Por fin he comenzado a redactar parte de los antecedentes de la documentación (lo que se suele llamar estado del arte) y a recordar todo lo aprendido hace casi un año.

De momento no he tenido problemas graves y todo sigue su ritmo por lo cual este mensaje solo será un formalidad para indicar que sigo trabajando en ello. A lo largo de la semana que viene publicare la jerarquía del documento y cuando Dani vuelva de sus vacaciones le enviaré el borrador que tenga en ese momento.

lunes, 10 de diciembre de 2007

Propuesta PFC

A raíz de una reunión con Dani ha surgido la idea de un PFC para la EUITIO:

La idea del proyecto es el desarrollo y la comparación de diversas implementaciones de tag-clouds (tanto en la interfaz como en el algoritmo de creación). El trabajo a realizar sería un conjunto de páginas web (con el interfaz de páginas paradigmaticas de la web 2.0 tales como Flicker o Delicious) utilizando diversas formas de mostar y crear las tag-clouds y puede que la implementación de algún prototipo de creación de la tag-cloud.

De esta forma podrían observarse las diferentes técnicas de creación y de interfaces en un mismo contexto. Es un trabajo interesante dado que hasta el momento apenas hay documentación sobre el tema y casi no sabemos nada de como usamos o creamos tag-clouds (en muchos casos se usa porque es muy "2.0").

Este proyecto además abriría una vía para la realización de un estudio pormenorizado (a medio plazo) de la usabilidad y eficiencia de las tag-clouds para el acceso a la información.

El desarrollo del proyecto (

lunes, 19 de noviembre de 2007

Automatic Content Analisis (Parte V)

En esta entrada (espero que sea la última de este tema) se van a resumir las partes del artículo relacionados con el asociamiento estadístico de términos y con la búsqueda de información controlada por usuario.

Asociación estadística de términos
En esta parte del artículo se observa cómo el análisis de contenido no ha tenido en cuanta ciertos tipos de asociación entre términos (solo tienen en cuenta relaciones existentes en los diccionarios).

El tipo de relación que se cita a continuación se basa en que dos términos están relacionados entre si cuando son "encontrados" de manera coocurrente frecuentemente en el mismo contexto. A partir de este hecho, dado un vector de conceptos asignado a un documento o a una consulta, puede expandirse añadiendo aquellos conceptos que tienen un nivel de similitud por encima de cierto umbrál.

El artículo explica (después de realizar experimentos) que un sistema de recuperación usando asociación da un grado de efectividad mayor que un sistema basado únicamente en matching de palabras. Sin embargo también defiende que un proceso normal de tesauro es mucho mejor como dispositivo de procesamiento de lenguaje que el método de asocición estadística.

Los sistemas de asociación estadística son por lo tanto más eficientes en los casos en los que no se dispone de un tesauro.
--------------------------------

Busqueda de información controlada por usuario
En el sistema SMART los vectores de concepto generados para cada documento individual en la fase de análisis se comparan con los vectores asignados con las consultas realizadas y aquellos documentos que son encontrados más similares son devueltos al usuario.

El sistema SMART tiene la particularidad de tener múltiples sistemas de análisis de contenidos que devuelven unos resultados u otros en función de los distintos usuarios (algunos centrados en la precisión, otros en el recall). De esta forma es obvio que no puede haber una solución correcta para todos los usuarios.

En este punto del artículo se propone un feddback de tal manera que se realice una búsqueda parcial. A partir de los resultados mostrados se podrá realizar un ajuste de parámetros antes de realizar una segunda búsqueda más refinada.

Hay muchos métodos que se basan en sistemas de feedback. El artículo cita varios de ellos:

1. Diccionario mecánico -> Presenta al usuario una lista de los posibles términos relacionados con la consulta realizada por el usuario. Se sugiere al usuario que puede reformular la pregunta con alguno de los términos nuevos.

El uso de terminos asociados de manera estadística tambien puede proporcionar nuevos potenciales términos de búsqueda, al igual que las clases de un tesauro en caso de usarse.

El problema de este método es que deja la carga de la reformulación de la consulta en manos del usuario.

2. Reformulación automatica de consulta -> A partir de los resultados de una búsqueda previa se realiza una reformulación de la consulta. El usuario (a partir de los resultados de una primera búsqueda) dice, para documento, si es relevante o no para su propósito.

Con esta información se reformula la consulta con los términos de los documentos relevantes y sin los conceptos de sean irrelevantes para todos los documentos escogidos. Este método produce considerables mejoras en la efectividad de la búsqueda.

3. Alterar el proceso de análisis -> Esta solución solo es posible en sistemas como SMART que tengan implementadas varias estrategias de análisis de contenidos. Este método tiene como ventaja añadida el poder elegir qué método de análisis puede ser mejor para cada caso.

miércoles, 14 de noviembre de 2007

Automatic Content Analisis (Parte IV)

Jerarquía de conceptos

El artículo continua explicando cómo se utilizaban desde hace muchos años las jerarquías de conceptos en las bibliotecas. Partiendo de esta base indica que pueden usarse en los sistemas de análisis de contenido para la identificación de información y para propósitos de recuperación.

Usando está técnica, es posible extender busquedas a través de los conceptos de la jerarquía.
(Nota mia) Por ejemplo, en el caso de no encontrar sufucientes documentos con una búsqueda podemos devolver los documentos asociados con su concepto padre.

El sistema SMART incluye la jerarquía de conceptos. Se asume que una consulta al tesauro precede cualquier operación de expansión jerárquica.
(Nota: Las jerarquías de conceptos también pueden representar relaciones de referencia cruzada además de relaciones padre-hijo. Este tipo de relaciones no especificadas reciben una interpretación distinta al resto de relaciones)

En cuanto a la estructura misma de la jerarquía, es lógico pensar que los términos más generales estarán cerca de la raíz mientras que los más especificos más cerca de las hojas. El artículo, además de este razonamiento también dice que parece haber una relación entre la frecuencia de ocurrencia de un término y su lugar en la jerarquía.

Los términos con mayor frecuencia (y por lo tanto "teoricamente" los más comunes) deberían colocarse en un nivel superior a aquellos con menor frecuencia.

Las jerarquías de conceptos dependen de los documentos o los usuarios en sí. Un concepto, en función del contexto, tendrá un concepto padre u otro. Partiendo de esta premisa está claro que no puede haber una jerarquía genérica que sirva a todos los usuarios y circunstancias.

Los sistemas de jerarquía pueden servir para sugerir ampliaciones o reducciones de una consulta o de cierta interpretación.