Blog de Miguel Martínez Álvarez: Tercer artículo (Parte III)

Aproximación convencional para un sistema de recuperación de información.

El artículo parte del hecho de que las máquinas no pueden "leer" textos entendiendo si el contenido se relaciona con una consulta dada por lo que es necesario el uso de etiquetas de identificación, esto es el sistema de índice. El índice funciona como una etiqueta por la cual puede identificarse el contenido del documento en cuestión. Cabe destacar que los elementos del índice pueden ser términos simples (palabras) o conjuntos de estas (frases).

En principio un indexador lee un documento y selecciona los términos del índice desde el "vocabulario de biblioteca", relacionandolos luego con dicho documento. De esta forma un usuario debe identificar sus necesidades como términos de una consulta, consistiendo en términos del índice utilizados con combinaciones lógicas.

Dado el índice para un documento dado y el conjunto de términos de una consulta el problema consiste en buscar e intentar corresponder dichos términos en la forma en la que se define en la consulta.

El uso de índices tiene un problema. La correspondendia entre el índice de un documento y su contenido no es exacto dado que es muy dificil saber el contenido de un texto a partir de un conjunto de palabras (o frases). Un conjunto de términos puede abarcar muchos posibles temas. Por contra, un mismo tema de conocimiento puede ser denotado por diferentes términos. El artículo, a partir de esta situación, dice que hay "ruido semántico" en los términos del índice.

Por otra parte tampoco hay una relación exacta entre la petición de un usuario y su intención por lo que podemos concluir que hay ruido semántico tanto en la indexación de documentos como en las consultas de información.

Para reducir el ruido semántico se han realizado trabajos especializando los sistemas para tipos específicos de bibliotecas y utilizando el concepto de glosario de ideas (de esta manera puede eliminarse gran parte de la ambiguedad).

La consecuencia del ruido semántico es que en los sistemas convencionales al realizar la correspoendencia de términos pueden aparecer documentos irrelevantes o, lo que es peor, no aparecer documentos relevantes.

Según el artículo el problema de la representación fidedigna de un documento a partir de etiquetas para posteriores consultas o comparaciones entre documentos está sin resolver (documento de 1960).

La técnica que se presentará a continuación den el documento (Indexación probibilística) proporciona un ranking de documentos que satisfacen la consulta, ordenados por su relevancia.

Blog de Miguel Martínez Álvarez

miércoles, 10 de octubre de 2007

Tercer artículo (Parte III)

No hay comentarios:

Archivo del blog

Datos personales