miércoles, 10 de octubre de 2007

Tercer artículo (Parte II)

El artículo comienza indicando la dificultad del procesamiento del lenguaje natural de manera mecánica. Posteriormente se presenta el "problema de la biblioteca" haciendo énfasis en que el problema como tal no reside en el tamaño ocupado (hay soluciones para ello) sino en la identificación del contenido de los textos. También se cita la dificultad en determinar la "cercania" de dos artículos respecto de un tercero desde el punto de vista del significador. El último problema relacionado que se cita es el problema de especificar si un texto es o no relevante (o en que grado) respecto a una consulta.

El artículo parte de la idea de que el problema es la identificación precisa de la información contenida en los documentos. En este punto se introduce el concepto aritmético (respecto a otras soluciones que son de naturaleza lógica) de relevancia, siendo una probabildad de la relevancia de un documento para un usuario.

La relevancia permite la creación de un ranking de documentos pero hay que tener en cuenta también como se hara la selección de los documentos a evaluar. Para ello hace falta definir medidas (probabilísticas) de cercania semántica. Se definen medidas de cercanía entre documentos y entre consultas. En este punto el artículo se divide en varios apartados tratando en cada uno lo siguiente:

1. Aproximación convencional al problema de la biblioteca.
2. Exposición de la solución dada por el indexado probabilístico.
3. Estudio sobre los experimentos preliminares para probar las nuevas técnicas.

No hay comentarios: