lunes, 24 de septiembre de 2007

Comienzo PFC

Ya he tenido mis días de descanso merecido tras el verano tan ocupado "gracias" a IA y por lo tanto doy por comenzado el nuevo curso hoy mismo, comenzando por un recordatorio sobre la temática del PFC.

El PFC que desarrollaré este curso se engloba en el campo de la recuperación de información (o information retrieval). Este término se asocia a sistemas automaticos que permitan determinar la existencia o no de documentos relativos a una cierta consulta. El proyecto puede resumirse en los siguientes puntos:

1. Desarrollo de un sistema IR que recoja las características de un sistema anteriormente desarrollado y ampliarlas (es interesante utilizar un lenguaje que permita su utilización multiplataforma).

2. Enfatizar instalación y facilidad de uso.

3. Orientar el modo de empleo hacia la participación en el CLEF (Cross-Language Evaluation Forum). El CLEF es un "congreso" o más bien competición en el cual compiten distintos sistemas de IR desarollados por equipos de todo el mundo.

4. No descuidar el tiempo de respuesta (posibilitando un futuro uso interactivo) pero sin considerarlo una prioridad.

El sistema anterior (conocido como BlindLightIR) tiene ciertas características muy interesantes que habrá que tener en cuenta. Estas son las siguientes:

1. Independiente de lenguaje y con resultados consistentes entre distintos idiomas.
2. Muy tolerante al ruido
3. Fácil desarrollar un módulo externo para consultar en un idoma distinto al de la colección.
4. Es un campo muy interesante para la búsqueda de configuraciones óptimas mediante paradigmas flexibles (como mi proyecto fin de carrera de la EUITIO).
5. Características adicionales de otros proyectos o prototipos tales como identificación de idioma, extracción de resumenes y extracción de palabras clave.

Por último caben destacar las características deseables del proyecto:
1. Pseudo-relevance feedback (generar nuevas consultas a partir de los primeros resultados obtenidos para una consulta)
2. Feedback del usuario (generar nuevas consultas a partir de los resultados señalados como relevantes por el usuario)
3. Indexado de pasajes y no de documentos
4. Nuevas medidas de similitud/disimilitud
5. Semántica distribuida (a estudiar)

A partir de hoy ire haciendo comentarios sobre los articulos que vaya leyendo de entre los facilitados por Dani en la siguiente página.

No hay comentarios: