martes, 25 de septiembre de 2007

Statistical Approach

He finalizado la lectura del primer articulo propuesto titulado "A Statistical Approach to Mechanized Encoding and Searching of Literary Information". Me ha costado bastante dado que es uno de los primeros articulos que leo sobre el tema y por estar escrito en un inglés algo más complejo del habitual para los textos técnicos (también es verdad que hace mucho que no leo en inglés).

El articulo introduce el tema de la extracción de información (citando la dificultad de barrera de distintos lenguajes) y explica una división de los tipos de sistemas de información en seis niveles que van desde sistemas de referencia (como catálogos) hasta literatura novelística pasando por textos técnicos que es en el nivel en el que se centra dicho artículo.

Habla también sobre la teoría de la comunicación y como dos interlocutores van subdividiendo ideas hasta llegar a un nivel de "experiencia común" de tal forma que ambos entiendan lo mismo.

Posteriormente indica que los documentos tienen una estructura física que da indicaciones de la relevancia y la estructura de la información que contiene (capítulos, parrafos,...). El estudio usará dicha información en la relevancia de documentos.

A continuación se hará un pequeño resumen sobre la organización de un sistema estadístico de búsqueda:

1. El objetivo es minimizar el esfuerzo humano en tareas rutinarias, realizandose estas de manera automática partiendo de un conjunto pequeño de reglas.

2. Se debe crear un diccionario de notions (lo traduciré libremente por conceptos) de tal forma que se crean familias de palabras con un nivel conceptual similar. Dicho diccionario depende en gran medida del tipo de documentos a estudiar.

3. Se observa cada documento como elementos conceptuales creandose así patrones que posteriormente se utilizaran para las comparaciones. En este punto se utiliza la estructura física del documento impuesta por el autor para definir los distintos niveles de relaciones (palabras en el mismo párrafo, en parrafos seguidos, ...) entre los términos.

4. Para el procedimiento de búsqueda de información se prepara un documento con un formato similar al usado en la colección y codificado de la misma manera que sus documentos. De esta forma el resultado abstracto de conceptos se utilizará como patrón de búsqueda. A continuación un programa comparará el patrón de búsqueda con los patrones de los documentos en la colección basandose en la estadística para indicar sus niveles de similitud.

El artículo termina indicando que hacen falta mejores métodos para elegir que elementos de las sentencias son mejores discriminantes y que hace falta más investigación para indicar el número de familias conceptuales y su nivel de especialización en cada caso concreto.

lunes, 24 de septiembre de 2007

Comienzo PFC

Ya he tenido mis días de descanso merecido tras el verano tan ocupado "gracias" a IA y por lo tanto doy por comenzado el nuevo curso hoy mismo, comenzando por un recordatorio sobre la temática del PFC.

El PFC que desarrollaré este curso se engloba en el campo de la recuperación de información (o information retrieval). Este término se asocia a sistemas automaticos que permitan determinar la existencia o no de documentos relativos a una cierta consulta. El proyecto puede resumirse en los siguientes puntos:

1. Desarrollo de un sistema IR que recoja las características de un sistema anteriormente desarrollado y ampliarlas (es interesante utilizar un lenguaje que permita su utilización multiplataforma).

2. Enfatizar instalación y facilidad de uso.

3. Orientar el modo de empleo hacia la participación en el CLEF (Cross-Language Evaluation Forum). El CLEF es un "congreso" o más bien competición en el cual compiten distintos sistemas de IR desarollados por equipos de todo el mundo.

4. No descuidar el tiempo de respuesta (posibilitando un futuro uso interactivo) pero sin considerarlo una prioridad.

El sistema anterior (conocido como BlindLightIR) tiene ciertas características muy interesantes que habrá que tener en cuenta. Estas son las siguientes:

1. Independiente de lenguaje y con resultados consistentes entre distintos idiomas.
2. Muy tolerante al ruido
3. Fácil desarrollar un módulo externo para consultar en un idoma distinto al de la colección.
4. Es un campo muy interesante para la búsqueda de configuraciones óptimas mediante paradigmas flexibles (como mi proyecto fin de carrera de la EUITIO).
5. Características adicionales de otros proyectos o prototipos tales como identificación de idioma, extracción de resumenes y extracción de palabras clave.

Por último caben destacar las características deseables del proyecto:
1. Pseudo-relevance feedback (generar nuevas consultas a partir de los primeros resultados obtenidos para una consulta)
2. Feedback del usuario (generar nuevas consultas a partir de los resultados señalados como relevantes por el usuario)
3. Indexado de pasajes y no de documentos
4. Nuevas medidas de similitud/disimilitud
5. Semántica distribuida (a estudiar)

A partir de hoy ire haciendo comentarios sobre los articulos que vaya leyendo de entre los facilitados por Dani en la siguiente página.

Organización del año

Hoy estuve acabando de cuadrar mi horario para el curso que se avecina. Este curso "solo" voy a cursar las 5 asignaturas obligatorias de la superior, 3 cursos de verano, 2 optativas y el proyecto fin de carrera.

Por supuesto tantas cosas que hacer son un quebradero de cabeza para organizar horarios. Finalmente haré dos de los cursos (uno de CSS y uno de PHP) durante cuatro semanas en Octubre. El tercer curso tendré que cuadrarlo en marzo seguramente...

En cuanto a las optativas mis opciones (aún sin cerrar) son Ingeniería del Software 2 y Diseño de Sistemas Operativos.

En cuanto al proyecto fin de carrera pretendo llevarlo como una asignatura más y por esto tengo organzado el horario (a falta de que me concedan los grupos que pido) de tal manera que no tenga clase los miercoles. Si todo continua así los miercoles por la mañana serán para el proyecto.

miércoles, 19 de septiembre de 2007

Primera entrada

Con esta entrada queda inaugurado mi primer blog. He iniciado este blog a raíz de la sugerencia del que fue mi director de proyecto en la Ingeniería Técnica en informática y antiguo profesor Dr. Daniel Gayo .

Aunque la idea original es utilizarlo como medio de comunicación (y coordinación) para labores relacionadas con el proyecto fin de carrera de la superior posiblemente derive a un blog con contenidos algo más variados.

Dicho esto me retiro a acabar de ver la película de 300 en versión original (hay que mejorar el nivel de inglés) en uno de mis pocos días de descanso en este agotador verano antes de acostarme para poder dormir algo antes de asistir a la lectura del proyecto fin de carrera de un compañero de la facultad.