lunes, 8 de octubre de 2007

Resumen del 2º articulo

El artículo aborda las posibilidades de que una máquina simule la aplicación de patrones "humanos" para seleccionar las sentencias clave de un texto dado.

La introducción del artículo trata sobre la incapacidad de los investigadores de asimilar la gran cantidad de nueva información generada cada poco tiempo. Así, define el principal problema del procesamiento y recuperación de información a la "velocidad de diseminación y al control efectivo del rápido crecimiento". Otro punto interesante de la introducción es la definición de la composición de la información (en textos escritos en lenguaje natural) como "partes de información no organizadas y no relacionadas".

Para intentar minimizar el problema el control de la información surgen 2 opciones distintas:
1. Utilizar un "lenguaje máquina" más sencillo de mecanizar
2. Observar las características del texto en sí haciendo que la máquina seleccione la información interesante por sí misma (en función de reglas sintácticas o asociativas)

El nucleo central del artículo es una comparación experimental entre tres métodos para extraer el contenido esencial de un texto (para construir su índice).

1. Escaneado de sentencias clave (topic sentences): Partiendo de bases de teoría de composición de textos se puede decir que en la mayoria de los casos la sentencia clave de un párrafo se encuentra en primer lugar (en el 85% de los casos según un estudio sobre 200 párrafos). Esta técnica selecciona la primera sentencia de cada párrafo para crear el índice, ignorando todas las demas sentencias.

2. Proceso de eliminación sintáctica: Esta técnica se basa en una selección de unidades sintácticas. Se ignoran todas las palabras que sean superfluas (conjunciones, pronombres,...) y se realiza un índice estadístico con las palabras residuales.

3. Selección de frases preposicionales: Esta técnica se basa también en una selección de unidades sintácticas. Parte de la base de que las frases son un núcleo de la comunicación , comparables en importancia únicamente a los párrafos. Basa su funcionamiento en premisas sintácticas (dependientes del lenguaje inglés) tales como el número medio de palabras en las frases, que en el caso del inglés es de 4 palabras.

A partir de esas estadísticas la tecnica selecciona como frase las siguientes 4 palabras (o las que haya hasta una preposición o un signo de puntuación) a cada preposición del texto. La gran ventaja de esta técnica es que las frases tienen más significado que cada palabra por separado y que minimizan problemas tales como los distintos significados que si se dan en palabras individuales.

(Añadido mio) Tiene un inconveniente claro que no se cita en el artículo y es que es dependiente en cierta medida del idioma. Para que fuera genérico deberían de estar disponibles las estadísticas de número medio de palabras en una frase para cada uno de los idiomas posibles de los documentos.

En la parte final del artículo se citan las dificultades para definir la idoneidad de un índice para un texto dado siendo dependiente en función de la persona que lo juzgue, del proposito del índice, ...

Según el artículo (y la potencia computacional de esa 1958) se recomienda un índice de 0,5% sobre el número de palabras del texto. En el caso de estudio realizado la técnica que ha proporcionado mejores soluciones es la técnica de selección de frases proposicionales. Por último se comenta que el indexado automático tiene la gran ventaja de ser un método sistematico, consistente y uniforme.

No hay comentarios: