martes, 25 de septiembre de 2007

Statistical Approach

He finalizado la lectura del primer articulo propuesto titulado "A Statistical Approach to Mechanized Encoding and Searching of Literary Information". Me ha costado bastante dado que es uno de los primeros articulos que leo sobre el tema y por estar escrito en un inglés algo más complejo del habitual para los textos técnicos (también es verdad que hace mucho que no leo en inglés).

El articulo introduce el tema de la extracción de información (citando la dificultad de barrera de distintos lenguajes) y explica una división de los tipos de sistemas de información en seis niveles que van desde sistemas de referencia (como catálogos) hasta literatura novelística pasando por textos técnicos que es en el nivel en el que se centra dicho artículo.

Habla también sobre la teoría de la comunicación y como dos interlocutores van subdividiendo ideas hasta llegar a un nivel de "experiencia común" de tal forma que ambos entiendan lo mismo.

Posteriormente indica que los documentos tienen una estructura física que da indicaciones de la relevancia y la estructura de la información que contiene (capítulos, parrafos,...). El estudio usará dicha información en la relevancia de documentos.

A continuación se hará un pequeño resumen sobre la organización de un sistema estadístico de búsqueda:

1. El objetivo es minimizar el esfuerzo humano en tareas rutinarias, realizandose estas de manera automática partiendo de un conjunto pequeño de reglas.

2. Se debe crear un diccionario de notions (lo traduciré libremente por conceptos) de tal forma que se crean familias de palabras con un nivel conceptual similar. Dicho diccionario depende en gran medida del tipo de documentos a estudiar.

3. Se observa cada documento como elementos conceptuales creandose así patrones que posteriormente se utilizaran para las comparaciones. En este punto se utiliza la estructura física del documento impuesta por el autor para definir los distintos niveles de relaciones (palabras en el mismo párrafo, en parrafos seguidos, ...) entre los términos.

4. Para el procedimiento de búsqueda de información se prepara un documento con un formato similar al usado en la colección y codificado de la misma manera que sus documentos. De esta forma el resultado abstracto de conceptos se utilizará como patrón de búsqueda. A continuación un programa comparará el patrón de búsqueda con los patrones de los documentos en la colección basandose en la estadística para indicar sus niveles de similitud.

El artículo termina indicando que hacen falta mejores métodos para elegir que elementos de las sentencias son mejores discriminantes y que hace falta más investigación para indicar el número de familias conceptuales y su nivel de especialización en cada caso concreto.

No hay comentarios: