martes, 13 de noviembre de 2007

Automatic Content Analisis (Parte III)

Diccionarios de frases de manera sintáctica y estadística:

Los métodos considerados anteriormente se basaban en el análisis de palabras sueltas. En este caso se utiliza como unidad la frase en vez de la palabra. El usar un conjunto de palabras tiene ventajas respecto a cada una de sus palabras por separado, una de estas ventajas es que su significado suele ser más especifico y por lo tanto menos ambigüo.

Los diccionarios de frases incluyen normalmente pares, triplas o cuadruplas de palabras de tal forma que identifican combinaciones de conceptos. Estas frases son las que se presuponen más esperadas para indicar el contenido de un tema dado.

Para la construcción de este tipo de diccionarios hay varias técnicas. Una de ellas es basarse en las combinaciones de palabras con una alta frecuencia en los documentos o en las consultas. Por otra parte se puede partir de un tesauro previamente creado.

En el sistema SMART se optó por basar el diccionario de frases en coocurrencias de los conceptos del tesauro.

Principalmente hay dos técnicas de detección de frases. Los métodos estadísticos (que usan las estadísticas de co-ocurrencias entre componentes de frases) y los métodos sintácticos (que se basan en reglas sintácticas para detectar las frases).

(Nota: Según experimentos del artículo las frases suelen tener normalmente dos términos o como mucho tres)

En el caso del análisis sintáctico (dependiente de idioma), para cada frases sintáctica se obtiene no solo la lista de conceptos de los componentes sino también ciertos indicadores sintácticos de tal manera que se pueden observar las relaciones sintácticas entre componentes.

El artículo, apoyado en experimientos, defiende que el uso de técnicas de procesamiento de frases son más efectivas que el uso único del tesauro.

Por otra parte también concluye que el uso de técnicas estadísticas o sintácticas no tienen una gran diferencia de efectividad, sin embargo, el análisis sintáctico necesita mucha mayor potencia computacional.

(Nota: Otro problema es que el análisis sintáctico es diferente para cada idioma)

No hay comentarios: