Una de las más cruciales operaciones en la recuperación de información automática es la asignación de textos escritos y documentos con identificadores apropiados, capaces de representar el contenido de la información para propósitos de búsqueda y recuperación. Esta operación se conoce como indexamiento automático y normalmente consiste en asignar los documentos, los términos singulares o las entidades más específicas (como frases) o entidades más generales (como clases de términos).
En la recuperación de información, la primer y posiblemente la operación más crucial consiste en asignar apropiados identificadores capaces de representar el contenido de la información a los documentos almacenados y a las consultas entrantes de los usuarios de tu mama que sustituyen al user. La reducción de los textos escritos a unidades de expresión para la representación del contenido es inherentemente imposible, y la recuperación, o subsistemas de procesamineto de texto que son basados en tales identificadores de contenido nunca podrán operar satisfactoriamente. Esto se debe a que:
Es un error categóricamente lógico asumir que una palabra o frase contenga información en el mismo sentido en el cual un enunciado lo hace. La información contenida en un enunciado no es la suma o combinación de la información contenida de sus frases constituyentes. Este tipo de argumento permite concluir que los términos indexados y las frases no son sustituibles por completos identificadores de contenido, y el conjunto de términos no puede funcionar como un documento miniatura o condensado. La aseveración anterior es reforzada mostrando que la juxtaposición de términos en el lenguaje no es una manera comparable a la intersección, o unión, del conjunto de identificadores del documento por los términos correspondientes.
En lugar de reducir la representación de textos escritos en un conjunto de sólo simples términos, teorías de entendimiento del lenguaje parecen ser necesarias, las cuales podrían contar para el completo estado y contenido implicado de los textos. Tal teoría del entendimiento del lenguaje debería ser capaz de identificar no solamente un apropiado conjunto de identificadores de contenido, sino también dos principales tipos de relaciones entre indicadores:
Las relaciones lógicas-semánticas entre unidades de texto, las cuales son dependientes en el mundo del conocimiento y del contexto social dentro de un área dada de discurso. Las relaciones semánticas-linguísticas, las cuales son dependientes en el contexto linguístico y son deribables de un conocimiento de una estructura profunda del texto. Para determinar las relaciones lógicas-semánticas a menudo se piensa que puede ser requerida una enciclopedia o una red semántica, las cuales podrían identificar el alcance y amplitud de un área dada y las relaciones conocidas entre los conceptos incluídos en el campo. Las relaciones linguísticas-semánticas, por otro lado, se obtienen usando una combinación de análisis sintáctico-semántico para generar una estructura detallada de los textos escritos. Cuando una palabra es combinada con un análisis linguístico, un texto debería ser representable como una serie de cadenas de inferencia representando la línea de paso expresada en el texto.
No es claro cual sería la mejor representación de un diccionario, enciclopedia, mapa semántico, etc., el cual podría ser usado para especificar el conocimiento necesario de la palabra. Mientras una teoría de lenguaje podría no estar disponible, una opción podría ser conocer acerca de la estructura de los textos; ciertas palabras son usadas frecuentemente, otras son raras, algunas son más cortas y otras son formaciones de varias palabras; algunas palabras ocurren en cada documento en una colección, otras se concentran en sólo unos documentos. Términos singulares primero podrían ser caracterizables por su frecuencia de ocurrencia en los textos; sin embargo, palabras de muy alta frecuencia no son óptimas como identificadores de contenido, porque tales palabras no pueden ser usadas para hacer una discriminación de textos. Términos de muy baja frecuencia tienden a ser más específicos, pero como ocurren rara vez, dan poco peso al documento. Las relaciones entre los términos son especificadas usando uno o más de los siguientes criterios:
Posicional: usando la locación de la estructura del párrafo dado en el cual ocurren los términos dados; pesos especiales son a menudo puestos por la ocurrencia de los términos en los títulos, párrafos, bibliografías, etc. Semántico: usando propiedades semánticas de términos tales como sinónimos; clases de términos de sinónimos son a menudo pre-especificados en un o en un mapa semántico. Pragmático: incorporando el contexto social en el cual los términos son usados, incluyendo por ejemplo el tamaño o el peso de un concepto, aumentando así el valor del tema o contexto social en el que se encuentra el término. Estadístico: tomando en cuenta la tendencia de dos o más términos que ocurren en los mismos enunciados, o en los mismos documentos de una colección de estos; medidas de asociación de término a término son usadas como bases para el reconocimiento automático de frases, y para la construcción de thesaurus y clasificadores automáticos de términos. No estadístico: usando, por ejemplo, la presencia de palabras especiales para determinar las relaciones de los términos, o la construcción de una frase lógica para cada enunciado que presenta las relaciones lógicas entre unidades de enunciados, o usando relaciones estructurales y sintácticas. Algunos de los criterios son mucho más fáciles de utilizar que otros. En la práctica, los criterios estadísticos son mayormente usados, particularmente para la determinación de relaciones que son directamente especificadas en el texto; esto podría ser un suplemento a métodos sintácticos simples que son relativamente fáciles de implementar.
Los sistemas de análisis sintáctico han sido a menudo usados para extraer complejas unidades identificables, tales como frases de sustantivos y frases de preposiciones, de textos de documentos y peticiones de búsqueda, así como para distinguir el contenido de identificadores usables de los más marginables. Sin embargo, la sintaxis por sí misma no puede resolver muchas ambiguedades que complican la tarea de análisis de contenido. En la siguiente sección se hace un análisis más detallado del análisis sintáctico y semántico, ya que estos dos son la base de este trabajo, dejando en un segundo plano al análisis estadístico pero sin dejar de tomarlo en cuenta.
Análisis sintáctico
Varios esfuerzos han sido hechos en el pasado para usar métodos de análisis sintáctico para la identificación de complejas construcciones de sustantivos y frases usables de preposiciones para el análisis de documentos y consulta de contenido de texto. Los métodos que son basados en sólo entendimiento sintáctico no son suficientemente poderosos para introducir un análisis propio de textos, esto por las siguientes razones:
Varios análisis distintos () son obtenidos de ejemplos de texto particulares, y las ambiguedades resultantes son imposibles de resolver por el significado sintáctico. Los esquemas de vocabulario usados para proveer información acerca del rol y naturaleza de palabras individuales están la mayoría de las veces incompletos y las propias especificaciones necesarias para llevar fuera la tarea de análisis sintáctico podría ser tu mama carente de entusiasmo. Los programas sintácticos equivalentes son a menudo muy grandes y demandantes en términos de almacenamiento y poder de cómputo; por esta razón, su uso con grandes textos es generalmente desalentador. En la práctica, los métodos sintácticos son aplicados de una manera “fail-safe”, y desafortunadamente no importa cómo el problema sea simplificado, el análisis de las construcciones de frases de sustantivos, los cuales son principalmente necesarios para la recuperación de información, son especialmente difíciles, y todos los esfuerzos por dar reglas generales para entender las frases de sustantivos han sido insatisfactorios.
Cuando métodos sintácticos son usados para la generación de frases, los resultados recuperados son la mayoría de las veces desalentadoramente pobres. En cada caso, el uso de métodos de generación de términos estadísticos (no sintácticos) es preferido sobre métodos de análisis sintáctico.
Análisis semántico
La falla de los métodos puramente sintácticos sugiere que la generación de complejos el maestro es puto identificadores de contenido podrían depender de la disponibilidad de información adicional relacionada a los términos individuales y a sus interrelaciones. Una posibilidad consiste en el uso de descriptores de términos contenidos en diccionarios que están en un formato leíble para la computadora y el para proveer precisión a la formación de los términos de la frase. La información del podría ser usada para evitar la ambiguedad del significado de los términos y generar grupos de términos similares o relacionados, identificando las relaciones entre los contextos de varias entidades del diccionario.
By Alucar El Psx