Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



INTELIGENCIA ARTIFICIAL Y LENGUA ESPAÑOLA

Congreso de Sevilla
 

El procesamiento del lenguaje natural, tecnología en transición*
Jaime Carbonell. Carnegie Mellon University

 


1. ¿Por qué estudiar el procesamiento del lenguaje natural?

El Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de la inteligencia artificial. La Traducción Automática (TA), por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial» (IA). No obstante, el PLN ha desempeñado múltiples papeles en el contexto de la IA, y su importancia dentro de este campo ha crecido y decrecido a consecuencia de cambios tecnológicos y científicos. Los primeros intentos de traducir textos por ordenador a finales de los cuarenta y durante los cincuenta, por ejemplo, fracasaron debido a la escasa potencia de los ordenadores y a la escasa sofisticación lingüística. Sin embargo, los esfuerzos realizados en las décadas de los sesenta y de los setenta para producir interfaces en lenguaje natural para bases de datos y otras aplicaciones informáticas obtuvieron un cierto grado significativo de éxito. La década de los ochenta y el principio de la de los noventa han visto resurgir la investigación en el terreno de la TA, investigación que ha conducido a sistemas susceptibles de ser explotados industrialmente. Estos progresos favorables se deben a una combinación de factores que van desde un enorme aumento en la potencia de los ordenadores en relación a su coste hasta modelos del lenguaje humano mejores y más susceptibles de ser tratados computacionalmente. Por otra parte, nunca ha sido mayor la necesidad de sistemas de PLN para procesar datos textuales, incluyendo traducción, clasificación, recuperación y extracción de información.

Más concretamente, los objetivos del PLN son de tres tipos:

1. Interfaces en lenguaje natural: ¿No estaría bien dar las órdenes en el mismo lenguaje a todos los ordenadores, y tanto más aún si ese lenguaje fuera uno que los usuarios ya conocieran bien, como su propio lenguaje natural nativo? Esta era la premisa en que se basaban las interfaces en LN hasta finales de los ochenta. No obstante, algunas modernas interfaces gráficas basadas en iconos se están volviendo más fáciles de usar y a veces superan la velocidad de escritura de muchos usuarios. Actualmente, parece que una solución más deseable para cubrir las necesidades de los colectivos de usuarios sería una tecnología mixta consistente en interfaces híbridas de tipo gráfico/LN y voz/LN o voz/LN/gráfico. Los recientes avances en el procesamiento del lenguaje oral, junto con la tecnología PLN están convirtiendo este tipo de interfaces en una realidad práctica.

2. Procesamiento de textos: Según se ha estimado en congresos de la IFIP (International Federation for Information Processing), hay en todo el mundo más datos almacenados en forma de texto que en cualquier otra forma (como, por ejemplo, bases de datos relacionales o incluso registros de transacciones bancarias). Las ciencias de la información han abordado el problema de la recuperación probabilística, pero han tropezado con las limitaciones que plantea el sistema de palabras clave en cuanto al grado de precisión en el proceso de recuperación. Por otra parte, las necesidades de los usuarios van más allá de la recuperación de información e incluyen la extracción de los datos significativos, la elaboración de resúmenes, etc. Las actuales investigaciones en el campo del PLN intentan abordar estos problemas.

3. Traducción automática: El objetivo original del PLN ha tomado una vez más la delantera en cuanto a resultados científicos recientes, avances tecnológicos y aplicaciones prácticas. Diversos sistemas multilingües eficaces de TA ya están siendo explotados industrialmente y continuarán evolucionando de manera rápida en un futuro inmediato.


Subir


2. ¿Por qué resulta difícil el procesamiento del lenguaje natural?

Si el PLN tiene tanto valor práctico, ¿a qué se debe que no dispongamos aún de PLN en todos los PC? En otras palabras, ¿por qué resulta difícil el PLN? La respuesta a esta pregunta es bastante compleja, pero una dificultad sobresale sobre las demás:

Dificultad principal: El lenguaje natural es localmente ambiguo, y la resolución de ambigüedades es necesaria para un procesamiento eficaz.

Consideremos, por ejemplo, la traducción al español de la palabra inglesa hit, para la cual existen múltiples traducciones posibles en función del contexto. He aquí tres de ellas:

1. He hit the nail with the hammer.=> «golpear» o «martillar» (Golpeó el clavo con el martillo).

2. The car swerved and hit the tree.=> «chocar» (El coche se desvió bruscamente y chocó contra el árbol).

3. The soldier fired and hit his target.=> «acertar» (El soldado hizo fuego y dio en el blanco).

¿Cómo podemos saber cuál significado de hit elegir en cada una de las frases anteriores? La respuesta obvia, «a partir del contexto oracional», no resulta suficientemente operativa para ser aplicada en un sistema de PLN. Debemos determinar exactamente cuál es el contexto oracional, qué conocimiento básico es necesario (como, por ejemplo, qué es un coche, o que el verbo swerve se refiere a un acontecimiento involuntario), y cómo ordenar esta información para poder decidir definitivamente sobre los significados de las palabras. Muchas investigaciones en el campo del PLN han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Además, la resolución de ambigüedades léxicas no se limita a la traducción automática. La consulta a bases de datos y la recuperación documental también requieren la resolución de ambigüedades lingüísticas. Por ejemplo, si queremos documentos sobre cardiac arrest («paro cardíaco») deberemos generar —automáticamente— una consulta que busque también heart failure («fallo cardíaco») y otras expresiones sinonímicas o pseudosinonímicas. No obstante, desearemos prescindir de significados espurios como arrests by police («detenciones policiales») que conducirían a la recuperación de cantidades abrumadoras de documentos irrelevantes para nuestros fines.

Aparte de la ambigüedad léxica, hay otros tipos de ambigüedades lingüísticas que resolver. Las más importantes son la ambigüedad referencial y la ambigüedad estructural. La primera tiene lugar cuando se utilizan pronombres o sintagmas nominales concisos para hacer referencia a objetos o eventos descritos previamente. En estos casos, el sistema de PLN debe determinar la entidad lingüística previa a que hacen referencia estas anáforas. La segunda es aún más frecuente; el caso más claro de este tipo de ambigüedad es el de la ambigüedad en el nivel de dependencia de los sintagmas preposicionales (PP-attachment). Consideremos las frases siguientes: remove the bolt with an Allen wrench («quitar el perno con una llave inglesa») y remove the box with blue lettering («quitar el recuadro con letras azules»). En el primer caso, el sintagma preposicional modifica al verbo como instrumento y, en el segundo, modifica al objeto directo como especificador. Se hace necesaria la semántica para distinguir ambas estructuras: llaves inglesas y letras desempeñan funciones semánticas diferentes.

A pesar de todo, la resolución de ambigüedades no es una tarea tan abrumadora como para imposibilitar el desarrollo de sistemas de PLN con fines prácticos. Se han construido ya sistemas de PLN para interfaces, procesamiento de texto y traducción, sobre todo para dominios claramente delimitados (especialmente dominios técnicos), para los cuales las relaciones semánticas pueden ser enumeradas.


Subir


3. Componentes de un sistema de procesamiento del lenguaje natural

El procesamiento del lenguaje natural requiere la realización de las siguientes tareas funcionalmente descomponibles:

Análisis morfológico: El análisis de las palabras para extraer raíces, rasgos flexivos, unidades léxicas compuestas y otros fenómenos.

Análisis sintáctico: El análisis de la estructura sintáctica de la frase mediante una gramática de la lengua en cuestión.

Análisis semántico: La extracción del significado de la frase, y la resolución de ambigüedades léxicas y estructurales.

Análisis pragmático: El análisis del texto más allá de los límites de la frase, por ejemplo, para determinar los antecedentes referenciales de los pronombres.

Planificación de la frase: Para generar texto, la decisión de cómo estructurar cada frase con el fin de expresar el significado adecuado.

Generación de la frase: La generación de la cadena lineal de palabras a partir de la estructura general de la frase, con sus correspondientes flexiones, concordancias y restantes fenómenos sintácticos y morfológicos.

Por supuesto, ninguna arquitectura de PLN presenta un flujo de control que consista en una mera concatenación lineal de estos módulos funcionales. Para mayor eficiencia, los análisis sintáctico y semántico a menudo se entremezclan o cotejan mutuamente. En efecto, resulta más eficiente realizar llamadas a la semántica como rutina paralela, a fin de eliminar interpretaciones espurias, con lo cual se evita la generación de numerosos posibles análisis sintáctica o léxicamente ambiguos. Por otra parte, las diferentes tareas de PLN plantean requisitos diferentes en cuanto a su arquitectura. La consulta a bases de datos en LN, por ejemplo, utiliza normalmente los componentes analíticos, y devuelve el resultado de la consulta en forma de tabla sin generación de lenguaje. La traducción automática, en cambio, realiza el análisis lingüístico usando la gramática y diccionarios de una lengua, y la generación, mediante la gramática y diccionarios de una o varias lenguas diferentes. El paso que enlaza el análisis de la lengua de origen con la generación de la lengua de destino consiste bien en una representación semántica común (llamada a menudo interlingua),o bien en un proceso de transferencia (transfer) entre el resultado del análisis y el inicio de la generación.


Subir


Notas:

* Traducción de Gerardo Arrarte.Volver al texto
 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.