|
|
El procesamiento
del lenguaje natural, tecnología en transición*
Jaime Carbonell. Carnegie Mellon University |
|
1. ¿Por qué estudiar el procesamiento del lenguaje natural?
El Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de
la inteligencia artificial. La Traducción Automática (TA), por ejemplo, nació a finales
de la década de los cuarenta, antes de que se acuñara la propia expresión
«Inteligencia Artificial» (IA). No obstante, el PLN ha desempeñado múltiples papeles
en el contexto de la IA, y su importancia dentro de este campo ha crecido y decrecido a
consecuencia de cambios tecnológicos y científicos. Los primeros intentos de traducir
textos por ordenador a finales de los cuarenta y durante los cincuenta, por ejemplo,
fracasaron debido a la escasa potencia de los ordenadores y a la escasa sofisticación
lingüística. Sin embargo, los esfuerzos realizados en las décadas de los sesenta y de
los setenta para producir interfaces en lenguaje natural para bases de datos y otras
aplicaciones informáticas obtuvieron un cierto grado significativo de éxito. La década
de los ochenta y el principio de la de los noventa han visto resurgir la investigación en
el terreno de la TA, investigación que ha conducido a sistemas susceptibles de ser
explotados industrialmente. Estos progresos favorables se deben a una combinación de
factores que van desde un enorme aumento en la potencia de los ordenadores en relación a
su coste hasta modelos del lenguaje humano mejores y más susceptibles de ser tratados
computacionalmente. Por otra parte, nunca ha sido mayor la necesidad de sistemas de PLN
para procesar datos textuales, incluyendo traducción, clasificación, recuperación y
extracción de información.
Más concretamente, los objetivos del PLN son de tres tipos:
1. Interfaces en lenguaje natural: ¿No estaría bien dar las órdenes en el
mismo lenguaje a todos los ordenadores, y tanto más aún si ese lenguaje fuera uno que
los usuarios ya conocieran bien, como su propio lenguaje natural nativo? Esta era la
premisa en que se basaban las interfaces en LN hasta finales de los ochenta. No obstante,
algunas modernas interfaces gráficas basadas en iconos se están volviendo más fáciles
de usar y a veces superan la velocidad de escritura de muchos usuarios. Actualmente,
parece que una solución más deseable para cubrir las necesidades de los colectivos de
usuarios sería una tecnología mixta consistente en interfaces híbridas de tipo
gráfico/LN y voz/LN o voz/LN/gráfico. Los recientes avances en el procesamiento del
lenguaje oral, junto con la tecnología PLN están convirtiendo este tipo de interfaces en
una realidad práctica.
2. Procesamiento de textos: Según se ha estimado en congresos de la IFIP
(International Federation for Information Processing), hay en todo el mundo más datos
almacenados en forma de texto que en cualquier otra forma (como, por ejemplo, bases de
datos relacionales o incluso registros de transacciones bancarias). Las ciencias de la
información han abordado el problema de la recuperación probabilística, pero han
tropezado con las limitaciones que plantea el sistema de palabras clave en cuanto al grado
de precisión en el proceso de recuperación. Por otra parte, las necesidades de los
usuarios van más allá de la recuperación de información e incluyen la extracción de
los datos significativos, la elaboración de resúmenes, etc. Las actuales investigaciones
en el campo del PLN intentan abordar estos problemas.
3. Traducción automática: El objetivo original del PLN ha tomado una vez más la
delantera en cuanto a resultados científicos recientes, avances tecnológicos y
aplicaciones prácticas. Diversos sistemas multilingües eficaces de TA ya están siendo
explotados industrialmente y continuarán evolucionando de manera rápida en un futuro
inmediato.
|
|
2. ¿Por qué resulta difícil el
procesamiento del lenguaje natural?
Si el PLN tiene tanto valor práctico, ¿a qué se debe que no dispongamos aún de PLN en
todos los PC? En otras palabras, ¿por qué resulta difícil el PLN? La respuesta a esta
pregunta es bastante compleja, pero una dificultad sobresale sobre las demás:
Dificultad principal: El lenguaje natural es localmente ambiguo, y
la resolución de ambigüedades es necesaria para un procesamiento eficaz.
Consideremos, por ejemplo, la traducción al español de la palabra inglesa hit,
para la cual existen múltiples traducciones posibles en función del contexto. He aquí
tres de ellas:
1. He hit the nail with the hammer.=>
«golpear» o «martillar» (Golpeó el clavo con el martillo).
2. The car swerved and hit the tree.=> «chocar» (El coche se desvió
bruscamente y chocó contra el árbol).
3. The soldier fired and hit his target.=> «acertar» (El soldado hizo
fuego y dio en el blanco).
¿Cómo podemos saber cuál significado de hit
elegir en cada una de las frases anteriores? La respuesta obvia, «a partir del
contexto oracional», no resulta suficientemente operativa para ser aplicada en un sistema
de PLN. Debemos determinar exactamente cuál es el contexto oracional, qué conocimiento
básico es necesario (como, por ejemplo, qué es un coche, o que el verbo swerve se
refiere a un acontecimiento involuntario), y cómo ordenar esta información para poder
decidir definitivamente sobre los significados de las palabras. Muchas investigaciones en
el campo del PLN han estudiado métodos de resolver las ambigüedades léxicas mediante
diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas. Además,
la resolución de ambigüedades léxicas no se limita a la traducción automática. La
consulta a bases de datos y la recuperación documental también requieren la resolución
de ambigüedades lingüísticas. Por ejemplo, si queremos documentos sobre cardiac
arrest («paro cardíaco») deberemos generar automáticamente una
consulta que busque también heart failure («fallo cardíaco») y otras
expresiones sinonímicas o pseudosinonímicas. No obstante, desearemos prescindir de
significados espurios como arrests by police («detenciones policiales») que
conducirían a la recuperación de cantidades abrumadoras de documentos irrelevantes para
nuestros fines.
Aparte de la ambigüedad léxica, hay otros tipos de ambigüedades lingüísticas que
resolver. Las más importantes son la ambigüedad referencial y la ambigüedad
estructural. La primera tiene lugar cuando se utilizan pronombres o sintagmas
nominales concisos para hacer referencia a objetos o eventos descritos previamente. En
estos casos, el sistema de PLN debe determinar la entidad lingüística previa a que hacen
referencia estas anáforas. La segunda es aún más frecuente; el caso más claro de este
tipo de ambigüedad es el de la ambigüedad en el nivel de dependencia de los sintagmas
preposicionales (PP-attachment). Consideremos las frases siguientes: remove the
bolt with an Allen wrench («quitar el perno con una llave inglesa») y remove the
box with blue lettering («quitar el recuadro con letras azules»). En el primer caso,
el sintagma preposicional modifica al verbo como instrumento y, en el segundo, modifica al
objeto directo como especificador. Se hace necesaria la semántica para distinguir ambas
estructuras: llaves inglesas y letras desempeñan funciones semánticas diferentes.
A pesar de todo, la resolución de ambigüedades no es una tarea tan abrumadora como para
imposibilitar el desarrollo de sistemas de PLN con fines prácticos. Se han construido ya
sistemas de PLN para interfaces, procesamiento de texto y traducción, sobre todo para
dominios claramente delimitados (especialmente dominios técnicos), para los cuales las
relaciones semánticas pueden ser enumeradas. |
|
3. Componentes de un sistema de
procesamiento del lenguaje natural
El procesamiento del lenguaje natural requiere la realización de las siguientes tareas
funcionalmente descomponibles:
Análisis morfológico: El
análisis de las palabras para extraer raíces, rasgos flexivos, unidades léxicas
compuestas y otros fenómenos.
Análisis sintáctico: El análisis de la estructura sintáctica de la frase
mediante una gramática de la lengua en cuestión.
Análisis semántico: La extracción del significado de la frase, y la
resolución de ambigüedades léxicas y estructurales.
Análisis pragmático: El análisis del texto más allá de los límites de
la frase, por ejemplo, para determinar los antecedentes referenciales de los pronombres.
Planificación de la frase: Para generar texto, la decisión de cómo
estructurar cada frase con el fin de expresar el significado adecuado.
Generación de la frase: La generación de la cadena lineal de palabras a
partir de la estructura general de la frase, con sus correspondientes flexiones,
concordancias y restantes fenómenos sintácticos y morfológicos.
Por supuesto, ninguna arquitectura
de PLN presenta un flujo de control que consista en una mera concatenación lineal de
estos módulos funcionales. Para mayor eficiencia, los análisis sintáctico y semántico
a menudo se entremezclan o cotejan mutuamente. En efecto, resulta más eficiente realizar
llamadas a la semántica como rutina paralela, a fin de eliminar interpretaciones
espurias, con lo cual se evita la generación de numerosos posibles análisis sintáctica
o léxicamente ambiguos. Por otra parte, las diferentes tareas de PLN plantean requisitos
diferentes en cuanto a su arquitectura. La consulta a bases de datos en LN, por ejemplo,
utiliza normalmente los componentes analíticos, y devuelve el resultado de la consulta en
forma de tabla sin generación de lenguaje. La traducción automática, en cambio, realiza
el análisis lingüístico usando la gramática y diccionarios de una lengua, y la
generación, mediante la gramática y diccionarios de una o varias lenguas diferentes. El
paso que enlaza el análisis de la lengua de origen con la generación de la lengua de
destino consiste bien en una representación semántica común (llamada a menudo interlingua),o
bien en un proceso de transferencia (transfer) entre el resultado del análisis y
el inicio de la generación. |
|
Notas:
* Traducción de Gerardo
Arrarte.
|
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|