|
|
Lenguas y
tecnologías de la información
Ángel G. Jordán. Carnegie Mellon University |
|
En esta ponencia tratamos de algunas ramas de las tecnologías de la información que
tienen relevancia en, y se solapan con, el estudio de las lenguas. Tratamos
específicamente de la Comprensión de lenguajes naturales, de la Lingüística
Computacional y de la Generación de lenguajes naturales. Estas ramas a su vez se solapan
entre ellas y a veces se alude a algunos de sus campos respectivos en el contexto de otras
ramas.
Comprensión de lenguajes naturales
Una meta de la Inteligencia Artificial (IA) es el entender lenguajes naturales, debido a
lo que puede aportar acerca de la inteligencia en general y a su utilidad práctica.
Bases de datos, paquetes de software, y sistemas expertos basados en la IA
requieren interfaces flexibles para una comunidad creciente de usuarios que no pueden o no
quieren comunicarse con ordenadores por medio de lenguajes de comando, formales y
artificiales.
El área del tratamiento de lenguajes naturales (TLN) por ordenador, aunque todavía hay
muchos problemas generales por resolver, se está madurando hasta el punto que se pueden
construir en muchas áreas, si bien restringidas, interfaces prácticas en lenguaje
natural para sistemas de software, que son útiles en muchos casos.
En esta presentación tratamos del estado del arte del TLN por ordenador, y exploramos el
rango de capacidades que estas técnicas proporcionan a sistemas del TLN, y discutimos las
limitaciones actuales.
El TLN por ordenador es la formulación e investigación de mecanismos eficaces
computacionalmente para la comunicación por medio de lenguajes naturales.
Se trata de lenguajes humanos: inglés,
español, alemán.
Se trata del uso de estos lenguajes para comunicarse: entre personas, entre
personas y máquinas.
TLN no trata de la comunicación por medio de lenguajes naturales de una forma
abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces
computacionalmente que se puedan realizar por medio de programas que ejecuten o
simulen la comunicación.
Es esta tercera rama la que caracteriza al TLN
como un área de la IA, que a su vez es un área de la informática, separada de la
lingüística tradicional y otras disciplinas que abarcan el estudio de los lenguajes
naturales. Sin embargo, tocamos el tema de las relaciones entre TLN y otras dos
disciplinas: lingüística y psicología cognitiva.
La Lingüística trata de modelos estructurales, formales y generales, de lenguajes
naturales. Los lingüistas tratan con modelos que capten las regularidades del lenguaje y
tratan de generalizaciones lo más apropiadas posible lingüísticamente. No se preocupan
de la eficacia computacional como las gramáticas chomskyanas, por ejemplo.
Por otra parte, la meta de la psicología cognitiva no es el modelar la estructura del
lenguaje, sino modelar el uso del lenguaje, y hacerlo de una forma plausible buscando
siempre confirmación con resultados experimentales.
De hecho los modelos se enfocan no sólo a la comprensión del lenguaje de por sí, sino a
aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje
natural sirve sólo de medio para estudiar estos fenómenos.
El TLN puede ser general y aplicado.
El General aborda psicología cognitiva desde el punto de vista de la informática. La
meta es el realizar modelos del uso de lenguajes humanos y hacerlos computacionalmente
eficaces. Esto requiere una cantidad enorme de conocimiento del mundo real.
Los sistemas realizados son prototipos, sistemas piloto, y no contienen una gran cantidad
de conocimiento en sus bases. Se refieren a un puñado de pasajes o diálogos en lenguaje
natural.
El Aplicado se enfoca a permitir que el ser humano se pueda comunicar con la máquina por
medio de un lenguaje natural interfaces para bases de datos, para sistemas expertos.
Deben tratar de la detección y corrección de errores y de faltas en la comprensión del
usuario.
El problema básico del TLN es la ambigüedad:
Sintáctica (o estructural)
Del sentido de la palabra
Del caso gramatical
De la correferencia
De la exactitud literal
Para resolver estos tipos de ambigüedades y
otros, el problema central en el TLN es la traducción de entradas en lenguaje natural,
que pueden ser ambiguas, a una representación interna sin ambigüedad informa al
programa que realiza el tratamiento.
No hay estándares para estas representaciones. Algunos tipos incluyen:
Expresiones en un lenguaje para consultar
bases de datos para bases de datos
Árboles de análisis con nodos terminales para el sentido de la palabra y para la
traducción automática
Expresiones en LISP en la interrogación de sistemas expertos
Instanciaciones de marco de caso
Dependencia conceptual
En el TLN general se realiza la traducción de
una aserción a una representación interna sin ambigüedad con inferencia basada en un
sistema de conocimiento del mundo real, potencialmente sin límite.
Las técnicas para la representación del conocimiento no están suficientemente
desarrolladas para poder abarcar niveles aceptables de eficacia de grandes cantidades de
conocimiento, como los que se requieren para entender una gran variedad de temas. Los
sistemas existentes son más bien sistemas de demostración que operan con una cantidad de
conocimiento muy limitada, mas bien de artesanía, diseñados para procesar un conjunto
pequeño de entradas.
Los sistemas de TLN aplicado adolecen de las mismas limitaciones, pero se valen de
subterfugios aprovechándose de ciertas características de los dominios limitados en que
operan. Por ejemplo, el caso de la palabra «terminales» en el ayudante del vendedor.
Las investigaciones actuales se consagran al asunto de la portabilidad de ciertas
interfaces actuales, pero hasta que el problema de la precodificación de inferencias no
se resuelva de una manera más general el tema de la portabilidad continuará como uno de
los cuellos de botella para el uso de interfaces con lenguajes naturales.
Con el Language Craft se ha alcanzado una alternativa práctica. Se suministra un
entorno de desarrollo y un intérprete gramatical para abreviar el desarrollo de nuevas
interfaces en dominios específicos.
En Técnicas para el análisis del Lenguaje Natural, se trata de traducir expresiones en
lenguaje natural a una representación interna única:
Equiparamiento de patrones
Análisis dirigido sintácticamente
Gramáticas semánticas
Instanciación de marcos de casos
Esperar y ver
Experto en palabras
El conexionista
El hojeador
En la categoría de «Análisis» dirigido
sintácticamente se encuentran:
Árboles de análisis y gramáticas de
contexto libre
Gramática transformacional
Redes de transición aumentadas (ATN)
En la categoría «Instanciación de marco» de
casos se encuentran:
Casos requeridos, opcionales y
prohibidos
Dependencia conceptual
Análisis de marcos de casos
Fenómenos de diálogo. Transcienden oraciones
individuales
Anáfora (pronombres y otras
referencias a conceptos descritos previamente en el diálogo)
Frases de nombre definidos
Elipsis
Expresiones fuera de la gramática
Expresiones metalingüísticas
Acciones de voz indirecta
En la resolución de la elipsis cuando se
utilizan marcos de casos así como en fenómenos más complejos inferencia par
alcanzar una meta y restricciones sociales del rol, aún hay mucho por hacer. |
 |
Lingüística computacional (LC)
La investigación en LC se ocupa de la aplicación de un paradigma computacional al
estudio científico del lenguaje humano, y a la ingeniería de sistemas para el
tratamiento o análisis del lenguaje escrito o hablado.
El término TLN se usa también, si bien se refiere más al lado ingenieril de la
disciplina.
El término LC incluía en tiempos el estudio de lenguajes formales y lenguajes de
ordenador artificiales, ALGOL, etc.
Temas teóricos en LC incluyen: sintaxis, semántica, discurso, generación de lenguaje,
adquisición de lenguaje, etc.
Temas aplicados incluyen: programación automática, enseñanza asistida por ordenador,
interfases de bases de datos, traducción automática, ofimática, comprensión de la
señal acústica (voz), etc.
Los investigadores en LC están interesados también en aspectos de: IA, ciencia
cognitiva, ciencia e ingeniería del computador, ciencia de la información,
lingüística, filosofía, psicología, y ciencias de la voz.
En los trabajos iniciales (1950-1965) se abordaron temas relacionados con:
Traducción automática-palabra por
palabra; no tuvo mucho éxito; de hecho un comité asesor para el tratamiento automático
del lenguaje en los EE. UU. recomendó que estos trabajos no se debían financiar.
Gramática transformacional; las estructuras sintácticas de Chomsky que indicaban
que las oraciones de un lenguaje natural no se pueden generar con significado por medio de
una máquina de estado finito o por una gramática de contexto libre, o que si tal
gramática se pudiera construir, sería extraordinariamente compleja.
A un nivel abstracto la GT lleva consigo el
especificar: un conjunto de oraciones nucleares de un lenguaje; un conjunto de
transformaciones (tiempos de verbos, voz pasiva); y un orden con el cual las oraciones se
han de construir.
«La autonomía de la sintaxis» sugería que una comprensión de la sintaxis, o
estructura, de oraciones en lenguaje natural se puede alcanzar solamente basándose en una
base gramatical sin considerar las propiedades (significados) en el mundo real de los
términos que se discuten.
Extracción de la información: estructura, análisis, organización,
almacenamiento, búsqueda y acceso a la información.
En un segundo período (1960-1970)
hubo una expansión de intereses acerca de:
Sistemas de
pregunta y
respuesta, diseñados para dialogar con una base de datos primitiva.
Resolución de problemas, diseñados como programas que pudieran comunicarse con
personas en leguaje natural, en un domino restringido.
Consultas médicas, como en el caso de ELIZA.
En los años 1965-1970 se
desarrollaron formalismos en:
Redes de transición
aumentadas
Gramática de casos
Dependencia conceptual
Semántica de procedimientos
Redes semánticas
En los años 1970 dos proyectos
captaron la atención de investigadores de IA:
SHRDLU de Winograd: el
sistema suministra un interfaz de lenguaje natural la brazo de un robot simulado en un
retorno de bloques en una mesa. Este sistema fallaría en dominios más amplios.
LUNAR: se deriva de trabajos realizados sobre semántica de procedimientos.
Proporciona a geólogos lunares un interfaz en lenguaje natural a la base de datos de
rocas lunares. En la primera fase se formaba un análisis sintáctico usando una
gramática ATN y un diccionario de 3500 palabras.
Algunas aplicaciones en el período
1970-1984 fueron para:
Interfaces a bases de datos
Enseñanza asistida por el ordenador
Ofimática
Programación automática
Tratamiento de textos científicos
Las tendencias actuales incluyen:
Implementaciones
independientes del dominio: los esfuerzos se dirigen a aumentar la portabilidad, a
permitir a los usuarios a que hagan trabajos a la medida, o que el sistema se adapte
asimismo para un usuario o para un domino de diálogo.
Resurgimiento del interés en la traducción automática
Extensión de la comercialización del TLN
Se está abordando temas teóricos
en:
Análisis y formalismo
gramaticales
Búsqueda sin determinismo
Formalismos gramaticales
Lenguajes gramaticalmente incorrectos
En semántica se abordan temas
asociados con tratar de hallar y representar el significado de expresiones en lenguaje
natural.
En comprensión del discurso se tiene en cuenta que las representaciones sintáctica y
semántica en los contextos del discurso se relacionan explícita e implícitamente con
las representaciones de otras oraciones en el discurso.
En generación de textos se trata de la traducción de representaciones internas a formas
textuales.
En adquisición de lenguaje, algunos investigadores intentan automatizar la adquisición
de experiencia lingüística por medios eficaces; otros tratan de lograr modelos
cognitivos manteniéndose fieles a los datos psicolingüísticos sobre adquisición del
lenguaje. |
 |
Generación de lenguajes naturales (GLN)
GLN es el proceso de la construcción de un texto en lenguaje natural para la
comunicación con fines específicos. Texto se refiere aquí a un término general y
repetitivo aplicable a expresiones, o partes de ellas, de cualquier tamaño, tanto
habladas como escritas. En el ser humano, el que sea hablado o escrito tiene consecuencias
en el nivel deliberativo y de edición que ha tenido lugar; si el lenguaje es hablado
puede faltar revisión ya que la mayoría de los programas actuales pueden hablar, si bien
casi todos sólo presentan palabras en una pantalla. La decisión de revisar o usar la
palabra escrita o hablada no es una opción para la generación del programa en la
actualidad; pero se debe abordar el tema en el diseño de un programa en particular.
El principal énfasis de la generación de lenguajes naturales no es sólo el facilitar el
uso del ordenador sino también el desarrollar una teoría computacional de la capacidad
del lenguaje humano. En este sentido constituye una herramienta para extender, aclarar y
verificar teorías que se han formulado en lingüística, psicología y sociología acerca
de la comunicación entre humanos.
Un generador de lenguaje natural típicamente tiene acceso a un gran conjunto de
conocimiento del cual ha de seleccionar información para presentar a los usuarios en
varias formas. El generar texto es, pues, un problema de toma de decisiones con múltiples
restricciones: de conocimiento proposicional, de herramientas lingüísticas disponibles,
de los objetivos de la comunicación del usuario a quien se dirige el texto, y de la
situación y del discurso pasado. Se trata de identificar los factores involucrados en
este proceso y de determinar la mejor forma de representar estos factores y sus
dependencias.
Para generar un texto, un sistema debe escoger cierta información de la base de
conocimiento, decidir cómo organizarla, y determinar cómo producir el texto en lenguaje
natural, lo cual incluye el decidir acerca de la entrada del léxico y de las estructuras
sintácticas.
Esto hace que el proceso de generación se divida en dos partes: una componente de
planificación del texto y una componente de generación propiamente dicha. Ésta a su vez
se divide en dos tareas: la de escoger los objetos del léxico y la de efectuar
selecciones gramaticales. En todo esto se trata de escoger apropiadamente para expresar lo
mejor posible el significado deseado.
Planificación de textos
Cuando se hace de arriba a abajo, se generan textos para sistemas complejos, en sistemas
expertos para dialogar con una gran variedad de usuarios. El proceso de planificación es
algo restrictivo ya que no puede alcanzar planificación oportunista. En algunos casos se
incorporan métodos de abajo a arriba, para aprovecharse de planificación oportunista.
Elección de léxico
En este campo se trabaja desde los puntos de vista lingüístico y computacionales. Este
problema es difícil. En algunos casos se trata al nivel de la representación conceptual
sobre cuya base opera el generador. Este método puede resultar en una arquitectura de
procesamiento mas simple. En otros casos se trata de que la elección de léxico no ocurra
de una forma aislada sino como parte del problema de la elección lexicogramatical. En
otros casos se han desarrollado generadores basados en la teoría significado-texto, donde
el léxico desempeña un papel central, que influye en el proceso de generación.
Recursos gramaticales
En este campo la gramática a utilizar es una componente importante del sistema, y toma
decisiones de cómo expresar sintácticamente la información deseada. En algunos casos se
trata de una gramática que tenga en cuenta las correferencias del discurso. En otros
casos la gramática se diseña para manejar las necesidades de la generación de oraciones
incrementalmente.
Morfología
Este campo trata de la formación de la palabra (inflexión, palabras derivadas, palabras
compuestas). Se basa en un léxico que contiene entradas para un conjunto de palabras y
reglas para las inflexiones. |
 |
Reconocimiento de la voz. Comprensión
de la voz. Síntesis de la voz
Estos campos llevan consigo todos los temas antes aludidos, y otros característicos
propios, sobre todo en la comprensión del lenguaje hablado. Se trata de ellos en otras
ponencias de este congreso. |
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|