Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



INTELIGENCIA ARTIFICIAL Y LENGUA ESPAÑOLA

Congreso de Sevilla
 

Lenguas y tecnologías de la información
Ángel G. Jordán. Carnegie Mellon University


En esta ponencia tratamos de algunas ramas de las tecnologías de la información que tienen relevancia en, y se solapan con, el estudio de las lenguas. Tratamos específicamente de la Comprensión de lenguajes naturales, de la Lingüística Computacional y de la Generación de lenguajes naturales. Estas ramas a su vez se solapan entre ellas y a veces se alude a algunos de sus campos respectivos en el contexto de otras ramas.

Comprensión de lenguajes naturales

Una meta de la Inteligencia Artificial (IA) es el entender lenguajes naturales, debido a lo que puede aportar acerca de la inteligencia en general y a su utilidad práctica.

Bases de datos, paquetes de software, y sistemas expertos basados en la IA requieren interfaces flexibles para una comunidad creciente de usuarios que no pueden o no quieren comunicarse con ordenadores por medio de lenguajes de comando, formales y artificiales.

El área del tratamiento de lenguajes naturales (TLN) por ordenador, aunque todavía hay muchos problemas generales por resolver, se está madurando hasta el punto que se pueden construir en muchas áreas, si bien restringidas, interfaces prácticas en lenguaje natural para sistemas de software, que son útiles en muchos casos.

En esta presentación tratamos del estado del arte del TLN por ordenador, y exploramos el rango de capacidades que estas técnicas proporcionan a sistemas del TLN, y discutimos las limitaciones actuales.

El TLN por ordenador es la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación por medio de lenguajes naturales.

— Se trata de lenguajes humanos: inglés, español, alemán.

— Se trata del uso de estos lenguajes para comunicarse: entre personas, entre personas y máquinas.

— TLN no trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación.

Es esta tercera rama la que caracteriza al TLN como un área de la IA, que a su vez es un área de la informática, separada de la lingüística tradicional y otras disciplinas que abarcan el estudio de los lenguajes naturales. Sin embargo, tocamos el tema de las relaciones entre TLN y otras dos disciplinas: lingüística y psicología cognitiva.

La Lingüística trata de modelos estructurales, formales y generales, de lenguajes naturales. Los lingüistas tratan con modelos que capten las regularidades del lenguaje y tratan de generalizaciones lo más apropiadas posible lingüísticamente. No se preocupan de la eficacia computacional —como las gramáticas chomskyanas, por ejemplo—.

Por otra parte, la meta de la psicología cognitiva no es el modelar la estructura del lenguaje, sino modelar el uso del lenguaje, y hacerlo de una forma plausible buscando siempre confirmación con resultados experimentales.

De hecho los modelos se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos.

El TLN puede ser general y aplicado.

El General aborda psicología cognitiva desde el punto de vista de la informática. La meta es el realizar modelos del uso de lenguajes humanos y hacerlos computacionalmente eficaces. Esto requiere una cantidad enorme de conocimiento del mundo real.

Los sistemas realizados son prototipos, sistemas piloto, y no contienen una gran cantidad de conocimiento en sus bases. Se refieren a un puñado de pasajes o diálogos en lenguaje natural.

El Aplicado se enfoca a permitir que el ser humano se pueda comunicar con la máquina por medio de un lenguaje natural —interfaces para bases de datos, para sistemas expertos.

Deben tratar de la detección y corrección de errores y de faltas en la comprensión del usuario.

El problema básico del TLN es la ambigüedad:

— Sintáctica (o estructural)

— Del sentido de la palabra

— Del caso gramatical

— De la correferencia

— De la exactitud literal

Para resolver estos tipos de ambigüedades y otros, el problema central en el TLN es la traducción de entradas en lenguaje natural, que pueden ser ambiguas, a una representación interna sin ambigüedad —informa al programa que realiza el tratamiento.

No hay estándares para estas representaciones. Algunos tipos incluyen:

— Expresiones en un lenguaje para consultar bases de datos para bases de datos

— Árboles de análisis con nodos terminales para el sentido de la palabra y para la traducción automática

— Expresiones en LISP en la interrogación de sistemas expertos

— Instanciaciones de marco de caso

— Dependencia conceptual

En el TLN general se realiza la traducción de una aserción a una representación interna sin ambigüedad con inferencia basada en un sistema de conocimiento del mundo real, potencialmente sin límite.

Las técnicas para la representación del conocimiento no están suficientemente desarrolladas para poder abarcar niveles aceptables de eficacia de grandes cantidades de conocimiento, como los que se requieren para entender una gran variedad de temas. Los sistemas existentes son más bien sistemas de demostración que operan con una cantidad de conocimiento muy limitada, mas bien de artesanía, diseñados para procesar un conjunto pequeño de entradas.

Los sistemas de TLN aplicado adolecen de las mismas limitaciones, pero se valen de subterfugios aprovechándose de ciertas características de los dominios limitados en que operan. Por ejemplo, el caso de la palabra «terminales» en el ayudante del vendedor.

Las investigaciones actuales se consagran al asunto de la portabilidad de ciertas interfaces actuales, pero hasta que el problema de la precodificación de inferencias no se resuelva de una manera más general el tema de la portabilidad continuará como uno de los cuellos de botella para el uso de interfaces con lenguajes naturales.

Con el Language Craft se ha alcanzado una alternativa práctica. Se suministra un entorno de desarrollo y un intérprete gramatical para abreviar el desarrollo de nuevas interfaces en dominios específicos.

En Técnicas para el análisis del Lenguaje Natural, se trata de traducir expresiones en lenguaje natural a una representación interna única:

— Equiparamiento de patrones

— Análisis dirigido sintácticamente

— Gramáticas semánticas

— Instanciación de marcos de casos

— Esperar y ver

— Experto en palabras

— El conexionista

— El hojeador

En la categoría de «Análisis» dirigido sintácticamente se encuentran:

— Árboles de análisis y gramáticas de contexto libre

— Gramática transformacional

— Redes de transición aumentadas (ATN)

En la categoría «Instanciación de marco» de casos se encuentran:

— Casos requeridos, opcionales y prohibidos

— Dependencia conceptual

— Análisis de marcos de casos

Fenómenos de diálogo. Transcienden oraciones individuales

— Anáfora  (pronombres y otras referencias a conceptos descritos previamente en el diálogo)

— Frases de nombre definidos

— Elipsis

— Expresiones fuera de la gramática

— Expresiones metalingüísticas

— Acciones de voz indirecta

En la resolución de la elipsis cuando se utilizan marcos de casos así como en fenómenos más complejos —inferencia par alcanzar una meta y restricciones sociales del rol—, aún hay mucho por hacer.


Subir


Lingüística computacional (LC)

La investigación en LC se ocupa de la aplicación de un paradigma computacional al estudio científico del lenguaje humano, y a la ingeniería de sistemas para el tratamiento o análisis del lenguaje escrito o hablado.

El término TLN se usa también, si bien se refiere más al lado ingenieril de la disciplina.

El término LC incluía en tiempos el estudio de lenguajes formales y lenguajes de ordenador artificiales, ALGOL, etc.

Temas teóricos en LC incluyen: sintaxis, semántica, discurso, generación de lenguaje, adquisición de lenguaje, etc.

Temas aplicados incluyen: programación automática, enseñanza asistida por ordenador, interfases de bases de datos, traducción automática, ofimática, comprensión de la señal acústica (voz), etc.

Los investigadores en LC están interesados también en aspectos de: IA, ciencia cognitiva, ciencia e ingeniería del computador, ciencia de la información, lingüística, filosofía, psicología, y ciencias de la voz.

En los trabajos iniciales (1950-1965) se abordaron temas relacionados con:

— Traducción automática-palabra por palabra; no tuvo mucho éxito; de hecho un comité asesor para el tratamiento automático del lenguaje en los EE. UU. recomendó que estos trabajos no se debían financiar.

— Gramática transformacional; las estructuras sintácticas de Chomsky que indicaban que las oraciones de un lenguaje natural no se pueden generar con significado por medio de una máquina de estado finito o por una gramática de contexto libre, o que si tal gramática se pudiera construir, sería extraordinariamente compleja.

A un nivel abstracto la GT lleva consigo el especificar: un conjunto de oraciones nucleares de un lenguaje; un conjunto de transformaciones (tiempos de verbos, voz pasiva); y un orden con el cual las oraciones se han de construir.

«La autonomía de la sintaxis» sugería que una comprensión de la sintaxis, o estructura, de oraciones en lenguaje natural se puede alcanzar solamente basándose en una base gramatical sin considerar las propiedades (significados) en el mundo real de los términos que se discuten.

— Extracción de la información: estructura, análisis, organización, almacenamiento, búsqueda y acceso a la información.

En un segundo período (1960-1970) hubo una expansión de intereses acerca de:

— Sistemas de pregunta y respuesta, diseñados para dialogar con una base de datos primitiva.

— Resolución de problemas, diseñados como programas que pudieran comunicarse con personas en leguaje natural, en un domino restringido.

— Consultas médicas, como en el caso de ELIZA.

En los años 1965-1970 se desarrollaron formalismos en:

— Redes de transición aumentadas

— Gramática de casos

— Dependencia conceptual

— Semántica de procedimientos

— Redes semánticas

En los años 1970 dos proyectos captaron la atención de investigadores de IA:

— SHRDLU de Winograd: el sistema suministra un interfaz de lenguaje natural la brazo de un robot simulado en un retorno de bloques en una mesa. Este sistema fallaría en dominios más amplios.

— LUNAR: se deriva de trabajos realizados sobre semántica de procedimientos. Proporciona a geólogos lunares un interfaz en lenguaje natural a la base de datos de rocas lunares. En la primera fase se formaba un análisis sintáctico usando una gramática ATN y un diccionario de 3500 palabras.

Algunas aplicaciones en el período 1970-1984 fueron para:

— Interfaces a bases de datos

— Enseñanza asistida por el ordenador

— Ofimática

— Programación automática

— Tratamiento de textos científicos

Las tendencias actuales incluyen:

— Implementaciones independientes del dominio: los esfuerzos se dirigen a aumentar la portabilidad, a permitir a los usuarios a que hagan trabajos a la medida, o que el sistema se adapte asimismo para un usuario o para un domino de diálogo.

— Resurgimiento del interés en la traducción automática

— Extensión de la comercialización del TLN

Se está abordando temas teóricos en:

— Análisis y formalismo gramaticales

— Búsqueda sin determinismo

— Formalismos gramaticales

— Lenguajes gramaticalmente incorrectos

En semántica se abordan temas asociados con tratar de hallar y representar el significado de expresiones en lenguaje natural.

En comprensión del discurso se tiene en cuenta que las representaciones sintáctica y semántica en los contextos del discurso se relacionan explícita e implícitamente con las representaciones de otras oraciones en el discurso.

En generación de textos se trata de la traducción de representaciones internas a formas textuales.

En adquisición de lenguaje, algunos investigadores intentan automatizar la adquisición de experiencia lingüística por medios eficaces; otros tratan de lograr modelos cognitivos manteniéndose fieles a los datos psicolingüísticos sobre adquisición del lenguaje.


Subir
 
Generación de lenguajes naturales (GLN)

GLN es el proceso de la construcción de un texto en lenguaje natural para la comunicación con fines específicos. Texto se refiere aquí a un término general y repetitivo aplicable a expresiones, o partes de ellas, de cualquier tamaño, tanto habladas como escritas. En el ser humano, el que sea hablado o escrito tiene consecuencias en el nivel deliberativo y de edición que ha tenido lugar; si el lenguaje es hablado puede faltar revisión ya que la mayoría de los programas actuales pueden hablar, si bien casi todos sólo presentan palabras en una pantalla. La decisión de revisar o usar la palabra escrita o hablada no es una opción para la generación del programa en la actualidad; pero se debe abordar el tema en el diseño de un programa en particular.

El principal énfasis de la generación de lenguajes naturales no es sólo el facilitar el uso del ordenador sino también el desarrollar una teoría computacional de la capacidad del lenguaje humano. En este sentido constituye una herramienta para extender, aclarar y verificar teorías que se han formulado en lingüística, psicología y sociología acerca de la comunicación entre humanos.

Un generador de lenguaje natural típicamente tiene acceso a un gran conjunto de conocimiento del cual ha de seleccionar información para presentar a los usuarios en varias formas. El generar texto es, pues, un problema de toma de decisiones con múltiples restricciones: de conocimiento proposicional, de herramientas lingüísticas disponibles, de los objetivos de la comunicación del usuario a quien se dirige el texto, y de la situación y del discurso pasado. Se trata de identificar los factores involucrados en este proceso y de determinar la mejor forma de representar estos factores y sus dependencias.

Para generar un texto, un sistema debe escoger cierta información de la base de conocimiento, decidir cómo organizarla, y determinar cómo producir el texto en lenguaje natural, lo cual incluye el decidir acerca de la entrada del léxico y de las estructuras sintácticas.

Esto hace que el proceso de generación se divida en dos partes: una componente de planificación del texto y una componente de generación propiamente dicha. Ésta a su vez se divide en dos tareas: la de escoger los objetos del léxico y la de efectuar selecciones gramaticales. En todo esto se trata de escoger apropiadamente para expresar lo mejor posible el significado deseado.

Planificación de textos

Cuando se hace de arriba a abajo, se generan textos para sistemas complejos, en sistemas expertos para dialogar con una gran variedad de usuarios. El proceso de planificación es algo restrictivo ya que no puede alcanzar planificación oportunista. En algunos casos se incorporan métodos de abajo a arriba, para aprovecharse de planificación oportunista.

Elección de léxico

En este campo se trabaja desde los puntos de vista lingüístico y computacionales. Este problema es difícil. En algunos casos se trata al nivel de la representación conceptual sobre cuya base opera el generador. Este método puede resultar en una arquitectura de procesamiento mas simple. En otros casos se trata de que la elección de léxico no ocurra de una forma aislada sino como parte del problema de la elección lexicogramatical. En otros casos se han desarrollado generadores basados en la teoría significado-texto, donde el léxico desempeña un papel central, que influye en el proceso de generación.

Recursos gramaticales

En este campo la gramática a utilizar es una componente importante del sistema, y toma decisiones de cómo expresar sintácticamente la información deseada. En algunos casos se trata de una gramática que tenga en cuenta las correferencias del discurso. En otros casos la gramática se diseña para manejar las necesidades de la generación de oraciones incrementalmente.

Morfología

Este campo trata de la formación de la palabra (inflexión, palabras derivadas, palabras compuestas). Se basa en un léxico que contiene entradas para un conjunto de palabras y reglas para las inflexiones.

Subir
 
Reconocimiento de la voz. Comprensión de la voz. Síntesis de la voz

Estos campos llevan consigo todos los temas antes aludidos, y otros característicos propios, sobre todo en la comprensión del lenguaje hablado. Se trata de ellos en otras ponencias de este congreso.
 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.