|
Proyecto Fénix:
los medios de comunicación como recurso lingüístico
Agustín Vera
Director Académico del Instituto Cervantes
España
| |
|
| 
|
El objetivo del proyecto es
llevar a cabo la distribución periódica de materiales lingüísticos de español
procedentes de los medios de comunicación (prensa, radio y televisión) de España,
América, Filipinas y Guinea, poniéndolos a la libre disposición de los investigadores
interesados. |
| 
|
Descripción
Tal como se ha indicado, este proyecto se centra
en la recogida y distribución de materiales lingüísticos que reflejan el uso real del
español en la prensa, la radio y la televisión tanto de España como de América,
incluyéndose también materiales procedentes de Filipinas y Guinea. El corpus planeado se
estructura, pues, en tres grandes bloques, que se describen a continuación.
Prensa
La recogida de materiales de prensa se realizará
contando con la colaboración de periódicos que puedan proporcionar textos en soporte
electrónico o en papel, requiriéndose en este segundo caso realizar un escaneado
de los textos para su posterior difusión en formato electrónico. Para facilitar la
utilización general de los textos y su intercambio, se marcarán mediante etiquetas SGML
(Standard Generalized Markup Language) siguiendo los estándares de la TEI (Text
Encoding Initiative). Sin embargo, el nivel de marcación será predominantemente
estructural, atendiendo a los principales componentes macrotextuales (titulares,
párrafos, etc.) sin que se pretenda llegar a un etiquetado en niveles más profundos.
Ello permitirá tanto el uso de los materiales en formato ASCII como su explotación con
herramientas más sofisticadas, facilitando también su posterior incorporación en
páginas Web. |
| 
|
Radio
Igualmente se contará, para la recogida de
materiales procedentes del medio radiofónico, con la colaboración de emisoras de los
diversos ámbitos geográficos considerados. El corpus de radio se concibe formado por dos
elementos: por una parte, un conjunto de grabaciones que se difundirán en formato digital
y en casete, de modo que puedan ser utilizadas para el estudio fonético y fonológico de
la lengua hablada, y para la realización de actividades de comprensión oral en las
clases de «español como lengua extranjera»; por otra parte, un subconjunto de estas
grabaciones se ofrecerá también acompañado de la correspondiente transcripción
ortográfica, marcada con los mismos estándares que los textos de prensa además de
aquellas marcas que sean específicas de la lengua oral, de modo que se facilite su
uso para diversas aplicaciones que requieran contar con una representación escrita
estructuralmente marcada, o simplemente en formato ASCII. |
| 
|
Televisión
Los materiales procedentes de la televisión se
recogerán también con la colaboración de cadenas de las zonas determinadas en el
proyecto. En este caso, está previsto ofrecer tres soportes diferentes: vídeo,
grabación de audio y texto transcrito, aunque no necesariamente todos los textos se
presenten con todas las posibilidades. Las transcripciones ortográficas se realizarán
también con los mismos criterios que las de radio y prensa, mientras que el audio y el
vídeo se presentarán en un formato digital fácilmente intercambiable y adaptable a las
necesidades de su difusión en la Web, así como en casete o en vídeo según el
caso.
Estos tres tipos de materiales se recogerán en
diversos Cd-rom, que serán periódicamente distribuidos a medida que avance el proyecto.
Cada Cd-rom contendrá una selección de los tres medios de comunicación, realizada
atendiendo a criterios de diversidad geográfica y de variedad en el uso lingüístico,
incorporando los tres tipos de formato anteriormente descritos (texto, audio y vídeo). Se
prevé también, para facilitar la utilización de los materiales en centros que no
dispongan de Cd-rom y para aumentar la facilidad de la explotación didáctica, la
distribución de los materiales en disquete, casete y vídeo. |
| 
|
Aplicaciones de los materiales
Los medios de comunicación constituyen una
fuente de materiales o recursos lingüísticos aplicables tanto a la investigación como a
la enseñanza de la lengua.
En el primer aspecto, una colección amplia de
muestras de la lengua de los medios de comunicación permite llevar a cabo investigaciones
de tipo descriptivo en todos los niveles y componentes del análisis lingüístico
fonético, fonológico, morfológico, léxico, sintáctico, semántico, textual y
pragmático, así como elaborar estudios sociolingüísticos centrados en los
diversos registros y estilos característicos de este medio o realizar trabajos orientados
a la observación de las tendencias de la lengua mediante la documentación de fenómenos
diversos. La inclusión de materiales procedentes de España, América y de otras zonas de
habla española permitirá también la comparación entre variantes espaciales en el marco
de los estudios dialectológicos. |
| 
|
Por otra parte, el conjunto de
materiales propuesto constituye un recurso de gran importancia en la enseñanza de la
lengua, pues proporcionan a profesores y alumnos el acceso a textos reales en formato
electrónico susceptibles de diversas explotaciones didácticas, tanto en la enseñanza
del español como lengua materna como en los niveles avanzados de un curso de español
como lengua extranjera. En el primer caso, el profesor podrá disponer de una amplia
variedad de materiales que ejemplifican diversos fenómenos lingüísticos, presentando al
mismo tiempo la variedad de la lengua desde la perspectiva geográfica y estilística; los
materiales recogidos serían utilizables tanto en la enseñanza secundaria como en los
niveles universitarios, en función de la profundidad del análisis que se desee realizar.
Igualmente, este conjunto de textos resultaría accesible a los estudiantes,
facilitándoles su iniciación en la investigación lingüística a partir de un conjunto
de muestras auténticas del uso lingüístico.
Estos materiales podrían encontrar también su
lugar en los cursos avanzados de español como lengua extranjera, constituyendo la base
para distintos estudios lingüísticos, así como para la presentación de la diversidad
cultural del mundo hispanohablante. |
| 
|
Especificidad del proyecto
En la actualidad existen diversos proyectos en el
marco de los cuales se están llevando a cabo recopilaciones sistemáticas de materiales
lingüísticos procedentes de los medios de comunicación.[1]
Cabe citar especialmente el proyecto DIES-RTP
(Difusión internacional del español por radio, televisión y prensa) realizado
coordinadamente entre España y América. En lo que se refiere a la parte española, se ha
llevado a cabo en el Departamento de Filología de la Universidad de Alcalá de Henares la
transcripción de 75.000 palabras con anotación morfológica y semántica según los
estándares del propio proyecto, y se espera que los datos obtenidos sean accesibles a los
organismos públicos de investigación con fines no comerciales. En el ámbito de la radio
y la televisión, el proyecto ADPA (Análisis del discurso público actual), desarrollado
en el Departamento de Lingüística General y Teoría de la Literatura de la Universidad
de La Coruña, contempla la transcripción ortográfica de 75 horas de grabación sin que
por el momento esté prevista la anotación lingüística; los resultados serán
igualmente accesibles para fines no comerciales a centros públicos de investigación. |
| 
|
Otros proyectos de constitución
de corpora incluyen entre sus materiales textos procedentes de los medios de
comunicación, en proporciones diversas según el objetivo y las limitaciones del corpus.
A modo de ejemplo, ARTHUS (Archivo de textos hispánicos de la Universidad de Santiago)
recoge un 11 por ciento de textos periodísticos; el Corpus Chileno de Referencia de la
Universidad Autónoma de Madrid contiene un 15 por ciento de este tipo de textos, mientras
que la proporción del Corpus del Español de la República Argentina de esta misma
universidad es del 28 por ciento. En lo que se refiere al CREA (Corpus de referencia del
español actual) de la Real Academia Española, un 40,5 por ciento corresponde a textos
periodísticos, mientras que un 10 por ciento corresponde a transcripciones de lengua oral
procedentes de los medios de comunicación.
Sin embargo, el primer problema con el que se
encuentra el investigador y, principalmente, el profesor de lengua es la accesibilidad de
estos repertorios. Si bien en los proyectos llevados a cabo en departamentos
universitarios con financiación pública suele ser habitual que los datos sean utilizados
por otros centros de investigación, la difusión de tales proyectos se restringe
habitualmente a la comunidad universitaria especializada en la constitución y
explotación de recursos lingüísticos. El presente proyecto tiene como característica
esencial la voluntad de difundir libremente los datos recogidos y procesados, llegando a
un público lo más amplio posible, superando las estrictas fronteras de los grupos de
investigación dedicados al tratamiento de corpora y realizando los esfuerzos
necesarios para que la adquisición del material se efectúe de manera simple y directa.
Por ello, se prevé también la difusión de los materiales en Internet, en Cd-rom y en
soportes más convencionales como disquete, casete y vídeo. |
| 
|
Por otra parte, muchos de los
proyectos actuales se encuentran en curso de realización y, por sus características,
responden, en general, a necesidades muy concretas del grupo investigador que los
desarrolla. El proyecto que aquí se describe se caracteriza también por no constituir un
corpus cerrado, únicamente utilizable en el momento en que finalicen los trabajos, sino
por pretender ofrecer de forma periódica y regular un conjunto de materiales cuya
explotación dependerá del investigador o del profesor.
En tercer lugar, cabe destacar las dificultades
de obtención de materiales procedentes de diversos ámbitos geográficos con que se
encuentran habitualmente los investigadores y, más especialmente, los profesores de
lengua. Con el presente proyecto se pretende contribuir a una difusión más amplia de las
distintas variedades del español, paliando así algunos de los problemas más comúnmente
encontrados en la docencia y en la investigación. |
| 
|
En cuarto lugar, la explotación
de los datos recogidos en los proyectos de constitución de corpora viene
condicionada por los sistemas de transcripción, codificación y anotación utilizados por
los investigadores. El proyecto que se propone pretende contribuir a paliar estas
dificultades utilizando un formato de codificación de los textos que los haga
directamente accesibles sin ningún tipo de marca (ASCII), o que permita utilizarlos en el
marco de entornos de codificación unánimemente aceptados como estándares, como es el
caso del SGML en el que se basan las propuestas de la TEI y de EAGLES anteriormente
mencionadas.
Finalmente, cabe destacar que, a diferencia de
otros proyectos, el que aquí se propone no se plantea como un programa de trabajo
cerrado, sino que tiene como objetivo la difusión periódica de materiales durante todo
el tiempo en que sea posible llevarla a cabo. |
| 
|
Organización
La organización del proyecto requiere, además
de una coordinación general y una coordinación técnica, la creación de una red de
corresponsales para la recogida de los materiales y de una red de centros que los adecuen
a los diversos formatos previstos. Por otra parte, será necesaria también la creación
de una infraestructura adecuada para la difusión.
Coordinación
La Coordinación General del Proyecto se
realizará desde la Dirección Académica del Instituto Cervantes.
Recogida de los materiales
La Coordinación Técnica para la recogida de
materiales se adscribirá a diferentes periódicos, emisoras de radio y canales de
televisión que, en cada zona geográfica, se encargarán de la recogida de los materiales
respectivos. |
| 
|
Producción de
los materiales
Para la producción de los materiales, se prevé
la constitución de equipos paralelos especializados, respectivamente, en el tratamiento
lingüístico y en el tratamiento del soporte informático específicos de cada medio.
Difusión de los materiales
La definición final del proyecto requiere
establecer un procedimiento de difusión de los materiales. Cabe pensar en el
establecimiento de convenios con entidades que dispongan de una buena red de difusión de
materiales audiovisuales o también en contar con la colaboración de los servicios de
publicación de las universidades.
Periodicidad y contenidos
En principio está prevista la realización de
dos entregas anuales, cada una de ellas en uno o varios Cd-rom conteniendo la totalidad de
los textos transcritos y codificados, parte de las grabaciones digitalizadas y muestras de
vídeo digitalizado en función de la capacidad del soporte, así como en disquete, casete
y vídeo en los que se incluyan los mismos materiales con una selección más amplia de
grabaciones de audio y de vídeo. |
| 
|
NOTAS: |
1. Informe sobre recursos lingüísticos para el español (III):
Corpus orales y escritos disponibles y en desarrollo en España. Alcalá de Henares:
Observatorio Español de Industrias de la Lengua, Instituto Cervantes, 1996. |
|
|
|
|