CORDIAM





Corpus Diacrónico y Diatópico
del Español de América

http://cordiam.org/

El Corpus Diacrónico y Diatópico del Español de América (Cordiam) es un corpus de corpus cedidos para su uso informático por investigadores de diversas instituciones y países.
Cordiam fue concebido con el objetivo de enriquecer el conocimiento de la gramática histórica general del español y de la historia general de esta lengua. Las características de este corpus posibilitan una historia de la lengua, interna y externa, sin parcelaciones dialectales restrictivas, más allá de las que los propios fenómenos de investigación impongan o del nivel de generalidad en que desee situarse el investigador.
Está constituido por documentos escritos en español y en América exclusivamente. Abarca los actuales 19 países americanos hispanohablantes más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana (antiguos territorios de la corona española). Los autores de los documentos son, mayoritariamente, nacidos en este continente. Para algunas épocas y zonas, el Cordiam incluye documentos escritos por no americanos, en el entendido de que el español de América, como toda lengua, es el resultado de complejos y sucesivos contactos y nivelaciones lingüísticos.
El Cordiam tiene cuatro siglos de profundidad histórica. El primer documento corresponde al año 1494 y el último al año 1905. Abarca, por tanto, el período fundacional, el virreinal / colonial y el primer siglo de la mayoría de las independencias americanas.
Todos los documentos están recabados directamente de archivo. El Cordiam contiene únicamente textos no literarios y no periodísticos, caracterizados, grosso modo, por el rasgo de inmediatez comunicativa. El conjunto documental, sin embargo, presenta una amplia variedad discursiva. Algunos documentos se aproximan, en cierta medida, a textos literarios, tal es el caso de los documentos cronísticos, y otros podrían ser ubicados en el polo de la distancia comunicativa como algunos documentos administrativos.
El Cordiam tiene cuatro características innovadoras: a. ofrece una plantilla de metadatos para acotar las búsquedas, b. proporciona información cuantitativa del universo de palabras sobre el cual se ha realizado una búsqueda, c. posibilita ver y guardar el documento completo en el cual se encuentra una concordancia, y d. permite guardar automáticamente en una base de datos las búsquedas realizadas.
Por su especificidad americana, constituye una base robusta para hacer una gramática histórica del español en este continente y por su amplia diversidad geográfica permitirá hacer una dialectología histórica de la lengua española en América. Por su amplitud cronológica y geográfica y por contener numerosos documentos inéditos, permitirá también estudiar o repensar fenómenos sociales, históricos y culturales de Hispanoamérica manifestados a través de la lengua española.
Características
Cordiam contiene una plantilla con 17 datos, de diversa índole, ligada a cada documento. Seis de estos constituyen parámetros de búsqueda.
Aparecen a continuación los metadatos ejemplificados con un documento del corpus. Aquellos resaltados en negritas son los datos con los cuales el usuario puede acotar sus búsquedas. El resto de los metadatos proporciona información de interés para el investigador.

  1. Nombre: Relación de las fábulas y ritos de los Ingas, de Cristóbal de Molina
  2. Siglo: 17
  3. Año: ca. 1600
  4. Autor (datos étnicos): mestizo
  5. Autor (hombre o mujer): hombre
  6. Autógrafo: no
  7. País actual: PER
  8. Topónimo actual: Cuzco
  9. Topónimo histórico: Cuzco
  10. Adscripción histórica: Gobernación de Nueva Toledo, Virreinato del Perú
  11. Tipo textual: Documentos cronísticos
  12. Archivo: Biblioteca Nacional de España, ms. 3169.
  13. Número de folios: 36
  14. Número de palabras aproximado: 24918
  15. Créditos: José María Enguita Utrilla, Relación de las fábulas y ritos de los Ingas, de Cristóbal de Molina. Transcripción inédita.
  16. Facsimilar disponible: sí
  17. Síntesis: Completa descripción de los actos religiosos y de las fiestas civiles que se celebraban en el imperio incaico antes de la llegada de los españoles. La organización sigue un orden cronológico desde el inicio al fin del ciclo anual en la cultura incaica. Copia de un texto original redactado alrededor de 1580.
Descripción del contenido de los metadatos
Nombre: Corresponde o bien al nombre del documento en el corpus fuente (publicado o inédito) o bien al nombre asignado por el equipo de filología de Cordiam.
Siglo: Es el siglo en que el documento fue redactado o copiado.
Año: Es el año en que fue redactado o copiado el documento. Si se tiene noción pero no certeza sobre este dato se incluye ca., esto es, circa.
Autor (datos étnicos): Indica los datos étnicos del autor del documento, cuando están disponibles. Esta etiqueta de metadato admite sólo ocho posibilidades: indio, mestizo, español, criollo, extranjero no hispanohablante, negro, varios, y s/d. Varios equivale a más de un autor y s/d equivale a que no se cuenta con la información.
Autor (hombre o mujer): Esta etiqueta admite sólo cuatro posibles opciones: hombre, mujer, varios y s/d.
País actual: Corresponde a la denominación geopolítica actual del lugar físico en donde se escribió el documento. Se consigna abreviado en mayúsculas siguiendo el uso más común.
Topónimo actual: Es la denominación geopolítica actual del lugar físico en donde se redactó el documento (provincia, departamento, ciudad, pueblo, etc.).
Topónimo histórico: Es la denominación histórica del lugar en donde fue escrito el documento.
Adscripción histórica: Esta etiqueta indica, principalmente, a qué virreinato o adscripción político-administrativa correspondía el documento en el periodo virreinal / colonial. Cuando se posee la información, se añade el dato inmediato inferior (por ejemplo, audiencia, capitanía, provincia, gobernación).
Archivo: Corresponde al nombre del fondo documental en donde está el original y se consigna la ubicación dentro del archivo, de acuerdo con los datos proporcionados por los investigadores.
Tipo textual: Corresponde a la clasificación tipológica textual del documento realizada por las directoras de Cordiam.
Número de folios: Indica la cantidad de folios que tiene el documento.
Número de palabras: Indica el número aproximado de palabras del documento.
Créditos: Consigna la referencia bibliográfica correspondiente a cada uno de los corpus que conforman el Cordiam.
Facsimilar disponible: Indica si el facsímil está o no disponible.
Síntesis: Proporciona una breve descripción del contenido del documento.
Tipos textuales
Cordiam recoge documentación del complejo sistema administrativo y jurídico americano colonial o virreinal y refleja, en parte, la complejidad social de la vida privada en América. Para darle operatividad a un corpus de esta naturaleza, fue necesario agrupar los documentos en grandes categorías con el fin de evitar atomizaciones no deseables. Si bien es un corpus de varios millones de palabras, grande para estar exclusivamente constituido por documentos de archivo, es relativamente pequeño para ser un corpus informatizado con búsquedas de amplio rango.
Los documentos de Cordiam están clasificados en cuatro grandes tipos textuales: cronísticos, administrativos, jurídicos y particulares. Los tres primeros corresponden a documentos de circulación pública y el último, a documentos de circulación privada.


Documentos cronísticos

Describen paisajes, relatan sucesos raros o curiosos, describen acciones propias de ciertos grupos humanos, sus creencias, sus costumbres, sus festividades y sus comportamientos. Tienen, muchas veces, una ordenación temporal. Se acercan a un texto literario sin tener, sin embargo, una finalidad estética. Predominan en ellos descripciones y narraciones.

Documentos administrativos

Ordenan, registran, disponen y regulan la interacción no privada entre personas. Contienen descripciones y lineamientos sumamente detallados de las diversas facetas de la vida cotidiana. Dan también cuenta de bienes materiales, de vivos y de difuntos; dan testimonio de la genealogía de los individuos y de su lugar y fecha de nacimiento.

Documentos jurídicos

Producidos en el mundo legal, se acercan, en algunos aspectos, a los documentos administrativos. A diferencia de estos, sin embargo, son textos complejos y heterogéneos, ya que contienen clases dentro de otras clases (denuncias, querellas, postulación de preguntas, interrogatorios y respuestas, sentencias, segundas instancias de juicios, traslados, etc.). Suelen ser identificados como una unidad, no obstante, pueden contener otras unidades. Se caracterizan porque algunos de sus subtipos documentales suelen ser altamente dialógicos y se aproximan, por ello, a la oralidad.

Documentos entre particulares: cartas y otros

Son producto de la comunicación entre dos particulares y llegan a los archivos, en general, por azar, como documento probatorio de algún tipo de proceso. Suelen tocar tópicos personales, de carácter íntimo y afectivo con frecuencia. Muestran una elevada inmediatez comunicativa porque cartas, notas, recados, etc. son el único tipo de documento que se atreve a escribir quien no sabe «escribir». Las diferencias textuales pueden ser cabalmente apreciadas al abrir el documento completo en Cordiam.

Créditos

Dirección
Concepción Company Company
Academia Mexicana de la Lengua / Universidad Nacional Autónoma de México

Virginia Bertolotti
Universidad de la República, Uruguay

Filología
Academia Mexicana de la Lengua / Universidad Nacional Autónoma de México

Víctor Adrián García Córdova
Emiliano Álvarez Pastrana
Jorge Gutiérrez Reyna
Georgina Heredia Trejo
Ana Elvira Vilchis Barrera

Programación y Desarrollo Web
Instituto Politécnico Nacional, México

Alexander Gelbukh
Grigori Sidorov

Diseño Gráfico
Cantera | Estudio de diseño

Gestión Administrativa
Academia Mexicana de la Lengua

Gabriel Yáñez
Gloria Gopar
Fausto Zerón-Medina