Évolution du corpus
La BDTS remonte à 1977 au moment où Normand Beauchemin a commencé la saisie en ASCII de textes provenant de cent échantillons de « textes libres » (dans le cadre de recherches sociolinguistiques dans la région de Sherbrooke). Quelques années plus tard, y sont ajoutés d'autres corpus sociolinguistiques du Québec :
- corpus de Denise Deshaies : parler de la ville de Québec;
- corpus de Gilian Sankoff, David Sankoff et Henrietta Cedergren : parler de Montréal;
- corpus de type dialectologique de Thomas Lavoie :parler du Lac-St-Jean et du Saguenay.
À ces textes s'ajoutent ensuite des échantillons de langue considérés à mi-chemin entre la langue écrite et la langue parlée (ou corpus de langue parlée publiée) :
- monologues;
- théâtre;
- contes folkloriques;
- récits radiophoniques;
- téléromans.
Vers le milieu des années quatre-vingt, un certain nombre de textes littéraires québécois, sous forme numérisée, viennent enrichir encore la Banque. Obtenus soit de maisons d'édition ou saisis par lecteur optique, ces textes ont été choisis un peu au hasard parmi les romans, les nouvelles ou pièces de théâtre. Petit à petit, enfin, s'y greffent des textes non littéraires, comme des essais, des ouvrages métalinguistiques, des textes journalistiques, administratifs, scientifiques, etc.
Aujourd'hui, la BDTS compte environ 10 000 textes différents rédigés et diffusés au Québec, qui totalisent quelque 30 millions de mots après indexation. De nombreux textes sociopolitiques, techniques, scientifiques, environnementaux et ceux de langue parlée des Bois-Francs ont été lemmatisés, car ils font ou ont fait l'objet de données analysées en vue de la rédaction de thèses de doctorat ou de mémoires de maîtrise.