It is the cache of ${baseHref}. It is a snapshot of the page. The current page could have changed in the meantime.
Tip: To quickly find your search term on this page, press Ctrl+F or ⌘-F (Mac) and use the find bar.

Traduction et corpus, corpus et recherche
Navigation – Plan du site
Articles
8

Traduction et corpus, corpus et recherche

Translation and corpora, corpora and translation
Geoffrey Williams
p. 69-79

Résumés

Dans l’enseignement des langues étrangères, la traduction est très souvent présente comme activité pédagogique. Dans les LEA de Lorient, nous ne prétendons pas former des traducteurs – notre spécialité reste le commerce international – mais en L3 une option rédaction/traduction a été ouverte pour ceux qui souhaitent se préparer à un Master en traduction ou rédaction. En plus de leurs cours de traduction, ces étudiants reçoivent des cours de lexicologie, de grammaire systémique et fonctionnelle, de traduction assistée et de linguistique de corpus. Dans cet article, nous montrerons le processus d’introduction des étudiants à la création de glossaires bilingues et phraséologiques et de dictionnaires de spécialité en construisant des corpus comparables à partir de textes électroniques.

Haut de page

Texte intégral

Introduction

1Dans l’enseignement des langues étrangères, la traduction est très souvent présente comme activité pédagogique. Dans l’enseignement professionnel en formation continue dans les écoles de langues et les chambres de commerce, la traduction est souvent évitée afin de limiter la contamination entre les langues, procédé largement suivi depuis Berlitz (voir Howatt 1984). Par contre, dans l’enseignement secondaire et supérieur, l’activité est traitée comme une compétence essentielle. Il n’est alors pas surprenant que la traduction ait sa place dans les études de langues étrangères appliquées.

2Si le cours existe, il est peut-être temps de se demander pourquoi la traduction est enseignée. Est-ce simplement une compétence ou sommes-nous en train de former de futurs traducteurs ? La réponse est que les deux sont possibles. Certaines formations vont permettre à des étudiants particulièrement doués en langues de se spécialiser en traduction, d’autres vont se spécialiser dans un des multiples domaines qui demandent une connaissance des langues. Les candidats traducteurs vont commencer un long parcours d’apprentissage, les autres vont continuer à pratiquer la traduction sans être de véritables traducteurs. Il est essentiel que ces derniers comprennent leurs limites. On ne s’improvise pas traducteur, ce que des entreprises ont souvent du mal à comprendre.

  • 1  Il est important de montrer les limites de la traduction totalement automatisée et les outils d’ai (...)

3Dans les LEA de Lorient nous ne prétendons pas former des traducteurs – notre spécialité reste le commerce international – mais en L3 une option rédaction/traduction a été ouverte pour ceux qui souhaitent se préparer à un Master en traduction ou rédaction. En plus de leurs cours de traduction, ces étudiants reçoivent des cours de lexicologie, de grammaire systémique et fonctionnelle, de traduction automatique1, de traduction assistée et de linguistique de corpus. Dans cet article, nous montrerons le processus d’introduction des étudiants à la création de glossaires bilingues et phraséologiques et de dictionnaires de spécialité en construisant des corpus comparables à partir de textes électroniques.

Le contexte de l’enseignement

4Dans la spécialité de licence rédaction/traduction, les étudiants suivent deux cours théoriques de linguistique appliquée en lexicologie et de grammaire au premier semestre. Ceci prépare le terrain pour les cours de traduction assistée et de linguistique de corpus sur ordinateur au deuxième semestre. Un utilisateur averti de la langue doit non seulement savoir se servir d’un dictionnaire, mais aussi savoir comment ces ouvrages sont construits et pour qui (Williams 2007). Il y a donc des cours sur les bases de la sémantique lexicale et de la lexicographie appliquée. Cependant, les mots n’ont pas de sens hors contexte, il faut donc aussi apprendre à analyser des textes avec une méthodologie qui va lier la syntaxe et le lexique dans une grammaire textuelle, dans ce cas la grammaire systémique et fonctionnelle de Halliday (1994). Au deuxième semestre, les notions théoriques en analyse de discours et de grammaire systémique et fonctionnelle sont exploitées dans des cours de traduction assistée par ordinateur et de linguistique de corpus.

  • 2  http://www.wordfast.net. (...)
  • 3  Les néophytes en linguistique de corpus peuvent consulter l’excellente introduction de Kennedy (19 (...)
  • 4  http://www.oucs.ox.ac.uk/rts/xaira/.

5En partant d’un texte sur le Royal National Lifeboat Institute (RNLI), l’équivalent de la Société nationale de sauvetage en mer (SNSM), qu’ils doivent traduire en utilisant le logiciel de traduction Wordfast2, les étudiants cherchent des mots clés après une analyse visuelle des textes (voir plus loin pour les analyses ascendantes et descendantes) qui vont aider à l’assemblage d’un corpus en anglais. Un corpus équivalent est construit pour le français. Pour ce faire, les étudiants doivent chercher des textes sur le site de la SNSM sur des domaines précis comme, par exemple, la typologie des bateaux employés. L’ensemble constitue un corpus comparable, c’est-à-dire un ensemble de textes non traduits dans deux langues, sous format numérique afin d’être analysables avec un concordancier. Les corpus comparables sont considérés comme étant plus fiables qu’un corpus parallèle, qui est assemblé à partir de textes traduits, pour l’extraction terminologique3. Un corpus est obligatoirement constitué de textes authentiques et complets. Pour qu’un corpus soit vraiment utilisable, il faut au minimum 10 000 signes afin de pouvoir former des généralisations à partir des concordances. Les étudiants sont formés en XML afin d’utiliser XAIRA4 (ce concordancier remplace Winconcord de Darmstadt, un outil sous Windows 95 qui n’est plus disponible). Les deux corpus permettent aux étudiants de construire des glossaires bilingues à partir des réalités textuelles, ils peuvent également comparer leurs résultats avec des dictionnaires bilingues et des terminologies en ligne.

  • 5  http://www.granddictionnaire.com. (...)
  • 6  http://europa.eu.int/eurodicautom/Controller. (...)

6Les glossaires sont introduits dans Wordfast comme aide à la traduction, mais l’activité de recherche sert aussi à montrer les limites de tels glossaires qui ne peuvent que faire de simples équivalences mot à mot. De la même manière, les recherches sur des bases de données terminologiques comme Granddictionnaire5ou Eurodicautom6montrent aux étudiants que ces bases, pourtant de grande valeur, sont également limitées, à la fois dans l’étendue des domaines couverts et en ce qui concerne les informations sur l’emploi du lexique. Les glossaires et les bases de données ne gèrent pas les aspects de la langue essentiels à la traduction comme la collocation, la colligation, les grammaires locales et les formules phraséologiques. Pour chercher et stocker ces éléments il faut apprendre d’autres stratégies : une méthodologie de recherche lexicographique. Ainsi, l’outil de recherche d’un chercheur en lexicographie est aussi un outil d’apprentissage, non seulement à la traduction, mais aussi à la nature de la langue. C’est précisément à cause de cet aspect de sensibilisation que ces mêmes méthodes sont appliquées lors des cours de Master, pour des non-spécialistes de la traduction utilisateurs avertis des langues de spécialité.

7En partant d’un texte, dans ce cas notre texte du RNLI, le programme d’enseignement comporte deux phases : une phase d’analyse en lexicographie et en analyse de discours, et une phase de recherche sur les corpus afin d’extraire les phrasèmes et les collocations.

Analyse lexicographique

8Pour bien utiliser un dictionnaire, il faut comprendre sa nature : la macro et la microstructure. Dans nos cours, l’apprentissage des bases de la lexicographie se fait en quatre étapes. L’étudiant doit apprendre à :

  • analyser les dictionnaires et les terminologies pour voir comment ils ont été construits et à qui ils s’adressent. C’est à travers des analyses de l’existant que l’étudiant comprendra les avantages, les inconvénients et les limites des différentes ressources ;

  • développer un sens critique. Critiquer signifie soumettre les dictionnaires à l’épreuve des textes. Les dictionnaires aident-ils à la compréhension des textes spécialisés à étudier ? Sont-ils fiables dans la traduction ? Aident-ils à la rédaction de nouveaux textes ?

  • observer les mots en contextes. La phase d’observation correspond à une analyse de la langue en contexte à travers l’analyse de discours. Il s’agit de voir les variations de sens en fonction des contextes ;

  • réaliser un dictionnaire personnel. Si les dictionnaires, mono et bilingues ont des limites, il faut essayer de réaliser ses propres lexiques. Dans un premier temps, ceci est fait par le biais d’une analyse des contextes ; dans un deuxième temps, il y a une analyse de corpus.

9Cependant, un mot n’a pas de sens hors contexte, et le contexte, c’est le texte. Il faut donc aussi analyser le texte en entier pour voir pourquoi un mot ou une formule a été choisi et comment ils s’insèrent dans l’ensemble du texte.

Analyse de discours

10Avant de traduire un texte, il faut le comprendre. Il y a plusieurs difficultés dans la traduction, y compris celle du lexique, mais pour comprendre le lexique, il faut comprendre le contexte de production. Avant de commencer à traduire, il est donc intéressant d’analyser le texte aussi bien pour ses aspects culturels que pour la structure et la syntaxe.

11Deux approches ont été adoptées : une analyse descendante (top down) et une analyse ascendante (bottom up) (annexe 1) en explorant les stratégies d’argumentation (Hoey 1983 et 1991)et les notions de cohésion (Halliday 1994 ; Halliday & Hasan 1976), ainsi que les aspects de genre et de morphologie aux deux extrêmes de notre continuum d’analyse. L’analyse descendante doit commencer avec le texte comme entité avec une discussion de son contexte de culture et de situation. Il est nécessaire de considérer les questions de genre et de registre afin de situer le texte dans son environnement socioculturel. Par contre, l’analyse ascendante va privilégier la phrase et ses constituants avant de remonter vers le texte en entier à travers des facteurs de cohésion.

12Au niveau de la structuration du texte, les étudiants observent les choix grammaticaux avec le mélange de passé et de présent parfait, ce qui dénote les aspects historiques et de continuité, et le présent qui souligne la dimension de l’urgence. Il y a aussi la structure rhétorique avec le modèle de « problem-solution » (Hoey 1983) dans les trois premiers paragraphes, suivis par des jeux de mots sur la formule « to give but not to count the cost ». Le jeu déictique est également important avec « we » pour l’institution, « they » pour les sauveteurs et « you » pour les donateurs. A la fin, « you » est devenu « us » pour donner l’impression que les donateurs sont membres d’une communauté, et par conséquent ont le devoir moral de continuer à payer au lieu d’être un donateur occasionnel. Même l’illustration donne l’image forte du lancement traditionnel d’un bateau de sauvetage. Le texte est un modèle de marketing.

13Dans le cas de ce genre de texte publicitaire, une traduction simple est impossible : les différences de style au niveau de la culture de communication et même de la perception des œuvres caritatives, sont trop marquées. Il faut donc rédiger un autre texte. Pour ce faire, il faut comprendre la totalité des stratégies mises en œuvre pour passer le message et les comparer avec les stratégies adoptées par les œuvres françaises. Ce qui est vrai pour l’étude de genre est également valable pour les choix lexicaux.

La recherche lexicographique et terminologique

14Un texte est un tout, les choix syntaxiques, lexicaux et rhétoriques se font ensemble. Cependant, dans le cadre d’un dictionnaire, les mots et leur sens sont stockés hors contexte puisqu’il faut pouvoir généraliser pour réutiliser le lexique. En outre, une forme simplifiée du lexique sera également traitée dans la construction d’un glossaire qui aidera à réaliser d’autres traductions avec l’outil Wordfast.

15Lors des cours d’analyse lexicographique au premier semestre, les étudiants ont construit des glossaires à partir de ce qu’ils trouvent dans des dictionnaires existants, dans les terminologies en ligne et sur des sites internet. Il s’agit maintenant de travailler d’une manière plus scientifique selon les normes de la linguistique de corpus (Williams 2005).

16Un corpus est le résultat de choix délibérés, il s’agit de collectionner des documents selon des paramètres précis prenant en considération le genre, le niveau de langue, et le domaine. Ceci signifie que malgré la tentation de la facilité, l’Internet n’est pas une bonne source puisqu’il est impossible de contrôler les sources des documents mis à disposition par les internautes. Il s’agit de tout venant posté à la fois par des experts et par des non-experts, les documents clés manquent très souvent, et les documents postés sont souvent périmés. Il est aussi vrai que la plupart des documents techniques restent dans des ressources privées et ne sont pas disponibles sous format HTML. Cependant, le but n’est pas ici de faire un corpus constitué, mais d’assembler un corpus de travail tout en insistant sur la partialité des résultats.

17Dans notre étude, nous sommes intéressés non seulement par des termes techniques, mais surtout par les formules phraséologiques et les mots de la langue générale. Ainsi, une expression comme « not to count the cost » est essentielle pour la compréhension du texte. Il faut aussi noter les verbes à particule comme « put to sea », « kit out », « keep abreast ». Ce genre de vocabulaire ne pose pas de difficultés particulières en soi pour la compréhension parce qu’ils se trouvent dans les dictionnaires. Ce qui est important, par contre, est que les étudiants comprennent la différence de niveau de langue entre ces formules qui n’ont pas leur place dans un texte plus technique et plus formel. En ce qui concerne la terminologie, les termes techniques comme « all weather Severn and Trent class lifeboats » et même « in-shore fleet » sont plus problématiques. Pour créer une terminologie, nous avons commencé par la création d’un corpus comparable à partir des sites internet du RNLI et de la SNSM.

18Un corpus comparable est un corpus composé de textes non traduits dans deux ou plusieurs langues. Un corpus parallèle est un corpus de textes traduits. L’avantage d’un corpus comparable dans la recherche terminologique est évident, les textes représentent la langue authentique des utilisateurs sans la médiation d’un traducteur. Le désavantage est que les liens sont moins propres, il faut chercher des équivalents sans être certain de les trouver. Par la suite, le processus de construction d’un lexique est un travail de va-et-vient entre les deux corpus.

19Le travail est récursif. D’abord le site source est analysé avec un concordancier pour son lexique et ses aspects culturels. Une fois une liste de termes candidats dressée, le site cible est analysé afin de trouver des traductions potentielles. Puisque les deux sites ne sont pas des miroirs, seule une partie des traductions sera trouvée. Cependant, les termes du site cible peuvent également servir de mots clés pour élargir le corpus. Le corpus élargi fournira des termes inexistants dans le corpus source, qui sera élargi de la même manière. Ainsi, un glossaire bilingue peut être construit en même temps que le corpus d’origine est élargi.

20Les résultats peuvent maintenant être incorporés dans le glossaire Wordfast afin d’aider à la traduction assistée. Mais, comme les étudiants l’auront découvert au cours du premier semestre, un simple glossaire est un outil partiel et traître. Pour stocker les sens, les variations de sens, les collocations et les exemples d’emplois, il vaut mieux faire un dictionnaire. Le travail du lexicographe exige une certaine rigueur et un sens critique essentiels pour la traduction et la rédaction. Ainsi comprennent-ils mieux comment les dictionnaires sont réalisés et la nécessité d’informations culturelles qui vont bien au-delà de la simple équivalence. Dans un troisième temps, le mémoire créé lors de la traduction peut être analysé afin de voir les erreurs de traduction typiques, un corpus d’apprenants bilingue qui servira à l’analyse des erreurs et à l’amélioration de l’enseignement.

  • 7  http://www.reverso.net. (...)
  • 8  http://www.systran.fr ou en-ligne à http://babelfish.alatavista.digital.com. (...)

21Une fois le glossaire préparé, les étudiants comparent les résultats avec les traductions obtenues sur des sites terminologiques comme Eurodicautom et Granddictionnaire. Le processus est souvent instructif puisqu’il y a fréquemment des écarts importants entre la langue normalisée des bases officielles et la réalité du terrain. De la même manière les étudiants préparent des traductions automatiques avec des outils comme Reverso7 et Systran8 afin de mieux comprendre les limites, vite atteintes, de tels systèmes. Nous sommes à la fois dans un processus d’apprentissage par la découverte et dans un processus de recherche.

La dichotomie entre recherche et enseignement

22Pourquoi donc enseigner la linguistique de corpus, domaine de la recherche ? La réponse est simple. Comme nous l’avons vu, dans la traduction, surtout avec des outils informatiques, il faut pouvoir construire son propre lexique. Dans les langues de spécialité, les limites des dictionnaires bilingues et des terminologies sont rapidement atteintes, il faut donc chercher les traductions où elles se trouvent, c’est-à-dire dans des textes. Les étudiants en traduction ont souvent tendance à avoir une foi inébranlable dans les dictionnaires bilingues. Il est facile de démontrer leurs limites, surtout dans les langues de spécialité. Si le dictionnaire ne peut pas fournir, il faut chercher ailleurs. Pour chercher, il faut apprivoiser les outils de la recherche lexicographique, et la lexicographie moderne est basée sur corpus.

23À Lorient, la linguistique de corpus est une discipline bien développée au niveau de la recherche avec la participation à des projets de recherche nationaux et internationaux. La discipline est enseignée en licence et Master LEA et fournit le tronc commun dans les Masters recherche et professionnel. Le LEA requiert des connaissances en terminologie, d’où la création et l’exploitation de corpus de spécialité. Pour la recherche, l’outil informatique est précieux dans les domaines linguistiques et littéraires. Pour le Master professionnel « Conception Édition et Gestion de la Documentation », nous formons des étudiants qui vont travailler soit dans l’édition traditionnelle, y compris le monde de la lexicographie ou dans la gestion de l’information. Il n’y a donc pas de dichotomie entre recherche et enseignement, les deux sont même fortement liés.

Haut de page

Bibliographie

Arnold, D. J., L. Balkan, S. Meijer, R. L. Humphreys & L. Sadler. 1994. Machine Translation : an Introductory Guide. Londres : Blackwells-NCC.

Halliday, M. A. K. 1994. Introduction to Functional Grammar. (2nd edition). Londres : Edward Arnold.

Halliday, M. A. K. & R. Hasan. 1976. Cohesion in English. Londres : Longman.

Hoey, M. 1983. On the surface of discourse. Londres : George Allen and Unwin.

Hoey, M. 1991. Patterns of Lexis in Text. Oxford : Oxford University Press.

Howatt, A. P. R. 1984. A History of English Language Teaching. Oxford : Oxford University Press.

Hunston, S. 2002. Corpora in Applied Linguistics. Cambridge : CUP.

Kennedy, G. 1998. An introduction to corpus linguistics. Londres : Longman.

McCarthy, M. & R. Carter. 1994. Language as Discourse. Harlow : Longman.

Widdowson, H. G. 2007. Discourse analysis. Oxford : OUP.

Williams, G. (dir.). 2005. La linguistique de corpus. Rennes : Presses Universitaires de Rennes-RUOA.

Williams, G. 2007. « De l’architecture des sources à l’architecture de l’entrée : le rôle du corpus ». In Giovanni, D. 2007. L’Architecture du Dictionnaire Bilingue et le Métier du Lexicographe, Actes du Colloque International de Capitolo-Monopoli, 16-17 avril. Fasano : Schena. 39-53.

Williams, G. 2006. « La linguistique et le corpus : Une affaire prépositionnelle ». Texto, revue de linguistique en ligne. http://www.revue-texto.net/Parutions/Livres-E/Albi-2006/Williams.pdf.

Wynne, M. (ed). 2005. Developing Linguistic Corpora : A Guide to Good Practice. Oxford : AHDS.

Haut de page

Annexe

Annexe 1 : « Top Down, Bottom Up »

Les étudiants reçoivent et annotent la fiche méthodologique « Top down, Bottom up », ci-dessous. Dans le cours de lexicologie, on commencera par l’analyse par le bas suivie d’analyses linguistique et lexicologique. Dans le cours d’analyse du discours, la méthodologie descendante est employée. Les ouvrages de McCarthy et Carter (1994) et Widdowson (2007) sont des introductions destinées aux enseignants LANSAD.
Les étudiants travaillent ensuite son application sur un texte authentique, par exemple, l’appel aux dons du RNLI (annexe 2).

Fiche méthodologique « Top Down, Bottom Up »

Fiche méthodologique « Top Down, Bottom Up »

Annexe 2 : Texte du Royal National Lifeboat Institute (RNLI)

Le texte est typique de la littérature publicitaire des organisations caritatives britanniques. L’important n’est pas de donner, mais d’« adhérer » à l’association. Vous n’êtes pas simplement donateur, mais membre. Le texte illustre les premières étapes d’une analyse pour montrer la manière dont est choisi le temps grammatical en fonction de la structure du texte. Il est structuré autour de la notion de « Give, but not to count the cost » (donner, sans compter). Il fait appel à l’imaginaire collectif, surtout avec le choix de l’image d’un lancement de bateau de sauvetage. Ce genre de texte n’est pas employé en France où l’argumentaire et l’appel aux dons sont organisés différemment.

Texte du Royal National Lifeboat Institute (RNLI)

Texte du Royal National Lifeboat Institute (RNLI)
Haut de page

Notes

1  Il est important de montrer les limites de la traduction totalement automatisée et les outils d’aide à la traduction. Pour une discussion complète de la traduction automatique le lecteur peut consulter Arnold et al. 1994, qui reste un classique sur les bases en intelligence artificielle.

2  http://www.wordfast.net.

3  Les néophytes en linguistique de corpus peuvent consulter l’excellente introduction de Kennedy (1998). Pour les applications en linguistique appliquée, nous pouvons recommander Hunston 2002. Les questions techniques sont traitées dans Wynne 2005. Une introduction en langue française se trouve à http://www.revue-texto.net/Parutions/Livres-E/Albi-2006/Williams.pdf.

4  http://www.oucs.ox.ac.uk/rts/xaira/.

5  http://www.granddictionnaire.com.

6  http://europa.eu.int/eurodicautom/Controller.

7  http://www.reverso.net.

8  http://www.systran.fr ou en-ligne à http://babelfish.alatavista.digital.com.

Haut de page

Table des illustrations

Titre Fiche méthodologique « Top Down, Bottom Up »
URL http://apliut.revues.org/docannexe/image/1556/img-1.png
Fichier image/png, 65k
Titre Texte du Royal National Lifeboat Institute (RNLI)
URL http://apliut.revues.org/docannexe/image/1556/img-2.png
Fichier image/png, 453k
Haut de page

Pour citer cet article

Référence papier

Geoffrey Williams, « Traduction et corpus, corpus et recherche », Cahiers de l’APLIUT, Vol. XXVII N° 1 | 2008, 69-79.

Référence électronique

Geoffrey Williams, « Traduction et corpus, corpus et recherche », Cahiers de l’APLIUT [En ligne], Vol. XXVII N° 1 | 2008, document 8, mis en ligne le 08 septembre 2011, consulté le 06 mars 2014. URL : http://apliut.revues.org/1556 ; DOI : 10.4000/apliut.1556

Haut de page

Auteur

Geoffrey Williams

Geoffrey Williams est Professeur en Sciences du langage à l’Université de Bretagne Sud. Il est spécialisé dans la linguistique de corpus et la lexicographie spécialisée. Il dirige le département d’Ingénierie du document. Il est le président de l’Association Française de Linguistique Appliquée.
geoffrey.williams@wanadoo.fr

Haut de page

Droits d'auteur

Association des Professeurs de Langues des Instituts Universitaires de Technologie

Haut de page
  •  
    • Titre :
      Recherche et pratiques pédagogiques en langues de spécialité
      Cahiers de l'APLIUT
      En bref :
      La revue diffuse les résultats de recherches liées à l'enseignement et l'apprentissage des langues de spécialité, notamment en IUT
      Research papers related to teaching and learning languages for specific purposes
      Sujets :
      Langage, Linguistique, Sciences de l'éducation
    • Dir. de publication :
      Jean-Christophe Szombati
      Éditeur :
      Association des Professeurs de Langues des IUT (APLIUT)
      Support :
      Papier et électronique
      EISSN :
      2119-5242
      ISSN imprimé :
      2257-5405
    • Accès :
      Open access Freemium
    • Voir la notice dans le catalogue OpenEdition
  • DOI / Références