APPRENDRE LES LANGUES À TONS — avec application au fongbe

Document produit pour fongbebenin.com

Les sources sont citées au fil du texte. Les encadrés verts signalent

les extrapolations et applications directes au fongbe.

Note méthodologique préliminaire

Ce document recense et synthétise l'état actuel des recherches scientifiques sur l'acquisition des langues à tons, avec une attention particulière portée au fongbe (fɔngbè) du Bénin. Deux niveaux épistémiques sont clairement distingués tout au long du texte.

Le premier niveau rassemble les données solidement établies : résultats publiés dans des revues à comité de lecture (Frontiers in Education, Studies in Second Language Acquisition, Applied Psycholinguistics, Nature Communications, PubMed, etc.), méta-analyses portant sur des dizaines ou des centaines d'études, descriptions grammaticales de référence (notamment Lefebvre & Brousseau, 2002, publiée chez Mouton de Gruyter, qui constitue la grammaire descriptive de référence du fongbe).

Le second niveau regroupe les extrapolations raisonnées vers le fongbe : lorsqu'une donnée générale sur les langues à tons africaines est appliquée au fongbe, cela est signalé explicitement dans les encadrés verts. Ces extrapolations sont justifiées — le fongbe présente les caractéristiques tonales documentées dans la littérature — mais elles ne disposent pas, à ce jour, de validation expérimentale directe publiée en anglais ou en français dans des revues indexées. La recherche pédagogique sur le fongbe comme L2 est quasi inexistante ; les travaux proches les plus directement transférables concernent le yoruba (langue gbe voisine, également à deux tons de base avec downstep).

Aucune statistique, aucune citation, aucune référence n'a été inventée. Lorsqu'une information n'est pas vérifiable, le texte le signale.

Table des matières

PARTIE I — FONDEMENTS LINGUISTIQUES

1. Les langues à tons dans le monde

2. Phonologie tonale : concepts fondamentaux

3. Le système tonal du fongbe

4. Tons lexicaux et tons grammaticaux

5. Downstep, downdrift et tons flottants

PARTIE II — NEUROSCIENCES DE LA PERCEPTION TONALE

6. Le cerveau face au ton linguistique

7. Latéralisation hémisphérique

8. Période critique et plasticité neurale

9. L'effet de la langue maternelle

10. Musicalité et traitement des tons

PARTIE III — ACQUISITION EN L2 : OBSTACLES ET MÉCANISMES

11. Le défi de l'apprenant non-tonal

12. Perception avant production

13. Interférence de la L1

14. Apprentissage statistique et implicite

15. L'âge de l'apprenant

PARTIE IV — MÉTHODES D'ENTRAÎNEMENT VALIDÉES

16. High Variability Phonetic Training (HVPT)

17. Indices multimodaux : gestes, visuels, haptique

18. Musique et apprentissage tonal

19. Instruction explicite vs. implicite

20. Technologies et outils numériques

PARTIE V — APPLICATION AU FONGBE

21. Spécificités pédagogiques du fongbe comme L2

22. Profils d'apprenants et priorités

23. Séquençage proposé des difficultés

24. Ressources disponibles et lacunes

RÉFÉRENCES BIBLIOGRAPHIQUES

PARTIE I

FONDEMENTS LINGUISTIQUES

1. Les langues à tons dans le monde

1.1 Ampleur du phénomène

La tonalité lexicale est loin d'être un trait exotique ou marginal dans les langues humaines. Les estimations les plus citées dans la littérature indiquent qu'entre 60 et 70 % des langues du monde utilisent des variations de hauteur (pitch) pour distinguer des mots ou des formes grammaticales (Maddieson, 2013 ; Frontiers in Education, 2024). On dénombre conservativement plus de 1,5 milliard de locuteurs natifs de langues à tons, avec potentiellement plus de 10 millions d'apprenants en L2 (données reprises dans la synthèse éditoriale de Han, Wang & Chen, Frontiers in Education, 2024).

Trois grandes zones géographiques concentrent l'essentiel des langues à tons : l'Afrique subsaharienne, l'Asie du Sud-Est et de l'Est, et une zone plus dispersée couvrant certaines langues amérindiennes (navajo notamment). Cette répartition géographique n'est pas anodine pour l'apprentissage : les recherches expérimentales ont été massivement conduites sur le mandarin, le cantonais et le vietnamien, laissant les langues africaines relativement sous-documentées du point de vue pédagogique.

1.2 Typologies tonales

Toutes les langues à tons ne fonctionnent pas de la même manière. La linguistique distingue plusieurs grands types, dont les implications pédagogiques diffèrent sensiblement.

Langues à tons de registre (register tone languages)

Dans ces langues, le ton est défini par un niveau de hauteur discret : haut (H) ou bas (B), parfois avec un niveau médian (M). Le yoruba en est l'exemple africain le plus étudié : il oppose trois tons de niveau (haut, médian, bas). Le fongbe appartient essentiellement à ce type, avec deux tons phonémiques principaux (haut et bas), bien que des réalisations de surface plus complexes apparaissent à travers des processus phonologiques. C'est un point important pour la pédagogie : l'apprenant de fongbe n'a pas à maîtriser des contours dynamiques complexes comme en mandarin, mais doit percevoir et produire des distinctions de niveau, ce qui pose ses propres défis.

Langues à tons de contour (contour tone languages)

Ici, c'est le mouvement de la hauteur sur une syllabe qui est distinctif : montant (bas→haut), descendant (haut→bas), descendant puis montant (le célèbre tone 3 du mandarin). Le mandarin, le vietnamien, le cantonais illustrent ce type. La perception d'un contour exige que l'auditeur suive une trajectoire temporelle de F0 (fréquence fondamentale), ce qui mobilise des ressources cognitives différentes de la simple identification d'un niveau.

Systèmes mixtes

De nombreuses langues combinent tons de registre et tons de contour. Le cantonais, par exemple, oppose six tons qui mêlent niveaux et contours. Certaines langues gbe présentent également des contours de surface (ton montant B-H, ton descendant H-B) résultant de processus phonologiques appliqués à des tons sous-jacents de registre.

1.3 Tons lexicaux vs. tons grammaticaux

Une distinction fondamentale traverse les systèmes tonals : l'emploi du ton pour distinguer des mots (fonction lexicale) et son emploi pour marquer des oppositions grammaticales (fonction grammaticale, également dite morphotonologique).

Dans les langues à fonction tonale purement lexicale, le ton d'un mot est fixe et fait partie de son entrée lexicale : changer le ton change le mot. Dans les langues où le ton joue aussi un rôle grammatical — et le fongbe en est un exemple documenté —, le même radical peut porter des tons différents selon sa fonction syntaxique. C'est une source de complexité supplémentaire pour l'apprenant, car la maîtrise tonale requiert non seulement la mémorisation lexicale des tons mais aussi la compréhension des règles morphotonologiques.

Application au fongbe

Lefebvre & Brousseau (2002 : A Grammar of Fongbe, Mouton de Gruyter) documentent que le fongbe utilise le ton pour des distinctions à la fois lexicales et grammaticales. Un exemple classique souvent cité dans la littérature NLP sur le fongbe (notamment dans les papiers OkwuGbé et AfroLM, arXiv 2021-2023) : kó (ton haut) = 'récolter', kò (ton bas) = 'construire', kô (ton descendant H-B) = 'cou'. Par ailleurs, le ton haut peut marquer l'aspect présent sur certaines formes verbales, tandis que le ton bas peut indiquer le passé — ce qui confère au système tonal une double charge : lexicale et aspectuelle.

1.4 Le cas particulier des langues gbe

Le fongbe appartient au continuum dialectal gbe, qui s'étend de l'actuel Ghana oriental au Nigeria occidental, couvrant le Bénin et le Togo. Ce continuum comprend l'ewé, le mina, le gen, l'aja, le fon et leurs nombreux dialectes — Homo Capo Biova Capo (1991, A Comparative Phonology of Gbe, Mouton de Gruyter & Labo Gbe, Garomé) en a produit la première description phonologique comparative systématique.

Les langues gbe partagent plusieurs caractéristiques tonales : deux tons phonémiques de base (H et B), des processus de downstep bien documentés, la présence de tons flottants, et une interaction complexe entre la phonologie segmentale (notamment le voisement des consonnes) et la réalisation des tons. Cette parenté est pédagogiquement pertinente : un locuteur d'une langue gbe apprenant le fongbe bénéficiera d'un transfert positif substantiel au niveau tonal. En revanche, un locuteur de français — langue à intonation mais sans ton lexical — part d'une position très différente.

2. Phonologie tonale : concepts fondamentaux

2.1 La fréquence fondamentale (F0)

Le support acoustique du ton est la fréquence fondamentale (F0), mesurée en hertz (Hz). F0 correspond à la fréquence de vibration des cordes vocales : plus elles vibrent vite, plus le son est perçu comme aigu (ton haut) ; plus lentement, plus grave (ton bas). Dans une langue à tons, les locuteurs natifs ont internalisé un système de correspondance entre des catégories phonologiques abstraites (H, B) et des plages de F0 relatives.

Deux points sont essentiels pour la pédagogie. Premièrement, F0 est une dimension continue, mais les tons sont perçus de manière catégorielle — comme les couleurs sur un spectre. Deuxièmement, les valeurs absolues de F0 varient selon les locuteurs (voix d'homme vs. femme, différences individuelles) ; c'est la relation relative entre les tons qui est phonémiquement distinctive, non les valeurs absolues. Un apprenant qui n'a accès qu'à un seul locuteur risque d'apprendre des valeurs absolues et non le système relationnel : c'est l'une des justifications centrales du High Variability Phonetic Training (voir Partie IV).

2.2 Ton, intonation, accent : ne pas confondre

Une source de confusion fréquente chez les apprenants et même dans certains matériaux pédagogiques est la confusion entre ton lexical, intonation et accent d'intensité.

L'intonation est un phénomène suprasegmental qui porte sur des unités longues (phrases, groupes intonatifs). Elle peut exprimer la question, l'affirmation, l'emphase, l'ironie. Toutes les langues ont de l'intonation. En français, par exemple, une montée de F0 en fin d'énoncé signale généralement une question. L'intonation n'est pas lexicalement distinctive : elle ne change pas le sens d'un mot isolé.

L'accent d'intensité (stress) est une proéminence qui implique généralement une combinaison de F0, d'intensité et de durée. En anglais ou en français, la position de l'accent fait partie de la forme phonologique des mots (ou est prévisible par règle).

Le ton lexical, lui, est une hauteur relative associée à une syllabe spécifique qui fait partie de la représentation lexicale du mot. Changer le ton change le mot, sans changer le sens pragmatique de l'énoncé. Cette distinction est cruciale : un apprenant francophone de fongbe devra apprendre à utiliser des variations de hauteur pour distinguer des lexèmes, une fonction que le français n'assigne pas à la hauteur — ce qui génère une interférence profonde.

2.3 Le modèle autosegmental

La phonologie contemporaine des tons repose majoritairement sur le modèle autosegmental, développé notamment par John Goldsmith (1976) et enrichi par de nombreux travaux ultérieurs. Ce modèle représente les tons sur un niveau (tier) distinct du tier segmental (consonnes, voyelles), les deux niveaux étant liés par des lignes d'association.

Cette représentation permet de rendre compte naturellement de phénomènes comme les tons flottants (tons non associés à un segment), la propagation tonale (ton spreading), et le downstep. Pour la pédagogie, le modèle autosegmental offre un cadre conceptuel utile : il montre que le ton n'est pas simplement une propriété d'un son, mais une entité phonologique qui a sa propre vie et peut se déplacer, se propager ou s'effacer de manière prévisible.

2.4 Notation des tons

Plusieurs conventions de notation coexistent dans la littérature. Les plus courantes pour les langues africaines sont :

Les diacritiques sur la voyelle : accent aigu (´) pour ton haut, accent grave (`) pour ton bas, parfois accent circumflexe (^) pour ton descendant. C'est la convention adoptée dans l'orthographe standardisée du fongbe.
La notation H/B (haut/bas) ou H/L (High/Low) en exposant ou en annotation, utilisée dans les travaux linguistiques.
La notation numérique de Chao : chiffres de 1 (très bas) à 5 (très haut), utilisée surtout pour le mandarin et le cantonais.
Le symbole de downstep (!) placé avant une syllabe H abaissée.

Pour l'enseignement du fongbe à des apprenants alphabétisés en français, les diacritiques sur les voyelles sont la solution la plus accessible. Elles sont d'ailleurs utilisées dans l'orthographe officielle béninoise et dans les matériaux produits par le CENALA (Centre National de Linguistique Appliquée, Cotonou).

3. Le système tonal du fongbe

3.1 Les deux tons phonémiques

Le fongbe possède deux tons phonémiques : haut (H) et bas (B). Cette information est solidement établie dans la littérature de référence. Lefebvre & Brousseau (2002) en fournissent la description détaillée. Les travaux de NLP et de traitement de la parole (OkwuGbé, arXiv 2021 ; AfroLM, arXiv 2022 ; FonMTL, arXiv 2023) reprennent cette description de manière cohérente : dix phonèmes vocaliques (six fermés : i, u, ĩ, ũ, et quatre ouverts : ɛ, ɔ, a, ã), vingt-deux phonèmes consonantiques, et deux tons de base.

Le ton haut est réalisé phonétiquement comme montant (bas→haut) après une consonne voisée, en raison de perturbations tonales (tonal perturbations) liées au voisement. Ce phénomène — l'abaissement du F0 immédiatement après une consonne voisée, suivi d'une remontée — est documenté dans de nombreuses langues africaines et constitue une difficulté de perception pour les apprenants, qui peuvent confondre cette remontée avec un contour tonal intentionnel.

3.2 Les réalisations de surface

À partir des deux tons sous-jacents, le fongbe produit une gamme plus riche de réalisations phonétiques de surface. Les mots disyllabiques présentent quatre combinaisons logiquement possibles : HH, HB, BH, BB. Dans les mots ou syntagmes plus longs, des règles de propagation et d'assimilation entrent en jeu.

Une règle documentée (AfroLM, arXiv 2022 ; données cohérentes avec Lefebvre & Brousseau, 2002) : dans un mot phonologique long, le ton haut tend à se maintenir jusqu'à la syllabe finale. Si cette dernière porte un ton bas sous-jacent, elle est réalisée comme descendante (H-B). Les tons bas disparaissent entre deux tons hauts, mais leur effet est préservé sous forme de downstep — cf. section suivante.

Application pédagogique directe

Pour l'apprenant de fongbe, cette règle de surface signifie que la distinction H/B doit être apprise mot par mot dans le lexique, mais que les patterns de réalisation en contexte phrastique obéissent à des règles relativement prévisibles une fois le système compris. Cela suggère une progression pédagogique en deux temps : (1) apprentissage des tons lexicaux item par item avec feedback auditif immédiat, puis (2) exposition à des énoncés en contexte pour internaliser les règles de sandhi tonal.

3.3 La question du troisième ton

Un point qui mérite attention est la mention, dans certains documents récents, d'un « système à trois tons » en fongbe. Le document arXiv 2604.12477 (2026, Mining Large Language Models for Low-Resource Language Data) mentionne « a three-tone system with obligatory diacritic marking » et donne l'exemple : kó (haut) = 'récolter', kò (bas) = 'construire', kô (descendant) = 'cou'.

Il convient d'être précis sur ce point. La description classique (Lefebvre & Brousseau, 2002 ; Capo, 1991) reconnaît deux tons phonémiques sous-jacents. Le ton descendant (kô) est généralement analysé comme un contour de surface résultant de l'application de règles phonologiques à une séquence sous-jacente HB, et non comme un troisième ton phonémique distinct. Cette analyse est cohérente avec la théorie autosegmentale standard pour les langues gbe. Cependant, la distinction pratique importe peu pour l'apprenant : qu'il soit analysé comme phonème ou comme contour de surface, le ton descendant est perceptivement distinct et doit être maîtrisé.

3.4 Interaction tons/consonnes

Un aspect spécifique du fongbe documenté par Brousseau (1993, « L'interaction entre consonnes et tons en fɔngbè », Peeters Press) est l'interaction entre le voisement des consonnes et la réalisation des tons. Les consonnes voisées tendent à abaisser le F0 des voyelles qui les suivent, créant un effet de perturbation tonale (microprosodic perturbation). Cet effet est automatique et ne fait pas partie du système tonal phonémique, mais il peut induire en erreur les apprenants non entraînés qui perçoivent un début de ton bas là où le locuteur produit un ton haut légèrement perturbé.

L'implication pédagogique est directe : les matériaux d'entraînement à la perception tonale du fongbe doivent inclure des exemples avec des contextes consonantiques variés (consonnes voisées et non voisées), exactement comme le préconise le High Variability Phonetic Training dans la littérature générale sur les langues à tons.

4. Tons lexicaux et tons grammaticaux en fongbe

4.1 La double fonction du ton

Le ton en fongbe ne sert pas uniquement à distinguer des mots de même forme segmentale (fonction lexicale). Il joue également un rôle dans l'expression de catégories grammaticales, notamment aspectuelles et modales. Cette double fonction est documentée dans Lefebvre & Brousseau (2002) et représente une spécificité importante du fongbe par rapport à des langues comme le mandarin, où le ton est quasi-exclusivement lexical.

La distinction est pédagogiquement critique. Dans une langue où le ton n'est que lexical, l'apprenant doit simplement mémoriser le ton de chaque mot comme une propriété phonologique fixe — au même titre qu'il mémoriserait le genre d'un nom en français. Dans une langue où le ton a aussi une fonction grammaticale, l'apprenant doit en outre apprendre les règles d'alternance tonale qui s'appliquent en contexte morphosyntaxique.

4.2 Tons et aspect verbal

La littérature sur le fongbe (Lefebvre & Brousseau, 2002 ; sources secondaires cohérentes dans les papiers NLP) indique que le ton peut marquer des distinctions aspectuelles sur les formes verbales. Un ton haut peut signaler l'aspect présent (ou perfectif, selon l'analyse) là où un ton bas peut indiquer d'autres valeurs temporelles ou aspectuelles. Ce système s'articule avec les marqueurs préverbaux, qui constituent le principal mécanisme d'expression du temps et de l'aspect en fongbe.

Avertissement : les descriptions détaillées de ce système sont techniques et font l'objet d'analyses divergentes dans la littérature linguistique. Ce document ne prétend pas trancher entre les analyses. Pour l'enseignement, ce qu'il importe de retenir est que le ton verbal ne peut pas être ignoré : un ton incorrect sur un verbe peut changer le sens grammatical de l'énoncé, pas seulement son habillage phonologique.

4.3 Tons et structure nominale

Le ton intervient également dans la structure des syntagmes nominaux en fongbe, notamment dans les constructions génitives et dans la réalisation du déterminant défini. Ces phénomènes sont documentés dans la grammaire de référence. Ils constituent des difficultés de niveau intermédiaire à avancé pour l'apprenant, qui doit apprendre à gérer les interactions tonales dans des structures syntaxiques élaborées.

Implication pour la progression pédagogique

Pour un apprenant de fongbe en L2, une progression rationnelle suggère : (1) stabiliser les tons lexicaux sur des mots isolés à haute fréquence ; (2) introduire les règles de sandhi tonal en contexte phrastique simple ; (3) aborder les alternances tonales grammaticales une fois que les tons lexicaux sont suffisamment intégrés. Vouloir enseigner simultanément tous les niveaux du système tonal dès le départ risque de saturer la capacité de traitement de l'apprenant.

5. Downstep, downdrift et tons flottants

5.1 Le downstep : définition et mécanisme

Le downstep est l'un des phénomènes prosodiques les plus caractéristiques des langues à tons africaines et constitue l'une des difficultés majeures pour les apprenants extérieurs au continent. La définition de référence (Connell, 2011, dans Wiley Online Library ; Downstep Wikipedia, avec sources primaires) est la suivante : le downstep est une chute de hauteur contrastive qui établit un nouveau plafond de registre (register ceiling) pour les tons hauts suivants au sein d'un domaine prosodique.

En termes concrets : dans une séquence de plusieurs tons hauts, si un ton haut survient après un contexte qui déclenche le downstep, ce ton haut sera réalisé à un niveau de F0 significativement plus bas que le ton haut précédent — tout en restant perçu comme « haut » relativement à ce qui suit. On note ce downstep par un point d'exclamation ou une flèche descendante en exposant : H!H.

5.2 Downstep automatique et non automatique

La littérature distingue deux types de downstep (Connell, 2011 ; Hyman, 1979 et travaux ultérieurs ; synthèse dans Wikipedia Downstep avec sources primaires). Le downstep automatique (ou downdrift) est déclenché par un ton bas phonétiquement réalisé : dans la séquence H B H, le second H est automatiquement abaissé. Ce phénomène universel dans les langues à tons africaines n'est pas spécifique au fongbe.

Le downstep non automatique (downstep proper) est déclenché par un ton bas flottant — un ton qui n'est plus associé à un segment phonétique mais dont l'effet persiste. La séquence sous-jacente était H (B) H, avec le B associé à un segment qui a été supprimé ; le résultat de surface est H!H, où le downstep révèle la présence du ton flottant.

5.3 Les tons flottants

Un ton flottant est un ton qui a perdu son association à un segment vocalique ou consonantique, mais qui continue d'exercer ses effets phonologiques. Les tons flottants sont abondamment documentés dans les langues niger-congo, notamment dans les langues gbe (Hyman & Tadadjeu, 1976 ; Clements & Ford, 1979 ; synthèse dans Connell, 2011).

Leur origine typique est la suppression d'un morphème dont le segment est effacé mais dont le ton survit. En fongbe, comme dans les autres langues gbe, les tons flottants jouent un rôle dans la morphologie tonologique — affectant les réalisations de F0 même lorsque aucun segment porteur n'est perceptivement présent.

Pour la pédagogie, les tons flottants représentent un défi de niveau avancé. Ils ne peuvent être maîtrisés que si l'apprenant a déjà une bonne compréhension du système tonal de base. Ils constituent un objectif de niveau C1-C2 dans une hypothétique progression par niveaux CECRL appliquée au fongbe.

5.4 Le downdrift

Le downdrift est distinct du downstep, bien que les deux phénomènes soient liés. Le downdrift est l'abaissement progressif et graduel du niveau tonal au cours d'un énoncé, résultant de l'effet cumulatif des tons bas sur les tons hauts suivants. Il ne crée pas de paliers discrets (contrairement au downstep), mais produit une pente mélodique descendante sur l'ensemble de l'énoncé, souvent réinitialisée à la frontière de phrase.

En termes perceptifs, le downdrift crée la sensation que les locuteurs « descendent » en hauteur au fil du discours. L'apprenant doit apprendre à percevoir les tons de manière relative et non absolue — un ton haut en milieu d'énoncé peut être acoustiquement plus bas qu'un ton bas en début d'énoncé.

Le downstep comme pierre de touche

La maîtrise du downstep constitue un excellent indicateur du niveau de compétence tonale atteint en fongbe. Un apprenant qui ne produit pas de downstep parle un fongbe phonétiquement déviant ; un apprenant qui perçoit le downstep a intégré le système tonal à un niveau avancé. Les matériaux d'entraînement à la perception tonale du fongbe devraient inclure explicitement des exercices sur le downstep à partir du niveau intermédiaire.

PARTIE II

NEUROSCIENCES DE LA PERCEPTION TONALE

6. Le cerveau face au ton linguistique

6.1 Hiérarchie du traitement auditif

Le traitement du ton linguistique mobilise une hiérarchie de structures cérébrales, du tronc cérébral jusqu'aux cortex préfrontaux. Cette architecture est documentée par une méta-analyse d'imagerie cérébrale (Liang & Du, 2018, Frontiers in Neuroscience, citée dans Nature Communications 2021) qui a analysé 17 études sur le traitement auditif des tons lexicaux : les analyses ALE (Activation Likelihood Estimation) révèlent des activations significatives dans les régions préfrontales inférieures bilatérales, les régions temporales supérieures bilatérales, et le noyau caudé droit.

Une comparaison avec le traitement lexical dans les langues non tonales montre un profil différent : les langues non tonales activent préférentiellement le gyrus frontal inférieur gauche et les régions temporo-pariétales gauches. Le traitement tonal lexical est donc plus bilatéral que le traitement lexical atonal, reflétant la nature hybride du ton — à la fois information acoustique (pitch) traitée préférentiellement à droite, et information linguistique traitée préférentiellement à gauche.

6.2 Le tronc cérébral et l'encodage subcortical

Des recherches récentes (notamment les travaux de Chandrasekaran et collaborateurs, cités dans MIT Press Imaging Neuroscience, 2024) ont montré que le tronc cérébral encode fidèlement les propriétés acoustiques du ton de parole, et que cet encodage est modifié par l'expérience linguistique. Les locuteurs de langues à tons présentent une réponse du tronc cérébral plus précise aux variations de F0 que les locuteurs de langues atonales.

Cette plasticité subcorticale a des implications importantes : elle suggère que l'entraînement intensif à la perception tonale peut modifier des mécanismes de traitement auditif de bas niveau, pas seulement des représentations cognitives de haut niveau. L'entraînement tonal n'est donc pas uniquement une question d'apprentissage conscient de catégories — il peut remodelage physiquement le traitement auditif.

6.3 Attention sélective aux dimensions acoustiques

Une étude récente particulièrement pertinente (MIT Press Imaging Neuroscience, décembre 2024, testant 54 locuteurs anglais et 60 locuteurs mandarin) a montré que les locuteurs de mandarin sont meilleurs que les locuteurs d'anglais pour focaliser leur attention sur la hauteur (pitch), et moins performants pour focaliser sur la durée. Cette asymétrie d'attention sélective reflète l'expérience linguistique de long terme : la langue maternelle module ce à quoi le cerveau fait spontanément attention.

Pour l'enseignement des langues à tons, cela signifie que l'apprenant francophone de fongbe devra activement réorienter son attention vers la dimension hauteur de la parole, contre l'habitude linguistique d'une langue où la hauteur n'est pas lexicalement distinctive. Cet effort d'attention consciente est coûteux et nécessite un entraînement explicite et répété.

7. Latéralisation hémisphérique

7.1 Le débat fonctionnel vs. acoustique

L'une des questions les plus débattues en neurolinguistique du ton concerne la latéralisation hémisphérique : quel hémisphère traite prioritairement les tons lexicaux ? La littérature oppose deux hypothèses principales (synthèse dans Wong, 2002, citée dans Science Direct 2002 ; et dans Zatorre & Gandour, 2008, Philosophical Transactions of the Royal Society).

L'hypothèse fonctionnelle (functional hypothesis) prédit que les tons lexicaux — qui portent une forte charge linguistique — seront latéralisés à gauche, comme les autres informations linguistiques. L'hypothèse acoustique (acoustic hypothesis) prédit que toutes les informations de hauteur, quelle que soit leur fonction, seront latéralisées à droite, l'hémisphère droit étant spécialisé dans le traitement holiste du pitch.

7.2 Synthèse des données expérimentales

Les données disponibles pointent vers une réalité plus nuancée qu'une latéralisation simple. La méta-analyse ALE de Liang & Du (2018) montre des activations bilatérales pour le traitement tonal lexical. Des études sur les ERPs (potentiels évoqués) en mandarin (PubMed 2013, CAS Key Laboratory) montrent que le traitement préattentif du niveau de hauteur est latéralisé à droite, tandis que le traitement du contour de hauteur tend vers la gauche — avec une tendance, pas une latéralisation exclusive.

Une étude sur des locuteurs cantonais (ScienceDirect 2013, Gu et al., NeuroImage 83) utilisant la MMN (Mismatch Negativity) a trouvé une latéralisation gauche pour le traitement lexical du pitch et une latéralisation droite pour le traitement acoustique du pitch, distinguant les deux fonctions chez les mêmes locuteurs.

La conclusion la plus solide à ce jour : le traitement tonal lexical mobilise les deux hémisphères, avec une contribution droite pour le traitement acoustique bas niveau du pitch, et une contribution gauche pour le traitement linguistique de haut niveau (catégorisation phonémique, accès lexical). Le fait que les apprenants L2 de langues à tons partent d'une dominance droite pour le pitch (car leur L1 n'assigne pas de fonction lexicale au pitch) et doivent développer une implication gauche croissante suggère que l'apprentissage tonal implique une réorganisation neurologique mesurable.

7.3 Implications pour la pédagogie

Orie (2006, L2 Acquisition and Yoruba Tones : Issues and Challenges, ACAL 36) identifie explicitement « les différences dans le traitement hémisphérique des tons » comme l'un des trois défis universels de l'acquisition tonale en L2. Cette observation, bien que formulée dans le contexte du yoruba pour des apprenants anglophones, est généralisable.

Ce qu'elle implique concrètement pour l'enseignement : l'apprenant ne doit pas traiter le ton comme une mélodie musicale (traitement holiste droit) ni comme un marqueur purement intellectuel à mémoriser (traitement analytique frontal gauche), mais comme une propriété linguistique intégrée à la représentation phonologique des mots. Cet apprentissage requiert une pratique intensive en conditions variées, proche de celle que le HVPT (voir Partie IV) cherche à reproduire artificiellement.

8. Période critique et plasticité neurale

8.1 La thèse de Lenneberg

L'hypothèse de la période critique (Critical Period Hypothesis, CPH) a été introduite dans le domaine du langage par Penfield & Roberts (1959, Speech and Brain Mechanisms) et formalisée par Lenneberg (1967, Biological Foundations of Language). Dans sa version originale, Lenneberg arguait que l'acquisition du langage avec pleine compétence ne peut se produire qu'entre les deux premières années de vie et la puberté, période coïncidant avec la latéralisation hémisphérique.

La CPH est aujourd'hui l'un des sujets les plus débattus dans le domaine de l'acquisition des langues secondes. Un article de 2023 dans Frontiers in Physics propose une analyse mathématique de la géométrie âge-compétence ultime et conclut à une différence robuste entre apprenants précoces et tardifs, mais avec une grande variance individuelle parmi les apprenants adultes.

8.2 CPH et acquisition tonale

Pour l'acquisition tonale en L2, les données disponibles sont cohérentes avec un effet d'âge, mais pas avec une coupure nette à la puberté. Orie (2006) observe que les jeunes apprenants de yoruba (groupe K5-Grade 5) surpassent les apprenants adultes dans la reconnaissance et la production des tons lexicaux, et que certains jeunes apprenants atteignent des niveaux proches du natif avec le temps. Ce résultat est cohérent avec la version « faible » de la CPH : avantage de l'âge précoce, mais pas impossibilité d'apprentissage adulte.

La recherche sur HVPT et sur l'entraînement perceptuel (voir Partie IV) démontre que des adultes peuvent acquérir des compétences tonales substantielles en L2, y compris sur des langues qu'ils n'ont jamais entendues avant l'âge adulte. Une étude récente (SAGE Journals 2024, Zhang et al.) montre que le HVPT améliore significativement la perception catégorielle des tons du mandarin chez des adultes anglophones de plus de 60 ans — bien au-delà de toute période critique.

8.3 Plasticité neurale à l'âge adulte

La neuroplasticité adulte existe, mais elle est plus lente, plus effortful et moins complète que la plasticité infantile. Ce que la recherche montre :

L'entraînement perceptuel intensif peut modifier l'encodage subcortical du pitch chez des adultes (travaux de Chandrasekaran et collaborateurs).
Les gains perceptuels peuvent être retenus à long terme (méta-analyse HVPT de Uchihara, Karas & Thomson, Studies in Second Language Acquisition, 2025, portant sur 79 études : retention confirmée).
La généralisation aux locuteurs non entraînés (novel talkers) est possible mais moins systématique que la rétention sur les stimuli entraînés.

Pour l'apprenant adulte de fongbe, ce tableau est globalement encourageant : l'acquisition tonale est possible, mais elle requiert un entraînement plus explicite, plus long et plus varié que ne l'exige l'acquisition en immersion infantile.

9. L'effet de la langue maternelle

9.1 Interférence L1 et perception tonale

L'effet de la langue maternelle sur l'acquisition tonale en L2 est l'un des facteurs les mieux documentés dans la littérature. Gottfried & Suiter (1997, cité par Orie 2006) ont montré que des locuteurs anglais ont peu de difficultés à apprendre la qualité vocalique du mandarin, mais échouent en grande partie dans l'acquisition tonale. Alao (1999, cité par Orie 2006) observe que des locuteurs francophones rencontrent les mêmes difficultés avec les tons du yoruba.

Le mécanisme sous-jacent est bien compris : les locuteurs de langues atonales ont internalisé, à travers des années d'exposition à leur L1, que les variations de hauteur sont des indices paralinguistiques (émotion, emphase, intonation) et non des marqueurs lexicaux. Ce biais attentionnel est profond et automatique — il opère en-dessous du niveau de la conscience.

9.2 Transfert positif entre langues à tons

Le tableau est très différent pour les locuteurs dont la L1 est elle-même une langue à tons. Une étude (SAGE Journals 2024, Qin, Lee-Kim & Qi) a examiné l'utilisation des indices de hauteur par des locuteurs coréens apprenant le cantonais. Le coréen possède des distinctions de hauteur phonologiques (dans certains dialectes), ce qui offre un transfert partiel. Les résultats montrent un avantage mesurable par rapport aux locuteurs de langues strictement atonales.

Pour le fongbe, ce résultat est directement pertinent : un locuteur d'une autre langue gbe (ewé, mina, gen, aja) bénéficiera d'un transfert positif massif, non seulement pour les tons de base mais aussi pour les phénomènes de downstep et de tons flottants. Un locuteur de yoruba bénéficiera d'un transfert partiel — les tons de registre sont similaires, mais les détails du système diffèrent. Un locuteur de français ou d'anglais part de zéro pour la dimension tonale.

9.3 L'ampleur du registre vocal

Orie (2006) identifie un problème spécifique aux apprenants anglophones de yoruba : leur plage de hauteur vocale utilisée pour des fins linguistiques est étroite comparée à celle des locuteurs natifs. Les locuteurs natifs de yoruba utilisent une gamme de F0 plus large pour marquer les distinctions tonales que les locuteurs anglophones ne le font spontanément.

Ce phénomène — le « pitch range problem » — a probablement une pertinence pour l'enseignement du fongbe à des locuteurs de français, langue dont les variations de hauteur intonative sont moins marquées que dans beaucoup de langues à tons africaines. L'entraînement à l'élargissement de la plage vocale active pourrait constituer une composante utile d'un curriculum fongbe pour francophones, bien que cette application spécifique n'ait pas fait l'objet de recherche directe.

10. Musicalité et traitement des tons

10.1 L'avantage du musicien

Une ligne de recherche active explore le lien entre formation musicale et compétence tonale en L2. La synthèse de Howe et al. (2024, Review of Education, Wiley) basée sur des études publiées entre 2005 et 2024 dans les bases ERIC, ProQuest Central, Google Scholar et Web of Science, documente plusieurs résultats convergents.

Les individus avec une formation musicale solide présentent des avantages mesurables dans les tâches de perception et production de tons en L2. Une étude de Christiner & Reiterer (2015, citée dans Howe 2024) montre que les individus avec une plus grande habileté mélodique détectent mieux les variations tonales. Des méta-analyses (Bigand & Tillmann, 2022) confirment que la formation musicale améliore les compétences cognitives incluant la mémoire de travail et l'intelligence non verbale.

10.2 L'instrument compte

Une nuance importante apportée par une étude récente (Choi, Ling & Wu, Music Perception, juin 2024) : l'avantage musical dans la perception tonale dépend du type d'instrument pratiqué. Les musiciens pratiquant des instruments à hauteur précise (pitched instruments : piano, violon, flûte) surpassent les musiciens percussionnistes (unpitched instruments) et les non-musiciens dans les tâches de discrimination tonale. Les percussionnistes ne surpassent pas les non-musiciens.

Implication pratique : une formation à un instrument mélodique est potentiellement plus bénéfique pour l'apprentissage tonal qu'une formation aux percussions. Les guitaristes, pianistes, chanteurs ont un avantage documenté. Pour l'enseignement du fongbe, il serait potentiellement utile de proposer des exercices d'écoute et d'imitation avec des instruments mélodiques (ou des représentations visuelles du contour de F0) plutôt que de se limiter à des matériaux de parole purs.

10.3 La bidirectionnalité langue-musique

Le lien langue-musique est bidirectionnel. Une étude documentée (Bidelman et al., 2013, citée dans Howe 2024) montre que les locuteurs de langues à tons ont une meilleure mémoire du pitch et de meilleures capacités de traitement musical que les locuteurs de langues atonales. Une étude à grande échelle sur un demi-million de locuteurs de 54 langues (Research Gate 2023) confirme que l'expérience avec les langues à tons est associée à une meilleure discrimination des mélodies musicales.

Ce résultat a une implication pour fongbebenin.com : mettre en avant les musiques traditionnelles béninoises (notamment les rythmes et mélodies liés aux traditions vodoun et aux expressions du culte Fâ) comme ressource d'apprentissage tonal n'est pas un choix purement culturel ou esthétique — c'est pédagogiquement justifié par la littérature scientifique.

10.4 Limites de l'avantage musical

Il convient néanmoins de ne pas surestimer cet avantage. Des méta-analyses récentes avec des critères rigoureux (groupes contrôle actifs, designs randomisés) concluent que les effets de transfert cognitif de la musique sont faibles ou inexistants sur des tâches lointaines (Neves et al., 2022 ; Sala & Gobet, 2020, cités dans Research Gate 2023). L'avantage musical semble plus solide pour les transferts proches — discriminer le pitch linguistique quand on est formé à discriminer le pitch musical — que pour des compétences générales.

Conclusion prudente : la formation musicale mélodique constitue un facteur favorable, non une condition nécessaire. Des apprenants sans formation musicale peuvent tout à fait acquérir de bonnes compétences tonales en L2 avec les méthodes d'entraînement appropriées.

PARTIE III

ACQUISITION EN L2 : OBSTACLES ET MÉCANISMES

11. Le défi de l'apprenant non-tonal

11.1 Une insensibilité construite

Orie (2006, L2 Acquisition and Yoruba Tones) identifie « le manque de sensibilité aux catégories tonales » comme le premier des trois défis universels de l'apprenant L2 de langue à tons. Ce « manque de sensibilité » n'est pas une incapacité innée — c'est le résultat d'années d'exposition à une langue qui n'utilise pas la hauteur comme marqueur lexical.

Les bébés humains commencent avec une sensibilité universelle aux distinctions phonologiques de toutes les langues du monde. Vers 10-12 mois, ils ont déjà commencé à spécialiser leur perception sur les distinctions pertinentes dans leur environnement linguistique, et à devenir relativement « sourds » aux distinctions non pertinentes. Un adulte francophone a passé entre 20 et 60 ans à ignorer les variations de hauteur comme marqueurs de sens lexical. Réactiver ou construire cette sensibilité demande un effort consciemment maintenu.

11.2 La surdité tonale : mythe et réalité

L'expression « tone deafness » (surdité tonale) est parfois utilisée dans la littérature pédagogique pour décrire l'incapacité apparente de certains apprenants à percevoir les tons. Une étude récente (Frontiers in Psychology, 2022, citée dans la méta-analyse Frontiers in Education 2024 sous « sequence recall task and Lexicality of tone ») apporte des nuances importantes.

La vraie surdité tonale (amusia) est un trouble neurologique rare affectant la perception musicale du pitch. Elle est distincte de la difficulté à percevoir les tons linguistiques en L2. La quasi-totalité des apprenants adultes possèdent les capacités auditives nécessaires pour percevoir les distinctions de F0 impliquées dans les tons — ce qui leur manque, c'est un système perceptif entraîné à les traiter comme linguistiquement distinctifs.

11.3 Trois défis universels selon Orie

Orie (2006) synthétise les défis en trois catégories applicables à tout apprenant de L2 de langue à tons africaine. Ces catégories, déduites de données sur le yoruba mais cohérentes avec la littérature générale, fournissent un cadre utile pour structurer les difficultés de l'apprenant de fongbe :

Le manque de sensibilité aux catégories tonales : l'apprenant ne perçoit pas encore les tons comme des catégories distinctes mais comme des variations continues de hauteur.
L'interférence de la langue maternelle : les habitudes phonologiques de la L1 s'imposent, notamment l'utilisation de montées de pitch pour signaler la question (en français, en anglais) plutôt que pour distinguer des mots.
Les différences de traitement hémisphérique : le pitch est traité comme information acoustique non linguistique (hémisphère droit) plutôt que comme information phonémique (implication de l'hémisphère gauche).

Transposition au fongbe

Ces trois défis s'appliquent directement à l'apprenant francophone de fongbe. (1) Les tons H et B du fongbe seront initialement perçus comme une variation expressive plutôt que comme une opposition lexicale. (2) Le français utilise la montée de F0 pour la question — un apprenant francophone risque de sur-interpréter les tons hauts du fongbe comme des marqueurs interrogatifs. (3) Le traitement linguistique des variations de pitch requerra un réentraînement neurologique progressif. Ces difficultés sont surmontables, mais leur reconnaissance est nécessaire pour concevoir un enseignement adapté.

12. Perception avant production

12.1 L'asymétrie perception-production

Un résultat bien établi dans la recherche sur l'acquisition tonale en L2 est que la perception précède généralement la production (Wang et al., 1999, cité dans Frontiers in Education, 2024, revue multimodale). Toutefois, la relation entre les deux n'est pas simple et unidirectionnelle : des améliorations en perception ne se traduisent pas automatiquement par des améliorations en production, et vice versa (Leather, 2011, cité ibid.).

Ce résultat contre-intuitif a des implications pratiques importantes : un apprenant peut percevoir correctement les tons sans pouvoir les produire, et inversement, peut approximer une production sans que sa perception soit fine. Les deux compétences doivent donc être entraînées séparément, même si elles s'informent mutuellement.

12.2 Perception catégorielle

La perception des tons en L2 suit un processus de catégorisation progressive. Au début, l'apprenant perçoit les variations de F0 de manière continue — une variation de quelques Hz est simplement perçue comme « un peu différente ». Avec l'entraînement, des frontières catégorielles émergent : la même variation est soudainement perçue comme « autre ton ». Ce phénomène — la perception catégorielle — est analogue à ce qui se passe pour la perception des voyelles et des consonnes.

Une étude récente (SAGE Journals 2024, Zhang et al.) a montré que le HVPT améliore significativement la perception catégorielle des tons du mandarin chez des adultes de plus de 60 ans, avec des effets maintenus deux mois après l'entraînement. Cela confirme que la catégorisation perceptuelle est entraînable à tout âge adulte.

12.3 Le rôle du contexte coarticulatoire

L'éditorial de Frontiers in Education (Han, Wang & Chen, 2024) note que l'entraînement L2 devrait mettre l'accent sur les contextes coarticulatoires pour aider les apprenants à développer des compétences perceptives robustes aux variations tonales. Les tons ne sont pas produits en isolation dans la parole naturelle : ils sont influencés par les tons adjacents, le contexte consonantique, la position dans l'énoncé.

Un apprenant entraîné uniquement sur des syllabes isolées peut échouer à reconnaître les mêmes tons dans un flux de parole naturel. La progression pédagogique devrait inclure une transition explicite des syllabes isolées vers les mots, puis les groupes de mots, puis les énoncés complets.

13. Interférence de la L1

13.1 Le mécanisme de l'interférence

L'interférence de la langue maternelle dans l'acquisition tonale opère à plusieurs niveaux simultanément. Au niveau phonétique, les habitudes articulatoires et les plages de F0 utilisées dans la L1 créent des tendances de production. Au niveau phonologique, les catégories de la L1 « capturent » les nouveaux sons — un phénomène parfois appelé perceptual assimilation (Best, 1995).

Pour un locuteur de français apprenant le fongbe, plusieurs interférences spécifiques sont prévisibles. Le français utilise une montée de F0 pour signaler la question — ce pattern risque d'interférer avec la production du ton haut du fongbe dans des contextes non interrogatifs. Par ailleurs, le français place typiquement l'accent de groupe sur la dernière syllabe, avec une légère élévation de F0 — un pattern qui peut masquer les distinctions tonales inter-syllabiques du fongbe.

13.2 Données sur le français et l'apprentissage tonal

Alao (1999, cité par Orie 2006) a spécifiquement observé que les locuteurs francophones trouvent l'acquisition des tons yoruba particulièrement difficile. Le yoruba partage avec le fongbe le principe des tons de registre et le downstep. Il n'existe pas à ce jour, à notre connaissance, de publication scientifique sur des apprenants francophones de fongbe spécifiquement. L'extrapolation depuis les données sur le yoruba est légitime mais doit être explicitée comme telle.

13.3 L'interférence intra-gbe

Un cas d'interférence différent et moins documenté concerne les locuteurs d'autres langues gbe apprenant le fongbe. Si le transfert tonal de base est positif (même système à deux tons de registre), des interférences peuvent survenir sur des détails dialectaux : légères différences dans les règles de downstep, différences dans les alternances tonales morphologiques, variations dans les réalisations phonétiques des contours de surface. Un locuteur d'ewé apprenant le fongbe bénéficiera du transfert positif mais devra rester vigilant face aux « faux amis tonals » — mots de même forme segmentale mais de schème tonal différent entre les deux langues.

14. Apprentissage statistique et implicite

14.1 L'apprentissage statistique comme mécanisme de base

L'apprentissage statistique — la capacité à détecter des régularités dans l'input sans instruction explicite — est considéré comme l'un des mécanismes fondamentaux de l'acquisition du langage (revue dans Frontiers Psychology et Studies in Second Language Acquisition, 2015). Une étude récente (Tang et al., 2024, Frontiers in Education) a examiné l'apprentissage statistique des tons chez des locuteurs de langues non tonales.

Les résultats (résumés dans l'éditorial de Han, Wang & Chen, Frontiers in Education, décembre 2024) soutiennent l'hypothèse que l'apprentissage statistique facilite l'acquisition tonale en L2, même sans feedback explicite. Cependant, les locuteurs de langues non tonales montraient un apprentissage plus fort pour les patterns syllabiques que pour les tons eux-mêmes, soulignant les défis spécifiques de l'internalisation des distinctions tonales.

14.2 Implicite versus explicite

Le débat entre apprentissage implicite et instruction explicite en L2 est l'un des plus anciens dans le domaine (revue dans Cambridge Core, 2015 ; Benjamin, 2015). Pour la phonologie et les tons en particulier, les données disponibles suggèrent un avantage de l'instruction explicite dans les phases initiales.

Une étude (Stratton, 2023, Die Unterrichtspraxis/Teaching German) a montré que des apprenants ayant reçu une instruction explicite surpassaient significativement les apprenants en condition implicite pour la prononciation en L2, mesurée par des analyses acoustiques avant et après instruction. Pour les tons, la conscience explicite de la fonction linguistique du pitch — savoir que la hauteur distingue des mots — est probablement nécessaire avant que l'apprentissage implicite par exposition puisse être efficace.

14.3 L'apprentissage par erreur

L'apprentissage par erreur (error-driven learning) est documenté comme un mécanisme d'affinement des compétences linguistiques (Bovolenta & Marsden, 2022, cité dans revue Frontiers). Dans le contexte de l'apprentissage tonal, cela signifie que les erreurs de production corrigées par un feedback immédiat et précis contribuent à l'affinement des représentations tonales. La condition est la précision du feedback : un feedback vague (« pas tout à fait ») est moins efficace qu'un feedback informatif (« ce mot a le ton bas, pas le ton haut »).

15. L'âge de l'apprenant

15.1 L'avantage des jeunes

L'avantage de l'âge précoce pour l'acquisition tonale est documenté par plusieurs études. Orie (2006) observe que les jeunes apprenants (niveau K5 à Grade 5, soit approximativement 5-11 ans) surpassent les apprenants adultes dans la reconnaissance et la production des tons yoruba. Les jeunes apprenants qui bénéficient d'une exposition continue tendent à atteindre des niveaux proches du natif.

La littérature générale sur la CPH (Frontiers in Physics, 2023 ; Wikipedia CPH avec sources primaires) confirme que les enfants atteignent une compétence phonologique plus native-like que les adultes. Cependant, comme souligné dans l'analyse de Vanhove (cité dans Wikipedia CPH), les études sur la CPH souffrent souvent de biais de confirmation et de problèmes statistiques qui affectent la robustesse des conclusions.

15.2 Les adultes peuvent apprendre

L'affirmation que les adultes « ne peuvent pas » apprendre les tons d'une nouvelle langue est contredite par les données expérimentales. La méta-analyse de Uchihara, Karas & Thomson (Studies in Second Language Acquisition, 2025) portant sur 79 études HVPT montre des effets de taille moyenne à grande pour la perception phonétique en L2 chez des apprenants adultes. L'étude de Zhang et al. (SAGE Journals 2024) démontre des gains significatifs chez des adultes de plus de 60 ans apprenant les tons du mandarin.

La différence avec les enfants n'est donc pas une impossibilité mais une question de conditions : les adultes ont besoin d'un entraînement plus structuré, plus explicite, plus intensif, et avec plus de variabilité dans les stimuli que les enfants en immersion naturelle.

15.3 Âge et plateaux d'acquisition

Un phénomène documenté est le plateau d'acquisition : après une phase d'amélioration rapide, les apprenants adultes atteignent souvent un niveau stable qui reste en-deçà du niveau natif, notamment pour la phonologie. Pour les tons, ce plateau peut se manifester par une perception adéquate dans des conditions favorables (parole claire, débit normal, vocabulaire connu) mais des difficultés persistantes en conditions dégradées (parole rapide, bruit, locuteurs non familiers).

La stratégie d'entraînement HVPT — variété de locuteurs, variété de contextes phonétiques — vise précisément à repousser ce plateau en forçant l'apprenant à développer des représentations robustes plutôt que des stratégies contextuelles fragiles.

PARTIE IV

MÉTHODES D'ENTRAÎNEMENT VALIDÉES

16. High Variability Phonetic Training (HVPT)

16.1 Définition et principes

Le High Variability Phonetic Training (HVPT) est actuellement considéré comme le paradigme d'entraînement phonétique L2 le plus solidement étayé empiriquement (Thomson, 2018, cité dans Cambridge Core 2025 ; Uchihara et al., 2025). Sa définition opérationnelle est précise : entraînement perceptif avec feedback essai par essai (trial-by-trial feedback), dans lequel les apprenants sont exposés à de multiples réalisations des sons cibles produites par plusieurs locuteurs différents (multiple talkers) dans des contextes phonétiques variés.

Les trois composantes essentielles du HVPT sont donc : (1) la variabilité inter-locuteurs, (2) la variabilité des contextes phonétiques, et (3) le feedback immédiat sur chaque réponse. Ces trois composantes sont nécessaires à l'efficacité du dispositif ; les études qui en omettent une obtiennent des effets réduits.

16.2 La méta-analyse de référence

La méta-analyse la plus récente et la plus complète sur le HVPT (Uchihara, Karas & Thomson, Studies in Second Language Acquisition, vol. 47, n°3, juillet 2025, Cambridge Core) analyse 79 études et documente les résultats suivants :

Effet global de taille moyenne à grande sur la perception phonétique en L2 : g = 0,92 pour la comparaison prétest-posttest (k = 96), g = 0,67 pour la comparaison traitement-contrôle (k = 32).
Rétention à long terme des gains perceptifs confirmée.
Généralisation à des locuteurs non entraînés possible mais moins systématique.
Les variables modératrices identifiées incluent : la durée d'apprentissage de la L2, les étiquettes de réponse utilisées, le type de tâche d'entraînement, le type de tâche de test, le temps total d'entraînement, les sons cibles, et le nombre de locuteurs.

16.3 HVPT et tons

L'efficacité du HVPT a été démontrée spécifiquement pour les tons lexicaux dans plusieurs études, dont Wang et al. (cité dans Cambridge Applied Psycholinguistics 2024). Une étude de 2024 (Zhang, Liao & Truong, SAGE Journals) a montré que le HVPT améliore la perception catégorielle des tons du mandarin chez des adultes anglophones de plus de 60 ans, avec des différences individuelles en traitement auditif (spectral et temporel) comme prédicteurs des gains.

Une donnée particulièrement importante pour l'enseignement : l'exposition à plusieurs locuteurs est statistiquement supérieure à l'exposition à un seul locuteur pour les gains immédiats (g = 0,28, k = 13) et pour la généralisation à des locuteurs non entraînés (Uchihara et al., 2025). Un matériau pédagogique pour le fongbe utilisant un seul locuteur enregistré est donc structurellement moins efficace qu'un matériau utilisant plusieurs voix différentes.

16.4 Application au fongbe : état des ressources

État des ressources audio pour le fongbe

À ce jour (2025), les corpus audio publiquement accessibles pour le fongbe sont limités. Le projet OkwuGbé (arXiv 2021) a produit des données de reconnaissance vocale. ELAR et des projets comme ceux documentés en lien avec FLASH/UAC et LLACAN ont produit des enregistrements à des fins descriptives. Un dispositif d'entraînement HVPT pour le fongbe demanderait idéalement : des enregistrements d'au moins 6-8 locuteurs natifs distincts (hommes, femmes, dialectes différents), dans des contextes phonétiques variés, avec des paires minimales tonales. Cette ressource n'existe pas à ce jour sous une forme pédagogiquement exploitable — ce qui constitue une lacune identifiable et actionnable.

17. Indices multimodaux : gestes, visuels, haptique

17.1 Au-delà de l'auditif

La revue de Frontiers in Education (juillet 2024, « Multimodal cues in L2 lexical tone acquisition: current research and future directions ») constitue la synthèse la plus récente et complète sur les indices non auditifs dans l'apprentissage tonal. Elle part d'un constat : la perception des tons en L2 ne mobilise pas seulement des indices auditifs, mais aussi des indices visuels (mouvements labiaux, expressions faciales, gestes de la main) et haptiques (retour tactile, vibration).

Le traitement neurologique du ton implique des structures distribuées comprenant des régions motrices et préfrontales au-delà du cortex auditif (Gandour & Krishnan, 2016, cité dans Frontiers 2024). Cela suggère que des indices multimodaux peuvent exploiter des voies de traitement complémentaires.

17.2 Les gestes de hauteur (pitch gestures)

Plusieurs études documentent l'efficacité des gestes de hauteur — mouvements de la main accompagnant la production ou l'écoute des tons. Hannah et al. (2017, cité dans Frontiers 2024) ont montré que la production de gestes de hauteur améliore la discrimination et la production des tons lexicaux en L2. Baills et al. (2019, cité ibid.) ont précisé que produire activement des gestes de hauteur (plutôt que simplement les observer) conduit à de meilleurs résultats d'apprentissage.

Des études plus récentes (Zheng et al., 2018 ; Li et al., 2020 ; Yu et al., 2024, toutes citées dans Frontiers 2024) confirment que la production conjointe de gestes de la main et de tons lexicaux améliore non seulement la production mais aussi la discrimination des différences tonales subtiles.

Le mécanisme proposé : la production de gestes crée une représentation motrice du contour tonal qui renforce la trace perceptive. Le corps devient un outil d'encodage de l'information tonale.

17.3 Représentations visuelles de F0

L'affichage en temps réel de la courbe de F0 (pitch display) est une technologie pédagogique documentée depuis les années 1970 dans l'enseignement des tons du mandarin (Bluhme & Burr, 1971, cité par Orie 2006). Les outils modernes permettent de visualiser la courbe de fréquence fondamentale en temps réel pendant que l'apprenant parle, offrant un biofeedback visuel de sa production tonale.

Cette technique — parfois appelée visual pitch display ou speech visualization — permet à l'apprenant de voir immédiatement si sa production tonale correspond au modèle cible. Des logiciels libres comme Praat (Boersma & Weenink, Université d'Amsterdam) permettent ce type d'affichage, bien qu'ils ne soient pas conçus pour un usage pédagogique de masse. Des applications mobiles plus accessibles ont émergé, notamment pour l'enseignement du mandarin.

Application au fongbe

Un dispositif d'apprentissage des tons du fongbe qui combinerait : (1) des enregistrements de plusieurs locuteurs natifs (HVPT), (2) des représentations visuelles des contours de F0, et (3) des suggestions de gestes de hauteur pour les deux tons et le downstep constituerait, selon les données disponibles, un protocole pédagogiquement optimal. Ce dispositif n'existe pas à ce jour pour le fongbe et représente une opportunité de développement pour fongbebenin.com.

17.4 L'indice haptique

Des études plus exploratoires examinent le rôle des indices haptiques — notamment les vibrations transmises par le toucher ou des dispositifs de retour tactile. Ces recherches en sont encore à un stade préliminaire et sont moins directement applicables à un contexte d'enseignement standard. Elles sont mentionnées ici pour exhaustivité, non pour recommandation immédiate.

18. Musique et apprentissage tonal

18.1 Les fondements théoriques

La revue de Howe et al. (2024, Review of Education, Wiley) identifie quatre domaines de recherche sur le lien musique-apprentissage tonal : (1) la relation théorique entre musique et apprentissage des langues à tons ; (2) l'effet de la musique sur les processus cognitifs liés à l'apprentissage tonal ; (3) les applications de la thérapie d'intonation mélodique (MIT) ; et (4) les applications numériques musicales pour faciliter l'apprentissage tonal.

Sur le plan théorique, la musicologie et la phonologie partagent plusieurs concepts : contour, registre, intervalle, durée. Les recherches de Zatorre et collaborateurs (cités dans Science Direct 2015 et Nature Communications 2021) montrent que le traitement de la mélodie musicale et du ton linguistique partagent des substrats neuronaux, notamment dans les cortex temporaux bilatéraux et les régions préfrontales.

18.2 Formation musicale et perception tonale

Les individus ayant une formation musicale étendue présentent des avantages dans les tâches de perception tonale en L2. Christiner et al. (2021, 2022, cités dans Howe 2024) rapportent que les individus avec une habileté mélodique plus élevée surpassent les autres dans la détection des variations tonales. Les musiciens — en particulier les instrumentistes à hauteur précise — surpassent les non-musiciens dans la perception et la discrimination des tons (Choi, Ling & Wu, Music Perception, 2024).

Ce résultat doit cependant être mis en perspective : l'avantage est documenté pour des tâches de laboratoire. Sa traduction en fluidité de communication dans une langue tonale est moins directement établie. L'avantage du musicien constitue probablement une facilitation de l'apprentissage initial, non une garantie de compétence communicative.

18.3 L'entraînement mélodique des tons

Des méthodes d'enseignement exploitant explicitement la musique ont été testées, principalement pour le mandarin. Song (2022, cité dans Howe 2024) a proposé de transformer les tons en patterns rythmiques pour faciliter la familiarisation des apprenants. Brooks (1997) et Zhang (2018, cités ibid.) ont montré que l'apprentissage des tons assisté par la musique aide les apprenants à réussir dans l'apprentissage du mandarin.

La thérapie d'intonation mélodique (MIT, Melodic Intonation Therapy), initialement développée pour la rééducation de l'aphasie de Broca, a été adaptée dans certaines études pour l'apprentissage des tons en L2. Les résultats sont prometteurs mais les études sont encore peu nombreuses et les populations testées très variables.

18.4 Musiques béninoises comme ressource

Dans le contexte spécifique du fongbe, les musiques traditionnelles béninoises constituent une ressource pédagogique potentiellement précieuse et largement sous-exploitée. Les musiques liées aux traditions vodoun (chants de possession, musiques de culte), les genres populaires comme l'agbadja, ou encore les déclamations d'ahovijeto (proverbes chantés en fon) exposent naturellement l'auditeur aux contours tonaux du fongbe dans un contexte mémoriel et affectif fort.

Hypothèse pédagogique non testée

L'utilisation systématique de chants traditionnels en fongbe comme matériaux de première exposition aux tons — avant même l'enseignement explicite du système tonal — constitue une hypothèse pédagogique justifiée par la littérature sur le lien musique-ton, mais qui n'a pas été testée expérimentalement dans ce contexte spécifique. Il s'agit d'une piste de recherche, non d'une méthode validée.

19. Instruction explicite vs. implicite

19.1 Le débat

La question de savoir si les langues s'apprennent mieux par instruction explicite (règles énoncées, mémorisation délibérée) ou par exposition implicite (input riche, acquisition naturelle) est l'une des plus débattues en didactique des langues (Ellis & Shintani, 2014 ; Norris & Ortega, 2000 ; synthèse dans Cambridge Core 2015). Pour les tons spécifiquement, la tendance actuelle pointe vers un rôle important de l'instruction explicite, au moins dans les phases initiales.

19.2 Evidence pour l'instruction explicite

L'étude de Stratton (2023, Die Unterrichtspraxis/Teaching German, Wiley) a comparé des apprenants adultes en conditions d'instruction explicite et implicite sur la prononciation allemande. Les résultats montrent que les apprenants en condition explicite surpassaient significativement les apprenants en condition implicite, mesurés par des analyses acoustiques. Même si cette étude ne porte pas sur les tons, ses résultats sont cohérents avec d'autres données sur l'apprentissage phonologique en L2.

Pour les tons spécifiquement, il y a une raison conceptuelle forte pour l'instruction explicite : l'apprenant doit d'abord comprendre que le pitch est linguistiquement distinctif dans la langue cible, ce qui ne va pas de soi pour quelqu'un dont la L1 est atonale. Cette prise de conscience — difficile à obtenir par simple immersion chez un adulte — est facilement transmissible par une explication explicite.

19.3 La complémentarité des deux approches

La position actuelle la plus défendable n'est pas « instruction explicite contre implicite » mais « instruction explicite + exposition implicite ». L'instruction explicite fournit le cadre conceptuel et dirige l'attention vers les dimensions pertinentes. L'exposition implicite — par l'immersion, l'écoute de parole naturelle, l'interaction — permet l'internalisation progressive et automatique des patterns.

Pour le fongbe comme L2, une progression cohérente avec cette approche combinée pourrait ressembler à : (1) explication explicite du système tonal (ce que sont les tons H et B, comment les identifier, comment les noter) ; (2) entraînement perceptif sur paires minimales avec feedback (type HVPT) ; (3) exposition à de la parole naturelle et à des chants traditionnels ; (4) production guidée avec feedback visuel (affichage de F0) ; (5) production libre en interaction avec locuteurs natifs.

20. Technologies et outils numériques

20.1 La Tone Superimposition Technique

La Tone Superimposition Technique (TIT) est une méthode expérimentale documentée dans un article de Wang et al. (Frontiers in Education, décembre 2024). Elle consiste à superposer un pattern tonal spécifique sur des syllabes parlées par manipulation acoustique, créant des stimuli hybrides permettant de tester des auditeurs maîtrisant plusieurs langues. Pour la pédagogie, cette technique — ou ses dérivés — pourrait permettre de créer des matériaux dans lesquels le contenu segmental (consonnes, voyelles) est maintenu constant pendant que le ton est varié, isolant ainsi la dimension tonale pour un entraînement ciblé.

20.2 Applications mobiles et apprentissage des tons

La revue de Howe et al. (2024) mentionne les applications numériques musicales comme un domaine émergent pour faciliter l'apprentissage tonal. Pour le mandarin, plusieurs applications existent (dont Mandarin Corner, HSK Academy, etc.) qui incluent des exercices de tons. Pour les langues africaines à tons, l'offre numérique est beaucoup plus limitée.

La littérature sur les CALL (Computer-Assisted Language Learning) pour les tons souligne l'importance du feedback immédiat — l'une des composantes du HVPT. Des outils comme des dictées tonales numériques (l'apprenant entend une syllabe et doit identifier son ton, avec correction immédiate) semblent constituer un format efficace pour les phases d'entraînement perceptif.

20.3 NLP et ressources pour le fongbe

Les avancées récentes en traitement automatique du langage naturel (NLP) pour le fongbe ouvrent des perspectives pour les ressources pédagogiques. Le projet OkwuGbé (Dossou & Emezue, arXiv 2021) a produit les premiers modèles de reconnaissance vocale pour le fon et l'igbo. Le projet AfroLM (arXiv 2022) a développé des modèles de langage multilingues pour 23 langues africaines dont le fon. Le projet FonMTL (arXiv 2023) a exploré l'apprentissage multitâche pour le fon.

Ces ressources, bien que conçues pour la recherche en NLP et non pour l'enseignement, constituent une base potentielle pour développer des outils pédagogiques. En particulier, les corpus audio annotés produits dans ce cadre pourraient, avec les accords et adaptations nécessaires, alimenter des exercices d'entraînement perceptif du type HVPT.

Lacune identifiée

Il n'existe pas à ce jour, à notre connaissance, d'application numérique dédiée à l'apprentissage des tons du fongbe pour des apprenants non natifs. Cette lacune est réelle et représente une opportunité concrète. Les travaux de recherche de FLASH/UAC, du CENALA, et des institutions partenaires comme ELAR et LLACAN constituent les ressources primaires les plus pertinentes pour combler cette lacune.

PARTIE V

APPLICATION AU FONGBE

21. Spécificités pédagogiques du fongbe comme L2

21.1 Une langue sous-documentée pédagogiquement

Il faut être direct sur ce point : la recherche pédagogique spécifique au fongbe comme L2 est quasi inexistante dans la littérature scientifique anglophone et francophone indexée. Les bases de données majeures (Frontiers, Cambridge Core, PubMed, SAGE Journals, ERIC) ne retournent aucun article portant spécifiquement sur l'enseignement du fongbe à des apprenants non natifs, ni sur les difficultés d'acquisition tonale en fongbe.

Ce vide n'invalide pas les recommandations pédagogiques que l'on peut formuler — il oblige simplement à être transparent sur leur statut épistémique : elles sont des extrapolations raisonnées depuis la littérature sur des langues comparables (principalement le yoruba et les langues gbe en général), non des recommandations directement validées par des études expérimentales sur le fongbe.

21.2 Pourquoi le fongbe est pédagogiquement similaire au yoruba

Le yoruba est la langue africaine à tons la mieux documentée du point de vue de l'acquisition en L2, avec notamment les travaux d'Orie (2006), d'Alao (1999, cité dans Orie) et les évaluations de l'enseignement du yoruba à l'étranger (ACAL 36). La similarité structurale entre yoruba et fongbe du point de vue tonal est significative :

Les deux langues utilisent des tons de registre (non des tons de contour) comme système de base.
Les deux langues présentent du downstep.
Les deux langues utilisent le ton pour des fonctions à la fois lexicales et grammaticales.
Les deux langues appartiennent à la grande famille niger-congo et présentent des parallèles prosodiques documentés.

La différence principale : le yoruba possède trois tons de niveau (haut, médian, bas), tandis que le fongbe en a deux (haut, bas). Ce détail pourrait rendre le fongbe légèrement plus accessible pour les oppositions de base, mais ne modifie pas qualitativement la nature des difficultés.

21.3 Le profil de l'apprenant type

Le fongbe est appris comme L2 dans des contextes très différents. Pour les besoins de ce document, on peut distinguer deux profils principaux, chacun présentant des défis spécifiques.

Profil A : apprenant francophone hors gbe

Chercheur, journaliste, professionnel de l'aide humanitaire, religieux ou curieux culturel européen ou américain francophone. L1 : français (ou autre langue européenne atonale). Aucune expérience préalable avec les langues à tons. Défi maximal : tout le système tonal est nouveau. Besoin : instruction explicite intensive sur le système tonal avant toute tentative de production, entraînement perceptif HVPT, exposition multimodale.

Profil B : apprenant bilingue béninois

Locuteur d'une autre langue béninoise ou régionale (yoruba, bariba, dendi, ditammari, etc.) apprenant le fongbe. La situation varie selon que la L1 est également à tons ou non. Un locuteur de yoruba bénéficiera d'un transfert tonal partiel ; un locuteur de bariba (une langue voltaïque à accent d'intensité) aura des difficultés plus proches du profil A.

21.4 L'obstacle de l'orthographe tonale

Le fongbe possède une orthographe standardisée qui marque les tons par des diacritiques (accent aigu pour H, accent grave pour B, parfois d'autres notations pour les contours). Une étude récente (arXiv 2604.12477, 2026) signale que les grands modèles de langage produisent fréquemment des diacritiques manquants ou incorrects en fongbe, soulignant que même pour les systèmes computationnels, la dimension tonale de l'orthographe est un défi.

Pour l'apprenant humain, l'orthographe tonale représente une porte d'entrée potentielle pour la conscience tonale — voir les tons marqués à l'écrit aide à les percevoir à l'oral. Mais elle peut aussi devenir un obstacle si l'apprenant se contente de mémoriser les diacritiques comme des « accents orthographiques » sans les associer à des réalités phonétiques précises.

22. Profils d'apprenants et priorités

22.1 Diagnostic initial recommandé

Avant de commencer l'enseignement tonal, un diagnostic des capacités perceptives de l'apprenant est utile. Les tests disponibles dans la littérature incluent des tâches d'identification (l'apprenant entend une syllabe et identifie son ton parmi des choix) et des tâches de discrimination (l'apprenant indique si deux syllabes ont le même ton ou des tons différents). Ces tests permettent d'identifier si l'apprenant part d'une sensibilité perceptive très limitée ou au contraire d'une sensibilité déjà développée (par exemple chez les musiciens ou les locuteurs de langues à intonation riche).

22.2 Priorités pour le profil A (francophone non gbe)

Pour un apprenant francophone sans expérience des langues à tons, l'ordre de priorité pédagogique suggéré par la littérature est le suivant :

Phase 1 — Éveil tonal : faire prendre conscience de l'existence du ton comme catégorie linguistique distincte de l'intonation et du stress. Exercices d'écoute comparative (mots avec ton haut vs. ton bas sur des paires minimales à haute fréquence).
Phase 2 — Perception en isolation : discrimination et identification de paires minimales tonales sur des syllabes isolées, avec feedback immédiat, variété de locuteurs (principe HVPT).
Phase 3 — Perception en contexte : discrimination tonale dans des mots bisyllabiques, puis des syntagmes courts, puis des énoncés. Introduction du downstep à ce stade.
Phase 4 — Production avec support : production de syllabes et mots avec contrôle visuel de F0 (si l'outil est disponible) ou avec imitation guidée par le modèle natif.
Phase 5 — Production libre : production en interaction, correction tonale par locuteur natif ou par auto-évaluation guidée.
Phase 6 (niveau avancé) — Morphotonologie : alternances tonales grammaticales, tons flottants, sandhi tonal en contexte phrastique complexe.

22.3 Priorités pour le profil B (bilingue gbe)

Pour un locuteur d'une langue gbe ou à tons voisine, les phases 1 et 2 peuvent être accélérées. L'enseignement peut se concentrer plus rapidement sur les différences spécifiques entre la L1 tonale et le fongbe : distinctions de schèmes tonals sur des mots cognats, règles de downstep propres au fongbe si elles diffèrent de la L1, morphotonologie spécifique au fongbe.

Le risque principal pour ce profil est le « faux ami tonal » : un mot ayant la même forme segmentale dans les deux langues mais un schème tonal différent. Ces items doivent faire l'objet d'un enseignement explicite et d'un entraînement ciblé.

23. Séquençage proposé des difficultés

23.1 Hiérarchie de difficulté tonale en fongbe

Sur la base des données linguistiques et des extrapolations depuis la littérature sur les langues africaines à tons comparables, on peut proposer une hiérarchie de difficulté croissante pour l'apprenant non natif de fongbe. Cette hiérarchie est une hypothèse pédagogique raisonnée, non un résultat expérimental validé sur le fongbe.

Niveau 1 — Opposition H/B sur des monosyllabes à haute fréquence : paires minimales comme kó/kò. C'est la difficulté de base. Elle est conceptuellement simple mais requiert un entraînement perceptif soutenu pour les apprenants non tonaux.
Niveau 2 — Patterns tonals sur des bisyllabes : HH, HB, BH, BB. L'apprenant doit percevoir et produire des schèmes s'étendant sur deux syllabes, ce qui requiert une mémoire tonale à court terme plus soutenue.
Niveau 3 — Sandhi tonal en contexte phrastique : modifications de ton résultant de la juxtaposition de mots dans un syntagme. Les règles existent mais ne sont pas encore entièrement décrites de manière pédagogique.
Niveau 4 — Downstep en production : produire activement le downstep dans des séquences H!H. C'est l'un des défis techniques les plus exigeants pour les apprenants non africains.
Niveau 5 — Tons grammaticaux et alternances aspectuelles : utiliser le ton pour marquer l'aspect verbal correctement, au-delà de la mémorisation lexicale.
Niveau 6 — Tons flottants et morphotonologie avancée : interpréter et produire les effets de tons flottants dans des constructions morphologiquement complexes.

23.2 Critères de maîtrise

Un apprenant peut être considéré comme ayant atteint un niveau fonctionnel de compétence tonale en fongbe lorsqu'il est capable de (a) distinguer à l'écoute les tons H et B dans un flux de parole naturel produit par des locuteurs non entraînés (généralisation), (b) produire des tons H et B reconnaissables par des locuteurs natifs dans des conditions normales d'interaction, et (c) corriger ses propres erreurs tonales après réécoute ou feedback natif.

Ces critères ne couvrent pas la maîtrise complète du système tonal (downstep, morphotonologie), mais définissent un seuil de communication efficace.

24. Ressources disponibles et lacunes

24.1 Ressources linguistiques de référence

Les ressources de référence scientifiquement fiables pour le fongbe sont peu nombreuses mais solidement établies :

Lefebvre, C. & Brousseau, A.-M. (2002). A Grammar of Fongbe. Berlin / New York : Mouton de Gruyter. — La grammaire descriptive de référence, incontournable pour toute description phonologique ou morphologique du fongbe.
Capo, H. B. C. (1991). A Comparative Phonology of Gbe. Berlin & Garomé : Mouton de Gruyter & Labo Gbe. — La référence pour la phonologie comparative des langues gbe, incluant la phonologie tonale.
Brousseau, A.-M. (1993). L'interaction entre consonnes et tons en fɔngbè. In Kihm & Lefebvre (éds.), Aspects de la grammaire du fɔngbè. Paris : Peeters Press. — Analyse spécifique de l'interaction tons/consonnes.
Dossou & Emezue (2021). OkwuGbé: End-to-End Speech Recognition for Fon and Igbo. arXiv:2103.07762. — Premier travail NLP avec données audio pour le fon.

24.2 Ressources institutionnelles au Bénin

Le CENALA (Centre National de Linguistique Appliquée, Cotonou) est l'institution de référence pour la standardisation et la documentation des langues béninoises. Il a produit des matériaux orthographiques et pédagogiques, notamment pour le fon. La FLASH (Faculté des Lettres, Arts et Sciences Humaines) de l'UAC (Université d'Abomey-Calavi) héberge des chercheurs travaillant sur les langues béninoises.

Ces institutions constituent les partenaires naturels pour tout développement de ressources pédagogiques audio pour le fongbe. Des corpus existent ou sont en développement ; leur accessibilité à des fins pédagogiques dépend des accords institutionnels.

24.3 Lacunes identifiées

Trois lacunes majeures peuvent être identifiées sur la base de ce tour d'horizon :

Absence de corpus audio pédagogique HVPT-compatible pour le fongbe : des enregistrements de multiples locuteurs natifs sur des paires minimales tonales standardisées, librement accessibles.
Absence de recherche pédagogique expérimentale sur l'acquisition des tons du fongbe en L2 : aucune étude contrôlée n'a été publiée, à notre connaissance, comparant des méthodes d'enseignement tonal en fongbe.
Absence d'outils numériques d'apprentissage tonal pour le fongbe : pas d'application, pas de module en ligne dédié à l'entraînement perceptif des tons du fongbe pour des apprenants non natifs.

Ces lacunes sont des opportunités. Un projet de corpus audio pédagogique pour le fongbe, développé en collaboration avec le CENALA, la FLASH/UAC et des institutions partenaires comme ELAR ou LLACAN, comblerait la première lacune et rendrait possibles des études contrôlées sur la deuxième.

Références bibliographiques

Les références ci-dessous sont classées par ordre alphabétique de premier auteur. Seules les références effectivement citées et vérifiées dans ce document sont incluses. Aucune référence n'a été inventée.

Alao, G. (1999). African languages abroad: problems and proposals. Journal of the African Language Teachers Association, 1, 63-83. [Cité dans Orie, 2006]

ArXiv (2021). Dossou, O. & Emezue, C. OkwuGbé: End-to-End Speech Recognition for Fon and Igbo. arXiv:2103.07762.

ArXiv (2022). AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages. arXiv:2211.03263.

ArXiv (2023). FonMTL: Towards Multitask Learning for the Fon Language. arXiv:2308.14280.

ArXiv (2026). Mining Large Language Models for Low-Resource Language Data: Comparing Elicitation Strategies for Hausa and Fongbe. arXiv:2604.12477.

Baills, F. et al. (2019). [Cité dans Frontiers in Education, 2024, revue multimodale]. Étude sur les gestes de hauteur et la production tonale en L2.

Bidelman, G. M. et al. (2013). Tone Language Speakers and Musicians Share Enhanced Perceptual and Cognitive Abilities for Musical Pitch. PMC3614545 (PubMed Central).

Bluhme, H. & Burr, R. (1971). An audio-visual display of pitch for teaching Chinese tone. Studies in Linguistics. [Cité dans Orie, 2006]

Boersma, P. & Weenink, D. Praat: doing phonetics by computer. Université d'Amsterdam. Disponible à : www.praat.org.

Bovolenta, G. & Marsden, E. (2022). [Cité dans revue Frontiers, 2024]. Apprentissage par erreur et acquisition des langues.

Brooks, F. (1997). [Cité dans Howe et al., 2024]. Apprentissage des tons du mandarin assisté par méthodes musicales.

Brousseau, A.-M. (1993). L'interaction entre consonnes et tons en fɔngbè : Pour une représentation tonale du voisement. In Kihm, A. & Lefebvre, C. (éds.), Aspects de la grammaire du fɔngbè, pp. 7-28. Paris : Peeters Press.

Capo, H. B. C. (1991). A Comparative Phonology of Gbe. Berlin & Garomé : Mouton de Gruyter & Labo Gbe.

Chandrasekaran, B. et al. (Travaux sur l'encodage subcortical du pitch). Cités dans MIT Press Imaging Neuroscience (2024) et Nature Communications (2021).

Choi, W., Ling, C. L. K. & Wu, C. H. J. (2024). Musical Advantage in Lexical Tone Perception Hinges on Musical Instrument. Music Perception, 41(5), 360-377. https://doi.org/10.1525/mp.2024.41.5.360

Christiner, M. & Reiterer, S. M. (2015). [Cité dans Howe et al., 2024]. Habileté mélodique et détection des variations tonales.

Christiner, M. et al. (2021, 2022). [Cités dans Howe et al., 2024]. Formation musicale et tâches d'imitation de la parole.

Clements, G. N. & Ford, K. C. (1979). Cited in Connell (2011). Autosegmental analysis of floating tones and downstep in Gikuyu.

Connell, B. (2011). Downstep. In Oostendorp, M. van et al. (éds.), The Blackwell Companion to Phonology. Wiley Online Library. https://onlinelibrary.wiley.com/doi/abs/10.1002/9781444335262.wbctp0035

Eberhard, D. M. et al. (2020). Ethnologue: Languages of the World. 23rd edition. Dallas : SIL International. [Données sur le fon]

Gandour, J. (1983). [Cité dans Frontiers in Education, 2024]. Suivi des mouvements rapides de pitch dans les langues tonales.

Gandour, J. & Krishnan, A. (2016). [Cité dans Frontiers in Education, 2024]. Structures subcorticales et corticales dans le traitement tonal lexical.

Goldsmith, J. (1976). Autosegmental Phonology. Thèse de doctorat, MIT. [Fondateur du modèle autosegmental, base théorique de l'analyse tonale contemporaine]

Gottfried, T. & Suiter, T. (1997). [Cité dans Orie, 2006]. Difficultés des anglophones dans l'acquisition des tons du mandarin.

Gu, F., Zhang, C., Hu, A. & Zhao, G. (2013). Left hemisphere lateralization for lexical and acoustic pitch processing in Cantonese speakers. NeuroImage, 83, 637-645. ScienceDirect.

Han, W., Wang, X. & Chen, L. (2024). Editorial: Tonal language processing and acquisition in native and non-native speakers. Frontiers in Education, 9, article 1531218. https://doi.org/10.3389/feduc.2024.1531218

Hannah, R. et al. (2017). [Cité dans Frontiers in Education, 2024, revue multimodale]. Gestes de hauteur et discrimination/production tonale en L2.

Howe, C. et al. (2024). Enhancing tonal-language learning through music: A review of experimental methods and melodic intonation therapy influences. Review of Education (Wiley). https://bera-journals.onlinelibrary.wiley.com/doi/10.1002/rev3.3480

Hyman, L. M. (1979). A Reanalysis of Tonal Downstep. Journal of African Languages and Linguistics, 1, 9-29.

Hyman, L. M. & Tadadjeu, M. (1976). Floating Tones in Mbam-Nkam. In Hyman, L. M. (éd.), Studies in Bantu Tonology. Los Angeles : USC.

Leather, J. (2011). [Cité dans Frontiers in Education, 2024]. Relation perception-production dans l'acquisition tonale en L2.

Lefebvre, C. & Brousseau, A.-M. (2002). A Grammar of Fongbe. Berlin / New York : Mouton de Gruyter (De Gruyter). ISBN 9783110173604. https://doi.org/10.1515/9783110880182

Lenneberg, E. H. (1967). Biological Foundations of Language. New York : Wiley. [Fondateur de l'hypothèse de la période critique]

Liang, B. & Du, Y. (2018). The functional neuroanatomy of lexical tone perception: an activation likelihood estimation meta-analysis. Frontiers in Neuroscience, 12, 495.

Logan, J. S., Lively, S. E. & Pisoni, D. B. (1991). [Fondateurs de la méthode HVPT]. Training Japanese listeners to identify English /r/ and /l/. Journal of the Acoustical Society of America, 89, 874-886.

Maddieson, I. (2013). Tonal Languages. In Dryer, M. S. & Haspelmath, M. (éds.), The World Atlas of Language Structures Online. Leipzig : Max Planck Institute. [60%+ des langues du monde sont tonales]

Neves, L. et al. (2022). [Cité dans Research Gate 2023]. Méta-analyse sur les effets de transfert cognitif de la formation musicale.

Nature Communications (2021). Human cortical encoding of pitch in tonal and non-tonal languages. https://www.nature.com/articles/s41467-021-21430-x

Orie, O. O. (2006). L2 Acquisition and Yoruba Tones: Issues and Challenges. In Proceedings of ACAL 36. Cascadilla Press. http://www.lingref.com/cpp/acal/36/paper1415.pdf

Penfield, W. & Roberts, L. (1959). Speech and Brain Mechanisms. Princeton : Princeton University Press.

Qin, Z., Lee-Kim, S.-I. & Qi, H. (2024). The effect of second-language learning experience on Korean listeners' use of pitch cues in Cantonese tones. Second Language Research. SAGE Journals. https://doi.org/10.1177/02676583241244604

Sala, G. & Gobet, F. (2020). [Cité dans Research Gate 2023]. Méta-analyse avec groupes contrôle actifs sur les transferts cognitifs de la musique.

Stratton, A. (2023). Implicit and explicit instruction in the second language classroom. Die Unterrichtspraxis/Teaching German (Wiley). https://onlinelibrary.wiley.com/doi/10.1111/tger.12263

Tang, M. & Jones, S. (2024). Learning lexical tone through statistical learning in non-tone language speakers. Frontiers in Education, 08 August 2024.

Uchihara, T., Karas, M. & Thomson, R. I. (2025). High variability phonetic training (HVPT): A meta-analysis of L2 perceptual training studies. Studies in Second Language Acquisition, 47(3), 794-827. Cambridge Core. https://doi.org/[Cambridge Core, juillet 2025]

Wang, Y. et al. (1999). [Cité dans Frontiers in Education, 2024]. La perception précède la production dans l'acquisition tonale en L2.

Wang, X. et al. (2024). Tone superimposition technique in Speech Sciences: a tutorial. Frontiers in Education, 04 December 2024.

Wong, P. (2002). Hemispheric specialization of linguistic pitch patterns. Brain and Cognition. ScienceDirect. https://doi.org/10.1016/S0361-9230(02)00860-2

Zatorre, R. J. & Gandour, J. T. (2008). Neural specializations for speech and pitch: moving beyond the dichotomies. Philosophical Transactions of the Royal Society B, 363, 1087-1104. PMC2606798.

Zhang, W., Liao, Y. & Truong, H. T. (2024). High variability phonetic training facilitates categorical perception of Mandarin lexical tones in L2 older adults. Language Teaching Research (SAGE Journals). https://doi.org/10.1177/13621688241282259

— Fin du document —

ANNEXES ET APPROFONDISSEMENTS

Annexe A — Tableau comparatif des systèmes tonaux

A.1 Comparaison fongbe / yoruba / mandarin / vietnamien

Le tableau ci-dessous compare les caractéristiques tonales des quatre langues les plus discutées dans ce document. Il est produit à partir des sources citées dans le corps du texte. Les données sur le fongbe proviennent de Lefebvre & Brousseau (2002) et des papiers NLP. Les données sur le yoruba viennent d'Orie (2006) et de la littérature ACAL. Les données sur le mandarin et le vietnamien sont extraites des synthèses publiées dans Frontiers in Education (2024) et des articles de référence cités.

Caractéristique Fongbe Yoruba Mandarin

Type de tons Registre (H/B) Registre (H/M/B) Contour (4 tons)

Nbre tons phonémiques 2 (+ contours de surface) 3 niveaux 4 contours

Downstep Oui (documenté) Oui (documenté) Downdrift uniquement

Tons flottants Oui (langue Niger-Congo) Oui Non documentés

Fonction gramm. Oui (aspect verbal) Oui (pluriel nominal) Marginale

Orthographe tonale Diacritiques (´ `) Diacritiques (´ ` ̄) Chiffres (Chao)

Recherche pédag. L2 Quasi inexistante Limitée Très abondante

Note : les données du tableau fongbe et yoruba sont issues de sources linguistiques primaires et de synthèses publiées. La colonne 'Mandarin' reflète la description standard de la littérature de référence (Frontiers in Education, 2024 ; articles PubMed cités). Toute simplification inhérente à un tableau comparatif doit être gardée à l'esprit.

A.2 Vietnamien et cantonais : systèmes plus complexes

Pour le lecteur souhaitant une perspective plus large, le vietnamien et le cantonais illustrent des niveaux de complexité tonale supérieurs à ceux rencontrés en fongbe. Le vietnamien nordique possède six tons qui combinent hauteur, contour, phonation (voisé/non-voisé) et registre, faisant de lui l'une des langues tonales les plus complexes acoustiquement documentées. Le cantonais possède six tons de surface (parfois décrits comme neuf selon l'analyse des tons entrants).

Ce rappel comparatif est utile pour relativiser la complexité tonale du fongbe dans une perspective mondiale : avec deux tons phonémiques de base, le fongbe n'est pas l'une des langues tonales les plus complexes — mais sa complexité de surface (downstep, tons flottants, morphotonologie) la rend substantiellement plus exigeante que ce que la seule mention de « deux tons » pourrait laisser croire à un apprenant non averti.

Annexe B — Glossaire des termes techniques

Ce glossaire définit les principaux termes techniques utilisés dans ce document. Les définitions sont calibrées pour un lecteur ayant une formation générale en linguistique ou en pédagogie des langues, sans nécessairement de spécialisation en phonologie.

Autosegmental (modèle ~ ) : Approche phonologique représentant les tons sur un niveau (tier) indépendant du niveau segmental (consonnes, voyelles), les deux niveaux étant reliés par des lignes d'association. Développé par Goldsmith (1976). Cadre théorique dominant pour l'analyse des langues à tons.

Catégorielle (perception ~) : Mode de perception dans lequel les variations continues d'une dimension acoustique (ici le pitch) sont traitées comme des catégories discrètes avec des frontières nettes. La perception catégorielle des tons est un objectif pédagogique central pour les apprenants L2 de langues à tons.

Downstep (non automatique) : Abaissement discret du registre d'un ton haut, déclenché par un ton bas flottant (non phonétiquement réalisé). Symbolisé par ! avant le H abaissé. Très fréquent dans les langues niger-congo, dont le fongbe et le yoruba. Distinct du downdrift.

Downdrift : Abaissement progressif et graduel du niveau tonal général au fil d'un énoncé, résultant de l'effet cumulatif des tons bas réalisés sur les tons hauts suivants. Universel dans les langues à tons africaines. Distinct du downstep, bien que souvent confondu dans la littérature pédagogique.

F0 (fréquence fondamentale) : Fréquence de vibration des cordes vocales, mesurée en hertz (Hz). Support acoustique principal du ton linguistique. Les tons hauts correspondent à des valeurs de F0 plus élevées, les tons bas à des valeurs plus faibles. Mesurable instrumentalement par des logiciels comme Praat.

Flottant (ton ~) : Ton qui a perdu son association à un segment vocalique ou consonantique par un processus historique ou synchronique, mais qui continue d'exercer ses effets phonologiques (notamment le déclenchement du downstep). Courant dans les langues niger-congo.

HVPT (High Variability Phonetic Training) : Paradigme d'entraînement à la perception phonétique en L2, impliquant : (1) plusieurs locuteurs natifs différents ; (2) variété de contextes phonétiques ; (3) feedback immédiat essai par essai. Considéré comme le paradigme le plus solidement validé empiriquement pour l'amélioration de la perception phonétique en L2 (Uchihara et al., 2025).

Latéralisation hémisphérique : Asymétrie fonctionnelle entre les hémisphères cérébraux gauche et droit. Pour le traitement tonal, le débat oppose l'hypothèse fonctionnelle (latéralisation gauche pour les tons à forte charge linguistique) et l'hypothèse acoustique (latéralisation droite pour le traitement du pitch). Les données actuelles pointent vers une implication bilatérale avec une dominance variable selon la tâche.

Lexical (ton ~) : Ton faisant partie de la représentation phonologique d'un mot dans le lexique mental. Distinguer d'un ton grammatical (marquant une catégorie morphosyntaxique) et d'un ton d'intonation (portant sur l'énoncé entier).

MMN (Mismatch Negativity) : Composante des potentiels évoqués (ERP) réflétant la réponse automatique et préattentive du cerveau à un stimulus déviant dans une séquence de stimuli standards. Utilisée pour étudier la représentation neurologique des catégories phonémiques, dont les tons, sans nécessiter de tâche consciente du participant.

Morphotonologie : Sous-domaine de la phonologie étudiant les interactions entre le ton et la morphologie — notamment les alternances de ton déclenchées par des processus morphologiques (dérivation, flexion, composition). Le fongbe présente des phénomènes morphotonologiques documentés dans Lefebvre & Brousseau (2002).

Paires minimales tonales : Paires de mots identiques dans leur structure segmentale (consonnes et voyelles) mais différents par leur(s) ton(s), avec un sens différent. Exemple en fongbe : kó (récolter) / kò (construire). Outil pédagogique fondamental pour l'entraînement à la perception tonale.

Période critique (hypothèse de la ~) : Hypothèse formulée par Lenneberg (1967) selon laquelle l'acquisition du langage avec pleine compétence phonologique ne peut se produire qu'avant la puberté. Pour les tons en L2, les données montrent un avantage de l'âge précoce mais pas une impossibilité d'acquisition adulte (cf. résultats HVPT).

Pitch : Terme anglais pour la hauteur perçue d'un son. Corrélat perceptif de F0. Utilisé fréquemment dans la littérature neuroscientifique en anglais. Dans ce document, 'pitch' et 'hauteur' sont utilisés comme synonymes sauf indication contraire.

Registre (tonal) : Plage de hauteur relative dans laquelle les tons sont produits. Le downstep établit un nouveau registre (plafond plus bas) pour les tons hauts suivants. Le reset de registre (register reset) réinitialise la plage à une frontière prosodique (fin de phrase, etc.).

Sandhi tonal : Modifications tonales résultant du contexte phonologique — notamment la juxtaposition de certains tons dans un syntagme. Exemple général : un ton bas final peut se transformer en ton montant devant un autre ton bas. Le sandhi tonal est une source de difficulté pour les apprenants L2 car il modifie les tons lexicaux en contexte.

Suprasegmental : Propriété phonologique qui s'étend au-delà du segment individuel (au-delà d'une consonne ou d'une voyelle isolée). Comprend le ton, l'accent, l'intonation, le rythme. Les tons en fongbe sont des propriétés suprasegmentales associées aux syllabes.

Tier (niveau autosegmental) : Dans le modèle autosegmental, représentation graphique et théorique d'un type d'information phonologique sur un plan distinct. Le tier tonal (pour les tons) est distinct du tier des segments. Cette modularité permet de représenter les phénomènes de propagation et de flottement tonal.

Tone Superimposition Technique (TIT) : Méthode expérimentale de manipulation acoustique permettant de superposer un contour tonal désiré sur une syllabe parlée par filtrage numérique du signal. Décrite dans Wang et al. (Frontiers in Education, décembre 2024). Utilisée pour créer des stimuli hybrides dans des expériences de perception.

Annexe C — Brève histoire de la recherche sur les langues à tons

C.1 Des premiers travaux descriptifs à la phonologie moderne

L'étude scientifique des langues à tons a une histoire qui remonte aux travaux des premiers grammairiens coloniaux et missionnaires en Afrique et en Asie. Pour l'Afrique de l'Ouest, les travaux de Westermann (début du XXe siècle) sur les langues éwé constituent l'une des premières descriptions systématiques incluant la dimension tonale.

La phonologie structuraliste des années 1950-1960 a fourni les premiers outils analytiques rigoureux pour les tons, notamment avec les travaux de Pike (1948, Tone Languages) qui a introduit la distinction entre tons de registre et tons de contour — une classification qui demeure centrale dans la littérature contemporaine. La notation de Chao (1930 et travaux ultérieurs), avec ses chiffres de 1 à 5 pour les niveaux de hauteur, a fourni une convention descriptive qui est encore utilisée aujourd'hui, principalement pour les langues asiatiques.

C.2 La révolution autosegmentale

Les années 1970-1980 ont vu une rupture théorique majeure avec l'introduction de la phonologie autosegmentale par Goldsmith (1976) et son développement dans les travaux de Williams, Clements, Hyman et de nombreux autres. Cette approche a permis de rendre compte naturellement des phénomènes jusqu'alors difficiles à traiter : tons flottants, propagation tonale, downstep, interaction tons-segments.

Pour les langues gbe en particulier, les travaux de Capo (1991, A Comparative Phonology of Gbe) ont constitué une étape majeure, fournissant la première description phonologique comparative rigoureuse du continuum gbe. Ces travaux, produits à Garomé (Bénin) en collaboration avec des linguistes béninois, restent la référence indiscutée pour la phonologie comparative du groupe.

C.3 L'émergence des neurosciences du langage tonal

À partir des années 1990 et surtout 2000, le développement de l'imagerie cérébrale (IRMf, EEG/ERP, MEG) a permis d'étudier directement les corrélats neuronaux du traitement tonal. Les travaux de Gandour et collaborateurs (notamment Gandour et al., 2000 ; Gandour & Krishnan, 2016), ceux de Zatorre et Belin (Zatorre & Gandour, 2008), et les études de neuroimagerie sur des locuteurs de mandarin, de cantonais et de thaï ont progressivement mis à jour l'architecture cérébrale du traitement tonal.

La méta-analyse de Liang & Du (Frontiers in Neuroscience, 2018), portant sur 17 études, a fourni une synthèse quantitative solide de ces résultats, confirmant la nature bilatérale du traitement tonal lexical et sa distinction avec le traitement lexical atonal.

C.4 La recherche sur l'acquisition tonale en L2

La recherche sur l'acquisition des tons en L2 est restée longtemps fragmentaire, dominée par des études de cas et des observations cliniques. Les travaux pionniers de Wang et collaborateurs (1999 et travaux ultérieurs) ont posé les bases empiriques — notamment l'asymétrie perception-production — qui structurent encore les recherches actuelles.

Le développement du HVPT comme paradigme d'entraînement (Logan, Lively & Pisoni, 1991 pour les consonnes ; Wang et al. pour les tons) a fourni un cadre méthodologique rigoureux. La méta-analyse de Uchihara et al. (2025), portant sur 79 études, représente l'état le plus avancé de la synthèse quantitative dans ce domaine.

Les travaux spécifiques sur les langues africaines à tons — Orie (2006) pour le yoruba, les évaluations ACAL — restent limités en volume, reflétant un biais géographique dans la recherche qui a favorisé les langues d'Asie de l'Est, notamment pour des raisons démographiques (plus d'apprenants de mandarin dans les universités occidentales que d'apprenants de yoruba ou de fongbe).

Annexe D — Portrait neurologique détaillé de l'apprenant tonal

D.1 Ce que l'IRMf révèle

Les études d'imagerie par résonance magnétique fonctionnelle (IRMf) sur des locuteurs natifs de langues tonales et des apprenants L2 de ces langues ont produit un portrait neurologique de plus en plus précis du traitement tonal. Nous présentons ici les résultats les plus robustes, c'est-à-dire ceux ayant fait l'objet de réplications ou de méta-analyses.

La méta-analyse ALE de Liang & Du (2018, Frontiers in Neuroscience, 17 études incluses) identifie les régions suivantes comme systématiquement impliquées dans le traitement tonal lexical chez des locuteurs natifs : (1) régions préfrontales inférieures bilatérales ; (2) régions temporales supérieures bilatérales (incluant l'aire de Wernicke et son homologue droit) ; (3) noyau caudé droit. Comparé au traitement lexical atonal (15 études de contrôle), le traitement tonal implique plus la région temporale droite — reflétant la composante acoustique du pitch — et moins l'asymétrie gauche typique du traitement linguistique.

D.2 Le tronc cérébral comme indicateur de l'expérience linguistique

Un aspect remarquable de la recherche récente est la démonstration que l'expérience linguistique modifie l'encodage du signal de parole dès le niveau du tronc cérébral — une structure sous-corticale longtemps considérée comme purement « automatique » et donc insensible aux effets d'apprentissage.

Les travaux de Chandrasekaran et collaborateurs (notamment Kraus, Chandrasekaran et al., publiés dans plusieurs revues entre 2007 et 2024 ; synthétisés dans MIT Press Imaging Neuroscience, 2024) montrent que des locuteurs de mandarin présentent une réponse du tronc cérébral au signal de parole statistiquement différente de celle des locuteurs d'anglais, reflétant une sensibilité plus précise aux variations de F0. Cette différence est absente pour les variations non linguistiques de F0, suggérant que c'est bien l'expérience langagière, et non une simple sensibilité auditive générale, qui est en cause.

Pour l'enseignement, cette donnée suggère que les bénéfices d'un entraînement intensif ne se limitent pas à des représentations cognitives de haut niveau — ils peuvent potentiellement remodelage des mécanismes de traitement auditif de bas niveau, même chez des adultes. Le délai requis pour observer ces changements subcorticaux est encore mal documenté.

D.3 L'ERP et la mesure de la catégorisation perceptuelle

Les potentiels évoqués (ERP) permettent de mesurer avec une résolution temporelle de l'ordre de la milliseconde les processus cérébraux liés à la perception auditive. La composante MMN (Mismatch Negativity) est particulièrement utilisée pour étudier la représentation préattentive des catégories phonémiques — dont les tons.

Des études sur le mandarin (PubMed 2013, CAS Key Laboratory of Brain Function and Diseases) ont utilisé la MMN pour distinguer le traitement du niveau de hauteur (pitch level) et du contour de hauteur (pitch contour) : le premier est latéralisé à droite, le second tend vers la gauche. Cette dissociation suggère que les deux dimensions acoustiques du ton sont traitées par des mécanismes partiellement distincts — avec des implications pour l'entraînement perceptif (traiter séparément les exercices sur le niveau absolu de F0 et les exercices sur les transitions de F0).

Pour le fongbe, dont les tons sont essentiellement des tons de registre (niveau de hauteur plutôt que contour dynamique), cette distinction suggère que l'entraînement devrait se concentrer sur la discrimination de niveaux de F0 plutôt que sur des transitions temporelles complexes. C'est une nuance par rapport aux méthodes développées principalement pour le mandarin, où les contours jouent un rôle plus important.

D.4 La dimension émotionnelle et motivationnelle

Un aspect souvent négligé dans les études neuroscientifiques sur l'apprentissage tonal est la dimension émotionnelle et motivationnelle. Des recherches sur l'apprentissage émotionnel montrent que les stimuli à valence émotionnelle positive sont mieux encodés et mieux retenus que les stimuli neutres, en raison de l'implication de structures limbiques (amygdale, hippocampe) dans la consolidation de la mémoire.

Cette donnée générale sur la mémoire a une implication directe pour la pédagogie du fongbe : des matériaux d'entraînement tonal qui s'appuient sur des contenus culturellement chargés, affectivement engageants (chants traditionnels, contes, proverbes en fon) pourraient bénéficier d'une meilleure consolidation mémorielle que des matériaux neutres (listes de syllabes sans signification). L'hypothèse est raisonnée mais nécessiterait une validation expérimentale directe pour être affirmée avec certitude.

Annexe E — Description détaillée des méthodes pédagogiques

E.1 Le protocole HVPT type : comment le mettre en œuvre

Pour un éducateur ou un développeur de ressources souhaitant mettre en œuvre un entraînement de type HVPT pour le fongbe, voici la description technique d'un protocole standard, extrapolée depuis Uchihara et al. (2025) et les études originales.

Matériaux nécessaires

Un corpus d'enregistrements de syllabes ou de mots cibles produits par au moins 6 locuteurs natifs différents (minimum recommandé par la méta-analyse : plusieurs locuteurs ; l'effet dose-réponse est documenté, davantage de locuteurs produisant de meilleurs effets de généralisation).
Des paires minimales tonales couvrant les oppositions à entraîner : au minimum H vs B sur des syllabes à haute fréquence (ex : syllabes communes dans le lexique fongbe).
Un système de présentation qui permet la randomisation des stimuli et l'affichage du feedback immédiat.
Des mesures pré-test et post-test utilisant des locuteurs non présents dans les matériaux d'entraînement (pour mesurer la généralisation).

Procédure type

À chaque essai : l'apprenant entend un stimulus (syllabe ou mot avec ton H ou B) produit par l'un des locuteurs natifs enregistrés. Il répond en choisissant la catégorie tonale perçue (H ou B, ou les dénominations locales equivalentes). Un feedback immédiat lui indique si sa réponse est correcte ou incorrecte, accompagné de la forme écrite du mot avec le diacritique tonal correct. Le stimulus suivant est présenté immédiatement après.

Durée recommandée par la méta-analyse : les effets apparaissent généralement après plusieurs sessions d'entraînement d'environ 20-30 minutes chacune. La rétention à long terme est meilleure avec un espacement des sessions (spacing effect). Le nombre total de sessions varie selon les études de 3 à 12 sessions.

Variantes pour le fongbe

Un protocole HVPT adapté au fongbe devrait inclure des conditions phonétiques variées tenant compte des spécificités documentées de la langue : syllabes après consonnes voisées et non voisées (pour gérer les perturbations tonales liées au voisement), syllabes en position initiale, médiane et finale de mot (pour gérer le downstep et les effets de position).

E.2 Intégration des gestes de hauteur dans l'enseignement

L'intégration de gestes de hauteur dans l'enseignement des tons est documentée comme bénéfique (Baills et al., 2019 ; Zheng et al., 2018 ; Li et al., 2020 ; Yu et al., 2024). Voici comment ces gestes pourraient être concrètement intégrés dans un cours de fongbe.

Convention de gestes proposée

Sur la base du principe général documenté dans la littérature (les gestes représentent la hauteur relative du ton par le positionnement vertical de la main), une convention possible pour le fongbe :

Ton haut (H) : main levée, paume vers le bas, à hauteur des épaules ou au-dessus. Maintien stable pour un ton de niveau.
Ton bas (B) : main à hauteur de la taille ou en dessous. Maintien stable pour un ton de niveau.
Downstep (H! ou ꜜH) : main légèrement abaissée par rapport à la position H précédente, pour représenter visuellement la chute de registre.
Ton descendant (HB de surface) : geste de glissé de la main vers le bas, du niveau H au niveau B.

Ces gestes doivent être utilisés en production active par l'apprenant — les observer chez l'enseignant est moins efficace que les produire soi-même (Baills et al., 2019).

E.3 L'utilisation de Praat dans l'enseignement

Praat (Boersma & Weenink, Université d'Amsterdam, disponible librement à www.praat.org) est le logiciel de référence pour l'analyse acoustique de la parole en phonétique. Il permet, entre autres, d'afficher en temps réel la courbe de F0 d'un locuteur pendant ou après production d'une syllabe ou d'un mot.

Dans un contexte d'enseignement du fongbe, Praat peut être utilisé de plusieurs façons : (1) en démonstration par l'enseignant, pour montrer visuellement la différence acoustique entre un ton haut et un ton bas sur des exemples produits par un locuteur natif ; (2) en outil de biofeedback, permettant à l'apprenant de visualiser sa propre courbe de F0 en temps réel et de la comparer au modèle natif.

Limite pratique : Praat n'est pas conçu comme outil pédagogique de masse et son interface demande une formation. Des outils plus accessibles existent pour certaines langues (notamment des applications pour le mandarin), mais aucun n'a été développé spécifiquement pour le fongbe à notre connaissance.

E.4 Conception d'exercices écrits pour les tons

Les exercices écrits constituent un complément utile — et non un substitut — à l'entraînement auditif. Voici des types d'exercices écrits cohérents avec les principes documentés dans la littérature :

Type 1 — Dictée tonale

L'apprenant entend un mot et doit l'écrire avec les diacritiques tonals corrects. Cet exercice entraîne la perception et la segmentation tonale en même temps. Difficulté progressive : d'abord des monosyllabes avec opposition claire H/B, puis des bisyllabes, puis des mots en contexte phrastique.

Type 2 — Appariement sens/ton

L'apprenant reçoit une liste de mots écrits sans diacritiques et doit les apparier avec leur sens en utilisant le contexte. Exemple : trois mots de même forme segmentale mais de ton différent, chacun avec une définition. Cet exercice entraîne l'association ton-sens.

Type 3 — Correction de texte

L'apprenant reçoit un texte court en fongbe avec des diacritiques tonals incorrects sur certains mots et doit les corriger. Exercice de niveau intermédiaire à avancé.

Type 4 — Production guidée

L'apprenant reçoit une phrase en français et doit la traduire en fongbe, en plaçant les diacritiques tonals corrects. Cet exercice de niveau avancé intègre la dimension tonale dans la production globale.

Annexe F — Le fongbe et les langues créoles : une connexion documentée

F.1 Le lien haïtien-créole / fongbe

L'une des dimensions historiques et linguistiques les plus documentées concernant le fongbe est son rôle comme langue substrate dans la formation du haïtien-créole (créole haïtien). La linguiste Claire Lefebvre, auteure de la grammaire de référence du fongbe (Lefebvre & Brousseau, 2002), est également l'une des principales spécialistes de l'hypothèse de la relexification créole (Lefebvre, 1998, Creole Genesis and the Acquisition of Grammar, Cambridge University Press).

Selon cette hypothèse — controversée mais influente —, le haïtien-créole aurait été formé par un processus de relexification dans lequel des populations fongbe-lokoues déportées lors de la traite négrière auraient utilisé les structures grammaticales et sémantiques du fongbe, en les habillant de lexique français. Ce processus expliquerait les nombreux parallèles structuraux entre fongbe et haïtien-créole documentés par Lefebvre.

F.2 La dimension tonale dans les créoles

Une question pertinente pour notre sujet est : que sont devenus les tons du fongbe dans le processus de créolisation ? La réponse documentée est nuancée : le haïtien-créole n'est pas une langue à tons lexicaux au sens du fongbe. Il possède un système d'accent et d'intonation, mais pas de tons lexicaux distinguant des mots de même forme segmentale.

La perte des tons lexicaux dans les créoles à base française a été attribuée à plusieurs facteurs : influence superstratale du français (langue atonale) ; contact entre des populations de langues à tons différents dont les systèmes étaient mutuellement incompatibles ; simplification phonologique inhérente aux situations de contact massif.

Ce constat historique a une implication pour la pédagogie contemporaine : un locuteur de haïtien-créole apprenant le fongbe (dans un contexte de reconnexion diasporique, par exemple) ne bénéficiera pas d'un transfert tonal positif depuis sa L1 — malgré les nombreux liens lexicaux et structuraux entre les deux langues.

F.3 Le candomblé brésilien et les langues gbe

Une autre connexion historique pertinente est celle entre les traditions du candomblé brésilien (notamment les cultes jeje) et les langues gbe, dont le fongbe. Des éléments lexicaux de langues gbe ont été préservés dans les chants rituels du candomblé jeje (notamment le fon et l'ewe), formant ce que les chercheurs appellent parfois la « langue rituelle » du candomblé.

Ces préservations linguistiques — partiellement tonales dans les chants — constituent un exemple historique fascinant de transmission tonale hors contexte natif : les prêtres et initiés du candomblé ont préservé des éléments phonétiques, y compris partiellement tonals, d'une langue pendant plusieurs siècles de diaspora. Ce cas illustre, de manière remarquable, la robustesse que peut acquérir une représentation phonologique suffisamment intégrée dans un contexte rituel fort.

L'implication pédagogique potentielle — avec toutes les précautions nécessaires — est que l'ancrage affectif et rituel peut constituer un facteur de rétention phonologique à très long terme. Les chants traditionnels vodoun en fongbe jouissent de ce type d'ancrage dans les communautés béninoises.

Annexe G — Programme d'initiation tonale pour apprenants francophones de fongbe

Ce programme est une proposition structurée à partir des principes documentés dans ce document. Il s'adresse à un apprenant adulte francophone sans expérience préalable des langues à tons. Il doit être compris comme une hypothèse pédagogique raisonnée, non comme un programme validé expérimentalement.

G.1 Module 1 — Éveil tonal (4 à 6 heures)

Objectifs

Comprendre ce qu'est un ton lexical et en quoi il diffère de l'intonation et de l'accent.
Identifier à l'écoute la différence entre un mot fongbe à ton haut et un mot à ton bas dans des conditions optimales (parole claire, locutreur familier, contexte minimaliste).
Associer les diacritiques de l'orthographe fongbe (accent aigu, accent grave) à leur réalité phonétique.

Activités

Écoute comparative de paires minimales tonales sur des mots à haute fréquence et forte valeur distinctive sémantique. Feedback immédiat par l'enseignant ou le dispositif numérique.
Visualisation de courbes de F0 produites par un locuteur natif sur des mots à ton haut vs. ton bas. Si possible, logiciel Praat ou outil équivalent.
Dictée tonale simple : l'apprenant entend un mot et note s'il perçoit H ou B, sans nécessairement écrire le mot complet.
Introduction de gestes de hauteur : l'apprenant accompagne l'écoute de mots par un geste de la main (haut pour H, bas pour B).

Critère de passage

Score ≥ 70% de discrimination correcte sur des paires minimales tonales monosyllabiques produites par le locuteur de référence.

G.2 Module 2 — Perception consolidée (8 à 12 heures)

Objectifs

Généraliser la perception des tons H et B à plusieurs locuteurs natifs différents (principe HVPT).
Percevoir les quatre patterns bisyllabiques : HH, HB, BH, BB.
Identifier les tons dans des contextes phonétiques variés (après consonnes voisées et non voisées).

Activités

Sessions HVPT avec stimuli produits par 4-6 locuteurs natifs différents (idéalement hommes et femmes, dialectes différents si corpus disponible). Feedback essai par essai.
Exercices de discrimination sur bisyllabes : l'apprenant entend deux mots et indique si leur pattern tonal est identique ou différent.
Activité d'écoute de chants ou de discours traditionnels courts en fongbe : identification des passages perçus comme « à ton haut dominant » vs. « à ton bas dominant » sans analyse détaillée.

Critère de passage

Score ≥ 75% de discrimination correcte sur des paires minimales bisyllabiques produites par des locuteurs non entraînés (test de généralisation).

G.3 Module 3 — Entrée en production (6 à 10 heures)

Objectifs

Produire des monosyllabes à ton haut et ton bas reconnaissables par un locuteur natif.
Produire des bisyllabes sur les quatre patterns.
Corriger sa production après feedback auditif ou visuel (affichage F0).

Activités

Imitation répétée (shadowing) avec modèle natif sur des mots isolés.
Production avec gestes de hauteur simultanés.
Si disponible : visualisation de sa propre courbe de F0 et comparaison avec le modèle natif.
Enregistrement de soi et auto-évaluation guidée.

Critère de passage

Production de 20 mots à tons H et B correctement identifiés par un locuteur natif non informé du schème tonal cible.

G.4 Module 4 — Intégration contextuelle (12 à 20 heures)

Objectifs

Percevoir et produire les tons dans des syntagmes et des phrases courtes.
Reconnaître les phénomènes de downstep à l'écoute.
Intégrer la dimension tonale dans des échanges communicatifs simples.

Activités

Exercices de sandhi tonal : observation et imitation des modifications tonales en contexte phrastique.
Exposition progressive au downstep : écoute de séquences HH, H!H avec discrimination demandée.
Interaction simple avec locuteur natif ou enregistrement simulant une interaction : salutations, présentations, demandes simples en fongbe, avec attention aux corrections tonales.
Écoute active de chants, contes ou discours : tentative d'identification des tons perçus sur des mots connus.

G.5 Au-delà : niveaux intermédiaire et avancé

Les niveaux intermédiaire et avancé incorporeraient progressivement : les alternances tonales grammaticales (tons d'aspect verbal), la morphotonologie des syntagmes nominaux, les tons flottants et leurs effets, et la variation dialectale dans les réalisations tonales. Ces niveaux requièrent un contact soutenu avec des locuteurs natifs et/ou une immersion, et ne peuvent pas être entièrement couverts par des matériaux pédagogiques seuls.

Annexe H — Questions ouvertes et pistes de recherche

H.1 Questions sans réponse établie

Ce document s'est appliqué à distinguer les faits établis des hypothèses. Plusieurs questions importantes demeurent sans réponse scientifique établie, soit parce que la recherche n'a pas encore été conduite, soit parce que les résultats disponibles sont contradictoires.

La durée optimale d'un entraînement HVPT pour le fongbe

La méta-analyse de Uchihara et al. (2025) identifie le temps total d'entraînement comme un modérateur significatif, mais sans établir de durée optimale universelle — celle-ci varie selon la langue, les sons cibles, et les caractéristiques des apprenants. Pour le fongbe spécifiquement, aucune étude n'existe. La durée optimale reste indéterminée.

L'efficacité comparative des méthodes pour le fongbe

Est-ce que le HVPT seul est supérieur à une combinaison HVPT + gestes de hauteur pour le fongbe ? Quel rôle joue la musique traditionnelle béninoise dans l'apprentissage tonal ? Ces questions sont posables mais non répondues.

Le transfert tonal entre dialectes fongbe

Le fongbe possède 53 dialectes documentés (données Ethnologue 2020, reprises dans les papiers NLP). Dans quelle mesure les tons d'un dialecte interfèrent-ils positivement ou négativement avec l'apprentissage d'un autre dialecte fongbe ? Question non étudiée.

L'apprenant francophone béninois bilingue

La très grande majorité des locuteurs béninois sont multilingues. La situation de l'apprenant béninois qui parle français et une langue locale sans tons lexicaux (comme le dendi ou certaines variétés de bariba) apprenant le fongbe est différente de celle d'un apprenant européen monolingue. Les effets de ce multilinguisme sur l'acquisition tonale du fongbe ne sont pas documentés.

H.2 Pistes de recherche pour fongbebenin.com

Dans le cadre du développement de fongbebenin.com, plusieurs pistes concrètes sont identifiables :

Constitution d'un mini-corpus audio pédagogique : enregistrement de 10 à 20 locuteurs natifs de fongbe sur un ensemble de 50 à 100 paires minimales tonales standardisées, avec annotation tonale. Ce corpus, même de petite taille, constituerait la première ressource HVPT-compatible pour le fongbe.
Tests informels de perception : proposer aux visiteurs du site de courts tests de discrimination tonale (en ligne, via un module web simple), ce qui permettrait de collecter des données informelles sur les profils d'apprenants et les items difficiles.
Collaboration avec FLASH/UAC et CENALA : des corpus audio existent dans ces institutions. Un accord de collaboration pour l'usage pédagogique de ces ressources représenterait le chemin le plus efficace vers des matériaux de qualité.
Documentation d'une progression pédagogique et test avec apprenants volontaires : mettre en œuvre le programme G.1-G.4 proposé en Annexe G avec un petit groupe d'apprenants volontaires (5-10 personnes) et documenter les résultats, constituerait une étude de faisabilité non publiée mais utile pour améliorer le programme.

H.3 Avertissement sur les LLM et le fongbe

L'article arXiv 2604.12477 (2026) souligne que les grands modèles de langage (LLM) actuels, dont GPT-4o et Gemini, produisent fréquemment des textes en fongbe avec des diacritiques tonals manquants ou incorrects. Cette observation est pertinente pour tout développeur de ressources pédagogiques souhaitant utiliser des LLM pour générer du contenu fongbe.

L'implication est directe : tout contenu fongbe généré par un LLM et destiné à l'enseignement des tons doit être systématiquement vérifié par un locuteur natif compétent avant utilisation. Utiliser du fongbe généré par LLM sans vérification pour un entraînement tonal risque d'enseigner des erreurs tonales — un risque particulièrement grave dans le contexte de l'apprentissage tonal, où les représentations incorrectes sont difficiles à effacer une fois internalisées.