Projet de thèse : Statistique, Machine Learning et Linguistique

PROJET DE THESE_Plan de travail 1_Plan de travail 1_Plan de travail 1

Modèles pour la reconnaissance vocale des variantes du Français en Côte d’Ivoire.

Mots-clefs : Machine Learning, Classification des signaux, « Functional data analysis » ; variantes du français, Science du langage.

Description du projet

Depuis plusieurs décennies, il existe un français ivoirien, qui a reçu l’intérêt de nombreux chercheurs dans les domaines sociolinguistiques et linguistiques. Les études phonologiques, lexicales et syntaxiques mettent en lumière que ce français de Côte d’Ivoire, composé de diverses variétés, comporte des éléments spécifiques récurrents dans toutes les variétés, qui attestent l’existence d’une norme locale. Ce français est aujourd’hui largement influencé par les langues ivoiriennes (par le biais des parlers jeunes et autres pratiques métissées), en même temps qu’il présente des traits d’autonomie et d’évolution propre. Il existe donc en Côte d’Ivoire une communauté linguistique, caractérisée par des comportements et des jugements communs.

Il n’existe encore aucune application (logiciel) adaptée au français ivoirien, aucune synthèse de parole réalisée avec cette variété de français, ni même aucune voix ivoirienne utilisée pour les répondeurs automatiques des opérateurs téléphoniques en Côte d’Ivoire.

Depuis une quinzaine d’années, des données de paroles enregistrées en Côte d’Ivoire sont collectées pour des grand corpus internationaux, structurées selon des types de situations sociales (réunions de travail, en famille, entretiens…), des types de locuteurs (âge, sexe, niveau d’études, professions…) et des types de tâches (lecture de mots, de texte, parole spontanée, parole élicitée, recueils écologiques). Ces données sonores archivées sont transcrites et annotées avec le logiciel Praat et disponibles pour l’analyse.

Cette thèse a un double objectif : 1) proposer des modèles permettant de comprendre les structures (éventuellement spatiales) des variantes du français en Côte d’Ivoire, 2) fournir des logiciels pouvant être intégré à des solutions informatiques pour la reconnaissance vocale du français dans ce contexte par exemple pour des terminaux (smartphone ou PC, répondeurs, …).

La mission consistera à :

Explorer la base de données des signaux.
Construire des méthodes (algorithmes) permettant analyser et comprendre la structure de ces données. Cette étape requiert va requérir les connaissances des Linguistes (« feature engineering »).
Caractérisation (par des algorithmes) des différentes classes de signaux en collaboration avec les linguistes.
Mettre en évidence une éventuelle spatialisation des classes de signaux (une cartographie de la Côte d’Ivoire pour ces signaux).
Construire des modèles (statistique, probabiliste, mathématiques) spécifiques aux étapes 2 à 4.

Livrables

Des articles sur les méthodes qui seront développées.
Des logiciels de reconnaissance vocale spécifique au contexte.
Des logiciels de production de simulation pour chaque classe de signaux vocaux.

Quelques exemples de retombées des résultats des travaux de thèse

Dictée vocale et applications.
Mise en place d’une I.A (Intelligence Artificiel) permettant l’automatisation des réponses à certaines demandes auprès d’un service : service client, DSI,….

Profil recherché

Titulaire d’un master de statistique, datascience et équivalent.
Bonne maitrise des logiciels R et Python.
Être capable de s’intégrer dans un contexte pluridisciplinaire

Encadrants

MOUSSA K. Richard, PR à l’École Nationale Supérieure de Statistique et d’Économie Appliquée (Côte d’Ivoire)

Beatrice Akissi Boutin, Chercheure au Département des Etudes européennes, américaines et interculturelles de l’Université La Sapienza, Rome, Italie (Poste « Le français sur le continent africain ») et à l’Institut de Linguistique Appliquée de l’Université Félix Houphouët Boigny, Abidjan. HDR en Sciences du Langage (Université Paris Ouest Nanterre La Défense, France).

Anne-Françoise Yao, PR à l’Université Clermont Auvergne (France) et Professeur Chargé de Cours à l’Ecole Polytechnique Paris (France)

Dossier de candidature

Une lettre de motivation adressée au Directeur de l’ENSEA ;
Un curriculum vitae (CV) détaillé récent ;
Une copie légalisée du diplôme du BAC ;
Une copie légalisée des diplômes obtenus après le BAC et des relevés de notes, et tout autre justificatif pouvant appuyer la candidature ;
Un projet de recherche de thèse de cinq (5) pages maximums indiquant clairement le titre, le problème, les objectifs, la démarche d’analyse, une revue de la littérature, les hypothèses et les résultats attendus ainsi que les références bibliographiques correspondantes. Une attention particulière sera accordée à la qualité de rédaction du sujet de recherche proposé et sa pertinence par rapport aux intérêts de recherche des chercheurs du CEA ou des problématiques de développement économique ;
Deux (2) lettres de recommandation pouvant justifier la capacité de recherche de l’étudiant (de préférence deux lettres d’enseignants-chercheurs habilités à diriger une thèse) ;

Les candidatures comprenant toutes les pièces certifiées conformes sont reçues exclusivement par voie électronique à l’adresse ecoledoctorale@ensea.edu.ci

Veuillez mentionner en objet : « Projet de thèse : Statistique, Machine Learning et Linguistique ». La date limite de réception des dossiers de candidature est fixée au 12 Août 2022

Pour toutes informations complémentaires prière vous rendre à l’ENSEA au Bureau 802 ou contacter les numéros suivants :

Tél : (+225) 27 22 44 08 42

Quelques références

Boula de Mareüil, P. & Boutin, B.A. 2011. Évaluation et identification perceptives d’accents ouest-africains en français. Journal of French Language Studies, n° 21, 3, p. 361-379.

Boutin, B.A. 2014. Liaisons en français et terrains africains. In J. Durand, G. Kristoffersen, B. Laks & J. Peuvergne (eds). La phonologie du français : normes, périphéries, modélisation. Mélanges pour Chantal Lyche, p. 153-172. Presses Universitaires de Paris Ouest.

Boutin, B.A. 2018. Plurilinguisme et francophonie en Côte d’Ivoire. In O. Floquet (ed), Aspects linguistiques et sociolinguistiques des français africains, Roma : Sapienza Università Editrice, p. 101-119.

Boutin, B.A. 2019. État des lieux de la recherche sur le français en Afrique, Langue Française, n° 202, p. 11-26.

Boutin, B.A. & Turcsan, G. 2009. La prononciation du français en Afrique : la Côte d’Ivoire. In J. Durand, B. Laks et C. Lyche : Phonologie, variation et accents du français, p. 131-152, Paris : Hermès.

Ramsay, J. O. and Silverman, B. W. (2005). Functional Data Analysis. Springer Series in Statistics, 2nd edition. Springer, New York.

Ramsay, J. O. and Silverman, B. (2002). Applied Functional Data Analysis: Methods and Case Studies. Springer, New York.

Dabo-Niang & A.F. Yao. Kernel spatial density estimation in infinite dimension space. Metrika. Vol 76, pp. 19-52, 2013.

Dabo-Niang, S., Ternynck, C. et Yao, A.-F. (2016). Nonparametric prediction of spatial multivariate data, Journal of Nonparametric Statistics, Vol. 28, No 2, pages 428-458.

Dabo-Niang, S., Ternynck, C., Thiam, B. et Yao, A-F. (2021). Non-parametric statistical analysis of spatially distributed functional data. Dans Wiley book ; Geostatistical Functional Data Analysis : Theory and Methods. Editors : Jorge Mateu, Ramon Giraldo. A paraître.

Projet de thèse : Statistique, Machine Learning et Linguistique

Search

Recent Posts

About the Author: taki.kouame

Ne manquez rien de notre actualité !

A PROPOS

ADMISSION

FORMATIONS

LIENS RAPIDES

A PROPOS

ADMISSION

PROGRAMMES

LIENS RAPIDES

Projet de thèse : Statistique, Machine Learning et Linguistique

Share This Post!

Search

Recent Posts

About the Author: taki.kouame

Ne manquez rien de notre actualité !

A PROPOS

ADMISSION

FORMATIONS

LIENS RAPIDES

A PROPOS

ADMISSION

PROGRAMMES

LIENS RAPIDES