Code-Switching Tamazight- Arabe- Français en  Reconnaissance Vocale

TiTOUH, Hillal

Veuillez utiliser cette adresse pour citer ce document : http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069

Titre:	Code-Switching Tamazight- Arabe- Français en Reconnaissance Vocale
Auteur(s):	TiTOUH, Hillal
Mots-clés:	Reconnaissance automatique de la parole, Tamazight, Code-switching, Whisper, Fine-tuning.
Date de publication:	2025
Editeur:	AKLI MOHAND OULHADJ UNIVERSITY - BOUIRA
Résumé:	Àl’ère du numérique, la reconnaissance automatique de la parole (RAP) joue un rôle essentiel dans le développement d’interfaces vocales naturelles, facilitant l’interaction entre les humains et les systèmes connectés. Cette recherche s’inscrit dans un contexte multilingue particulièrement complexe, marqué par la commutation codique (code-switching, CS) entre le tamazight, l’arabe et le français (TAF). Après avoir mis en lumière la réalité sociolinguistique du trilinguisme en Algérie et les limites des systèmes RAP actuels, notamment pour les langues peu dotées comme le tamazight (kabyle), un pipeline expérimental adapté a été mis en œuvre. Dans un premier temps, un large corpus textuel en tamazight (kabyle) a été collecté à grande échelle puis rigoureusement nettoyé. Il a permis d’enrichir le tokenizer de Whisper-small avec plus de 100 tokens spécifiques. Le modèle a ensuite été affiné sur un sous-ensemble kabyle issu de Common Voice (environ 70 heures d’enregistrements). Par la suite, un corpus audio en alternance codique TAF a été construit via une interface Gradio (768 énoncés, 1h14, 16 locuteurs), avec une validation manuelle de la qualité. Un deuxième entraînement a été effectué sur ce corpus afin d’apprendre les transitions interlinguistiques. Les résultats ont montré un taux d’erreur de mots (WER, Word Error Rate) de 32,0 % pour les énoncés kabyles et de 63,1 % pour ceux en code-switching TAF. Malgré la faible quantité de données et les ressources techniques limitées, ces performances sont jugées prometteuses. L’étude souligne l’importance d’élargir les corpus TAF multilingues et d’explorer des modèles plus performants pour améliorer les résultats futurs. Les principales contributions de ce travail résident dans la création de corpus ouverts en kabyle et en code-switching, l’adaptation du modèle Whisper à une langue à faibles ressources, ainsi que la première expérimentation documentée sur le code-switching entre le tamazight, l’arabe et le français.
URI/URL:	http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069
Collection(s) :	Mémoires Master

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
Version_Finale.pdf		1,62 MB	Unknown	Voir/Ouvrir

Affichage détaillé