Code-Switching Tamazight- Arabe- Français en  Reconnaissance Vocale

TiTOUH, Hillal

Please use this identifier to cite or link to this item: http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069

Title:	Code-Switching Tamazight- Arabe- Français en Reconnaissance Vocale
Authors:	TiTOUH, Hillal
Keywords:	Reconnaissance automatique de la parole, Tamazight, Code-switching, Whisper, Fine-tuning.
Issue Date:	2025
Publisher:	AKLI MOHAND OULHADJ UNIVERSITY - BOUIRA
Abstract:	Àl’ère du numérique, la reconnaissance automatique de la parole (RAP) joue un rôle essentiel dans le développement d’interfaces vocales naturelles, facilitant l’interaction entre les humains et les systèmes connectés. Cette recherche s’inscrit dans un contexte multilingue particulièrement complexe, marqué par la commutation codique (code-switching, CS) entre le tamazight, l’arabe et le français (TAF). Après avoir mis en lumière la réalité sociolinguistique du trilinguisme en Algérie et les limites des systèmes RAP actuels, notamment pour les langues peu dotées comme le tamazight (kabyle), un pipeline expérimental adapté a été mis en œuvre. Dans un premier temps, un large corpus textuel en tamazight (kabyle) a été collecté à grande échelle puis rigoureusement nettoyé. Il a permis d’enrichir le tokenizer de Whisper-small avec plus de 100 tokens spécifiques. Le modèle a ensuite été affiné sur un sous-ensemble kabyle issu de Common Voice (environ 70 heures d’enregistrements). Par la suite, un corpus audio en alternance codique TAF a été construit via une interface Gradio (768 énoncés, 1h14, 16 locuteurs), avec une validation manuelle de la qualité. Un deuxième entraînement a été effectué sur ce corpus afin d’apprendre les transitions interlinguistiques. Les résultats ont montré un taux d’erreur de mots (WER, Word Error Rate) de 32,0 % pour les énoncés kabyles et de 63,1 % pour ceux en code-switching TAF. Malgré la faible quantité de données et les ressources techniques limitées, ces performances sont jugées prometteuses. L’étude souligne l’importance d’élargir les corpus TAF multilingues et d’explorer des modèles plus performants pour améliorer les résultats futurs. Les principales contributions de ce travail résident dans la création de corpus ouverts en kabyle et en code-switching, l’adaptation du modèle Whisper à une langue à faibles ressources, ainsi que la première expérimentation documentée sur le code-switching entre le tamazight, l’arabe et le français.
URI:	http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069
Appears in Collections:	Mémoires Master

Files in This Item:

File	Description	Size	Format
Version_Finale.pdf		1,62 MB	Unknown	View/Open

Show full item record