Veuillez utiliser cette adresse pour citer ce document : http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069
Affichage complet
Élément Dublin CoreValeurLangue
dc.contributor.authorTiTOUH, Hillal-
dc.date.accessioned2025-11-23T09:30:01Z-
dc.date.available2025-11-23T09:30:01Z-
dc.date.issued2025-
dc.identifier.urihttp://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069-
dc.description.abstractÀl’ère du numérique, la reconnaissance automatique de la parole (RAP) joue un rôle essentiel dans le développement d’interfaces vocales naturelles, facilitant l’interaction entre les humains et les systèmes connectés. Cette recherche s’inscrit dans un contexte multilingue particulièrement complexe, marqué par la commutation codique (code-switching, CS) entre le tamazight, l’arabe et le français (TAF). Après avoir mis en lumière la réalité sociolinguistique du trilinguisme en Algérie et les limites des systèmes RAP actuels, notamment pour les langues peu dotées comme le tamazight (kabyle), un pipeline expérimental adapté a été mis en œuvre. Dans un premier temps, un large corpus textuel en tamazight (kabyle) a été collecté à grande échelle puis rigoureusement nettoyé. Il a permis d’enrichir le tokenizer de Whisper-small avec plus de 100 tokens spécifiques. Le modèle a ensuite été affiné sur un sous-ensemble kabyle issu de Common Voice (environ 70 heures d’enregistrements). Par la suite, un corpus audio en alternance codique TAF a été construit via une interface Gradio (768 énoncés, 1h14, 16 locuteurs), avec une validation manuelle de la qualité. Un deuxième entraînement a été effectué sur ce corpus afin d’apprendre les transitions interlinguistiques. Les résultats ont montré un taux d’erreur de mots (WER, Word Error Rate) de 32,0 % pour les énoncés kabyles et de 63,1 % pour ceux en code-switching TAF. Malgré la faible quantité de données et les ressources techniques limitées, ces performances sont jugées prometteuses. L’étude souligne l’importance d’élargir les corpus TAF multilingues et d’explorer des modèles plus performants pour améliorer les résultats futurs. Les principales contributions de ce travail résident dans la création de corpus ouverts en kabyle et en code-switching, l’adaptation du modèle Whisper à une langue à faibles ressources, ainsi que la première expérimentation documentée sur le code-switching entre le tamazight, l’arabe et le français.en_US
dc.language.isofren_US
dc.publisherAKLI MOHAND OULHADJ UNIVERSITY - BOUIRAen_US
dc.subjectReconnaissance automatique de la parole, Tamazight, Code-switching, Whisper, Fine-tuning.en_US
dc.titleCode-Switching Tamazight- Arabe- Français en Reconnaissance Vocaleen_US
dc.typeThesisen_US
Collection(s) :Mémoires Master

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Version_Finale.pdf1,62 MBUnknownVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.