Please use this identifier to cite or link to this item:
http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069| Title: | Code-Switching Tamazight- Arabe- Français en Reconnaissance Vocale |
| Authors: | TiTOUH, Hillal |
| Keywords: | Reconnaissance automatique de la parole, Tamazight, Code-switching, Whisper, Fine-tuning. |
| Issue Date: | 2025 |
| Publisher: | AKLI MOHAND OULHADJ UNIVERSITY - BOUIRA |
| Abstract: | Àl’ère du numérique, la reconnaissance automatique de la parole (RAP) joue un rôle essentiel dans le développement d’interfaces vocales naturelles, facilitant l’interaction entre les humains et les systèmes connectés. Cette recherche s’inscrit dans un contexte multilingue particulièrement complexe, marqué par la commutation codique (code-switching, CS) entre le tamazight, l’arabe et le français (TAF). Après avoir mis en lumière la réalité sociolinguistique du trilinguisme en Algérie et les limites des systèmes RAP actuels, notamment pour les langues peu dotées comme le tamazight (kabyle), un pipeline expérimental adapté a été mis en œuvre. Dans un premier temps, un large corpus textuel en tamazight (kabyle) a été collecté à grande échelle puis rigoureusement nettoyé. Il a permis d’enrichir le tokenizer de Whisper-small avec plus de 100 tokens spécifiques. Le modèle a ensuite été affiné sur un sous-ensemble kabyle issu de Common Voice (environ 70 heures d’enregistrements). Par la suite, un corpus audio en alternance codique TAF a été construit via une interface Gradio (768 énoncés, 1h14, 16 locuteurs), avec une validation manuelle de la qualité. Un deuxième entraînement a été effectué sur ce corpus afin d’apprendre les transitions interlinguistiques. Les résultats ont montré un taux d’erreur de mots (WER, Word Error Rate) de 32,0 % pour les énoncés kabyles et de 63,1 % pour ceux en code-switching TAF. Malgré la faible quantité de données et les ressources techniques limitées, ces performances sont jugées prometteuses. L’étude souligne l’importance d’élargir les corpus TAF multilingues et d’explorer des modèles plus performants pour améliorer les résultats futurs. Les principales contributions de ce travail résident dans la création de corpus ouverts en kabyle et en code-switching, l’adaptation du modèle Whisper à une langue à faibles ressources, ainsi que la première expérimentation documentée sur le code-switching entre le tamazight, l’arabe et le français. |
| URI: | http://dspace.univ-bouira.dz:8080/jspui/handle/123456789/19069 |
| Appears in Collections: | Mémoires Master |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Version_Finale.pdf | 1,62 MB | Unknown | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.