#2 au Hackathon Mistral GameJam: Analyse audio en temps réel
Le Challenge : Réinventer le Contrôle du Jeu
Le thème du Hackathon était clair : “You don’t control the character”. Au lieu de voir cette contrainte comme une limitation, nous l’avons vue comme une opportunité de repousser les limites de l’interaction homme-machine. Notre solution ? Le joueur doit parler pour influencer le personnage principal: Harold.
Notre Approche Technique
Notre plus grand défi était de maintenir une latence faible tout en utilisant l’IA pour interpréter les commandes vocales. Nous avons optimisé la reconnaissance de voix en intégrant les modèles de Speech-to-Text Whisper-large ainsi que l’API Mistral-Large. Ceci nous permet de faire du “function calling” qui transcrit les paroles du joueur.
Bonus 1: Utiliser Whisper nous permet d’intéragir avec le bébé en n’importe quel langage
Bonus 2: Utiliser l’API Mistral réduit la charge sur les GPU et identifie les commandes souhaitées, même exprimées de manière non explicite
Les étapes du traitement:
- Découper le son en fenêtres glissantes de largeur suffisante pour capture une phrase (quelques secondes).
- Envoyer régulièrement le son au serveur ~2–3 fois par seconde
- Stocker ces bouts de son dans la Sound Queue
- n modèles Huggingface Whisper viennent se servir dans cette Sound Queue pour traiter les sons au fur et à mesure qu’ils arrivent et en extraire le text correspondant
- Recombiner tous les textes qui ont été extraits dans la Text Queue
- Ces textes vont être filtrés pour ne garder que la séquence qui sera plus longue que celles qui seront immédiatement avant ou après
- n threads utilisant l’API Mistral (large model) viennent se servir dans la Text Queue pour en extraire les instructions de jeu les plus probables ainsi que le sentiment associé
- Ces actions sont ensuite stockées dans l’Action Queue
- Les actions sont récupérées fréquemment par le jeu pour y être interprétées
Merci à tous les membres de l’équipe ParentalControl qui ont permis de construire ce jeu incroyable 👶: Victor Steimberg, Noé Breton, Alba Téllez, Gabriel Kasser, Paul Beglin, Paolo Puglielli
Merci à Mistral, Huggingface, EntrepreneurFirst, PhotoRoom, Nebius, Scaleway, ElevenLabs et Balderton Capital pour cet évènement exceptionnel 😍
Pour nous soutenir, venez voter pour notre jeu sur Huggingface: https://huggingface.co/spaces/Mistral-AI-Game-Jam/ParentalControl