#2 au Hackathon Mistral GameJam: Analyse audio en temps réel

Gabriel Kasser
3 min readJan 27, 2025

--

Le Challenge : Réinventer le Contrôle du Jeu

Le thème du Hackathon était clair : “You don’t control the character”. Au lieu de voir cette contrainte comme une limitation, nous l’avons vue comme une opportunité de repousser les limites de l’interaction homme-machine. Notre solution ? Le joueur doit parler pour influencer le personnage principal: Harold.

Notre Approche Technique

Notre plus grand défi était de maintenir une latence faible tout en utilisant l’IA pour interpréter les commandes vocales. Nous avons optimisé la reconnaissance de voix en intégrant les modèles de Speech-to-Text Whisper-large ainsi que l’API Mistral-Large. Ceci nous permet de faire du “function calling” qui transcrit les paroles du joueur.

Bonus 1: Utiliser Whisper nous permet d’intéragir avec le bébé en n’importe quel langage
Bonus 2: Utiliser l’API Mistral réduit la charge sur les GPU et identifie les commandes souhaitées, même exprimées de manière non explicite

Les étapes du traitement:

  • Découper le son en fenêtres glissantes de largeur suffisante pour capture une phrase (quelques secondes).
  • Envoyer régulièrement le son au serveur ~2–3 fois par seconde
  • Stocker ces bouts de son dans la Sound Queue
  • n modèles Huggingface Whisper viennent se servir dans cette Sound Queue pour traiter les sons au fur et à mesure qu’ils arrivent et en extraire le text correspondant
  • Recombiner tous les textes qui ont été extraits dans la Text Queue
  • Ces textes vont être filtrés pour ne garder que la séquence qui sera plus longue que celles qui seront immédiatement avant ou après
  • n threads utilisant l’API Mistral (large model) viennent se servir dans la Text Queue pour en extraire les instructions de jeu les plus probables ainsi que le sentiment associé
  • Ces actions sont ensuite stockées dans l’Action Queue
  • Les actions sont récupérées fréquemment par le jeu pour y être interprétées
Diagramme de flux

Merci à tous les membres de l’équipe ParentalControl qui ont permis de construire ce jeu incroyable 👶: Victor Steimberg, Noé Breton, Alba Téllez, Gabriel Kasser, Paul Beglin, Paolo Puglielli

Merci à Mistral, Huggingface, EntrepreneurFirst, PhotoRoom, Nebius, Scaleway, ElevenLabs et Balderton Capital pour cet évènement exceptionnel 😍

Pour nous soutenir, venez voter pour notre jeu sur Huggingface: https://huggingface.co/spaces/Mistral-AI-Game-Jam/ParentalControl

Le bouton ♥

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response