Moshi is een realtime spraakassistent.
Moshi is een nieuwe AI-spraakassistent ontwikkeld door het Franse bedrijf Kyutai Labs. Het is ontworpen om levensechte gesprekken via spraak te voeren, vergelijkbaar met Alexa of Google Assistant, maar aangedreven door grote taalmodellen zoals die achter ChatGPT.
Belangrijke kenmerken van Moshi zijn:
1. Realtime spraakinteracties met zeer lage latentie
2. Vermogen om tegelijkertijd te luisteren en te spreken
3. 70 verschillende emotionele en spreekstijlen
4. Kan twee audiostreams tegelijk verwerken
5. Draait lokaal op apparaten zoals laptops voor privacy
6. Open-source project, inclusief modelcodes en framework
Moshi gebruikt een multimodaal taalmodel met 7 miljard parameters dat zowel tekst- als audiogegevens gelijktijdig verwerkt. Het is gebouwd op Kyutai’s Helium-7B tekstmodel, verbeterd met audiotraining.
De AI is momenteel beschikbaar als gratis demo met gesprekken beperkt tot 5 minuten. Kyutai streeft ernaar om Moshi toegankelijk te maken voor een breed scala aan gebruikers en ontwikkelaars, wat mogelijk de innovatie in AI-aangedreven toepassingen zal versnellen.
Test Moshi hier uit.