Apple publiserte onsdag tre nye artikler som beskriver de dype læringsteknikkene som ble brukt for å lage Siris nye syntetiske stemmer. Oppmeldingene dekker også andre maskinlæringsemner den vil dele senere denne uken på Interspeech 2017-konferansen i Stockholm, Sverige.
Følgende nye artikler fra Siri-teamet er nå tilgjengelige:
- Deep Learning for Siris stemme-detaljer hvordan nettverk med dyp blandingstetthet på enheten brukes til hybrid enhetsvalgssyntese
- Inverse Text Normalization-tilnærmet fra et merkeperspektiv
- Forbedring av akustiske modeller for nevralt nettverk - ved å dra nytte av tverrbåndbredde og tverrspråklig initialisering, hvis du vet hva jeg mener
Hvis du har problemer med å fatte det tekniske eller til og med forstå den svært tekniske karakteren av språket som ble brukt i de siste oppslagene, er du ikke alene.
Jeg har ingen problemer med å dykke dypt ned i Apples kompliserte dokumentasjon for utviklere og annen spesialisert dokumentasjon, men jeg føler meg helt dum når jeg bare leser de detaljerte forklarerne..
Blant andre forbedringer leverer iOS 11 mer intelligens og en ny stemme for Siri.
Apples personlige assistent bruker ikke lenger setninger og ord som er spilt inn av stemmeskuespillere for å konstruere setninger og dens svar. I stedet vedtar Siri på iOS 11 (og andre plattformer) programmalt opprettede mannlige og kvinnelige stemmer. Det er en mye vanskeligere stemmesynteteknikk, men den gir rom for veldig kule kreative muligheter.
For eksempel drar de nye Siri-stemmene fordel av maskinlæring på enheten og kunstig intelligens for å justere intonasjon, tonehøyde, vekt og tempo mens du snakker i sanntid og tar hensyn til samtalen. Apples artikkel med tittelen “Deep Learning for Siris Voice” beskriver de forskjellige deep learning-teknikkene bak iOS 11s Siri-stemmeforbedringer.
I følge åpningsparagrafen:
Siri er en personlig assistent som kommuniserer ved hjelp av talesyntese. Fra og med iOS 10 og fortsetter med nye funksjoner i iOS 11, baserer vi Siri-stemmer på dyp læring. De resulterende stemmene er mer naturlige, jevnere og lar Siris personlighet skinne gjennom.
De nye påmeldingene ble publisert på den offisielle Apple Machine Learning Journal-bloggen, som ble opprettet for noen uker siden for å dekke selskapets innsats innen maskinlæring, kunstig intelligens og relatert forskning..
Apple gikk videre med bloggen etter kritikk av at den ikke kunne ansette de lyseste sinnene innen kunstig intelligens og maskinlæring fordi den ikke ville la dem publisere verkene sine.
Det innledende innlegget, med tittelen “Improving the Realism of Synthetic Images”, ble publisert i juli. Den dyptgående artikkelen skisserer en ny metode for å forbedre realismen til syntetiske bilder fra en simulator ved å bruke umerkede virkelige data mens du bevarer kommentarinformasjonen.