Hvordan HomePod bruker maskinlæring for å øke Siri-nøyaktigheten langtfra

I et nytt innlegg som ble publisert på mandag gjennom sin Machine Learning Journal-blogg, fortsetter Apple å detaljstyre hvordan HomePod, den trådløse smarte høyttaleren, bruker maskinlæring for å øke nøyaktigheten fra fjernsynsfeltet, noe som hjelper Siri å se bort fra eller undertrykke bakgrunnslyder for bedre å forstå den muntlige forespørsler i støyende miljøer.

Fra artikkelen:

Det typiske lydmiljøet for HomePod har mange utfordringer - ekko, etterklang og støy. I motsetning til Siri på iPhone, som opererer i nærheten av brukerens munn, må Siri på HomePod fungere godt i et fjerntliggende miljø. Brukere ønsker å påkalle Siri fra mange steder, som sofaen eller kjøkkenet, uten å ta hensyn til hvor HomePod sitter.

Et komplett online system, som adresserer alle miljøproblemene som HomePod kan oppleve, krever en tett integrering av forskjellige flerkanals signalbehandlingsteknologier. Følgelig bygde Audio Software Engineering og Siri Speech teamene et system som integrerer både overvåkte dype læringsmodeller og uovervåket online læringsalgoritmer, og som utnytter flere mikrofonsignaler.

Systemet velger den optimale lydstrømmen for talegjenkjenningen ved å bruke kunnskap fra toppen og ned fra "Hey Siri" trigger fraser detektorer.

Resten av artikkelen diskuterer bruk av de forskjellige maskinlæringsteknikkene for online signalbehandling, så vel som utfordringene Apple møtte og deres løsninger for å oppnå miljø- og algoritmisk robusthet, samtidig som de sikrer energieffektivitet.

Lang historie er kort, Siri på HomePod implementerer multikanals Echo Cancellation (MCEC) algoritme som bruker et sett med lineære adaptive filtre for å modellere de flere akustiske banene mellom høyttalerne og mikrofonene for å avbryte den akustiske koblingen.

På grunn av nærheten til høyttalerne til mikrofonene på HomePod, kan avspillingssignalet være betydelig høyere enn en brukers stemmekommando på mikrofonposisjonene, spesielt når brukeren beveger seg bort fra enheten. Faktisk kan ekkosignalene være 30-40 dB høyere enn tale-signalene for fjernfeltet, noe som resulterer i at triggerfrasen ikke kan oppdages på mikrofonene under høy musikkavspilling.

TLDR: MCEC alene kan ikke fjerne avspillingssignalet helt fra stemmekommandoen.


Siri-kommando spilt inn i nærvær av høy avspillingmusikk: mikrofonsignal (øverst), utgang fra MCEC (midten) og signal forbedret av Apples maskebaserte ekkodemping (nederst)

For å fjerne gjenværende avspillingsinnhold etter MCEC bruker HomePod en gjenværende ekkoundertrykkende tilnærming (RES) med litt hjelp fra Apples veltrente maskinlæringsmodell. For vellykket gjenkjenning av triggerfraser, gjør RES ting som å dempe gjenværende lineært ekko, spesielt i nærvær av endringer i dobbeltprat og ekko.

Husk å lese hele innlegget og bla ned til seksjon 7, der du har bilder av flere fargerike bølgeformer sammen med lenker under dem, slik at du kan høre selv hvor mye av en brukers forespørsel blir undertrykt av musikk som spilles på høyt volum og avspillingssignal generert av HomePods tweetere og woofer.

Tidbit: Apples flerkanals signalbehandling kjører på en kjerne av 1,4 GHz dual-core A8 silisium og bruker opptil 15 prosent av chipens enkeltkjernens ytelse.

HomePod bruker maskinlæring til mange ting, ikke bare Siri.

Innholdsanbefalingsalgoritmer som kjøres på enheten drar nytte av maskinlæring, og det samme gjør HomePods digitale lydprosesserings- og lydoptimaliseringsteknikker.