AI-funktioner i videokonferensutrustning: Bakgrundsbrus och autofokus

Det går att lägga miljoner på ett mötesrum och ändå få klagomål efter första samtalet. Jag har sett det hända när ljud och bild inte bär samtalet, trots snygga bord och dyra paneler. Två funktioner avgör ofta upplevelsen i praktiken: hur systemet hanterar bakgrundsbrus och hur kameran fokuserar. När de fungerar väl känns mötet lätt och naturligt. När de brister kommer tröttheten smygande, folk upprepar sig och fokus glider.

Den goda nyheten är att de senaste årens framsteg inom signalbehandling och maskininlärning har gjort stor skillnad, både i dedikerad konferensutrustning och i datorburna videokonferenssystem. Men allt fungerar inte lika bra i alla rum och för alla användningsfall. Här samlar jag det som spelar roll i verkligheten, från hur algoritmerna jobbar till hur du kan testa och justera i ditt egna mötesrum.

Vad som faktiskt händer under huven

När tillverkare beskriver intelligenta funktioner i mikrofoner och kameror hamnar flera tekniker i samma säck. I ljudkedjan kan du räkna med beamforming, eko-reducering, automatisk förstärkning, brusreducering och röstdetektering. I bildkedjan spelar ansikts- och kroppsspårning, scenförståelse, autofokus och automatisk inramning in.

Traditionell digital signalbehandling, DSP, sköter mycket av jobbet. Det kompletteras ofta av neurala modeller som är tränade för att skilja tal från maskinljud, tangentbords-knatter, fläktar och trafik. För video har klassiska autofokusmetoder fått sällskap av modeller som hittar ansikten även i svagt ljus och förstår när det är rätt att kapa tomma ytor för en tajtare inramning.

Bra videokonferensutrustning, till exempel paketerad i en soundbar med inbyggd kamera eller i ett PTZ-system, utnyttjar kombinationen. Har du ett videokonferenssystem som integrerar med Microsoft Teams eller Webex blir även mjukvarusidan viktig. Teams klientens brusreducering och auto-framing kan samverka med hårdvarans, men det gäller att undvika att samma sak görs två gånger.

Bakgrundsbrus: mer än bara en avstängd fläkt

Brusreducering i konferenssammanhang är en samling åtgärder som tillsammans försöker höja taluppfattbarhet utan att göra rösten metallisk eller pumpande. Tre komponenter avgör resultatet i mina projekt.

För det första mikrofonmatrisen. En bra matris med fler element och tydlig spridning över rummet kan rikta sig mot talaren och dämpa sidorna. Klassisk beamforming i kombination med akustisk ekoreducering, AEC, gör att du både slipper återkoppling och får en rakare talbild. Cisco har länge varit starka på det här området i sin videokonferensutrustning, och deras RoomOS, tidigare Spark OS, använder röstdetektorer för att välja rätt spatial lob i realtid. Det märks när tre personer pratar om vartannat i ett medelstort rum, systemet håller ihop talet bättre.

För det andra den spektrala brusreduceringen. Här gör programvaran en modell av bruset och subtraherar det löpande. Neurala brusreducerare går ett steg längre och gissar sig tillbaka till rent tal, vilket kan fungera förvånansvärt bra på en monoton fläkt eller trafik på avstånd. Riskerna kommer i kanter: en kollega som prasslar med papper nära mikrofonen kan låta som ett konstigt svaj. Kör du en akustisk gitarr i rummet, som ofta delar spektral energi med rösten, kan algoritmen börja slita i fel delar av ljudet.

För det tredje måste eko hanteras. AEC med tillräcklig “tail length”, tidsfönstret där ekon spåras, behövs i hårda rum. Jag brukar se efter tail lengths i området 200 till 400 ms för normal mötesutrustning. Kortare än så, och återkoppling från långsamma efterklanger i glas- och betongrum riskerar att läcka igenom.

Ett konkret exempel: vi utrustade ett öppet kontor med sex små mötesbås. Luftflöden låg kring 45 dB(A) i bakgrundsnivå, tangentbordsljuden smalbandiga kring 2 till 4 kHz. Med en soundbar som hade riktad mikrofonmatris och neuralt brusfilter fick vi ner upplevt bakgrundsljud runt 8 till 10 dB, mätt som förbättrad STI, utan att timbre i talet påverkades nämnvärt. Samma bås med dator och enkel USB-mikrofon löste inte problemet, trots att Teams brusreducering var påslagen. Skillnaden var mikrofonernas riktverkan och AEC som satt närmare högtalaren.

Hur Teams och Cisco hanterar brus

I en miljö som är centrerad kring Microsoft, särskilt där videokonferensutrustning för Teams används, får du access till tre lägen för brus: Av, Låg och Hög. Hög gör ofta ett bra jobb i öppna kontor, men det kan skära lite i konsonanter. Jag brukar ställa in Låg som standard och sedan ge användare en enkel instruktion att växla upp vid behov. Viktigt att känna till: kör du Hög i klienten och har aktiv brusreducering i rumsutrustningen, finns en risk för dubbelkompensation. Det leder till mer pumpning och hörbar artefakt. Välj en instans som gör den tunga dämpningen, helst den närmare mikrofonen.

För videokonferensutrustning från Cisco, ofta i Webex-miljö men även i rumsintegrationer där Teams Room-klient används, är deras Noise Removal i RoomOS stark på konstant brus och tangentbord. Systemet identifierar icke-taliga transienta ljud med hög precision. Styrkan är att röstens formanter bevaras fint. Svagheten dyker upp om ni har aktiviteter som utbildning med musik eller produktdemonstrationer med högt SNR i höga register. Då kan man vilja växla läge eller slå av algoritmen under just den sessionen.

Latens, nivåer och trötthet

Brusreducering kostar tid. En extra 10 till 20 ms i pipeline kan räcka för att störas i snabba ordväxlingar. Överskrider man 150 ms total round-trip börjar överlapp vanligtvis göra sig påmint. I hårdvarubaserade rum ligger man ofta tryggt under 100 ms, men inkopplad dator plus mjukvarusida plus nätverksrutt kan addera mer än man tror. Jag gör helst en enkel handklappsmätning mellan rummen och kontrollerar att lokalt eko inte smetar. Små förbättringar i inställning av AEC, eller att flytta högtalaren tio centimeter från vägg, kan spara fler millisekunder än vad en firmwareuppdatering gör.

Talnivåer spelar också roll. Automatisk förstärkning, AGC, kan vara hjälpsam för tystlåtna talare, men i rum med fluktuerande bakgrundsljud börjar AGC jaga. Jag föredrar att ställa en rimlig grundnivå och låta AGC jobba inom en snäv ram, säg plus minus 6 dB, hellre än att låta den försöka rädda en dålig mikrofonplacering.

Autofokus: mer än bara skärpa

Att kameran har rätt skärpa är basen, men i ett mötesrum är autofokus ofta knutet till större funktioner: auto-framing, talarspårning och scenprioritering. Här finns tre frågor som jag brukar reda ut med teamet innan installation.

Den första handlar om vad rummet egentligen ska visa. I en styrelsesal vill man ofta ha en jämn vy över hela bordet, med automatisk inramning som kapar tomrum men lämnar plats för den som reser sig. I ett utbildningsrum har jag bättre erfarenhet av att prioritera talarspårning och vitbräda, där kameran lägger fokus på föreläsaren och kan växla till brädan utan att den hamnar suddig.

Den andra gäller hur kameran hittar fokus. Klassisk kontrastfokusering letar efter maximal lokal kontrast, vilket kan misslyckas i lågt ljus eller på monotona ytor. Fasdetektering på sensorn är snabbare, särskilt i kameror med större sensor. Kombinerade system med ögon- och ansiktsdetektering hjälper dessutom kameran att förstå vad som är viktigt. När flera personer rör sig samtidigt behövs ett urval, ofta via röstlokalisering i ljudet. Bra utrustning, som vissa PTZ-kameror i Cisco- eller Poly-segmentet, använder just ljudet för att avgöra vem som pratar och styr både fokus och zoom därefter.

image

Den tredje gäller tröghet och stabilitet. För aggressiv autofokus leder till “hunting”, små fokusförflyttningar som gör mötet nervöst i onödan. Jag brukar hellre acceptera en aningen för mjuk bakgrund än att se fokus vandra. Likaså bör auto-framing ha ett dämpat rörelsemönster, snabba zoomhopp hör hemma i TV-produktion, inte i veckostanduper.

Auto-framing och flerpersonsscener

Tre personer på rad i ett mindre rum brukar gå bra. Problemet uppstår ofta i bredare rum där personer sitter i två plan, eller när någon lutar sig tillbaka och försvinner ur detektorernas typiska ansiktsstorlek. En kamera som bara räknar ansikten ytläge kan då beskära bort kollegan i bakre raden. Smarare system väger in kroppsdetaljer, röstkälla och rumsgeometri. I ett av våra projekt där vi använde en soundbar med inbyggd kamera och mikrofonmatris, testade vi att placera en extra stol nära vägg för att se om kameran fastnade på kontrastrika hörn. Vi fick bukt med det genom att aktivera “edge masks” i kameran, zoner där detektion ignoreras. Det här är detaljinställningar som ofta göms i admin-gränssnittet, men som gör stor skillnad.

Rummet bestämmer mer än man tror

Det finns inga algoritmer som räddar en illa vald placering av mikrofoner och kameror. Efterklangstid, RT60, påverkar brusreduceringens upplevda kvalitet. Vid RT60 över 0,6 sekunder får brusfilter svårt att separera röst och rumsbidrag, tal blir grötigt även om bakgrundsnivån är låg. Våra mest uppskattade uppgraderingar har varit triviala: några kvadratmeter ljudabsorbent på bakväggen, en matta under bordet, och att flytta kameran så att den ser människor mot en lugn bakgrund i stället för fönster med direktljus. Kostnaden var en bråkdel av vad en ny kamera skulle ha kostat, men vinsten i autofokusnoggrannhet och automatisk inramning var påtaglig.

Tänk också på ljuset. Autofokus och detektorer lever på kontrast. LED-paneler som flimrar i kamerans slutartid ger nervös exponering. En jämn, flimmerfri belysning på 300 till 500 lux i ansiktshöjd fungerar bra i de flesta mötesrum. Undvik att ställa kameran mot glasväggar med dagsljus bakom deltagarna. Den kommer att exponera videokonferenssystem för det ljusa och lämna ansikten mörka, och mjukvarans “HDR” i rumsutrustning räcker inte alltid för att rädda det.

Två korta checklistor för att testa och ställa in

    Mät bakgrundsnivå i tomt rum, sträva efter 30 till 40 dB(A), testa sedan med påslagna ventilationssteg för att se var algoritmen tappar. Spela upp ett brusprov via högtalare i rummet på 45 till 50 dB(A), spela in via systemet och lyssna efter pumpning eller försvunna konsonanter. Prova tre typer av störningar: tangentbord, prassel nära mikrofon, och avlägsen trafik, och notera vilket läge i klient eller hårdvara som hanterar varje bäst. Kontrollera talfördröjning med handklapp och räkna eko, byt placering av högtalare om eko svajar. Låt en mjuk röst och en stark röst tala växelvis och se om AGC jagar, justera intervall eller stäng av i hårdvaran om det blir ojämnt. Märk upp två kamerazoner: mötesbord och framvägg, aktivera auto-framing på bordszonen och välj långsam dämpning på rörelse. Testa fokus i låg belysning, runt 150 lux, och i normal belysning. Om fokus jagar i låg belysning, höj ljuset eller sänk slutartiden om valet finns. Låt två personer byta plats ofta i samtal, kontrollera om systemet flyttar utsnitt för snabbt, öka trögheten om det känns oroligt. Om ni använder vitbräda, slå på bräd-läge och kontrollera att text blir skarp när talaren kliver åt sidan, annars definiera en bräda-zon manuellt. Vid hybridmöten där åskådare sitter i två led, skapa detekteringsmasker för att undvika att bakre raden kapas när någon lutar sig.

Val mellan system: Cisco-rum, Teams-rum och fristående lösningar

Många organisationer standardiserar antingen på Cisco i sina rum eller på Microsoft Teams Rooms, ibland båda. Skillnaderna är praktiska.

I rumsuppsättningar med videokonferensutrustning från Cisco, ofta i Webex-ekosystem men ibland federerat mot andra plattformar, är helhetsintegrationen stark. Autotracking och Noise Removal drar nytta av att mikrofonerna och kameran är designade som ett system. Vill du koppla upp mot Teams-möten fungerar det, men optimal funktionalitet för auto-framing och deltagarnamn visas bäst i Webex-möten. När jag byggt för stabil drift och minimal hands-on har Cisco-rum varit tacksamma, särskilt i större konferensrum där PTZ och ljudmatris kommer till sin rätt.

För miljöer där videokonferensutrustning för Teams är norm, med Teams Rooms på Windows eller Android, är fördelen att mötesupplevelsen känns lika oavsett rum. Brusreducering i klienten utvecklas snabbt, och många leverantörer har Teams-certifierade soundbars och kameror som pratar väl med MTR-panelen. Här är mitt bästa råd att låta hårdvaran göra spatial filtrering och AEC, men lämna finbruset till Teams klient i läget Låg. Särskilt i små rum, de så kallade huddle rooms, blir resultatet mest naturligt så.

Fristående USB-lösningar hör hemma i mindre budgetar eller i användarens eget rum. De fungerar, men utan rumsakustiska åtgärder får till och med bra USB-mickar kämpa. Jag har haft bättre resultat med små kombinationsenheter med inbyggd beamforming än med separata mikrofoner utan riktverkan.

Siffror som faktiskt säger något

Specifikationsblad kan bli en djungel. Det finns dock några uppgifter som korrelerar med verklig upplevelse.

    Mikrofonantal och avstånd: fler element, gärna spridda horisontellt, ger bättre riktverkan. För rum upp till 6 till 8 personer runt ett bord räcker ofta 4 till 6 element i en soundbar. Över det blir takmatriser eller fler enheter relevant. AEC tail length: sikta på minst 200 ms, gärna 300 ms i hårda rum. Viktigare än exotiska brusfilter. Lins och sensor: en 4K-sensor med beskärning till 1080p ger tydligare digital zoom och mer robust autofokus. Se efter verklig optisk vinkel runt 110 grader för små rum, 70 till 80 grader för medelstora. Allt över 120 grader leder ofta till distorsion som auto-framing får jobba emot. Latens: total bild- och ljudlatens under 100 ms lokalt är ett bra riktmärke. I WAN-samtal lägger man ovanpå, men basen ska vara låg.

Notera att tillverkare mäter på olika sätt. Be om ett provexemplar och lägg en timme på att lyssna. Skillnaden hörs.

Fallgropar och riktiga kantfall

Det finns återkommande situationer där både brusreducering och autofokus kommer till korta om man inte planerar.

Musik undantaget. Många vill visa upp ett instrument eller låta en film traila i mötet. Standardinställningarna dödar dynamik och övertoner, särskilt i höga register. Skapa en profil där brusreducering minimeras och AEC ges större spelrum, och instruera användare hur de växlar läge. Vissa plattformar, inklusive Teams, har musikläge. Använd det.

Språk och dialekter. Röstdetektorer som är tränade på vissa fonemuppsättningar gör fel när accent avviker. Det yttrar sig som att talet klassas som bakgrund och dämpas märkbart. Jag har sett det i telefonkonferenser där hårda s-ljud i en dialekt blir försvagade. Lösningen är oftast att sänka aggressiviteten i brusfiltret eller att byta till hårdvarans detektion och stänga mjukvarans.

Ansiktsskydd och glasögon. Kameror som förlitar sig på ögon- och munspårning blir osäkra med skärmar mellan talare och kamera. Detta syns fortfarande i vissa utbildningsrum. Ansiktsdetektering som också väger in kroppsform och rörelsemönster fungerar bättre. Tills du bytt kamera, dra ner aggressiviteten i auto-framing och låt utsnittet vara något vidare.

Lågt vinterljus. Strax efter klockan tre i norra lägen kan rummet falla under 150 lux. Autofokus hittar sämre, brusnivå i bilden ökar och algoritmen börjar vandra. Billig åtgärd är att lägga till två LED-armaturer som fyllnadsljus. Dyrare åtgärd är att välja kamera med bättre sensor. Det sistnämnda lönar sig först i större rum.

Driftsättning och förvaltning som håller över tid

Det räcker inte med en bra start. Firmware släpps, klienter uppdateras, och någon lägger till en skrivbordsvit som börjar lyssna på mikrofonen. Därför föredrar jag att:

    Sätta grundprofiler i rummet med namngivna lägen, till exempel “Samtal”, “Presentation”, “Musik”. Låsa kritiska nivåer så att tillfälliga inloggningar inte saboterar AEC-kalibreringen. Dokumentera vilka lager som gör vad, till exempel hårdvara: AEC, beamforming. Klient: låg brusreducering. Nätverk: QoS DSCP 46 för tal. Det gör felsökning snabb.

Fjärrhantering via leverantörens portal sparar resor. I Cisco-miljö har jag haft störst nytta av loggar för rumsriktning och vilka mikrofonlober som valdes. I Teams Rooms-världen är insikter om packet loss och round-trip delay mest vägledande. Små justeringar av prioritering i nätet kan ge lika stor effekt som att uppgradera kameran.

Hur du skaffar rätt konferensutrustning utan att överbetala

När budgeten ska klubbas är frestelsen att köpa den dyraste allt-i-ett-enheten och tro att allt löser sig. Ofta räcker det med medelklassen, rätt placerad.

    Små rum upp till fyra personer: en certifierad soundbar med 4K-kamera, mikrofonmatris och stöd för ert primära system, till exempel videokonferensutrustning för Teams, räcker långt. Lägg pengar på belysning och akustik snarare än premium-PTZ. Medelstora rum, sex till tio personer: välj enheter där mikrofonräckvidd realistiskt täcker sista stolen. Undvik att förlita dig på dynamiska räckviddssiffror, fråga efter taluppfattbarhet på 0,6 STI längst bak. Här börjar bättre autofokus och auto-framing löna sig. Stora rum och styrelserum: kombination av takmikrofoner eller fler zoner och en PTZ-kamera som kan förinställas. Om ni har Cisco som ryggrad, videokonferensutrustning från Cisco med RoomOS brukar ge en stabil helhet. I Teams-dominerade miljöer, säkerställ att valda PTZ:er har fullständig kontroll via MTR och att automatik kan stängas av vid behov.

Glöm inte service och reservdelar. En extra fjärrkontroll och en reservkabel har räddat fler möten än en ny modellkamera.

Effekten på möteskvalitet, mätt i praktiken

Det går att föra en lång diskussion om teknik, men användarna röstar med fötterna. Efter en uppgradering som inkluderade bättre brusreducering och pålitlig autofokus såg vi tre mätbara förändringar hos en kund med cirka 200 rum.

    Antal upprepningar i transkription sjönk med runt 18 procent, mätt över två månader. Det indikerar att rösten tolkades tydligare. Antalet supportärenden kopplade till “dåligt ljud” halverades. Intressant nog ökade ärenden om “för mörk bild”, vilket drev igenom en billig ljusåtgärd och stängde sista gapet. Mötens genomsnittliga starttid, tiden från bokad start till första tal, minskade med 40 sekunder. Mindre strul, färre justeringar i början.

Användarna beskrev det som att “mötet bara rullar”. Den sortens kvalitetsförbättring märks inte i specifikationsblad, men den visar varför en noggrann genomgång av brus och autofokus lönar sig.

Vad som väntar runt hörnet

Vi ser redan system som kombinerar flera kameror och skapar en syntetisk vy där varje talare får sin egen beskärning, presenterad som ett rutnät. Det liknar hur en TV-regissör skulle klippa, men utan bemanning. På ljudsidan börjar bredare modeller förstå semantik, som att prioritera skratt och hummanden mindre än artikulerat tal, något som i praktiken ger en lugnare ljudbild utan att upplevelsen känns steril.

Samtidigt kvarstår de enkla sanningarna. En välplacerad mikrofon med sunt inställd AEC slår alltid en briljant brusalgoritm som tvingas kämpa mot dålig rumsakustik. En kamera med rimlig optik, i jämnt ljus, ger stabil autofokus som vinner över smart men nervös autoinramning.

Om du ansvarar för konferensutrustning i en organisation, oavsett om ni sitter på ett Cisco-bygge eller Cisco utrustning för videokonferens lever i Teams, välj några rum som referens och gör mätningar före och efter. Lyssna, titta, och dokumentera. Efter ett par rum hittar du ditt recept, och resten går betydligt snabbare. När bakgrundsbruset hålls i schack och autofokusen hittar rätt varje gång, försvinner tekniken ur medvetandet. Det är precis där den ska vara.

Fredsforsstigen 22-24, 168 67 Bromma Varumottagning vån 2 tel:08-568 441 00 [email protected]