Smart Speaker mit KI findet man inzwischen in nahezu jedem Zimmer eines Hauses, und alle dienen im Wesentlichen derselben Funktion. Unbeantwortet ist aber die Frage, was sich als echter Mittelpunkt des Smart Home herauskristallisieren wird.
Die seit einiger Zeit auf dem Markt angebotenen digitalen Assistenten haben dazu geführt, dass die Menschen mittlerweile Alexa oder Google auffordern, bestimmte Dinge zu erledigen oder Informationen bereitzustellen – ganz gleich, in welchem Zimmer ihres Hauses sie sich gerade befinden.
Die ersten Produkte, die Ende 2014 auf den Markt kamen und hier immer noch eine dominierende Rolle spielen, waren die smarten Lautsprecher (Smart Speaker), die ein WLAN-Lautsprechersystem mit einer KI-Plattform kombinieren. Sie dienten zunächst nur zum Verarbeiten von Musikdaten aus der Cloud, wurden aber in den vergangenen zwei Jahren durch Displays und Kameras sowie Video- und Home-Automation-Funktionen ergänzt – z.B. zur Steuerung von Beleuchtung, Klimatisierung und Überwachungskameras.
Das Entstehen dieses Smart-Home-Systems (Bild 1) hat dazu geführt, dass es mittlerweile eine Fülle smarter Geräte in einem Haus gibt. Die jüngst hinzugefügten Zusatzfunktionen, z.B. Displays und Hausautomatisierungsfunktionen, haben allerdings Bauformen entstehen lassen, die den Eindruck machen, als seien sie für bestimmte Räume eines Hauses vorgesehen – auch wenn sie noch nicht für die Anforderungen der einzelnen Räume optimiert sind.
Der Markt nähert sich einem Wendepunkt, an dem Smart Speaker gezielt auf die Belange eines bestimmten Raums zugeschnitten werden und mit anderen raumspezifisch optimierten Lautsprechern koexistieren müssen.
Bestimmte grundlegende Bauteile finden sich in allen Smart Speakern (Bild 2):
Eingabe
In Smart Speakern dienen MEMS-Mikrofone für die Spracherfassung, digitale Signalprozessoren (DSPs) verarbeiten die digitalen Mikrofonsignale anhand bestimmter Algorithmen, beispielsweise für die akustische Richtwirkung, zur Rauschunterdrückung und für die akustische Echokompensation.
Erste smarte Lautsprecher nutzten digitale MEMS-Mikrofone, was allerdings auf Kosten der Genauigkeit und des Dynamikbereichs ging. In leistungsfähigeren Systemen kommen stattdessen analoge MEMS-Mikrofone zum Einsatz, die mit separaten, hochintegrierten A/D-Umsetzern (ADUs) kombiniert werden. Diese ADUs bewirken eine erhebliche Vergrößerung des Dynamikbereichs, so dass die Systeme mit weniger Mikrofonen auskommen.
Ausgabe
Dieselben DSPs übernehmen auch die digitale Decodierung der Audiodaten für die Widergabe, die Entzerrung sowie die Ausgabe des Audiosignals an die Verstärker des Lautsprechers. In neueren Lautsprechern werden digitale Verstärker eingesetzt, um DSP-Funktionen wie etwa die Entzerrung und Feinabstimmung auf vorgegebene elektrische Parameter zu integrieren.
Abgesehen davon bieten diese Mini-DSPs unterschiedliche Ausprägungen von Schutzfunktionen für den Lautsprecher und wahren die Audioqualität auch bei widrigen Bedingungen wie etwa zu hohen Temperaturen oder einer eingeschränkten Versorgungsspannung der Leistungsstufe. Da die digitalen Audio-Inhalte IC-intern verarbeitet werden, können diese Verstärker die Stromaufnahme reduzieren, indem sie die Modulationsverfahren variieren und die Leistungsstufe abhängig vom Audioinhalt steuern.
Schnittstellen
WiFi (WLAN) ist die wichtigste Schnittstelle, die für Smart Speaker erforderlich ist. Obwohl die mit 802.11ac erzielbare Bandbreite für das Empfangen von Audio-Datenströmen eigentlich gar nicht benötigt wird, hat sich diese Technik als De-facto-Standard durchgesetzt, da viele der gleichen System-on-Chip-Anbieter (SoC) auch SoCs für den Empfang von Videodatenströmen anbieten. Häufig verfügen WLAN-ICs auch über integrierte Bluetooth-Transceiver.
Was Bluetooth betrifft, kommt sowohl das klassische Bluetooth für Audiosignale beispielsweise von Smartphones als auch Bluetooth Low Energy (BLE) für Steuerungs- und Kommunikationsfunktionen zwischen gekoppelten Geräten zum Einsatz. Mit dem Erscheinen von Bluetooth 5.0 sind neue Kompressionsprofile zu erwarten, die eine Audiosignalübertragung erlauben und den Verzicht auf das klassische Bluetooth ermöglichen. Im Interesse der Abwärtskompatibilität werden allerdings noch für einige Zeit beide Techniken angeboten werden. Mit Bluetooth 5.0 sind schließlich auch vermischte Netzwerke möglich.
Entwickler ergänzen Funktionen, um ihren Smart Speakern Alleinstellungsmerkmale zu verleihen. Die Ablösung der früheren Drucktasten durch kapazitive Touch-Panels etwa erlaubt eine intuitivere Bedienung, senkt die Kosten und erhöht die Zuverlässigkeit. In einigen Fällen wird durch haptische Rückmeldung erreicht, dass für die Nutzer das vertraute taktile Gefühl erhalten bleibt.
Da Smart Speaker in vielen unterschiedlichen Betriebsarten arbeiten und unter anderem auf Sprachbefehle reagieren, können farbige LED-Lichtmuster die visuelle Rückmeldung übernehmen und für etwas Flair sorgen. Zusätzlich können Umgebungslichtsensoren eingesetzt werden, um die Leuchthelligkeit abhängig vom Umgebungslicht zu variieren.
Bei den raumspezifischen Smart-Speaker-Funktionen müssen Entwickler die Funktionen dieser Räume und die Wünsche der Anwender berücksichtigen.
Schlafzimmer
Wie schon erwähnt, wurden Smart Speaker für bestimmte Räume mit zusätzlichen Funktionen ausgestattet. Kleine Lautsprecher mit LED-Displays können wie Wecker gestaltet sein (Bild 3) und eignen sich damit hervorragend für Schlafräume. Größe und Auflösung des Displays sind nicht entscheidend, da das Display lediglich als Zifferblatt fungieren muss. Wichtig ist dagegen die Anpassung der Display-Helligkeit an Tageslicht oder Dunkelheit, sodass es nicht ohne Umgebungslichtsensoren geht.
Die Größe des Lautsprechers und die Leistung des Verstärkers sind auf den kleineren Raum abgestimmt. Da es in diesen Räumen oftmals sehr ruhig ist und die Entfernung zwischen Lautsprecher und Anwender meist zwischen einem und vier Metern liegt, können Entwickler die Zahl der Mikrofone und die Komplexität der Spracherkennungsalgorithmen reduzieren. Eine Kamera für Videotelefonate einzubauen, dürfte dagegen keine sehr gute Idee sein, da in Schlafzimmern Wert auf den Schutz der Privatsphäre gelegt wird.
Meist werden die smarten Lautsprecher auf einem Nachttisch oder einer Kommode platziert, sodass ein Netzanschluss zur Stromversorgung verfügbar sein dürfte und Batteriebetrieb keine absolute Notwendigkeit ist. Sinnvoll erscheint dagegen eine Ladefunktion beispielsweise für Smartphones oder Smartwatches – sei es per USB oder kontaktlos. Schließlich sollte den Nutzern die Möglichkeit geboten werden, Leuchten, Thermostate und Alarmanlagen von diesem smart Speaker aus fernzusteuern.
Küche und Büro
Große Lautsprecher mit LED-Displays im Tablet-Format oder Kurzdistanz-Projektionsdisplays erscheinen als die richtige Wahl für Küchen oder Büroräume. Hier hat die Displayauflösung einen hohen Stellenwert, aber es kommt bei der Formgestaltung auch auf den Platzbedarf an. An einer Wand oder unter einem Schrank platziert, ermöglichen Lautsprecher mit Kurzdistanz-Projektionsdisplays auf Basis der DLP-Technik von Texas Instruments die Verwendung kleinerer Gehäuse und dank der Projektion an eine Wand oder auf die Arbeitsfläche sind größere Bilddarstellungen möglich.
Allerdings sollten Entwickler die potenzielle Platzierung solcher Lautsprecher an sehr hellen Orten beachten, beispielsweise in der Nähe von Fenstern. Die Anordnung dieser Smart Speaker auf Kochinseln oder Büroschreibtischen wiederum erfordert ein entsprechend helles Display.
An diesen Einsatzorten wünschen sich die Nutzer die Wiedergabe von Videodaten mit hoher Auflösung, um z.B. Kochvideos oder Fernsehshows zu sehen, die Nachrichten zu verfolgen oder zu sehen, wer an der Eingangstür klingelt. Notwendig für diese Art von Smart Speakern sind eine Kamera für Videotelefonie sowie die Möglichkeit zum Steuern von Beleuchtungen und Thermostaten.
Küchen oder Büros sind mitunter nicht größer als Schlafräume, aber da es dort potenziell lauter zugeht und mehr Aktivitäten erfolgen oder auch HiFi-Qualität gewünscht wird, sind potentere Lautsprecher und leistungsstärkere Verstärker erforderlich. Möglicherweise muss dabei ein Kompromiss geschlossen werden zwischen der Zahl der Mikrofone und der Komplexität der Spracherkennungsalgorithmen auf der einen Seite und der kurzen Distanz zwischen Sprecher und Mikrofon und den stärkeren Umgebungsgeräuschen auf der anderen Seite.
Die Leistungsaufnahme durch die Videowiedergabe sowie das Display oder die Projektion lässt den Batteriebetrieb nicht praktikabel erscheinen. Die größeren Gehäuseabmessungen infolge des Displays sollten allerdings für eine gewisse Entschärfung hinsichtlich der Wärmeableitung sorgen.
Wohnzimmer
Seit beinahe hundert Jahren ist das Wohnzimmer das Zentrum für Multimedia, Nachrichten und Unterhaltung. Heutzutage befindet sich im Wohnzimmer eine Vielzahl von Geräten, die – ob per Funk oder per Kabel – mit uns und auch untereinander interagieren.
Dazu zählen beispielsweise Kabel- oder Satelliten-Receiver – oder entsprechende Boxen für IP-TV oder Over-the-top-Content, das Fernsehgerät selbst, das Lautsprechersystem oder die zugehörigen Fernbedienungen. Alle diese Geräte interagieren auf bestimmte Weise, und alle sind inzwischen vernetzt. Jedes Gerät nimmt im Wohnzimmer eine bestimmte Funktion wahr und ist auf Koexistenz ausgerichtet, sodass es weniger darum geht, ein anderes Gerät zu ersetzen.
Mit den Smart Speakern im Wohnzimmer und dem Einzug der KI in die Unterhaltungselektronik hat sich alles verändert. Tatsächlich mussten sich die Entwickler traditioneller Geräte fürs Wohnzimmer beeilen, KI-Funktionen sowie – wenn auch mit geringerem Tempo – Home-Automation-Eigenschaften nachzurüsten. Hierdurch entsteht unweigerlich die Situation, dass sich die Geräte gegenseitig ins Gehege kommen und damit für Frustration bei den Anwendern sorgen, besonders wenn die Geräte unterschiedliche KI-Plattformen nutzen.
Dieser Kampf um den richtigen KI-Hub sorgt für einen Boom – für die Hersteller von Audio- und Video-ICs, Bausteinen für WiFi und Bluetooth, Audio-ICs, MEMS-Mikrofonen und Lautsprechern. Die Anwender können sich nur schwer vorstellen, wie derartig viele KI-Geräte koexistieren können, welches Gerät welche Befehle ausführen soll und welches Gerät die akustische Rückmeldung übernimmt.
Langfristig gesehen muss es nicht einmal schlecht sein, wenn sich in einem großen Raum mehrere mikrofonbestückte Geräte befinden. Richtig umgesetzt, könnte dieses Szenario sogar die allgemeine Richtwirkung sowie die Genauigkeit der Spracherkennung verbessern, solange die verschiedenen Geräte untereinander kommunizieren. Alle Geräte müssen zusammenarbeiten, um einem bestimmten Gerät die Kommunikation mit der Cloud zuzuweisen und zu erlauben und anschließend auszuhandeln, welches Gerät das Resultat ausgeben soll, z.B. per Audiosignal.
Die Herausforderung bei diesem Szenario liegt weniger in der Hardware, sondern in der Kommunikation und der KI-Plattform. Notwendig ist hier ein vermaschtes Netzwerk, in dem sich alle Geräte registrieren und die KI-Plattform durch Protokolle ergänzt wird. So lässt sich regeln, welches Gerät die Audio-Ausgabe übernimmt und welches Gerät für die Funktion zuständig ist. Nimmt man noch die Unterstützung für mehrere Funkverfahren, z.B. Bluetooth, WiFi und Zigbee, hinzu, so zeichnet sich langsam der Umfang der Herausforderung ab. Wird außerdem noch 5G hinzugenommen, wird die Verwirrung nicht geringer, auch wenn sich damit die Antwort einstellen kann. Hier gilt es abzuwarten.
Fernsehgerätehersteller werden argumentieren, dass ihre Produkte die erste Wahl sind, wenn es um die Hauptzentrale für das Smart Home geht. Allerdings fehlt den TV-Geräten die Audioqualität und die große Anzahl Lautsprecher für die 3D-Sound-Technik, die von den Anwendern schon bald erwartet werden wird. Die gleiche Herausforderung in Sachen Audio besteht bei den TV-Receivern. Da sich eigenständige Smart Speaker nicht mit Fernsehgeräten verbinden, sind sie keine Option. Als einziges Gerät im Wohnzimmer, von dem alle Medien ausgehen können, bleibt also das aktive Lautsprechersystem.
Aktive Lautsprechersysteme (Soundbars) enthalten heute oftmals eine WiFi-Set-Top-Box für IP-TV. Angeboten werden sie über den Einzelhandel, der zugleich das Over-The-Top-Streaming (OTT) von On-Demand-Video für jeden Abonnenten freischaltet.
Unabhängig vom jeweiligen Typ haben Soundbars die Fähigkeit zur Integration von KI-Spracherkennungssystemen, 3D-Audio in HiFi-Qualität und TV-Empfang. Schon bald dürften sie außerdem Funktionen für die Hausautomatisierung und die Funkübertragung mit Protokollen wie etwa Zigbee zum Dimmen der Beleuchtung bieten. Darüber hinaus lässt sich eine Kamera anschließen, zum Übertragen von Live-Bewegtbildern von Alarmanlagen oder für Videotelefonie.
Natürlich gibt es dieses Smart-Home-Hub-System derzeit noch nicht, zumindest nicht in der soeben geschilderten Form, aber es wird kommen und zwar bald. Die Entwickler dieser Systeme sind gefragt, der Nutzererfahrung seitens der Anwender weiterhin die oberste Priorität zu geben, Hard- und Software zu entwickeln, die jedes Gerät für das jeweilige Zimmer optimiert, in dem es sich befindet, und für ein faires Zusammenspiel mit anderen Geräten in einem nahtlosen, raumübergreifenden Netzwerk zu sorgen.
Systeme mit diesen Funktionen werden Fuß fassen und dem Markt helfen, im gegenwärtigen Tempo weiterzuwachsen – von einer Million Stück im Jahr 2015 auf mehr als 165 Millionen im Jahr 2024, was einer durchschnittlichen jährlichen Zuwachsrate von über 11 % entspricht [1]. Wer hier als Hersteller nicht mithält, wird seine Produkte vielleicht künftig zusammen mit 3D-Brillen auf Flohmärkten verkaufen müssen.
Literatur
[1] Digital Assistant Platform Forecast DATAbase. SAR Insight & Consulting, 2019.
[2] Lo, W. A.; Gilbert, M.: Smart speaker fundamentals: Weighing the many design trade-offs. Texas Instruments, Whitepaper, Januar 2019, www.ti.com/lit/wp/slay053/slay053.pdf.
Der Autor
Mike Gilbert
hat 35 Jahre Erfahrung in der Halbleiterindustrie und hier vornehmlich in den Bereichen Applikationen, Produktdefinition und Marketing. In den zurückliegenden Jahren war er bei Texas Instruments in der Systems Engineering and Marketing-Organisation tätig, die sich mit ICs für Power-Management, Signalketten, Schnittstellen und Funkschnittstellen sowie Embedded Processing befasst. Darüber hinaus verfügt Gilbert über Systemexpertise in industriellen Antrieben, Medizinsystemen sowie neuerdings auch auf dem Personal-Electronics-Sektor.