Sprachsteuerung in der Robotik „Mehr Funktionen, lokal mit hohen Datenraten und tieferen Analysen“

Das Gespräch führte Dipl.-Ing. (FH) Hendrik Härter 6 min Lesedauer

Anbieter zum Thema

Embedded KI soll die Automatisierung verändern: Bisher waren für KI immer große Rechenkapazitäten notwendig. Durch die Weiterentwicklung der Halbleiter stehen diese Kapazitäten nun direkt vor Ort im Sensor zur Verfügung. Die dezentrale lokale KI wird leistungsfähiger.

Embedded KI bietet mehr Funktionen und tiefere Analysen direkt vor Ort im Sensor. Damit lassen sich Roboter per Sprache trainieren und steuern. Große Rechenkapazitäten sind nicht mehr notwendig.
Embedded KI bietet mehr Funktionen und tiefere Analysen direkt vor Ort im Sensor. Damit lassen sich Roboter per Sprache trainieren und steuern. Große Rechenkapazitäten sind nicht mehr notwendig.
(Bild: frei lizenziert / Pixabay)

Künftig sollen Sprachbefehle in Industrie und Medizin Roboter steuern. Mit dem Keyword-Spotting (KWS) lässt sich Sprache erfassen und auswerten und schließlich schon heute Prozesse beschleunigen sowie effizienter gestalten und sogar Leben retten.

Welche Vorteile Sprachsteuerung bei Robotern für die Industrie und Medizin bringt und warum eingebettete künstliche Intelligenz eine tiefgreifendere Revolution ist, erzählt Viacheslav Gromov, Gründer und Geschäftsführer des KI-Anbieters AITAD.

Herr Gromov, welche Vorteile bietet die Sprachsteuerung eines Roboters in der Industrie?

Viacheslav Gromov: „Die Kombination von Embedded-, Edge- und Server/Cloud-KI ermöglicht somit wesentlich leistungsfähigere Systeme mit verteilter Rechenleistung ähnlich dem menschlichen Nervensystem.“
Viacheslav Gromov: „Die Kombination von Embedded-, Edge- und Server/Cloud-KI ermöglicht somit wesentlich leistungsfähigere Systeme mit verteilter Rechenleistung ähnlich dem menschlichen Nervensystem.“
(Bild: AITAD)

Die Roboterwelt bewegt sich sowohl technisch als auch von der Normung und den Anwendungsfällen her immer mehr in Richtung Kollaboration mit dem Menschen, konkreter gesagt: Der Roboter dringt immer weiter in die Arbeitsbereiche des Menschen vor – die im Sinne des Fachkräftemangels fehlen –, was eine enge Interaktion des Roboters mit der menschlichen Umgebung erzwingt. Das bedeutet, dass jede Vereinfachung der Mensch-Maschine-Schnittstelle (HMI) einen reibungsloseren und effizienteren Ablauf verspricht.

Sprache, auch mehrsprachig, ist die einfachste Form der Interaktion. Die Hände bleiben frei und die Steuerung von Robotern ist auch in hygienischen oder sehr rauen Umgebungen mit Schmutz und Lärm möglich. Beispiele für Befehle wären: 'Roboter, Programm 1 starten!', 'Roboter, weiter!', 'Maschine, Anwenderprogramm 3 aktivieren' oder 'Maschine, auf 2,3 mm einstellen'. Die Steuerung hört auf das erste Rufwort (Wakeword). Im Beispiel ist das Roboter oder Maschine, aktiviert sich und führt die unmittelbar folgenden Befehlswortkombinationen aus. Danach geht sie wieder in den Schlafmodus, bis sie erneut das Wakeword hört.

Was unterscheidet eine Sprachsteuerung für ein Consumer-Produkt von einer Sprachsteuerung für eine sicherheitskritische Industrieanwendung?

Neben den üblichen volumen-, richtlinien- und konstruktionsbedingten Unterschieden im Zielpreis ist insbesondere bei medizinischen Geräten oder offenen Industrieanlagen die Sicherheitszertifizierung je nach Risiko- und Sicherheitsgrad der Steuerungsmöglichkeiten (Befehle) entscheidend. So ist in einigen Fällen Redundanz wichtig, um die Erkennungswahrscheinlichkeit eines probabilistischen Embedded-KI-Systems zu potenzieren. So kann nach der Eingabe eines Sprachbefehls eine synthetische Nachfrage erfolgen: 'Sind Sie sicher?', die ebenfalls durch einen Sprachbefehl bestätigt werden muss.

Der Gesprächspartner

Viacheslav Gromov ist Gründer und Geschäftsführer von AITAD. Das Unternehmen entwickelt elektronikbezogene künstliche Intelligenz (Embedded-KI), die in Geräten und Maschinen lokal und in Echtzeit definierte Aufgaben übernimmt. Er ist Verfasser zahlreicher Beiträge sowie diverser Lehrbücher in der Halbleiterbranche.
Gromov ist als Experte in verschiedenen KI- und Digitalisierungs-Gremien tätig, unter anderem von DIN und DKE sowie der Bundesregierung (DIT, BMBF). AITAD ist KI-Champion Baden-Württemberg 2023, einer der Top100-Innovatoren 2023 sowie Gewinner des „embedded award 2023“ in der Kategorie KI.

Wie erfolgt die Datenverarbeitung auf der Embedded-KI und was genau ist unter einer Embedded-KI zu verstehen?

Embedded KI sehen wir als dritten KI-Megatrend innerhalb der KI-Technologiefamilie, der sich seit einigen Jahren aufgrund der steigenden Leistungsfähigkeit kleinerer Halbleiter in der Praxis etabliert. Bisher bestand das Problem darin, dass für KI immer große Rechenkapazitäten benötigt wurden. Durch die Weiterentwicklung der Halbleiter (siehe auch Moores Law) stehen diese Kapazitäten nun direkt vor Ort im Sensor im Produkt zur Verfügung.

Dieser Megatrend ist also nichts anderes als der Trend zur Dezentralisierung, analog zu den Vorbildern in der Natur. Es wird immer große KI auf Servern in Rechenzentren geben, aber in Koexistenz mit Edge-AI und Embedded-AI, verteilt auf Aufgabenbereiche, Abstraktionsebenen, Reaktionszeiten und Datentiefen und -breiten. Die Vorteile von Embedded-AI sind Echtzeitfähigkeit, sofortige und datenschutzkonforme Verarbeitung der Daten, kein Rohdatenaustausch nach außen und günstige, einmalige Modulkosten. Die Kombination von Embedded-, Edge- und Server/Cloud-KI ermöglicht somit wesentlich leistungsfähigere Systeme mit verteilter Rechenleistung ähnlich dem menschlichen Nervensystem.

Die Vorteile von Embedded-AI sind Echtzeitfähigkeit, sofortige und datenschutzkonforme Verarbeitung der Daten, kein Rohdatenaustausch nach außen und günstige, einmalige Modulkosten.

Viacheslav Gromov, AITAD

Wie kann die Genauigkeit der Sprachsteuerung verbessert werden?

Neben der Algorithmik selbst ist das Training und die dafür notwendige Datenbasis sehr wichtig. Dazu gehört auch die Verwendung möglichst realer Rohdaten mit Endposition, Membranen und Umgebungsgeräuschen. Unsere Erfahrung hat gezeigt, dass eine mehrstufige Entwicklung sinnvoll ist: Beginnend mit Standardsprachdatenbanken und anschließender Validierung mit echten Sprachaufnahmen.

Über welche Schnittstellen kann die Sprachsteuerung in eine Roboterplattform integriert werden?

Abhängig von Roboterplattformen können die meisten gängigen Schnittstellen von CAN über Ethernet und USB bis hin zu Wireless-Funktechnologien wie BLE implementiert werden. Die KWS-Technik (KWS = Key Word Spotting) macht da keine Einschränkungen, da nur die erkannten Befehle mit den Scores (Erkennungsgenauigkeiten) sowie die Einstellungsmöglichkeiten per Interface übertragen werden. Das sind sehr geringe Datenmengen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Wie kann die Sprachsteuerung robust gegenüber Umgebungsgeräuschen und anderen Störeinflüssen gestaltet werden?

Messen und Testen von Embedded-KI-Systemkomponenten. Damit sind unter anderem Zertifizierungs-Vortests möglich.
Messen und Testen von Embedded-KI-Systemkomponenten. Damit sind unter anderem Zertifizierungs-Vortests möglich.
(Bild: AITAD)

Noise Cancelling ist ein Thema, bei dem es viele unberechtigte Ängste gibt. Wir haben einige eindrucksvolle Demos, mit denen wir zeigen können, wie wir mit Umgebungsgeräuschen und anderen Umgebungsbedingungen (Wasserstrahl auf Modul) umgehen. Durch die lokale Auswertung sind die Systeme sehr tief in der Datenverarbeitung, so dass vieles durch das Preprocessing, also die Vorstufe der Verarbeitung vor dem KI-Modell, abgefangen und herausgefiltert werden kann. Darüber hinaus wird das Modell selbst mit realitätsnahen Umgebungsgeräuschen sowie allgemeinem Lärm – von weißem Rauschen bis hin zu Infraschall – trainiert.

Wie kann die Sprachsteuerung vor Missbrauch geschützt werden?

Missbrauch lässt sich verhindern, indem der Hörradius und die Auswahl der Befehle eingeschränkt werden. Außerdem durch Beamforming, also die Erkennung der Richtung der sprechenden Person. Darüber hinaus ist es möglich, über Berechtigungsstufen oder Kombinationen mit haptischen oder Gesteneingaben sowie Anwesenheitserkennung zu kombinieren. Bei unseren Kunden konnten wir bisher alle Anforderungen umsetzen.

Welche Frameworks und Bibliotheken stehen für die Entwicklung von Embedded-KI und Sprachsteuerung zur Verfügung?

Wir kennen einige Software-Plattformen, die sich ausschließlich an Entwickler richten und entweder unabhängige Privatunternehmen sind oder von Halbleiterherstellern stammen. Wir verwenden jedoch unsere eigenen Skripte für MCUs, MPUs und FPGAs. Die Transformation der Modelle, die auf unseren großen Workstations und GPU-Servern entwickelt und trainiert wurden, haben wir auf die kleinen Halbleiter übertragen. Das bedeutet Verkleinerung ohne Leistungseinbußen.

Welche Programmiersprachen eignen sich am besten?

Viele. In der Modellentwicklung auf Servern ist Python sehr gängig, auf Halbleitern nutzen wir später C, C++ und Rust respektive Verilog und VHDL.

Welche Herausforderungen ergeben sich für eine Embedded-KI, wenn mehrere Roboter gesteuert werden sollen?

Die maximale Anzahl der verwendeten Systeme in gleicher Umgebung muss vorher definiert werden. Davon abhängig implementiert man eine Anzahl der Wörter oder Zahlen, die man dann den Maschinen als Wakeword zuordnet und diese unterscheiden. Zusätzlich kann man auch hier den Hörradius jeder Steuerung begrenzen, Beamforming zwecks Personenlokalisation einsetzen oder über Präsenzerkennung gehen.

Wo sehen Sie künstliche Intelligenz in den nächsten fünf Jahren und welchen Mehrwert kann KI in der Industrie bieten?

In den Medien hat sich die Welt im letzten Jahr auf die generative KI konzentriert, in Form von Textgenerierung mit ChatGPT oder Bildgenerierung mit Midjourney. Parallel dazu vollzieht sich eine stille, aber viel tiefgreifendere Revolution: die diskriminative KI. Sie wertet Daten aus, erstellt Prognosen und Tiefenanalysen. Dies ist die Form von KI, die auch in eingebetteter KI und Sprachsteuerung steckt. Sie kann lokal zur Prozessoptimierung, Steuerung oder Umsetzung neuer Anwendungsfälle eingesetzt werden.

Insgesamt wird es immer mehr Rechenleistung und damit Effizienz und Fähigkeiten von KI geben, insbesondere in der dezentralen lokalen KI. Damit werden immer mehr Funktionen, die heute nur zentral darstellbar sind, lokal mit hohen Datenraten und tieferen Analysen möglich. Durch die Weiterentwicklung von Halbleitern wird es möglich sein – um bei der Sprachsteuerung zu bleiben – Emotionen oder sogar Lungenerkrankungen anhand weniger Worte lokal zu erkennen. Die Vorboten sehen wir heute schon.

Hinzu kommt: Große KIs in der Cloud führen zu enormen Energiebedarfen und Datenraten, die allein nicht effizient sind. Embedded KI ist hier um ein Vielfaches sparsamer und nachhaltiger.

 (heh)

(ID:50018426)