Projekt „Comprise“: Alexa soll draußen bleiben

Sprachdialogsysteme wie Alexa und Siri gelten als große Hilfen etwa bei der Steuerung von Smart Homes. Die Speicherung von Dialogen auf Anbieter-Servern bereitet allerdings Unbehagen. Mit dem Projekt „Comprise“ soll eine Alternative entstehen, mit der die Privatsphäre des Nutzers gewahrt bleibt.

Sprachdialogsysteme wie Alexa (von Amazon) und Siri (von Apple) erfreuen sich bereits großer Beliebtheit. Die Daten allerdings, also die Sprachbefehle und Dialoge der Nutzer, werden auf Servern dieser Firmen langfristig gespeichert. Das missfällt vielen Benutzern. Manche Interessenten haben sich deshalb bisher noch nicht für die Anschaffung solcher Systeme entschieden.

EU-Förderung für Alexa-Alternative

Saarbrücker Sprachtechnologen möchten nun im Verbund mit französischen, spanischen, lettischen und weiteren deutschen Kollegen ein Sprachdialogsystem entwickeln, das qualitativ an die Marktführer heranreicht, außerdem jedoch die Daten so verarbeitet, dass die Privatsphäre des Nutzers immer gewahrt bleibt. Das Projekt „Comprise“ (Cost-effective, Multilingual, Privacy-driven voice-enabled Services) wird im Rahmen des Horizon-2020-Programms der Europäischen Union mit 3,2 Millionen Euro über drei Jahre gefördert. 600.000 Euro davon fließen an die Universität des Saarlandes.

„Maschinelles Lernen braucht eine riesige Datenmenge, um gut zu funktionieren. Je mehr Daten, desto besser wird das System“, gibt Thomas Kleinbauer zu bedenken. Der Wissenschaftler forscht am Lehrstuhl für Sprach- und Signalverarbeitung bei Professor Dietrich Klakow, der mit seinem Team einen sprachtechnologischen Teil des „Comprise“-Projekts übernimmt. Es ist per se also nicht verwunderlich, dass die großen IT-Unternehmen aus den USA so viele Daten sammeln, wie sie können. Aus technischer Sicht ist es vielmehr sinnvoll, alle diese Daten zu speichern und zu verarbeiten.

Was geschieht mit den Daten?

„Aber wir wissen natürlich nicht, was in letzter Konsequenz mit den Daten geschieht“, sagt Thomas Kleinbauer. Unter den gespeicherten Daten könnten sich ja auch kritische Dinge befinden, nicht nur Musiktitel oder die Suche nach der neuen Jeans: „Will man beispielsweise die Kreditkartennummer oder seine Patientendaten, die ein Arzt per Sprachassistent in sein Computersystem eingegeben hat, dort gespeichert haben?“

Die Saarbrücker Sprachtechnologen suchen im „Comprise“-Projekt folglich nach Wegen, ein Sprachdialogsystem zu entwickeln, das zum einen hohe Datenschutzauflagen erfüllt und zum anderen auch die sehr gute Nutzwertigkeit der großen kommerziellen Systeme aufweist. Die Forscher haben dabei viele Punkte im Blick: „Kritische Informationen könnten beispielsweise ausgeblendet oder geändert werden, eine Stimme kann verfremdet werden, bevor sie auf einem Server gespeichert wird“, nennt Professor Klakow einige Beispiele. Das Maschinelle Lernen würde mit solchen anonymisierten Daten aber ebenso funktionieren. „Die Daten an sich blieben nutzbar“, erklärt Klakow. „Gleichzeitig aber wären weniger private Daten auf Servern gespeichert, die außerhalb der Reichweite der Nutzer stehen.“

Am Ende der dreijährigen Forschung wollen die Wissenschaftler mehrere Demonstratoren, zum Beispiel für die Bereiche E-Commerce und E-Health, entwickelt haben, welche die Technologie im kleinen Maßstab vorführen kann.

Federführend beteiligt am „Comprise“-Projekt ist das nationale französische Institut für Informatik und angewandte Mathematik INRIA. Neben der Universität des Saarlandes sind außerdem folgende Partner an „Comprise“ beteiligt: Netfective Technology SA, Ascora GmbH, Tilde Sia, Rooter Analysis SL.