von Christian Beck

Herr von Rubinberg, wie viele Sprachen sprechen Sie?

Deutsch, Englisch und Russisch. Dank Vidby spreche ich nun aber auch Spanisch, Italienisch, Französisch, Portugiesisch, Chinesisch und Japanisch (lacht).

Ihr Start-up Vidby hat ein Tool entwickelt, das Videos fast in Echtzeit in über 70 Sprachen übersetzt und eine künstliche Sprecherstimme über das Original legt. Wie kamen Sie auf diese Idee?

Wir haben auf dem Gebiet der Sprachtechnologie und der Künstlichen Intelligenz (KI) mittlerweile mehr als zehn Jahre Erfahrung. 2013 waren wir die Ersten auf der Welt, die einen Messenger mit einem synchronen Video-Live-Übersetzer gebaut haben. Wir haben die letzten zehn Jahre viel geforscht und entwickelt – und können nun bei Vidby auf unser gesamtes Know-how zurückgreifen.

Einer Ihrer Kunden ist der ukrainische Präsident Wolodymyr Selenskyj. Wenn er in die Kamera spricht, wird Vidby aktiv. Wie kam es zu dieser Zusammenarbeit?

Als Schweizer Tech-Unternehmen haben wir grosse Mühe, hier gute und bezahlbare Mitarbeiter zu finden. Deshalb kommen viele unserer Programmierer aus der Ukraine. Viele davon sind Patrioten und wollten in dieser sehr schwierigen Situation, in der sich die Ukraine befindet, ihrem Heimatland helfen und es unterstützen. Wir haben also Vidby den ukrainischen Botschaften in Europa angeboten und sind so an das Aussenministerium der Ukraine gelangt. Dieses fand Vidby und die Technologie, auf der Vidby basiert, zwar sehr spannend, wollte aber – verständlicherweise – 100-prozentige Übersetzungsqualität garantiert wissen. Sie waren skeptisch. Also haben wir sie davon überzeugt, ihnen ein Testvideo zu schicken. Sie waren vom Ergebnis positiv überrascht – und fanden im gesamten Video nur einen halben Fehler.

Schauen wir kurz auf die Technik: Selenskyj spricht. Was passiert nun im Hintergrund?

Das Aussenministerium der Ukraine meldet sich – wie jeder Kunde – bei uns auf der Website an. Dann lädt es das Video hoch, das übersetzt werden soll, und ruft die Voreinstellungen ab, die es eingerichtet hat. Innerhalb von 24 Stunden ist dann das Video in 30 Sprachen übersetzt mit einer 99- bis 100-prozentigen Qualität, downloadbar im Login-Bereich.

«Mit jedem Update wird Vidby besser»

Die Künstliche Intelligenz hilft beim Übersetzen. Lernt die KI auch dazu?

Wir machen jeden Dienstag ein Update. Mit jedem Update wird Vidby besser.

Wie viel Rechnerleistung ist für das Übersetzen nötig?

Da die gesamte Infrastruktur auf der Cloud ist, können wir auf fast unbegrenzte Kapazitäten zurückgreifen.

Angenommen, ich will eine fünfminütige Rede in 50 Sprachen übersetzen lassen. Wie lange muss ich warten?

Wenn man die Option «Vollautomatisch» wählt, ist das Video in fünf Minuten in 50 Sprachen übersetzt und verfügbar. Wenn man die Option «99 Prozent Übersetzungsqualität» wählt, hat man das Video am nächsten Tag in 50 Sprachen übersetzt.

Wie lange hätte es auf dem herkömmlichen Weg gedauert, also, wenn Übersetzer hätten übersetzen müssen?

Wochen, wenn nicht Monate. Probieren Sie mal, 50 Sprecher aufzutreiben, damit diese dann jeder in der eigenen Sprache das Video vertonen. Übersetzungsbüros müssen den gesamten Text in herkömmlicher Form vorher übersetzen und kontrollieren. Und abgesehen davon, dass es sehr lange dauern würde, würde es auch immense Kosten verursachen.

Sie gefährden also Jobs …

Nein, wir schaffen neue. Das ist ähnlich wie damals mit den digitalen Buchhaltungssystemen. Alle haben prophezeit, dass es deswegen keine Buchhalter mehr geben wird. Was sehen wir heute? Es gibt mehr Buchhalter, als es uns lieb ist.

«Was bald funktionieren wird, ist die Vertonung in Schweizerdeutsch»

Kann Vidby auch Schweizerdeutsch in andere Sprachen übersetzen?

Leider noch nicht, aber wir arbeiten daran. Jeder Kanton hat eine eigene Sprache, sozusagen. Diese können wir schon übersetzen, aber die Fehlerquote ist noch zu hoch. Was aber bald funktionieren wird, ist die Vertonung in Schweizerdeutsch.

Und in welchem Dialekt?

Im Zürcher Dialekt.

Wo liegen die technischen Grenzen?

Als wir damals den ersten Messenger der Welt mit Echtzeitübersetzung gebaut hatten, haben alle gesagt, das wird so nie funktionieren. Meines Erachtens wird die Entwicklung ähnlich sein wie bei den Schachcomputern. Bei den ersten Schachcomputern sagten alle, der Computer werde nie besser Schach spielen können als der Mensch. Heute wissen wir, dass kein Schachweltmeister mehr eine Chance gegen den Computer hat. Ähnlich wird es auch mit Sprachtechnologien sein. In naher Zukunft wird jeder Mensch mit Hilfe von Künstlicher Intelligenz jede Sprache dieser Welt sprechen können. Zurück zu Ihrer Frage: Ich kann mir keine technischen Grenzen vorstellen. Wenn wir uns damals in unserer Vorstellungskraft an Grenzen gehalten hätten, dann wären wir stehen geblieben und hätten den Fortschritt, den wir heute erzielt haben, nicht erreicht.

Greift Vidby ein, wenn ich etwas sage, das ich eigentlich nicht sagen dürfte?

Vidby ist ein Service, den jeder Mensch auf der Welt nutzen kann. Man könnte es mit Google Translate vergleichen. Wie Google Translate greift auch Vidby nicht in die Online-Übersetzung ein. Wenn jemand ein Video bei uns vollautomatisch übersetzen lässt, dann sehen wir auch nicht, welches Video übersetzt worden ist.

Noch klingt die künstlich erzeugte Sprecherstimme nicht sehr menschlich. Wann ist dies nicht mehr von einem echten Menschen zu unterscheiden?

Jetzt schon haben wir Stimmen, die man nicht mehr von einem Menschen unterscheiden kann. Das Einzige, was im Moment nur sehr begrenzt funktioniert, sind Emotionen. Kinder- und Seniorenstimmen gibt es auch schon.

Aber Sie haben nicht vor, dass Vidby irgendwann auch die Originalstimme imitiert? Das könnte ja dann gefährlich werden, wenn die Technologie in die falschen Hände gerät.

Wir werden diesen Service schon im kommenden Jahr anbieten. Wenn man eine bekannte Schauspielerstimme verwenden möchte, dann ist die Technologie mittlerweile so gut, dass diese sehr gut imitieren kann.

Und Sie haben wirklich keine Bedenken, dass Ihr Service missbraucht werden könnte?

Nein, da habe ich keine Bedenken. Bei Vidby wird dieser Service nur auf Anfrage verfügbar sein, und wir werden den Anfragenden und Verwendungszweck sehr genau prüfen. Es kommt dazu, dass dieser Service noch sehr aufwendig und entsprechend teuer ist.

«Auch Werbeagenturen können ihren Kunden mit Hilfe von Vidby jetzt einen grossen Mehrwert liefern»

Zurück zu Selenskyj. Er dürfte wohl nicht Ihr einziger Kunde sein. Wer setzt bereits auf Ihr Know-how?

Nach nur einem Jahr haben wir bereits tausende Kunden, von denen viele Stammkunden geworden sind. Interessant ist der Service für Industrieunternehmen – zum Beispiel für Mitarbeiter-Schulungsvideos oder E-Lernplattformen. Und auch Werbeagenturen können ihren Kunden mit Hilfe von Vidby jetzt einen grossen Mehrwert liefern. Neben Selenskyj und dem ukrainischen Aussenministerium ist unser prominentester Kunde die Harvarduniversität. Die hatten uns erst abgewimmelt mit dem Argument, dass sie mit den besten Übersetzungsbüros der Welt zusammenarbeiten. Aber sie stellten dann fest, dass die Fehlerquote der Übersetzungsbüros sehr viel höher ist als die von Vidby. Ein schönes Kompliment.

Sie haben für Vidby soeben eine Finanzierungsrunde abgeschlossen. Was sind Ihre nächsten Ziele?

Ja, wir waren überrascht, wie viele Investoren von unserem Projekt begeistert sind. Auch sind wir der Aktionariat AG sehr dankbar für die Lösung mit der Tokenisierung. Man ist mit dieser Lösung praktisch ein börsengelistetes Unternehmen, ohne dass man an der Börse ist. Das hat bei uns sehr gut funktioniert. Unser nächster Schritt als Unternehmen ist die Lippenbewegungsanimation. Wir haben hier bereits einen Prototyp gebaut, der Lippenbewegungen so animieren kann, dass man den Unterschied zum Original nicht mehr merkt. Jede Sprache hat eine andere Länge in der Aussprache. Im Englischen ist man mit dem gleichen Satz sehr schneller fertig als im Deutschen – und der Mund wäre im Bild geschlossen. Mit unserer Technologie würde sich der Mund in der übersetzten Fremdsprache einfach weiterbewegen, ohne dass man merkt, dass dies animiert ist. Mit Weiterentwicklungen wie der Lippenbewegungsanimation werden wir unsere Konkurrenzvorteile noch weiter ausbauen und den Innovationsstandort Schweiz weiter stärken.

Also sozusagen ein Deepfake?

In unserem Fall nennt sich die Technologie eher «Lip Sync». Was uns auch schon gelungen ist, ist das Ersetzen von Texten in einem schon gedrehten Video, zum Beispiel chinesische Strassenschilder in eine für uns lesbare Schrift. Beide Services werden wir ab dem kommenden Sommer anbieten können.