Die Digitalagentur Netgen Switzerland experimentiert laufend mit den neuesten Tools aus dem Bereich der künstlichen Intelligenz, um herauszufinden, welche Anwendungsmöglichkeiten sich daraus ergeben – nicht zuletzt auch für ihre Kunden. Aus der neuesten Idee des AI-Explorers Dennis Oswald und des AI-Geeks Amar Delić ist der Podcast «AI minutes» entstanden. Dieser ist laut einer Mitteilung von Grund auf KI-generiert und widmet sich ausschliesslich Themen aus dem KI-Kosmos. Es sei einer der ersten nahezu komplett KI-generierten Podcasts in der Schweiz – verfasst und präsentiert von einer KI-Moderatorin.
Nach einer ursprünglichen Auseinandersetzung mit der Thematik «autonomous AI-Agents» und deren zukünftiges Potenzial war laut Mitteilung schnell klar: Es sollte ein Produkt entstehen, das das Testen von verschiedenen KI-Tools im Zusammenspiel erlaubt. Das Experiment sollte beleuchten, wo die Grenzen der KI liegen und wo deren Einsatz überhaupt Sinn ergibt.
Bei der Erstellung des Podcasts sollten möglichst viele verschiedene KI-Tools zum Einsatz kommen und den Prozess dort unterstützen, wo es sinnvoll ist – von der Konzeption, der Namensfindung, den visuellen Elementen, den Textbausteinen und natürlich der vortragenden Stimme, wie es weiter heisst. Schnell sei entschieden worden, einen selbstständig entwickelten, massgeschneiderten GPT (OpenAI) einzurichten und diesen entsprechend seiner Rolle als Sparringspartner bei der Erstellung eines Audio-Podcasts zu «briefen».
Über diesen «AI Podcaster» GPT wurde mittels «Prompting» unter anderem das Konzept des Podcasts im Allgemeinen und der entsprechenden Episodenstruktur definiert; die Textbausteine – zum Beispiel Intro, Outro, Boilerplate, aber auch Entwürfe für Social Media Posts – erstellt; die Namensfindung im Dialog mit ChatGPT/GPT vorangetrieben und ausgearbeitet; Prompts für Eingaben in weitere KI-Tools, z.B. zur Generierung von visuellen Elementen, oder Sounds (Text-to-Image; Text-to-Sound) generiert.
Die ersten Bildgenerierungen für das Key Visual erfolgten direkt im Dialog mit dem GPT selbst. Basierend auf deren visuellem Stil und Prompt-Inhalten wurde in Midjourney weitergearbeitet.
Die Stimme – Lily – als zentrales Element des Audio-Podcasts, wurde mit dem Text-2-Speech-Tool von Elevenlabs erstellt. Für die Hintergrundmusik wurde das Text-to-Sound Tool waveformer mit dem MusicGen Modell von MetAI Team auf Replicate verwendet.
Implementierung & API
Der interessanteste Schritt bei der Erstellung des Podcasts war laut Communiqué die Automatisierung beziehungsweise die Koordination zwischen den verschiedenen KI-Tools. Die Wahl fiel auf Python und Streamlit. Ziel sei es gewesen, so viele Schritte wie möglich zu automatisieren, wobei ein menschliches Eingreifen an den wichtigsten Knotenpunkten möglich bleiben sollte.
Aktuell werden die Inhalte einer Episode noch manuell über GoogleSheet gesammelt und eingelesen. Die Generierung der Text- und Audiodateien erfolgt über die API-Anbindung ebenso automatisch wie die Hinterlegung der Hintergrundmusik im nächsten Schritt.
Das Tool ist über die GUI konfigurierbar und kann die verschiedenen Agenten steuern, die gemeinsam an der Erstellung des Podcasts arbeiten.
Fazit zum Testprojekt
Netgen sieht seinen Audio-Podcast «AI minutes» als kleines Testprojekt, das das zukünftige Potenzial von gesteuerten und automatisierten KI-Prozessen aufzeigt. Auch wenn menschliches Eingreifen und Überprüfen hier und da erforderlich und auch erwünscht sind, zeigt sich, dass durch die rasante Weiterentwicklung der KI-Werkzeuge immer mehr Aufgaben automatisiert werden können. «Hier stellt sich natürlich auch für Netgen die Frage nach den Grenzen des sozial und moralisch Vertretbaren», heisst es abschliessend.
«AI minutes» ist auf Spotify und Apple Podcasts zu hören.
Verantwortlich bei Netgen Switzerland: Dennis Oswald (Idee, Konzeption, Design), Amar Delić (Technische Beratung & Implementierung), Christian Paredes (CEO, Gesamtverantwortung). (pd/cbe)