Voice AI zwischen Stimmenklon und Kundenberatung mit Gordian Braun  

Shownotes

In dieser Episode begrüßt Host Max Mundhenke den Leiter für Growth und Innovation bei ElevenLabs Europa, Gordian Braun. Gemeinsam blicken sie hinter die Kulissen des am schnellsten wachsenden Voice-Unternehmens der Welt, das mit elf Milliarden US-Dollar bewertet wird. Ein zentrales Thema ist die Demokratisierung der Stimme: Braun erklärt, wie Voice Actors durch Lizenzmodelle ihre physische Präsenz multiplizieren und passiv an ihrer eigenen KI-Stimme verdienen können. Zudem diskutieren sie den „Turmbau zu Babel“ – eine Zukunft, in der Echtzeit-Übersetzungen Sprachbarrieren in Telefonaten komplett auflösen und Emotionen authentisch übertragen werden. Ein faszinierender Deep Dive in die Welt der synthetischen Sprache.

Das sind die Themen der „Kollegin KI“-Episode mit Gordian Braun:

Deepfakes und Sicherheit: Wie Elevenlabs versucht, das Klonen prominenter Stimmen durch Unbefugte technisch zu unterbinden.
Stimmen als Lizenzprodukt: Erfahren Wie professionelle Synchronsprecher durch KI-Klone ihre Reichweite steigern und Lizenzgebühren generieren können.
Revolution im Support: Warum Unternehmen wie Klarna mittlerweile den CEO-Klon für die Kundeninteraktion nutzen und wie effektiv das ist.
Versicherbare KI-Modelle: Wie voraussetzungsreich es ist, KI-Agenten rechtssicher gegen Fehler oder falsche Versprechungen zu versichern.
Ende der Sprachbarrieren: Wie nah es ist, dass wir Telefonate in verschiedenen Sprachen in Echtzeit führen, wobei sogar die individuelle Emotion erhalten bleibt.
KI in Krisengebieten: Wie die ukrainische Regierung KI-Agenten nutzt, um trotz Kriegssituation komplexe administrative Aufgaben und Gründungsberatungen zu automatisieren.

Der Chatbot zur Folge: https://bio.to/KolleginKI_Chatbot

Mehr zu Gordian Braun bei Linkedin: https://www.linkedin.com/in/gordianb/

Mehr zu Max bei Linkedin: https://www.linkedin.com/in/tomkraftwerk/

Produktion: Podstars by OMR

Transkript anzeigen

00:00:01: Leute, die geneigten Zuhörerinnen dieses Podcasts wissen ja dass ich irgendwann mal Unternehmensberater war vor Jahren und auch so Krisenkommunikation gemacht habe.

00:00:10: Und gerade im Bereich KI bin ich relativ früh in so Krisenpräventionskurse gegangen und hab sie dann gegeben.

00:00:18: Eine meiner Lieblingsuse Cases aus der damaligen Zeit war das Ich Die Stimme Der CEO's des Unternehmens, das ich dann beraten habe geklont habe und mit dieser Stimme die Definition von Deepfakes hab vorlesen lassen.

00:00:32: Das sorgte immer für Gelächter bei den Angestellten.

00:00:34: Die Chefs waren das immer gar nicht witzig, wollten dann wissen wie hast du das gemacht?

00:00:38: und das ist doch illegal und so.

00:00:40: Und darum ging es dann am Ende gar nicht.

00:00:42: ich habe natürlich gezeigt wie ich das gemacht habe und ich hab damals schon einen Tool dafür genutzt dass bis heute eigentlich so das State of the Art Tool ist wenn es um AI Voice geht und zwar Eleven Labs.

00:00:55: Das Ganze würde ich heute gern einfach mal besprechen.

00:00:58: Ich würde gerne wissen, wie dieses Thema rund um Eleven Labs tatsächlich um Voice AI weitergeht was da eigentlich gerade State of the Art ist und dazu habe ich mir heute jemanden von Eleven Labs eingeladen und möchte mal über das Thema sprechen.

00:01:13: Gordian Braun ist heute hier und er ist Leiter von Growth & Innovation bei Eleven Labs in Europa und ich freue mich sehr dass er heute hier ist und sich meinen Fragen stellt.

00:01:23: Ich bin Max Mundtänke, ihr hört Kollegin KI.

00:01:26: Hallo, Gordian!

00:01:27: Hi Max, freut mich da zu sein.

00:01:29: Schön dass du da bist.

00:01:31: Wie läuft's?

00:01:32: Und vor allem mit einer echten Stimme.

00:01:34: Ja genau wie läuft es?

00:01:36: Es läuft super.

00:01:38: also das was du jetzt gerade gesagt hast.

00:01:40: dann reden wir natürlich über die frühen Phasen der AI und besonders in diesem Fall der Voice AI.

00:01:45: aber jetzt sind wir knapp zweieinhalb drei Jahre später.

00:01:48: Die Branche hat sich ein bisschen entwickelt.

00:01:50: Wir gehen weg von diesen nice to have use cases und wir klonen mal irgendwelche Stimmen zu.

00:01:55: mehr Seriosität, sehr viel Anwendungsfällen vor allem im Businessumfeld.

00:02:00: Und natürlich auch compliance.

00:02:01: technisch sollte sowas, was du gerade erzählt hast heute nicht mehr möglich sein.

00:02:05: Ja da müssen wir drüber sprechen denn das war absurd einfach damals.

00:02:09: und wenn die gefragt haben wie ich das gemacht habe hab ich gesagt naja ich habe mir irgendein YouTube Video rausgesucht weil jeder von den Chefs irgendwann mal auf irgendeiner Bühne stand auf irgenden Panel und irgendwie eine Frage beantwortet hat und damals reichten forty Sekunden Ton aus um im Grunde eine Stimme komplett zu reproduzieren.

00:02:27: also es ist Wahnsinn!

00:02:28: Ich habe mir dann halt die Videos runtergeladen von YouTube, hab die Stimme extrahiert geschnitten und das Ganze dann irgendwie bei Eleven Labs hochgeladen.

00:02:36: Und schon konnte ich diesem CEO quasi alles in den Mund legen was ich wollte!

00:02:41: Ich glaube mittlerweile ist die Technologie ja noch weiter... Ich hatte irgendwas gelesen dass mittlerweile fünfzehn Sekunden Stimmprobe unter Umständen schon reichen um eine Stimme zu klonen.

00:02:50: Das ist ja erstmal von einer technischen Seite her komplett beeindruckend.

00:02:54: Dass es funktioniert, das ist Science Fiction irgendwie und schwer zu begreifen finde.

00:02:59: Aber auf der anderen Seite hat das natürlich auch gesellschaftliche Auswirkungen.

00:03:03: Also wenn man sich gerade so die Diebfake-Debatte einmal anhört, die jetzt grade auch wieder hochkocht durch diverse Fälle, die in den Medien waren – Den Missbrauch von KI und so weiter….

00:03:11: Wie seht ihr das eigentlich im Unternehmen?

00:03:14: Also wir haben dann Zero Tolerance Policy.

00:03:16: Wenn du das bei uns machen würdest und es technisch möglich wäre, dann wärst du nach wenigen Minuten gesperrt.

00:03:23: Aber wie wir damit umgehen ist wenn du eine Stimme klonen möchtest wofür wir natürlich mit einem unserer Produkte stehen?

00:03:29: Dann kannst du deine eigene Stimme hochladen oder einer von der die Berechtigung hast auch mit fünfzehn Sekunden Snippets.

00:03:36: das stimmt ja aber Du musst durch Verifizierungschecks durch gehen.

00:03:40: Das heißt, wenn es deine eigene ist dann musst du erst mal verifizieren dass du das wirklich auch selber bist.

00:03:47: Ja also gibt's jetzt auch schon seit anderthalb Jahren.

00:03:49: aber das was du erzählt hast am Anfang gab es natürlich diese ganzen guardrails nicht und das ist auf deiner Seite die Verifizierung.

00:03:57: auf der anderen Seite gleichen wir natürlich auch die Stimmen die versucht werden zu klonen ab mit Millionen von Stimmen in unserer Library.

00:04:05: Das heißt, wenn du jetzt hier auf die Idee kommst, irgendwie die Zustimmung von Berik Reboilmer zu verögen, dann ist die Wahrscheinlichkeit sehr hoch, dass du sofort gesperrt wirst und da kennen wir auch keinen Spaß mit.

00:04:16: Also das verfolgen wir dann auch selber rechtlich.

00:04:19: Denn sowas wollen wir um jeden Preis vermeiden.

00:04:21: Okay, das ist natürlich gut, dass diese Entwicklung ein bisschen mehr zur Safety geht.

00:04:26: Jetzt muss man sagen, ihr seid ein europäisches Unternehmen.

00:04:29: Also ich glaube die beiden Gründer sind Polen und auch gute Freunde, sind gut miteinander befreundet.

00:04:34: Vielleicht kannst du noch ein bisschen was erzählen wie eigentlich diese Idee zu Eleven Labs entstanden ist?

00:04:38: Und vielleicht doch mal ein bisschen da reingehen.

00:04:41: Ist das eigentlich, ist das so eine europäische Denkweise?

00:04:45: Eigentlich kennen wir das doch nicht.

00:04:46: So von Big Tech dass die sich tatsächlich Gedanken machen auch um was sind die gesellschaftlichen Impacts?

00:04:50: Man hat so das Gefühl gerade wenn man in die USA blickt Dass man sagt okay Wir hauen einfach mal irgendwie raus was gerade technisch möglich ist und nach uns.

00:04:57: sie sind flut.

00:04:58: Das werden Gerichte irgendwann schon regeln.

00:05:00: wie Wie ist das bei euch in der Filmphilosophie?

00:05:02: Eleven Labs ist ein europäisches Unternehmen.

00:05:04: Wir sind das höchst bewerteste Voice-Unternehmen der Welt Und auch das schnellste Wachsende Momentan bei elf Milliarden US-Dollarn bewertet, natürlich mit all den großen Investoren die es so gibt.

00:05:17: Und wie kam's eigentlich dazu?

00:05:20: Es kam dazu dass diese beiden Gründer einer der Gründern heißt Mati an einem Abend irgendwo im Wohnzimmer in Polen saßen und gesagt haben Boah diese Übersetzungen vor allem Hollywoodfilme sind einfach wahnsinnig schlecht!

00:05:34: Wie gut wäre eine Welt wo man Original Stimme hören könnte des originalen Actors aus Hollywood, aber in polnischer Sprache.

00:05:43: Und das am allerbesten perfekt Lyppen synchronisiert.

00:05:47: Ja und dann hat man auf dem Weg dahin festgestellt ... dass gar nicht so einfach ist, diese perfekte Lippensynchronisierung.

00:05:53: Und das ganz viele Teile davon richtig sein müssen.

00:05:56: Das fängt mit der Transcription an, mit der Übersetzung in eine polnische Stimme geht weiter dann in vielleicht die perfekste Lippen-Synchronisierung aber auch in die Tonation der Stimme, dass du die nicht verfälscht.

00:06:08: Daraus ist dann Eleven Labs entstanden in London.

00:06:10: Die beiden haben für Palantir in London gearbeitet und das ist jetzt knapp dreieinhalb Jahre her.

00:06:15: Seitdem ... sind wir relativ schnell gewachsen erst auf der Seite, die du gerade erwähnt hast.

00:06:20: eher consumer oder creator focused das ist ja einfach wurde auf einmal voiceovers zu machen oder mit klonten stimmen deinen CEO Pressemitteilungen zu verlesen zu lassen oder sowas.

00:06:30: mittlerweile aber sehr viel mehr im b to be kontext wo wir mit mittlerweile seventy fünf Prozent aller fordschöne verhandelt unternehmen arbeiten alle arten von kinderkunden interaktionen zu verbessern.

00:06:43: Klassisches Beispiel ist Kundensupport.

00:06:45: Warum soll ich immer drücke jetzt die Eins, drücke die zwei und dann da vierzehn Minuten der Warteschlange hängen wenn der KI mir innerhalb von Millisekunden weiterhelfen kann?

00:06:53: Aber das geht viel weiter Trainings, Outbound Anrufe Qualifizierungen usw.

00:06:57: Und zu deinem anderen Punkt europäisches Unternehmen vs Silicon Valley oder amerikanische Start-up Unternehmen.

00:07:06: Es ist schon so, dass wir vom Mindset her einen guten Hybrid haben.

00:07:10: Ich glaube da kommt das Beste aus beiden Welten zusammen was die Amerikaner und ich hab selber drei Jahre lang in der Start-up Welt in Amerika gelebt immer sehr gut machen es.

00:07:18: sie vermarkten sich sehr gut Und Sie sind sehr schnell in der Alloption.

00:07:22: und da glaube ich tun wir uns immer in Europa besonders auch in Deutschland immer ein bisschen schwieriger.

00:07:27: auf der anderen Seite und das machen wir Europäer verdammt gut Wir denken immer schon mal ein paar Schritte voraus.

00:07:33: Wir denken darüber nach, was könnte passieren?

00:07:35: Was sind die Outcomes, die wir vielleicht nicht haben wollen und so weiter und sofort.

00:07:39: Und ich finde wenn man beides in einer Kultur miteinander vereint dann kriegt man euch das Beste aus beiden Welten.

00:07:44: Das sieht man ziemlich gut bei Eleven Labs wo wir schon pragmatisch am Ende vor drei Jahren waren dass du in der Lage warst eine Stimme zu klonen und dann sehr schnell realisiert am Board.

00:07:53: das ist nicht wie wir das moralisch haben wollen.

00:07:57: Wie wollen wir es denn eigentlich haben?

00:07:58: und deswegen waren sie nicht viel.

00:07:59: Wir haben mittlerweile Fokus auf Sicherheit, Compliance, Zertifizierungen.

00:08:03: Mittlerweile sind unsere Stimmen und AI-Modelle versicherbar als erstes Unternehmen der Welt.

00:08:09: Wo wir stolz drauf sind?

00:08:10: Denn du musst dadurch sechs, sieben Tausend Checks durchgehen.

00:08:13: Dass eben gerade die Sachen, die immer top of mind für uns Europäer sind, Sicherheit dass wir uns selber aufbürgen... Nicht zu Problem finden sollte.

00:08:22: Das heißt, wenn meine Voice AI Blödsinn erzählt oder Gutscheine verspricht?

00:08:27: Oder vielleicht ein Customer Support anfängt Leute wahrlos zu beleidigen dann wäre ich für den Schaden auch versichert über euch.

00:08:34: Du kannst sie versichern lassen.

00:08:36: also es gibt eine Organisation die heißt A I U C minus one.

00:08:41: Die Grunde genommen der Checkliste hat von fünf bis sechs sieben tausend Sachen, die erfüllt sein müssen.

00:08:47: Damit deine KI gut genug ist, damit sie versicherbar ist.

00:08:51: Und jetzt haben wir das erst ein paar Wochen her vor fünf, sechs Wochen diese Zertifizierung bekommen und jetzt können sich Unternehmen, die uns benutzen, entschließen dass Sie wenn Sie dieses Risiko versichern wollen, das eben machen.

00:09:05: Ich glaube unser allererster große Kunde der das macht is immobiliare.it Das ist das italienische immo scout die das natürlich machen.

00:09:15: Die sind so groß und wollen sicher gehen, dass es

00:09:17: passt.".

00:09:18: D.h.,

00:09:18: die Immobilien markt klar werden schon von KI abgelöst?

00:09:24: Ich glaube sie gibt's nach wie vor und wird wahrscheinlich auch immer geben weil die persönliche Interaktion immer wichtig sein wird.

00:09:29: aber was jetzt viel besser ist auf immobiliare IT-Gear und sage hey ich suche eine Wohnung hundert Quadratmeter in Rom bitte hell.

00:09:39: Und anstatt dass ich mich dann durch hunderte verschiedener Listings durchscrollen muss und irgendwelche Filter bedienen muss.

00:09:43: Ich weiß nicht was, kriege ich halt eine Beratung.

00:09:46: Ja?

00:09:46: Und das vom ersten Zugriff auf die Website.

00:09:49: Jetzt finde ich es auch spannend.

00:09:51: du hast gesagt... Die Gründung des Unternehmens so ein bisschen aus dem Anreiz herauskam, dass man gesagt hat okay wir haben keine guten polnischen Synchronsprecherinnen.

00:10:01: Beziehungsweise ist das von der Qualität her vielleicht nicht so geil oder?

00:10:04: wir wollen ja im Idealfall natürlich die Originalstimmen aber in unserer Sprache.

00:10:09: jetzt kann aber nicht jeder Christoph Wald sein, der zig Sprachen spricht und irgendwie auch immer mit seiner eigene Stimme vertont.

00:10:15: Von daher ist es ja ein smarter Gedanke.

00:10:16: Jetzt gibt's hier aber gerade tatsächlich auch in Deutschland eine relativ große Bewegung gegen Netflix beziehungsweise überhaupt gegen Video und Demand an Bieter, die planen natürlich genauso was auch umzusetzen.

00:10:29: Wie steht ihr mit denen eigentlich in Kontakt?

00:10:31: Habt ihr irgendwie Kontakt zu so der Synchronsprecher-Branche in Deutschland wie ja extrem professionell ist muss man sagen?

00:10:36: also ich glaube Deutschland is ja eines der Länder mit den besten Synchronensprecher innen weltweit und da gibt es ja durchaus wahnsinnige Talente, die wir alle kennen und alle sofort hören würden.

00:10:47: Was würdest du denn sagen wenn dir sagen das ist irgendwie blöd Wir würden gerne unsere Jobs behalten?

00:10:52: Erst mal will ich sagen, hab ich volles Verständnis für.

00:10:55: Und ich meine nicht, ich erinnere mich da selber an Stimmen.

00:10:57: Kennst du noch diese Bruce Willis-Stimme?

00:10:59: Selbstverständlich.

00:11:00: Ich glaub die hat dann auch für den Praktikerbaumarkt und bleibt hängen überragen.

00:11:06: Unser Ziel ist natürlich, nicht dieses Stimmen abzuschaffen.

00:11:10: Oft ist es ja so, dass wenn du dir bestimmte Schauspieler anguckst jetzt vielleicht zum Beispiel im deutschen Markt, dann weißt du gar nicht wie Bruce Willi eigentlich ... gekrungen hat oder klingt.

00:11:20: Sondern du willst eigentlich auch die deutsche Stimme?

00:11:24: Da muss ich dann sagen, okay ... da macht's Eleven Apps diesen Stimmen vielleicht ein bisschen einfacher.

00:11:29: Denn du kannst als Voice Actor aber auch jeder andere Person, die eine gute Stimme hat bei uns deine Stimme lizenzieren und zur Verfügung stellen.

00:11:36: Und wirst entsprechend bezahlt dafür, dass deine Stimme eingesetzt wird.

00:11:41: Ich weiß nicht wie der Voice Actor hieß, der Bruce Willis Stimme gegeben hat.

00:11:45: Aber im Grunde genommen könnte er wahrscheinlich seine physische Präsenz multiplizieren durch unsere AI und überall genutzt werden.

00:11:53: In Werbefilmen, Kommunikationsmitteilungen... Ja!

00:11:55: ...und bei den Baumarktwerbungen und würde dann von uns vergütet werden.

00:11:59: Und ich finde ein ganz gutes Beispiel.

00:12:01: wir hatten vor vier fünf Wochen hatten wir eine Konferenz in London, da haben wir die besten tausend Kunden eingeladen.

00:12:09: Eine Person, die ich kennengelernt hab war ein Ex-Voice-Actor.

00:12:12: Der jetzt einen Vollzeitbetrieb hat um Stimmen auf Elemelabs zu bauen und der macht natürlich wahnsinnig viel Geld durch die Lizenzierung auf unserer Plattform.

00:12:22: Hat jetzt mit alle seine Tochter auch angebordet, die eine sehr attraktive Stimme hat.

00:12:27: Und expandieren jetzt gerade im Zettel selber Engländer in deutsche Stimmen.

00:12:32: Insofern wird es wahrscheinlich auch ne neue Industrie geben oder ne neue Rubrik der Voice Acting-Rubrik wo ... wo existierende Voice-Actor spezifisch für KI's Stimmen zur Verfügung stellen werden, die dann eben besser genutzt werden

00:12:44: können.

00:12:45: Sofern die Verträge natürlich auch entsprechend gut sind beziehungsweise da... sag ich mal jetzt nicht ihre Stimme verramschen lassen, sondern natürlich...

00:12:54: Aber um dir so ein kleines Beispiel zu geben.

00:12:56: Wir haben alleine letztes Jahr über elf Millionen ausgezahlt an Beuseckter.

00:13:00: Ach krass!

00:13:00: Also das ist eine Debatte die ich auch gerne irgendwie viel größer spiele in Sachen AI.

00:13:07: Es gibt ja die VG-Wort nämlich immer gerne als Beispiel oder die GEMA Verwaltungsgesellschaften und Verwertungsgesätschaften gerade in Deutschland, die Tantiema auszahlen.

00:13:16: also ich auch als Buchautor profitiere ja von der VG Wort und so wenn mein Buch kopiert wird oder irgendwo in einer Bücherei liegt, dann kriege ich dafür regelmäßig ein paar Cent.

00:13:25: Aber es existiert und ich bin ja großer Fan von dem Gedanken so eine VGAI zu haben.

00:13:30: also weil wir wissen die großen large language Models sind natürlich trainiert auf Daten, die sie irgendwo im Internet zusammengeklaut haben.

00:13:38: Auf Büchern, auf allem Möglichen.

00:13:40: Im letzten Jahr gab es da dieses Studio Ghibli-Welle.

00:13:43: ja dass man irgendwie relativ schnell sich selbst als Studio Gibi Bild machen konnte wo man gerade da einfach gesehen hat diese Studio in Japan das ist bekannt dafür teilweise Wochen lang an einzelnen Szenen mit zig ZeichnerInnen irgendwie zu sitzen und wirklich Handarbeit.

00:13:59: jetzt kann man das auf Knopfdruck einfach mit KI machen ohne dass diejenigen die sich das ausgedacht haben, irgendwie was davon bekommen.

00:14:06: Und vielleicht auch noch mal dazu deinem europäischen Punkt.

00:14:08: Da gehen wir zum Beispiel auch einen anderen Weg wo das wahrscheinlich, kenne ich mich nicht genug aus völlig richtig was du sagst, dass viele einfach irgendwelche Quellen nutzen um Modelle zu trainieren.

00:14:19: Trainieren wir unsere Modelle nur mit Lizenzlizensierten oder durchlutschen Lizenzen, die wir haben.

00:14:27: Ich nenn dir mal ein Beispiel.

00:14:27: Wir haben zum Beispiel einen Musikmodell ausgebracht vor ein paar Monaten.

00:14:31: Kannst du deinen eigenen Musik-Song erstellen über Eleven Labs?

00:14:35: Das haben ja nicht trainiert in dem wir, weiß ich nicht, YouTube oder Spotify gescrapt haben sondern indem wir spezifische Vereinbarungen mit bestimmten Plattendables getroffen haben, die uns erlauben diese Musik wiederzuverwerten um dafür unsere Modelle zu trainieren.

00:14:50: Die bekommen natürlich auch eine monetäre Verwertung, aber es sorgt eben dafür auch, dass wir mit unserem europäischen Mindset von Anfang an alles richtig machen und nicht darauf angewiesen sind, dass dann irgendwann Klagen durchstehen müssen und uns in langen Klagewegen festhalten.

00:15:05: Wie die Gema, das bei Suno oder Udyo gerade gemacht hat.

00:15:10: Also gibt's ja grade die Klage und natürlich auch das Angebot von der Gema direkt zu sagen lizenziert doch einfach so.

00:15:16: lasst es uns doch einfach gemeinsam lösen statt unsere Sachen zu klauen.

00:15:19: also schön wenn ihr da zumindest den ersten Auftrag schon mal gemacht habt.

00:15:21: Genau!

00:15:22: Und daran siehst du es ja auch.

00:15:23: und das Tolle darin ist wenn du dann diese Rechte hast mit diesen ganzen Plattenherstellern und Plattenlabels.

00:15:28: Dann kannst du selber die Musik, die über Eleven Labs kriegst, selber vermarkten denn es gibt ja gar keine... Lizenzrechtlichen Probleme mehr.

00:15:35: Und das passiert übrigens auch, also es ist jetzt nicht so dass nur kleinere Leute wie du und ich jetzt ihre Songs erstellen könnten und dann sagen Ich möchte das jetzt auf Spotify veröffentlichen sondern auch größere Künstler wie zum Beispiel Will I Am oder sowas die ganze Album mit Eleven Labs bauen oder jedenfalls weil Die Inspiration zu neuen Songs bekommen um damit weiterzugehen in sich ihrer originalen Songs.

00:15:59: Wie viel ist da noch übrig von der ... romantischen Vorstellungen, Kunst zu machen.

00:16:03: In ein Studio zu gehen so wie wir hier gerade sitzen um diesen Podcast aufzunehmen... ...dass drum herum einen Kaffee vorher zu trinken, zu quatschen ja irgendwie mit verschiedenen Leuten dann dazu sitzen und das zu machen oder etwas zu zeichnen.

00:16:15: Es wird Kultur, Schaffung in Zukunft komplett unromantisch am PC.

00:16:21: Was stattfinden dann?

00:16:22: Das ist so wie mit ChatGPT oder anderen LLMs.

00:16:25: Wo du denkst, mein Marketingjob wird der Unromantische dadurch, dass ich schneller Antworten bekomme.

00:16:31: Irgendwie schon!

00:16:32: Die Kreativität geht ein bisschen raus.

00:16:33: Ich merke selber, da sich immer viel prompte und erst mal frage ... Und es gibt mir auch einen Tag gebraucht, um eine kreative Möglichkeit zu bekommen.

00:16:42: Dann bekomme ich jetzt sofort was.

00:16:44: auf der anderen Seite, es gibt mir natürlich viel mehr Möglichkeiten.

00:16:48: Ja und wenn ich jetzt sehe ... Jetzt bleiben wir mal bei der Musik.

00:16:52: also ich glaube diese Story die kennen wir alle das irgendwelche Künstler fünf Jahre gebraucht haben um einem Album rauszubringen und diese Leidenszeit nur.

00:16:59: in gewisser Weise kaufen wir das ja auch mit.

00:17:02: aber Wenn denn jetzt ein Künster mal so eine Leidenzphase durchsteht dann könnte er so eine Software nutzen wie Level Labs um kreativ mindestens mal Input zu bekommen und zu gucken, wie komme ich dann schneller an das neue Album?

00:17:15: Dass sehnsüchtig erwartet wird.

00:17:18: Also ich glaube es hat beides so seine Für-und-Widers.

00:17:21: Ich sehe das eher als eine Evolution, als eine Abschaffung Und wir kaufen ja auch heutzutage noch weiterhin Vinylplatten weil wir die Romantik an Vinyl platten lieben und wahrscheinlich ähnlich In der Zukunft.

00:17:35: Ja, die Nineties sind back.

00:17:36: Genau.

00:17:37: Auch wenn man an Bruce Willis denkt du hast den angesprochen, der ist ja im Grunde schwer krank und es an ALS erkrankt ist und wohl nie wieder ein Film machen wird das man dann denkt hey rein theoretisch gibt's doch irgendwie so viele Daten von ihm.

00:17:47: es war so ein toller Schauspieler der auch für viel Vorbild war womit sich auch viele vielleicht identifizieren konnten.

00:17:53: Es ist technisch möglich vielleicht diese Kultur weiterzuführen.

00:17:58: Wie siehst du das?

00:17:59: Also ich hab selbst noch gar keine richtige Meinung dazu.

00:18:00: Es ist einfach gerade mal irgendwie so in die Tüte gesprochen, aber ... Ist es vielleicht irgendwann auch Zeit zu sagen, die Kultur ist dann jetzt hier abgeschlossen und die Leute wollen nicht mehr, sind raus, keine Ahnung oder...

00:18:11: Nee, das sehen wir nicht so!

00:18:12: Wir haben einen Pledge-Programm bei uns beim Lapsen.

00:18:15: Wir investieren wahnsinnig viel Geld in genau diesen USKS-Dinosaxe.

00:18:18: Ich glaube bei Bruce Willis ist es sogar Demenz, gar nicht ALS.

00:18:23: Aber ... Gerade der ALS-Fall.

00:18:26: Auch da wieder auf unserer London Summit, die wir vor ein paar Wochen hatten, hatten wir einen ALS erkrankten Musiker, der irische Volkmusik sehr gerne gemacht hat und der ist mit seiner Band wiederaufgetreten.

00:18:38: Natürlich ist das ein anderer Auftritt.

00:18:40: Also wenn du an den ALS erkrankt bist, hast du viele Einschränkungen.

00:18:45: aber dieser Person konnten wir eine Stimme widergeben und sie konnte dann semi live ... auf unserer Bühne performen mit seinen alten Band.

00:18:53: Das ist natürlich ein großes Highlight für solche Personen.

00:18:58: Ich werde da auf jeden Fall noch eine ganze Weile drüber nachdenken, weil ich das schon entspannt.

00:19:00: für was für eine Veränderung das eben für Kultur schaffen.

00:19:04: Für Künstler eben auch bedeutet.

00:19:07: Lass uns vielleicht mal ein bisschen zum Business-Thema zurückkommen.

00:19:09: Gerne!

00:19:10: Sehr liebe irgendwie bei Kultur und Gesellschaft zu sprechen sind wir am Ende Donner und Podcast der sich hier auch um KI in der Arbeitswelt dreht.

00:19:17: Und dann gibt es irgendwie einen coolen Use Case über den ich gesteupert bin bei euch und zwar mit Klarna.

00:19:22: Kannst du einmal erklären was ihr für Klarna gemacht habt?

00:19:25: Ja, also für alle die die Klana vielleicht noch nicht kennen.

00:19:27: Klana ist eigentlich ein Bank oder eine finanzielle Institution über die man Erzahlungen weitestgehend abwickeln kann und Klana als Unternehmen global aktiv.

00:19:37: Und hat damit natürlicherweise sehr viele Support-Anfragen jeden Tag.

00:19:41: Was wir uns gesagt haben, ist dadurch dass Klana sehr digital auch aufgestellt ist.

00:19:45: Wir können im Grunde genommen den ganzen Standardsupport von Klana automatisieren mit was wir in den Eleven Labs Agents das sind Ja, Stimmen.

00:19:55: Klarer spezifische Stimmen die wir das Konto sperren können bei Betrugsverdacht oder die sagen können worum es sich bei einer Abrechnung handelt oder hier mit jedem anderen Support unterstützen können.

00:20:07: und das Tolle bei klarer ist.

00:20:09: der CEO ist Sebastian heißt er is sehr hands on und hat dann gesagt, lass uns doch einfach meine Stimme klonen.

00:20:15: Und ich mach ab jetzt den Kunden-Support für Klana weltweit!

00:20:20: Das haben wir ausgerollt.

00:20:21: und abgesehen davon dass das ein schönes Gimmick ist, dass der CEO einem jetzt unterstützt... ...ist es schon so, dass wir Millionen von Kundenzupport anrufen hier jeden Monat automatisieren bei Klana und dir ohne große Wartezeit oder irgendwelche drücken sie die Eins für das Menü weitergeholfen wird.

00:20:37: Und so können wir ja.

00:20:39: bei Klanah war's glaube ich achtzig Prozent Time to Resolution, Verringerung.

00:20:44: Krass!

00:20:45: Stell dich das mal vor Leute wenn ihr jetzt im Rathaus anruft oder irgendwas erfragen wollt und dann... Statt so einer Computer-Stimme beim Arbeitsabend habt ihr dann einfach keine Ahnung.

00:20:55: Wir gehen mal ganz nach oben, habt ihr mir einmal Friedrich Merz am Telefon mit dem ihr reden könnt und sagen könnt, wo ist mein Bescheid?

00:21:01: So Leute, Friedrich was machst du

00:21:03: da?!

00:21:04: Also ich find's ein super coolen Case dass du halt wirklich die Stimme des CEOs nimmst für Customer Support anfangen.

00:21:10: Ist total genial!

00:21:10: Also muss ich wirklich sagen...

00:21:11: Ist auf jeden Fall witzig.

00:21:13: Und irgendwie auch so'n bisschen die klarer Kultur, die man so kennt bei meinen klaren Kunden ist.

00:21:18: Also es gibt aber jetzt auch, wenn wir bei Friedrichsmerz sind.

00:21:22: Das ukrainische Government nutzen's auch.

00:21:24: Da hast du natürlich keine Silenski-Stimme oder so was, die dich unterstützt.

00:21:28: Aber da wäre zum Beispiel der Use Case extrem interessant!

00:21:31: Du rufst an und fragst einfach, wonach dir ist?

00:21:34: Ich will einen Unternehmen aufmachen.

00:21:36: Was muss ich

00:21:36: tun?!

00:21:37: Und dann ist das so mit allen Systemen verknüpft in der Ukraine, dass es dir nicht nur sagt was du tun musst.

00:21:43: Das ist der Prozess zur Unternehmensöffnung.

00:21:45: Sondern es brät dich auch, sagt die GmbH besser für das?

00:21:47: Die AG besser dafür das?

00:21:48: Einste Unternehmen für das!

00:21:50: By the way kann ich dir das per E-Mail schicken.

00:21:52: Dann sendet jetzt dir automatisch an die E-mail und das heißt du kannst ... Das war ein Beispiel bei der Unternehnensöffnungen.

00:21:58: Aber Tausende von administrativen Aufgaben mit der Regierung über Eleven Labs-Agenten machen in der Ukraine.

00:22:06: Das

00:22:06: trifft mich emotional, als jemand, der jetzt vor kurzem erst gegründet hat den Gang zum Notar gewagt und gesehen hat was das für ein bürokratischer Aufwand ist.

00:22:14: Gerade Deutschland!

00:22:15: Und wie teuer das auch alles ist?

00:22:17: Genau und dass du dann auch bei mir, ich investiere öfters mal im deutschen Unternehmen wenn ich dann sehe, dass wir teilweise neun Monate brauchen von Ich hab die Idee zu gründen so ich krieg meine Steuernummer Dann könnt ihr solche Agenten natürlich wahnsinnig schnell weiterhelfen.

00:22:33: Also, du müsstest natürlich dein System auch entsprechend anpassen.

00:22:35: Das ist das was wir immer in Deutschland sagen als ... Das wären eigentlich die Reformen, die wir bräuchten.

00:22:40: Nicht ein bisschen rumdockern an existierenden Systemen sondern einfach mal neu machen.

00:22:44: Aber dann würde das gehen und dann könntest du innerhalb von wenigen Minuten deinem Unternehmen eröffnet haben.

00:22:48: Das ist krass, dass der das in der Ukraine tatsächlich macht also das ein Land, das wirklich glaube ich das Bruttoinlandsprodukt von Hamburg hat oder so?

00:22:56: ja wenn ich richtig informiert bin und halt im Krieg steckt trotzdem in Sachen Digitalisierung einfach innovativer ist als wir als drittgrößte Volkswirtschaft der Welt.

00:23:06: Von der Ukraine Lernen heißt siegenlernen.

00:23:08: Leute zitiert mich gerne.

00:23:10: Es ist schon Irgendwo auch ein bisschen Armutszeugnis für Deutschland.

00:23:14: Aber wahrscheinlich liegt es daran, dass da halt auch viel Druck ist.

00:23:17: Wir sind in Deutschland sehr bequem geworden und wir tun uns wahnsinnig schwer mit Sachen.

00:23:22: In der Ukraine haben wir natürlich Druck durch die Kriegssituationen.

00:23:26: Ich war noch nie in der Ukraine aber wenn ich jetzt als Mann irgendwo an der Front stehen würde ... Und ich muss trotzdem irgendwie meine Steuererklärung abgeben usw.

00:23:36: Wie würde ich das machen in Deutschland?

00:23:39: Weiß ich nicht.

00:23:40: Wahrscheinlich ist das dem Druck geschuldet, dass es so schnell umgesetzt wurde?

00:23:44: Das finde ich schon.

00:23:45: als die Stimme von CEOs nehmen, um Kunden anfragen zu machen, find ich eine ziemlich smarte Sache.

00:23:51: Wie sichert ihr das ab?

00:23:54: Wir haben ja eine deutsche Audience und da ist die erste Frage natürlich, wie sicher das ist.

00:23:57: Also wenn der jetzt irgendwie Quatsch erzählt wird du hattest schon von der Versicherung für Stimmen gesprochen?

00:24:01: Es gibt ja diesen schönen... Das

00:24:02: sind die Versicherungen für alle Agenten!

00:24:04: Für alle Agenden okay Und es gibt aber dieses Beispiel ich glaube dass diese kanadische Airline die auch früher experimentiert hat mit AI Customer Support und dann relativ schnell Probleme bekommen hat weil jemand den Bot überlistet hat und gesagt hat ok ich hätte hier gern einen Freiflug oder irgendwie ein Rabatt oder irgendwas war da.

00:24:21: Ja und das wurde am Ende nicht genehmigt Und da hat auch ein Gericht.

00:24:24: Deshalb ist das Ding damals so viral gegangen, gericht entschieden Wenn eure Chatbots oder AI-Systeme auf der Website und im Customer Support gewisse Dinge von sich geben Dann sind die rechtssicher und dann wird sich daran gehalten.

00:24:36: Jetzt weiß ich aus meiner Beratertätigkeit dass large language Models niemals hundertprozentig korrekt sind.

00:24:42: Ja es gibt immer gewisse dinge wie prompt injection also dass man versucht durch Gewisse Eingaben gezielt einen Output zu erzwingen Der eigentlich gar nicht so in dem System vorgesehen ist ja immer wieder irgendwie auch virale Beispiele für die funktionieren.

00:24:55: Das heißt, so eine hundertprozentige Sicherheit existiert da doch gar nicht oder?

00:25:00: Ich frag mal so rum erstmal existiert die.

00:25:02: denn wenn ein Mensch das macht also auch da ich glaube wir kennen alle die die use cases wo wir ja weiß ich nicht einen flug wurde gestrichen oder sonst irgendwas dann hängen wir ewig in der wartisch lange und dann werden wir von einem Echt ein menschlichen, also von einem Menschen zum nächsten transferiert.

00:25:18: Und niemand hat einen Plan und jeder erzählt einfach irgendwas anderes.

00:25:20: Also es ist nicht so als würde der Kundensupport mit Menschen so arg viel besser funktionieren.

00:25:26: oft.

00:25:27: So jetzt muss man aber dazu sagen sind wir bei dem EU-Unternehmen Wir sind wahnsinnig stolz auf... die ganzen Zertifizierungen und die restriktionen, die wir uns selber aufbürgen als im Unternehmen.

00:25:39: Das fängt an mit GDPR-Compliance und EU-Serverhosting und so weiter, hört mit dieser Versicherung usw.

00:25:44: Dazwischen gibt's dutzende Zertifikate von allen Healthcareinstitutionen, Finanzzertifizeien, dass wir wirklich den breiten Raum sicher abdecken können was diese Agentsplattformarten geht und uns das durch die zertifiziert lassen.

00:25:58: So in ... Das ist jetzt in der Theorie.

00:26:02: In der Praxis ist es so, dass du ... wenn du einen Agenten baust, dir das vorstellen musst.

00:26:06: Dass es nicht den einen Agent gibt, der auf einmal alles macht.

00:26:10: Sondern du musst ganz viele kleine Subagenten vorstellen.

00:26:12: Wenn wir sagen, super Agent Max kriegt Kundeninformationen.

00:26:16: Super Agent Max II kriegt Billing-Information und Max III weiß ich nicht.

00:26:21: Flugdaten oder sowas.

00:26:22: Ja?

00:26:23: Und jeden eines dieser Subagenden connectest du mit anderen Systemen.

00:26:28: Das heißt, es ist auf keinen Fall so, ein Agent Zugriff zu allen Daten hat und haben kann.

00:26:34: Und so baust du dir deine Guardrails, du definierst dir unterschiedliche Guardrailes und sagst ganz genau das darf der Agent, das darf er nicht, dass darf er sagen oder nicht sagen und zu dem System verbinden usw.

00:26:46: Je genauer die Modelle werden, wir sind eine Research Company in den ganzen foundational models in Audio & Voice, die kommen von uns ... desto besser wird diese Erfolgsquote.

00:26:57: Und jetzt interagiert das natürlich nicht nur mit Voice-Modellen, sondern auch mit LLMs und

00:27:00: d.h.,

00:27:01: die Kombination von welchen Subagenten du mit welchem LLm benutzt plus mit welchen unserer Systeme und unserer Modelle sorgt dafür, dass du eine sehr hohe Erfolgskurte hast was sowas angeht.

00:27:13: Jetzt ist es so wie mit jedem Produkt, du musst das testen, du muss das orchestrieren usw.

00:27:19: Dafür wiederum hätten wir einen oder haben eine Testing-Plattform.

00:27:24: Du kannst wohl, bevor du live gehst testen als auch wenn du live bist, wenn der Kunde dann in Europa zugestimmt hat, existierende Konversationen analysieren und daraus richtige Schlüsse zu treffen, diesen Subagentenbaum besser zu orchestrieren, sodass eben diese Errorate nahezu null ist.

00:27:42: Und das sehen wir auch.

00:27:43: am Schluss endest du mit Null, null irgendwas Prozent Errorade.

00:27:47: Man darf ja nie vergessen ... Wir reden jetzt grade immer nur ... Agent AI versus menschlich, dass das auch im Einklang funktioniert.

00:27:56: Also ganz oft haben wir den News Case wo in ersten Schritt der KI-Agent dran ist, der dann für sich erst mal interpretiert was wird hier eigentlich nötig?

00:28:03: und für die Sachen die er gar nicht übernehmen kann?

00:28:05: oder weil weiß da, das ist kritisch, da müssen Menschen dran sein... Geht das sofort halt an den Menschen?

00:28:10: Genau, da gibt's diese typischen Sachen.

00:28:12: Also der Human in the Loop Ansatz also immer wenn so ein Agent sagt hey ich muss dir einen Gutschein rausgeben irgendwie Geld bezahlen oder irgendwas passiert hier gerade dass da irgendwo die Lampe angeht und dann Mensch nochmal mit seinem menschlichen Verstand drüber guckt und am Ende bestätigt ja du darfst dieses Rücksendetik erdrucken Ja Du darfst diese Überweisung tätigen usw.

00:28:30: Das Mensch- und Maschine irgendwie im Einklang arbeiten.

00:28:33: Auf deiner Seite sag' ich mal Wenn Menschen Fehler machen Dann kann man mit diesen Menschen sprechen.

00:28:38: Hey, das ist der Fehler bitte nicht nochmal machen.

00:28:41: Wenn Maschinenfehler machen sind die reproduzierbar in der Regel.

00:28:43: Dann kannst du wenn du einmal herausgefunden hast wie du so ein Chatbot Gutscheine entlocken kannst dann kannst du das ja theoretisch automatisieren einfach immer weiter machen bei Maschinnen und ja nicht im Grunde direkt daraus lernen.

00:28:53: Bis

00:28:53: die andere Seite das rausgefunden hat wird es ausgenutzt wird und natürlich sehr schnell eine Anpassung von nehmen

00:28:59: kann.

00:29:00: Du hast eine Sache gesagt, ihr seid eine Research Company.

00:29:03: Ihr forscht viel, ihr habt im Grunde die State of the Art Modelle was Voice angeht und daraus kreieren ja am laufenden Wandleute neue Use Cases.

00:29:14: Das sind gar nicht mal nur die, die irgendwie mit Stimmen arbeiten und irgendwie stimmten Klohren auch in Frautbereiche oder so.

00:29:23: Viele Start-ups, die ich gerade auch beobachte.

00:29:25: Die aus dem Boden springen, die zum Beispiel Customer Support Agents anbieten.

00:29:29: Die sind dann spezialisiert beispielsweise auf Hausverwaltung, auf Marklerbüros, auf Handwerker, Jobs, Arztpraxen

00:29:37: usw.,

00:29:38: die nutzen ja im Grunde alle eure Technologie und bauen darauf auf eben neue Cases.

00:29:46: Beobachtet ihr das?

00:29:47: Wie ist das, wenn man irgendwie dann tatsächlich so ein Player ist dass man sagt okay ihr eben mit eurer Technologie die Plattform für eine ganze Menge Startups die gerade aus dem Boden kommt?

00:29:55: steht ihr mit denen in Kontakt oder arbeitet ihr mit den auch zusammen?

00:29:58: wie ist da so die Zusammenarbeit mit euch.

00:30:00: Ja also erst mal wie es uns macht das natürlich stolz.

00:30:04: Viele sind sich gar nicht bewusst, wie groß dieser Markt ist.

00:30:07: Also im Grunde genommen alle ersten AI-Companies, die es so gab wurden ja damals auf OpenAI aufgebaut und da war dann immer irgendwie Chatchivity dahinter.

00:30:14: Und jetzt wo wir Richtung Voice gehen, ist auf einmal immer Eleven Laps dahinter und mittlerweile natürlich zu einem Ausmaß, wo wir auch mehrere Unternehmen als Kunden haben, die halt Milliarden bewertet sind, die auf unserer Technologie aufbauen.

00:30:27: Das heißt auf der einen Seite ist es cool zu sehen dass es Use Cases gibt manchmal auch sehr spezielle die wir gar nicht so abdecken können mit unserer großen weitgedachten Plattform für Spezial-Use Cases.

00:30:40: Jetzt muss man aber auch sagen, es gibt natürlich auch unsere Core Use Cases, das ist diese ganze Kundeninteraktions-Seite wo wir sagen müssen da lohnt es sich oft nicht einen anderen Player zu nutzen, da sind wir einfach selber die besten und auch von der Orchesterung her die Beste was dieses Sub ganz ganz kleinen use cases angeht.

00:31:00: Natürlich ist es momentan jetzt noch viel einfacher ein Startup zu benutzen, was weiß ich nicht.

00:31:06: Die Rezeption einer Arztpraxis dir einfach zu nutzen anbietet als jetzt ein neues System auf Eleven Labs aufzubauen.

00:31:13: aber auch da wir gehen jetzt mehr und mehr in Richtung einer App Store Logik wo du mit einem Click eigentlich auch diese Use Cases dann abdecken könntest.

00:31:21: Krass!

00:31:22: Ich finde, die Entwicklungen dahin gehen auch spannend weil ganz neue Use Cages gefunden werden mit der Technologie.

00:31:28: also ihr stellt die Technologie zur Verfügung und dann gibt's beispielsweise ich hatte das jetzt tatsächlich hab vielleicht auch schon mal darüber gesprochen aber ich muss es einfach nochmal erzählen irgendwie angerufen bei so ein Call Center Agent Und das war eine KI Stimme und das war auch klar als so eine zu identifizieren.

00:31:44: und wenn sich dann irgendwann meine Daten angegeben hat dann hatte sie gesagt ja da musst sich mal nachschauen.

00:31:49: und dann kam so ein Einspieler von Tastatur klicken.

00:31:53: Mir war bewusst, das ist eine KI die jetzt gerade im Reasoning-Prozess ist also offenbar irgendwie überlegt was sie als nächstes antwortet.

00:32:00: Das wurde überbrückt mit so einem Einspieler von dem Tastaturklicken, was ich so geil fand.

00:32:06: Da ist mein User Experience Herz kurz stehen geblieben muss ich sagen weil ich finde es einfach genial.

00:32:12: sind das so Cases wo ihr auch Advice für gibt und sagt ja wenn ihr so ein Voice Agile mit uns aufsetzt dann gibt's diese Best Practices.

00:32:18: die könnt ihr nutzen.

00:32:19: oder kennst du vielleicht noch andere coole Beispiele wie hier?

00:32:22: umgesetzt wird?

00:32:23: Ja, also das ist natürlich jetzt ein super Use Case wo du das mal demonstriert.

00:32:27: Es gibt viele Kunden die aber auch sagen wir wollen das gar nicht.

00:32:30: muss man dazu sagen ja aber Jetzt sind wir wieder bei unseren Modellen.

00:32:33: Wir haben natürlich auch einen Sound Effect Modell.

00:32:35: Das heißt Du kannst dann in dem Master Prompt eines Agenten eingeben in so Klammern dahinter Ich hätte gerne Tastatur-Tippen oder Moment.

00:32:42: ich rufe mal kurz beim Kollegen an und dann hörst du so wie der mit einem Kollegen redet.

00:32:46: dabei redet er gar nicht mit dem Kollegen.

00:32:47: Also du kannst da super kreativ und flexibel sein weder Sound-Infekte einbinden.

00:32:53: Ähm, ich glaube aber ... wenn wir noch mal bei diesem Use Case Thema bleiben... Es ist ganz oft so, dass wir mit Unternehmen anfangen zu arbeiten meistens mit Kundensupportlösungen und die dann schnell realisieren, das kann auch gut sein für Training oder den Use Case.

00:33:09: Und einen spannenden den hab ich erst letztens in Barcelona erlebt mit der Deutschen Telekom.

00:33:15: Mit dem haben wir auch ganz klein angefangen.

00:33:16: Am Anfang war die Idee, lass doch einfach mal Dem Groh der Leute, die die Magenta App nutzen.

00:33:22: Die Möglichkeit bieten selber ihre eigenen Podcasts zu erstellen über den Start oder ein kleiner Use Case.

00:33:28: Dann ist das reingewandert in natürlich Kunden-Support.

00:33:31: Das du mittlerweile mit sehr vielen... Also ich glaube auf der App aber dann bald auch telefonisch ...mit Eleven Labs eben agierst als magenter Kundensupport?

00:33:40: Mittlerweile ist aber das nächste Projekt, dass wenn du Chinesisch sprichst und die andere Person nur Deutsch, dass du die chinesisch-sprechende Person auf Deutsch hörst.

00:33:49: Und zwar in der Phoneverbindung.

00:33:52: Wenn du mich jetzt anruhst und andere Sprache sprichest als ich höre ich dich trotzdem in meiner nativen Sprache.

00:33:58: Ja.

00:33:59: So kommen diese Unternehmen natürlich mit wahnsinnig vielen ... Neuen Ideen, die sie dann versuchen zu implementieren.

00:34:06: Ich finde das ist ein besonderes Coole.

00:34:07: Ein anderer Cooler auch bei der Deutschen.

00:34:09: Ja, das ist ja biblisch.

00:34:10: Turmbau zu Babel oder nicht?

00:34:12: Jeder Mensch versteht jeden auf der Welt ohne eine Fremdsprache lernen zu müssen.

00:34:16: Also es ist wirklich ein biblischer Use Case!

00:34:21: Klar und... Auch das hat noch seine Tücken ne?

00:34:24: Die Latency ist noch nicht ganz optimal also du musst noch ein bisschen warten.

00:34:27: Ist nicht komplett... real-time, real time.

00:34:30: Aber diese Latency wird immer besser und besser.

00:34:32: Und dann hast du das wirklich keine Sprachbarrieren mehr?

00:34:36: Würdest du deinen Kindern ... Ich weiß nicht ob du Kinder hast, aber würdest du noch raten, Fremdsprachen zu lernen?

00:34:42: Also aus Interesse her würde ich das immer raten.

00:34:44: Ja.

00:34:45: Aber ich glaube nicht dass es noch gebraucht wird.

00:34:48: Und ich zum Beispiel vor Eleven Labs habe ich für einen Private Equity vorgearbeitet der Französisch war Und es ist ja schon so, dass die Franzosen sehr ungern Englisch reden oder andere Sprachen.

00:34:57: Es war wirklich eine große Herausforderung.

00:34:59: mit der Language Barriere und boy hätte ich mir manchmal in Online-Meetings oder allen Arten von Meetings so ne Art Übersetzer gewünscht, wo einfach die Kommunikation auch die Tonationen und die Kultur, die du immer mitgetragen würde.

00:35:14: Sagt man ja auch gern als Standortnachteil für die Europäische Union das einfach englisch hier nicht soweit verbreitet ist?

00:35:19: Genau.

00:35:21: Das Tolle an diesen Modellen Wir kennen alle diese ursprünglichen Google Translate-Übersetzungen und so weiter.

00:35:27: Irgendwas stimmt da immer nicht usw.

00:35:29: Aber mittlerweile ist es nicht nur, dass die Übersetzung wahnsinnig echt sind sondern auch, dass auch die Emotion, die mitgeliefert werden soll Wahnsinnig echt ist.

00:35:37: Und wenn wir dann eben ja bis jetzt Agenten sind oder übersetzte Nachrichten oder so weiter hören Es geht halt genau auf das ein wo du herkommst emotional Bist du sauer?

00:35:46: Dann reagiert die andere Seite lieb und besorgniser, besonders befürwortend und nicht unterstützend.

00:35:55: Also Emotion spielt mittlerweile auch eine wichtige Rolle bei diesen Modellen.

00:35:59: Ja aber könnt ihr Emotionen auch erkennen?

00:36:01: also dass wenn da jetzt jemand im Kastmasupport anruft und irgendwie richtig sauer ist oder so?

00:36:07: Das ist ja eigentlich der nächste Schritt das man das dann raushört oder nicht

00:36:10: genau können wir können wir auch entsprechend interagieren, entweder mit dem Agenten oder direkt eskalieren an den Menschen.

00:36:18: Wie ist das?

00:36:19: Ich glaube der AI Act tritt jetzt im August in Kraft und da gibt's ja unter verbotenen Systemen die sind seit Februar schon intakt.

00:36:27: Da gibts glaub ich auch diese Emotionserkennung am Arbeitsplatz.

00:36:29: also was man dann irgendwie hin- und wieder hört dass da geguckt wird wie happy bist du in deiner Arbeit und wird mal hin und wieder ein Screenshot gemacht oder geguckt in einer Kamera was für Emotion hast du vielleicht in der Stimme Könntet ihr rein theoretisch machen, aber da ist doch Europa dann eigentlich nicht der Markt für?

00:36:45: Nee.

00:36:46: Der AI-Act unterteilt ja auch in unterschiedliche Bereiche, ne?

00:36:49: Also ich ganz leihenhaft gesagt in unkritische, mittelkritische und hochkritische Bereiche.

00:36:54: Hochkritische vielleicht Healthcare oder sowas.

00:36:57: Und das ist erst mal so.

00:36:58: die Grundlage, die definiert, wie weit darf deine KI überhaupt gehen?

00:37:04: Jetzt ist es für uns ganz klar, dass in einem Healthcare-Bereich oder anderen hochkritischen Bereichen wir sehr restriktiv sein müssen mit der Technologie und wie sie von unseren Kunden angewendet werden darf.

00:37:13: Dagegen im unkritischen Bereich müssen natürlich die Mindestanforderungen erfüllt sein, Aufklärung das du mit einer KI redest usw.

00:37:20: Aber da sind wir aktiv drin so einschränken, dass es auch dem KI entspricht.

00:37:26: Glaubst

00:37:26: du das wird ein Dauner?

00:37:27: Wenn dann im August jede Versicherung, jeder Hausverwaltung

00:37:30: usw.,

00:37:31: die man anruft am ersten Mal sagt hey, Disclaimer!

00:37:34: Du redest erst mal mit einer KI wenn du damit einverstanden bist und sie sagen ja oder nein oder wie auch immer.

00:37:40: Das Leute darf vielleicht eher schon opt out nehmen und sagen nee, mit einerKI reden gar keinen Bock obwohl's ihnen unter Umständen nicht aufgefallen wäre, wenn die da das Klammer nicht dagewiesen.

00:37:48: Wer glaubst du, das würde den Markt noch einmal ein bisschen einschrinken?

00:37:53: Ich glaub, ja.

00:37:54: Also ich glaube es ist auch jetzt schon dauernd, wenn du beim Kunden Support anrufst und ... dann wird dir erst mal fünf Minuten irgendwas vorgelesen?

00:38:01: Ja, ja!

00:38:03: Ich versteh wo die EU, das sind ja meistens EU-Norme, wo die herkommt damit.

00:38:07: Aber ich glaube, es ist niemandem geholfen mit der Art und Weise wie's gemacht wird.

00:38:13: Schon jetzt nicht.

00:38:15: Es wird spannend zu sehen, wo's in der Zukunft hingeht, auch Richtung AI Act.

00:38:19: Ich glaube es soll trotzdem nicht davon abhalten regulatürisch so gut aufgestellt sein müssen, dass eben kein Schmuck betrieben wird.

00:38:27: Ja

00:38:29: und ja.

00:38:29: aber jetzt haben wir genug Beispiele in der EU wo man sagen muss das ist nicht hilfreich.

00:38:36: oder jetzt mal ganz Vor zehn oder für fünfzehn Jahren, als ich noch studiert habe ... hab ich mal einen kleinen Rechtsstreit mit der Deutschen Bahn bekommen.

00:38:44: Weil ich mein Ticket einlaminiert hatte, was ich sechs Wochen nutzen musste, um zum Praktikum nach Frankfurt zu pendeln und irgendwo auf Seite dreihundertundachtzig in den AGB der Deutschen Bahnen standen, dass man seinen Ticket nicht erlaminieren darf.

00:38:55: Da muss man halt schon sich irgendwann mal fragen ist es denn einem Line wie uns?

00:38:59: Noch zumutbar vor einer Bahnfahrt siebenhundert Seiten AGB zu lesen und zu verstehen, um perfekt anwenden zu können.

00:39:07: Und ich glaube, da sind wir wieder ein bisschen zu europäisch.

00:39:12: Es muss irgendwie auch noch anwendbar sein.

00:39:14: Ja,

00:39:14: ja ...

00:39:15: Was deine andere Frage angeht ist es ein Dauner?

00:39:17: Aber es ist natürlich auch ein Dauna, wenn du vierzig Minuten der Warteschlange bist und wir sehen dabei vielen Kunden Drop-off Raten von seventy-fünfzig Prozent von Leuten, die halt irgendwann einfach auflegen.

00:39:29: Wenn ich dann die Wahl habe zwischen Ich hol mir eine Minute irgendwas an zum AI Act Ich persönlich würde, glaube ich eher den Erjagt wählen.

00:39:38: Ja das ist richtig.

00:39:39: Das sehe ich genauso und vor allem wenn dann die Stimme Friedrich Merz ist und er sagt, wann man seinen Bescheid bekommt.

00:39:47: Golland vielen Dank dass du hier warst bei uns und geil.

00:39:50: Max,

00:39:50: ich danke dir!

00:39:51: Es hat Spaß gemacht.

00:39:52: Vielen lieben Dank.

00:39:52: bis dann, mach's gut.

00:39:53: Bis dann.

00:39:54: Ciao

00:39:57: Ja, liebe Leute!

00:39:58: Ich kündige es einfach mal an.

00:40:00: Ihr hört jetzt gerade hier nicht meine echte Stimme sondern sie ist geklont mit Eleven Labs und ich habe einfach eingegeben was ich sagen möchte und das was ihr jetzt hört ist im Grunde genau das Ergebnis.

00:40:10: Ich finde es irgendwie ziemlich fancy dass das funktioniert und darf das natürlich machen weil ich die Rechte an meiner Stimme habe und im Grund auch das ganze Freigabe für Eleven Labs.

00:40:19: Konzent ist Und jetzt bleibt mir noch übrig, meine KI-Stimme aufzufordern mit meiner lieben Kollegin einmal darüber zu sprechen.

00:40:27: Das ist so absurd wie sie denn eigentlich die Folge fand!

00:40:31: Liebe Kolleginnen kannst du mir die Folge vielleicht einmal in zwanzig Sekunden

00:40:35: zusammenfassen.".

00:40:36: In der Folge ging es um Voice Cloning mit KI – von den Anfängen über ethische Fragen bis hin zu Business Use Cases.

00:40:43: Es ging um Sicherheitsmaßnahmen, lizenzierte Stimmen und Zukunftsvisionen wie Echtzeitübersetzung.

00:40:48: Und ganz ehrlich?

00:40:49: Das hat für mich fast wie der echte Max geklungen.

00:40:52: Ich hätte es nicht gemerkt.

00:40:55: Danke dir, klar sagst du das!

00:40:57: Ja Leute ist es verrückt was möglich ist.

00:40:59: hier ist der echten Max wieder.

00:41:00: Hi Der KI-Max hat jetzt Sendepause.

00:41:03: Es ist krass also wirklich dreißig Sekunden einfach meine Stimme aufgezeichnet und dann Sachen in den Textfeld eingegeben und zack war das Ding da.

00:41:11: Es gibt natürlich noch Regler an denen man rumstellen kann wie die Geschwindigkeit, Stabilität Wie ähnlich das Ganze zu der Aufnahme auch klingen soll und das geht mit Sicherheit auch noch deutlich besser.

00:41:22: Ich habe das erst mal in den Standard-Einstellungen gelassen, ohne mich wirklich tiefer damit zu befassen aber da geht eine ganze Menge und es ist spannend zu sehen wie Tools sich entwickeln was da tatsächlich alles möglich ist und auch um so besser zu sehen wenn sich Unternehmen tatsächlich auch Gedanken drüber machen wie das Ganze genutzt bzw ausgenutzt werden kann.

00:41:42: ich glaube zumindest nach dem Gespräch heute mit Gordian ist da Eleven Labs auf einem guten Weg.

00:41:48: Wir werden das weiter beobachten, am Ende des Tages muss man auch sagen liegt es an uns wie wir diese Technologie benutzen und ich glaube da können wir jeder für uns selbst auch mal in uns gehen und fragen was ist eigentlich okay?

00:42:01: Was ist unsere eigene Grenze?

00:42:02: Und es ist wichtig darüber auch zu sprechen.

00:42:06: haben wir hiermit getan?

00:42:07: vielen Dank fürs Zuhören diese Woche!

00:42:09: Wir sprechen uns nächsten Dienstag wieder oder Freitag zur Snackbox Folge.

00:42:13: kommentiert gerne wenn ihr Fragen habt folgt diesem Podcast, abonniert ihn und ansonsten bis dahin.

00:42:19: Macht's gut!

00:42:25: Ciao ciao!

Shownotes

Transkript anzeigen

Neuer Kommentar