Schwiizertüütsch transkribieren – Töggl im Test

Schwiizertüütsch transkribieren – Töggl im Test

David Lee
Zürich, am 18.01.2022

Der Webdienst töggl.ch soll schweizerdeutsche Dialekte verstehen und verschriftlichen können. Keine leichte Aufgabe. Ich habe ausprobiert, wie gut das funktioniert.

Du sprichst, die Software schreibt es auf. Das kennst du mittlerweile vom Smartphone und es funktioniert im Vergleich zu früher gut. Aber nur mit Hochsprache, nicht mit Dialekten. Pech für die Schweiz, wo fast nur Dialekt gesprochen wird, auch bei offiziellen Anlässen wie Festreden oder Gemeindeversammlungen. Und in Youtube-Videos. Unsere Videos müssen momentan von Hand untertitelt werden, damit sie auch ausserhalb der Deutschschweiz verständlich sind.

Der Webdienst Töggl verspricht die Lösung: Er kann Schweizer Dialekte transkribieren. Bevor du jetzt gleich wegklickst, um es auszuprobieren: Töggl ist nicht gratis. Jede Minute Schweizerdeutsch kostet einen Franken. Hochdeutsch und französisch Gesprochenes kostet halb so viel wie Schweizerdeutsch. Rätoromanisch kann Töggl auch, das kostet gleich viel wie Schweizerdeutsch. Zum Start bekommst du ein Guthaben von zehn Franken geschenkt.

Ich beschränke mich in diesem Beitrag auf das Schweizerdeutsche. Werden unsere Untertitler:innen bald wegrationalisiert?

Vor der Transkription

Zur Registrierung sind nur Personen mit Wohnsitz in der Schweiz zugelassen. In den AGB steht, dass Kunden mit Töggl keine Daten verarbeiten dürfen, auf welche die Datenschutz-Grundverordnung der EU (DSGVO) anwendbar ist. Für Unternehmen, die ihre Inhalte Kunden in Deutschland zugänglich machen wollen, kommt Töggl daher nicht in Frage. Töggl richtet sich an Privatpersonen, Journalisten und Studenten.

Vor der Transkription gibst du an, um welche Sprache es sich handelt. Es muss kein Dialekt wie Berndeutsch oder Walliserdeutsch angegeben werden, Schweizer Dialekt genügt als Angabe.

Ebenfalls nötig sind ein paar Angaben zu Aussprache und Aufnahmequalität. Die Macher von Töggl betonen, dass die Qualität der Ergebnisse stark von diesen Faktoren abhängt und geben Tipps für die Aufnahme. Bei einem Video mit mehreren Personen und Szenen sind diese Fragen aber nicht immer eindeutig zu beantworten.

1557de2784161fa9d4c0a249d095eb08359deda32b0e9515da2439c2a4235deb

Der Editor

Der transkribierte Text kann in einem Editor nachbearbeitet werden. Das ist auch dringend nötig, wie du gleich sehen wirst.

Wenn die sprechende Person wechselt, beginnt ein neuer Abschnitt mit Timecode, sodass du die Stelle direkt hören kannst. Ein Doppelklick auf eine Textstelle startet ebenfalls den Ton an der entsprechenden Stelle. Die Geschwindigkeit ist sehr fein von 0,1-fach bis 3,5-fach wählbar.

Der fertig bearbeitete Text kann als Text- oder Word-Datei und in den verschiedensten Untertitelformaten exportiert werden. So weit, so gut.

1557de2784161fa9d4c0a249d095eb08359deda32b0e9515da2439c2a4235deb

Video mit Personen-Umfrage

Die erste Aufgabe: Töggl soll dieses digitec-Video untertiteln. Kollege Simon schlüpft in die Rolle eines Lokal-TV-Reporters und deckt gnadenlos auf, dass nicht einmal unsere eigenen Mitarbeitenden den digitec-Instagram-Account abonniert haben.

In diesem Video kommen viele verschiedene Personen vor. Die Unterteilung des Textes nach Sprechenden wäre daher sehr nützlich. Allerdings funktioniert die Erkennung nicht zuverlässig. Im zweiten Block sprechen fünf Leute, vier davon sind vom Klang der Stimme her problemlos auseinander zu halten. Töggl verwurstet das alles zu einem einzigen Textbrei. Zum Beispiel schätzt der eine Sprecher die Anzahl Follower auf «zwei Millionen», worauf die Frau neben ihm «250 000» sagt. Töggl macht daraus die Zahl «2 250 000», berücksichtigt also nicht, dass zwei verschiedene Personen mit völlig verschiedenen Stimmen gesprochen haben.

1557de2784161fa9d4c0a249d095eb08359deda32b0e9515da2439c2a4235deb

Später spricht eine Person Hochdeutsch, es wird also sogar die Sprache gewechselt – und selbst da wird kein neuer Absatz erzeugt.

Bei Minute 2:37 teilt Töggl dafür Simons Rede mitten im Satz einem neuen Sprecher zu. Der Grund ist vermutlich, dass im Hintergrund Applaus eingespielt wurde. Die Sequenzierung orientiert sich eindeutig nicht an den Stimmen, sondern an den Umgebungsgeräuschen.

Die Qualität der Transkription hinterlässt einen zwiespältigen Eindruck. Ohne Nachbearbeitung ist der Text unverständlich. Das liegt zum einen an der fehlerhaften Sprecher-Separierung. Ein weiterer Grund ist, dass es bei der Spracherkennung einige Fehler und vor allem viele Lücken gibt. Die Software lässt Wörter und Satzteile, die sie nicht versteht, einfach aus. Das führt zu komplett sinnlosen Sätzen und erschwert auch die Nachbearbeitung. Es wäre hilfreich, wenn Töggl unverständliche Stellen mit so etwas wie [[unverständlich]] kennzeichnen würde.

Das Quellenmaterial ist nicht einfach: Der Ton enthält Zwischenrufe, unvollständige Sätze, englische Ausdrücke und unterschiedliche Aufnahmeszenarien mit mehr oder weniger Hintergrundgeräuschen. Simon spricht jedoch langsam und deutlich.

Merkwürdig scheint mir, dass das Wort «Follower» jedes Mal anders transkribiert wird, wenn er es ausspricht:

  • korrekt als «Follower»
  • Flower
  • von Owen
  • vor
  • gar nicht (weggelassen)

Ähnlich bei digitec.ch: Das heisst mal digitec.ch, mal digi.ch und einmal dete.ch.

Gespräche und Interviews

Beim nächsten Test sind nur zwei Personen beteiligt und es gibt keine Schnitte. Dafür ist die Aufnahmequalität ziemlich schlecht. Bei Interviews dürfte diese Art von Audio sehr häufig sein. Hier handelt es sich um ein Gespräch mit einem Innerschweizer Maskenschnitzer, das Kollegin Caro mit dem Smartphone aufgezeichnet hat.

Das Gespräch dauert über eine Stunde, das wären über 60 Franken Transkriptionskosten. Geizig wie ich bin, habe ich nur zwölf Minuten davon auf Töggl hochgeladen. Für einen ungefähren Eindruck ist das mehr als genug.

Töggl macht aus den zwei Personen acht. Durchgängige Reden werden zerteilt, zum Teil mitten im Satz. Woran das liegt, ist mir unklar; das ganze Gespräch fand im gleichen Raum statt.

Dieser Test offenbart ein neues Problem, das aber nichts mit Töggl zu tun hat – es ist eine generelle Schwierigkeit beim Verschriftlichen von Gesprächen.

Ja, die haben sich sofort bereit erklärt also, es ist dann doch noch einiges an finanzieller Aufwand hat das bedeutet und ähm auch die Räumlichkeiten wo jetzt nicht mehr zur Verfügung stehen für das Rathaus.

Diesen Satz hat Töggl richtig transkribiert; der Mann hat ihn Wort für Wort so gesagt. Aber er ist unverständlich. Praktisch niemand spricht druckreif, schon gar nicht in Dialekt. Beim Sprechen machen wir oft nur halbe Sätze, fangen neu an, vermischen zwei Gedanken miteinander usw. Ganz zu schweigen von den vielen Ähms und holprigen Formulierungen. Mündlich ist das so normal, dass es uns nicht auffällt. Erst bei der wörtlichen Transkription stört es.

In Interviews ist das ausgeprägter als in Videoclips. Die Interviewpartner:innen reden freier, nicht mit vorher zurechtgelegten Sätzen. Es sind in der Regel auch keine Medienprofis. Mündliche Interviews müssen meist massiv umgeformt werden, damit sie leicht verständlich und angenehm zu lesen sind.

Hier noch ein Beispiel. Die Transkription ist nahe am Gesagten. Trotzdem wären diese Textbrocken ohne Ton völlig unverständlich.

Monologe

Kommt Töggl besser zurecht, wenn nur eine Person spricht? In guter Aufnahmequalität und mit vollständigen Sätzen? Um das zu testen, verwende ich die ersten zwei Minuten aus Phils Review der PlayStation 5.

Auch in diesem Fall ist das Resultat unverständlich. Die Fehler können ohne Abhören des Tons nicht korrigiert werden. Das ist enttäuschend, denn hier war die Aufgabe deutlich einfacher.

Das heisst, Pech kann der könnt ihr noch nicht gerade wo wir brauchen, wenn ihr eure PSA-Brille wollen, brauchen dazu dann müsst ihr Plagen, sondern auch Daten bestellen der Gratis aber der ist nicht dabei und sonst können sie nicht brauchen.

Vielleicht ist es dir schon oben beim Maskenschnitzer aufgefallen: Töggl schreibt zwar hochdeutsche Wörter hin, es übersetzt aber den Dialekt nicht. Schweizerdeutsche Redewendungen oder grammatikalische Besonderheiten werden Wort für Wort transkribiert, auch wenn sie auf Hochdeutsch nicht korrekt sind. Das Ergebnis ist ein unbeholfenes Pseudo-Hochdeutsch.

Schweizerdeutsch: «[die Variable Refresh Rate], wo ebe macht, dass es kei Bildstörige git»
Töggl: «[die Variable Refresh Rate], wo eben macht das keine Bildstörungen gibt»
Hochdeutsch: «[die Variable Refresh Rate], die eben macht, dass es keine Bildstörungen gibt»

Anderes Beispiel:

Schweizerdeutsch: «de quere Weg hiistelle»
Töggl: «den Queren weg hinstellen»
Hochdeutsch: «quer hinstellen»

Nachbearbeitung

Automatisch transkribierte Texte müssen fast immer nachbearbeitet werden. So läuft es auch mit automatischen Übersetzungen. Diese dienen als Rohfassung, die von Hand den letzten Schliff erhalten. Das geht schneller, als einen Text komplett manuell zu übersetzen.

Die Frage ist nun: Wie viel Zeit spare ich, wenn ich eine Töggl-Transkription überarbeite im Vergleich zu einer Transkription ohne Software-Hilfe? Ich transkribiere je zwei Minuten von Phils Review mit und ohne Töggl und vergleiche die Zeit.

Ergebnis: Ich brauche 20 Minuten, um den Töggl-Text halbwegs verständlich zu machen. Gut ist der Text damit noch lange nicht. Er weist immer noch unbeholfene Formulierungen und auch ein paar kleine Fehler auf.

Für die zweiten zwei Minuten, vollständig manuell transkribiert, brauche ich 17 Minuten. Es dauert nicht nur schneller, die Textqualität ist auch höher. Dies, obwohl dieser Teil des Reviews schwieriger zu transkribieren ist. Er geht mehr ins Detail, mit schwierig zu erklärenden Dingen zur Bedienoberfläche. Dazu kommen Game-Namen, die ich nicht kannte.

Der Hauptgrund: Es fällt mir leichter, einen Satz von Beginn weg richtig hinzuschreiben, als einen falschen Satz zurechtzubiegen. Wenn ich einen Satz zuerst höre und dann niederschreibe, kann ich ihn auch gleich korrekt ins Hochdeutsche übersetzen, was die Qualität im Vergleich zum Töggl-Text stark erhöht.

Ein Grund ist aber auch, dass ich mit dem Editor anfangs nicht zurecht komme. Ein Doppelklick auf das Wort, das ich korrigieren möchte, setzt die Tonaufnahme gegen meinen Willen fort, und ich kenne die Tastenkombination zum Anhalten noch nicht (Alt-K). Ich probiere es deshalb ein zweites Mal mit den nächsten zwei Minuten. Ergebnis: 19 Minuten Arbeit und der Text liest sich besser, obwohl Phil in diesem Teil viele Halbsätze macht.

Dennoch ist klar: Das Töggl-Transkript bietet keine Zeitersparnis, um zu einem finalen, einwandfreien Text zu kommen. Muss der Text nicht korrekt, sondern nur knapp verständlich sein, gelangst du mit dem automatischen Skript etwas schneller ans Ziel.

Fazit

Es klingt widersprüchlich: Ich bin beeindruckt davon, was Töggl kann, halte den Dienst aber trotzdem für kaum brauchbar.

Die Aufgabe, die sich die Macher von Töggl gesetzt haben, ist extrem schwer. Schon die Spracherkennung an sich ist eine Herausforderung. Etwa das Erkennen von Wortgrenzen – beim Sprechen machen wir keine Pause zwischen den Wörtern. Weiter erschwert wird sie dadurch, dass Schweizerdeutsch weder eine einheitliche Aussprache noch ein einheitliches Vokabular hat. Die Übersetzung ins Hochdeutsche wäre nochmals eine Aufgabe für sich, die Töggl gar nicht erst versucht. Töggl produziert kein Hochdeutsch, sondern Schweizerdeutsch mit hochdeutsch geschriebenen Wörtern.

Der Web-Editor zum Korrigieren ist gut. Trotzdem sparst du gegenüber einer manuellen Transkription keine oder nur wenig Zeit. Ein Grund dafür ist, dass Töggl unverstandene Wörter und Satzteile einfach weglässt. Das macht es schwierig, sich im Text zu orientieren.

In meinen Tests war die Qualität bei guter Aufnahmequalität nicht wesentlich besser. Nie war das Ergebnis so gut, dass ich den Text ohne Ton verstanden hätte.

Wirklich enttäuschend finde ich, dass Töggl die Stimmen nicht auseinanderhalten kann und einen unverständlichen Textbrei produziert, wenn zum Beispiel ein Mann und eine Frau sprechen.

Selbst wenn Töggl besser funktionieren würde: Aufgrund der AGB ist eine gewerbliche Nutzung kaum möglich. Und für den privaten Einsatz ist der Dienst schlicht zu teuer.

Die wo bi eus d Videos untertitled, händ im Moment nüt z befürchte.

21 Personen gefällt dieser Artikel


David Lee
David Lee

Senior Editor, Zürich

Durch Interesse an IT und Schreiben bin ich schon früh (2000) im Tech-Journalismus gelandet. Mich interessiert, wie man Technik benutzen kann, ohne selbst benutzt zu werden. Meine Freizeit ver(sch)wende ich am liebsten fürs Musikmachen, wo ich mässiges Talent mit übermässiger Begeisterung kompensiere.

Computing

Folge Themen und erhalte Updates zu deinen Interessen


Diese Beiträge könnten dich auch interessieren

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader