Tipps fĂĽr Trint als Transkriptionshilfe

📝 Maximilian Röttgen, — 6 Minuten Lesezeit

Hachja, irgendwas mit Sprache studieren. Dabei fallen praktisch jedes Semester Hausarbeiten, oft mit Interviewstudien oder anderen empirischen Tätigkeiten an. Und wo Interviewstudien sind, ist das mühselige Transkribieren („Abtippen“) der Gespräche nicht weit. Eine Arbeit, die Zeit kostet, (zumindest mir) wenig Erfüllung bringt und noch dadurch erschwert wird, dass man dabei nicht einmal Musik hören kann.

Wenn es doch nur etwas gäbe, was einem die Transkription abnehmen (naja, zumindest erleichtern, wie wir gleich sehen werden) könnte… Ach, das wäre schön.

Auftritt Trint permalink

Record scratch, Schnitt auf einen sympathischen, preisgekrönten und auch kanadischen Reporter, der einmal ein ähnliches Problem hatte.

Jeff(rey) Kofman steht mit verschränkten Armen und schaut investigativ

Jeff Kofman (links im Bild) hatte irgendwann einfach keine Lust mehr, seine Interviews noch wie in den 80ern von Hand tippen zu müssen. Mit der Hilfe eines kleinen Teams und sehr viel KI-Voodoo ist kurze Zeit später ein automatisierter, KI-gestützter Transkriptionsservice entstanden, der aus Gesprächsaufnahmen Transkripte zimmert.

Geöffnetes Demoprojekt in Trint Web-Applikation auf einem Macbook und Bild der Trint App auf einem iPhone

In den nächsten paar Absätzen berichte ich, wofür Trint meiner Meinung nach taugt, wofür nicht und wie man generell das beste aus der Nummer rausholt.

WofĂĽr lohnt sich Trint? permalink

Gleich vorweg – Trint ist nicht kostenlos. Ganz im Gegenteil, der SpaĂź kostet eine ordentliche (wenn auch steuerlich absetzbare[1]) Stange Geld. FĂĽr 55 â‚¬ darf man einen Monat lang den Trint-Editor nutzen und sieben Dateien (quasi beliebiger Länge) transkribieren lassen. Braucht man mehr Dateien oder will weitergehende Funktionen, z. B. Kollaboration oder Ă„hnliches nutzen, muss man tiefer in die Tasche greifen.

Folgende Bedingungen sollten meiner Meinung nach erfĂĽllt sein, damit sich das Geld lohnt:

  1. Man hat viele lange Gespräche zu transkribieren
  2. Die Aufzeichnungen sind von akzeptabler Klangqualität (mehr dazu gleich)
  3. Es gibt wenig Stellen, an denen sich die Sprecher:innen ĂĽberlappen
  4. Alle Sprecher:innen sprechen halbwegs Hochdeutsch
  5. Der Großteil der Äußerungen ist wohlüberlegt und bildet sinnvolle Sätze

Während die ersten drei Punkte vermutlich jedem einleuchten, sollte ich 4. und 5. vermutlich kurz erklären:

Bei meiner Arbeit mit Trint habe ich festgestellt, dass die automatische Transkription am fehlerfreisten und komfortabelsten funktioniert, wenn die Gesprächsteilnehmer:innen korrektes Deutsch in möglichst vollständigen Sätzen sprechen. Unterbricht sich ein:e Sprecher:in oft, fängt ständig mitten im Satz einen neuen Gedanken an oder redet mit einem starken Akzent oder Dialekt, dann arbeitet Trint wesentlich schlechter als ein Mensch.

Was man so oder so für sein Geld bekommt ist den echt brauchbaren Editor[2] von Trint. Dessen bestes Feature ist für mich, dass man beim Klick auf ein Wort an die entsprechende Stelle der Audiodatei springen kann – zumindest bei den Passagen, die von Trint selbst transkribiert wurden. Bei korrigierten Passagen funktioniert das leider nicht ganz so zuverlässig. Zusätzlich ist es für Leute, die große Angst vor dem leeren Blatt Papier haben sicherlich eine Hilfe, dass zumindest schonmal irgendwas da steht. Zwar muss man je nachdem, wie die Kriterien oben zutreffen, ordentlich nachbessern aber der Anfang ist gemacht.

Die automatische Transkription mit Audacity verbessern permalink

Wie ich (leider etwas zu spät) bemerkt habe, kann man selbst bei guten Aufnahmen mit ein bisschen „Preprocessing“ wesentlich bessere Ergebnisse bei der automatischen Transkription erzielen. Ich konnte damit sogar ein paar Interviews retten, bei denen ich ursprünglich dachte, ich müsste sie wegen der schlechten Aufnahme wegwerfen.

Basierend auf meinen Erfahrungen, wĂĽrde ich folgende Schritte in Audacity (oder dem Audioprogramm der Wahl) empfehlen, bevor man mit der automatischen oder manuellen Transkription loslegt:

  • Komprimieren, Verstärken, Normalisieren: Besonders, wenn einer der Sprecher:innen besonders leise gesprochen hat, oder aus anderen GrĂĽnden der Pegel stark unterschiedlich ist, kann man damit Wunder bewirken. Details zum Verstärken und Normalisieren gibt es im Audacity-Wiki, zum Arbeiten mit dem Kompressor ebenfalls.
  • Klick- und Pop-Geräusche entfernen: FĂĽr meine Audiodateien war das Gott sei Dank bisher nie nötig, aber wenn man in seinen Aufnahmen immer wieder mal hohe Spitzen sieht, kann sich ein Blick auf die verschiedenen Methoden zur Entfernung dieser Störgeräusche lohnen.
  • Rauschverminderung: Gerade in Uniprojekten sind Interviews gerne mal mit dem Handy aufgezeichnet. Auch, wenn die Aufzeichnungsqualität von Smartphones immer besser wird, lohnt es sich definitiv, in dem verstärkten Audio das Rauschprofil zu ermitteln und von Audacity reduzieren zu lassen. Siehe auch die Tipps im Audacity-Wiki. Merkt man, dass ich ein Fan vom Audacity-Wiki bin? Gut.

Selbst ohne tiefergehende Kenntnisse in der Audiobearbeitung kann man mit ein bisschen herumprobieren definitiv gute Ergebnisse erzielen.

Insgesamt ist es, wenn man es erst einmal gehört hat, total logisch, dass Trint besser funktioniert, wenn man ordentliche Audiodateien reinsteckt. Wie bei allen KI-Anwendungen gilt auch hier das Prinzip Garbage-in-Garbage-out (GIGO).

Trints Lernfähigkeit optimal nutzen permalink

Ein cooles Feature von Trint, das ich noch nicht erwähnt habe, ist der sogenannte Vocab Builder. Das ist eine Wortliste, in die man ungewöhnliche Worte reinschreiben kann, von denen man gerne hätte, dass Trint sie erkennt. Wenn also in einem Interview zum Thema autonomes Fahren immer wieder das Wort „Spurhalteassistent“ vorkommt, sollte man das noch vor dem ersten Interview im Vocab Builder hinzufügen.

Während der Transkription und den unweigerlichen Verbesserungen, die man an dem automatisch erstellten Transkript vornehmen muss, ergänzt man für gewöhnlich den Vocab Builder Wort für Wort. Das bedeutet aber, dass man nicht alle Dateien auf einmal von Trint transkribieren lassen sollte. Stattdessen empfiehlt es sich, nacheinander eine Datei hochzuladen, auf das automatische Transkript zu warten, die Korrektur vorzunehmen und dann erst die nächste Datei hochzuladen (und so weiter). Dadurch holt man das meiste aus Trints Lernfähigkeit.

Abgesehen davon würde ich wetten, dass Trint die hauseigene KI auf Basis der korrigierten Transkripte weitertrainiert. Es wäre also doppelt dumm, nicht die Früchte seiner harten Arbeit zu ernten.

Zu guter Letzt permalink

Trints happiges Preisschild dürfte sich für die wenigsten Seminararbeiten lohnen, bei denen nur vier bis sechs kurze Interviews transkribiert werden müssen. Wenn es aber mal mehr oder längere Interviews sind, kann man das Geld (wenn Miete und Essen bezahlt sind 🌚) ruhig in den Transkriptionsservice investieren. Abhängig von den Kriterien, die ich oben beschrieben habe, konnte ich meine Arbeitszeit von den üblichen 60 Minuten transkribieren für 10 Minuten Gespräch (60/10) im besten Fall halbieren. Da stimmte dann allerdings auch wirklich der Großteil des automatischen Transkripts.

In anderen Fällen war ich nicht viel schneller als 60/10. Trotzdem ist das Arbeiten definitiv ein anderes. Statt das virtuelle Blatt zu füllen, muss man nun ein fertiges Transkript kontrollieren und verbessern. Ob das mehr oder weniger Spaß macht, als selbst zu transkribieren muss wohl jeder für sich entscheiden. Ich bereue jedenfalls nicht, Trint ausprobiert zu haben.


  1. Keine Garantien für nix, hab ich vom Bekannten eines Freundes eines Freundes meines Onkels gehört 🤠 ↩︎

  2. Wer keine automatische Transkription braucht, ist aber vermutlich mit oTranscribe besser beraten ↩︎