Einer von mir gern gehörten Podcasts ist Logbuch Netzpolitik und ich finde den Inhalt so wichtig, daß ich gerne eine Niederschrift (Transkript) der Gespräche hätte - das erhöht die Findbarkeit mit Suchmaschinen enorm.
2015 machte ich schon mal einen Versuch, einzelne Folgen per Crowdsourcing über einen inzwischen nicht mehr verfügbaren Webdienst zu transkribieren, allerdings fanden sich nicht genug Leute - es wurde nicht mal eine Folge fertig.
Das Thema ließ mich nicht los, und vor zwei Monaten beschäftigte ich mich wieder mal damit. Schnell war klar, daß ich es diesmal mit technischer Unterstützung angehen wollte, da Spracherkennung ja inzwischen verbreitet ist.
Zur Texterkennung probierte ich Google Cloud Speech für 0.6ct pro Minute, was allerdings kein Problem war, weil man beim initialen Anmelden 300US$ Guthaben bekommt.
Ich schaute mir einige Tools an (transcribe_audio, podcast-transcriber, transcribe-podcast) und bastelte mir dann ein eigenes Script.
Die LNP-Folgen liegen als .opus-Datei vor, und Google Cloud Speech unterstützt laut Dokumentation dieses Format .. allerdings klappte es bei 4 Versuchen nicht. Der Support meinte, die Opus-Unterstützung ist noch experimentell.
Ich konvertierte die 25MiB .opus-Datei in eine 500MiB .flac-Datei (mono!) und lud diese hoch. Einige Stunden später hatte ich eine JSON-Datei mit Wörtern und deren zeitlicher Position. Ein Beispiel:
Es gibt mehrere Probleme:
Insgesamt war das ganze aber immer noch besser als alles selbst tippen zu müssen. "Nur" korrigieren :)
Das manuelle Aufteilen der Sätze auf verschiedene Sprecher wollte ich auch nicht machen. Auf meiner Suche fand ich spokendata.com, die zwar kein Deutsch unterstützen, dafür aber eine ziemlich brauchbare Sprechererkennung ("Diarization") haben (und das kostenlos!).
Man kann ihnen im Webinterface die URL zur .opus-Datei hinwerfen und bekommt eine Stunde später eine Mail, daß die XML-Datei fertig ist.
Zwar wurden bei der LNP-Folge 232 (die 2 Sprecher hat) insgesamt 38 Sprecher erkant, allerdings konnte ich das mit dem Transkriptionsprogramm transcriber ziemlich schnell auf 2 reduzieren. Man kann dort Sprecher komplett ersetzen.
0.47
2.05
A
2.55
3.44
F
3.77
8.68
H
...
]]>
Jetzt hatte ich den Text in der .json-Datei von Google, und die Sprechersegmentierung in der XML-Datei. Als Entwickler bastelte ich mir ein kleines Script, welches die beiden kombiniert.
Die besten Ergebnisse bekam ich bei der Nutzung der Wortendezeiten.
Auf meinem Laptop läuft aus Angst-vor-dem-Update-Gründen noch Ubuntu 14.04, und dort gibt es ein nutzbares Audiotranskriptionsprogramm: transcriber. Es ist ziemlich alt (TCL/TK!), aber doch brauchbar.
Nach der Konvertierung der Audiodatei in .wav und dem Schreiben eines Konvertierungsscripts von dem segmentierten XML in das von transcriber unterstützte .trs-Format konnte ich endlich anfangen.
Zwischendurch merkte ich, daß transcriber noch Leerstellen einfügt wenn die aufeinanderfolgenden Segmente zeitlich nicht auf die Millisekunde passen. Weiter gab es durch die Sprecherreduzierung viele aufeinanderfolgende Segmente, die denselben Sprecher hatten. Um das nicht alles manuell im Programm beheben zu müssen baute ich noch ein Script, was .trs-Dateien kompakt macht.
LNP Folge 232 war 1h17m lang, und ich brauchte für die reine Korrektur des kompakten Transcripts um die 3h, ein Verhältnis von etwa 2:1.
Zum Schluss soll das ganze noch ins Netz, also brauchte ich das ganze als .html-Datei.. Ja, wieder ein Script, aber diesmal kein PHP sondern XSL: trs2html.xsl.
Im HTML wird ein Audioplayer eingebunden, und man kann per Abspielknopf vor jedem Satz zu exakt dieser Stelle im Podcast springen!
Das Ergebnis könnt ihr hier sehen:
Transkript von Logbuch Netzpolitik #232: Der böse Kleber aus Deutschland.
Bei meiner Recherche bin ich auf einige interessante Blogposts, Dienste und Tools gestoßen. Hier unkommentiert die Linkliste:
Von Wissenschaft im Brennpunkt habe ich letztens eine Sendung über Düfte und die Erforschung des Wirkens derer bei Menschen gehört.
Ein interessantes Detail haben Forscher des Karolinska-Institut beobachtet, als sie Menschen ins MRT geschoben und über ein Olfaktometer verschiedene Düfte zugeführt haben:
Das Spannendste, was wir bisher gefunden haben, war daß Frauen, die den Körpergeruch eines Neugeborenen riechen, eine starke Aktivität im Belohnungszentrum haben - vergleichbar mit der Reaktion auf kleine Mengen eines starken Rauschmittels. Obwohl die Frauen einfach nur im Scanner lagen und den Körpergeruch eines Babys eingeatmet haben.
Madalena Schmude
Sendung: Duft - Ermittlung im Unbewussten vom 11.12.2016
aus Deutschlandfunk: Wissenschaft im Brennpunkt
Es ging dabei auch um das Thema Pheromone.
Bei Wissenschaft im Brennpunkt gab es letztens eine Sendung über den deutschen Zukunftspreis. Darin gab es ein Interview mit Professor Axel Haverich von der medizinischen Hochschule Hannover, seines Zeichens Leiter der Abteilung für Herz-, Thorax-, Transplantations- und Gefäßchirurgie.
Hier einige Ausschnitte:
Das Team hat ein spektakuläres Verfahren entwickelt: Ersatzklappen für herzkranke Kinder, die mitwachsen und deshalb nicht mehr ausgetauscht werden müssen. Den Kindern bleiben weitere Eingriffe erspart.
Ausgangspunkt des Verfahrens sind die Herzklappen von Organspendern.
PAH: Diese Klappen werden kühl gelagert und dann in einem etwa 14-tägigem Prozess einer Dezellularisierung unterzogen. Das heißt wir nehmen mit einem chemischen Verfahren sämtliche Zellen aus dieser Matrix, so daß nur das Gerüst übrigbleibt.
PAH: Ich erkläre das manchmal so mit einer Wachstuchtischdecke, die ja meist ein Leinengerüst darunter hat. Man nimmt das Wachs heraus, so daß nur das Gerüst übrigbleibt.
Dieses Herzklappengerüst pflanzen die Ärzte dann ein.
PAH: Der Körper selbst besiedelt es dann mit den eigenen Zellen.
1999 beginnen die Mediziner mit Versuchen an Schafen. Das Resultat überrascht: Das Gerüst wird nicht nur von körpereigenen Zellen besiedelt, sondern sogar komplett durch sie ersetzt.
PAH: So daß wir nach einem halben Jahr nach Implantation eine Klappe vorliegen haben, die ausschließlich aus patienteneigenem Gewebe besteht.
[...]
2002 wird das erste Kind in Moldawien operiert. 2005 folgt das erste in Deutschland.
Als Haverich und sein Team 2008 für den Zukunftspreis nominiert werden, haben sie rund 30 Kinder behandelt.
[...]
Mittlerweile wurden rund 260 Kindern die mitwachsenden Herzklappen eingepflanzt.
PAH: Die ältesten Klappen sind jetzt 14 Jahre drin. Und nachdem auch jetzt keinerlei Veränderungen sichtbar sind, können wir uns sehr gut vorstellen, daß sie tatsächlich lebenslang halten.
PAH: Wir könnten sehr viel mehr herstellen von diesen Klappen und auch sehr viel mehr implantieren, aber die Gewebespende ist das Nadelöhr für diese Anwendung.
[...]
PAH: Ich habe im Sommer diesen Jahres [2016] den Queen's Award für Innovationen im Buckinghampalast abgeholt, als den Innovationspreis in Großbritannien und das fand ich eine ganz schöne Rehabilitation."
Frank Grotelüschen
Sendung: 20 Jahre Deutscher Zukunftspreis - Im Dickicht der Visionen vom 11.12.2016
aus Deutschlandfunk: Wissenschaft im Brennpunkt