24th Gulaschprogrammiernacht

Gemeinsam Wissens-Infrastruktur bauen: föderierte Wikibase für Video- und Podcasts-Informationen. WissKomm Wiki startet durch!
2026-06-07 , ZKM Vortragssaal (Lecture Room)
Language: Deutsch

Das WissKomm Wiki hat Förderung, einen laufenden Prototypen und 100.000+ identifizierte Videos. Dieser Talk zeigt, was schon läuft: föderierte Wikibase, automatische Transkription per Whisper, SPARQL-Queries über Wissenschaftsmedien.
Mit Arrrrrmin haben wir LanzMining von der GPN23 zu SpeakerMining aufgebaut und ins WissKomm Wiki integriert - eine vollständige Pipeline, die aus ZDF-Archiv-PDFs einen verlinkten Wissensgraph erzeugt: 10.000+ Personenerwähnungen, 120.000+ Wikidata-Triples, OpenRefine-Kuration. Genau das skalieren wir im WissKomm Wiki auf Wissenschaftsvideos und -podcasts. Plus die offenen Probleme, an denen wir gemeinsam arbeiten möchten, am besten gleich im GPN24 Hackathon.


2021: Idee
GPN22: Präsentation im CCC.
GPN23: Prototyp, Antrag in der Schwebe, Arrrrrmin stellt LanzMining vor.
GPN24: Das Projekt läuft: Gefördert durch FDM-NDS dürfen wir jetzt zeigen, wie LanzMining, WissKomm Wiki und viele ähnliche Projekte zusammenpassen.

Ein Einblick: GPN23, media.ccc.de.
Im Talk gehen wir endlich über Konzepte hinaus in die Anwendung!

Auf der GPN23 hat Arrrrrmin mit LanzMining gezeigt, was möglich ist, wenn man TV-Archivdaten strukturiert erschließt. Wir haben das weitergebaut zur vollständigen Pipeline Speaker Mining. Ausgangspunkt: ZDF-Archiv-PDFs des Markus-Lanz-Talks.
Semantisch disambiguiert mit OpenRefine, dedupliziert auf Wikibase bereitgestellt und letztlich nachhaltig frei verfügbar.
Wer mag, kann live über SPARQL-Queries Fragen stellen: - wer war wie oft zu Gast? Mit welcher Rollenverteilung?
Wir gehen noch tiefer in die Analyse: Visualisierung der Rollenverteilung, wie von LanzMining bereits vorgemacht: Indem wir Klassen wie Rollen und Instanzen wie Markus Lanz statistisch unter die Lupe nehmen, können wir mit Speaker Mining bildlich machen, was unsere Medienlandschaft ausmacht.

Die aktuelle WissKomm-Wiki-Infrastruktur besteht aus einer föderierten Wikibase via Wikibase.cloud (wie ein eigenes Wikidata), langfristig verknüpft mit einem Full Text Wiki für Transkripte. Via SPARQL kann nach Properties und Datenquellen gefiltert werden.

Speaker Mining zeigt, wohin das führt: Wenn Sendungsarchiv-Metadaten maschinenlesbar in einer Wikibase liegen, kann man fragen: Wer war wann zu Gast, mit welcher Rolle, aus welcher Institution?

Whisper läuft noch lokal, transkribiert offline, und die Ergebnisse landen vorerst nicht im Wiki - bis wir im Projekt die Rechtsfragen geklärt haben. Ziel dafür: Ende Juni steht der Fragenkatalog, und im September haben wir unser Rechtsgutachten.
Experimentell haben wir so schon mal 230+ Folgen Lanz & Precht transkribiert und analysiert - die ersten Ergebnisse sind ganz spannend. Der Blick auf die beiden sozusagen-Experten ist nur ein erster Einblick in das, was langfristig möglich sein soll. Der nächste Schritt geht gen Wissenschafts-Podcasts, wie dem jüngst mit dem ÖFG-Preis für Wissenschaftsjournalismus ausgezeichneten Podcast Das Klima von u.a. FuzzyLeapfrog, die von Beginn an bei Speaker Mining mitgewirkt hat.

Jetzt geht es darum, die Community aufzubauen: Der Matrix-Channel ist aufgesetzt, das Community-Team steht bereit und arbeitet fleißig mit unserem gemeinnützigen Verein daran, die gewachsenen Strukturen der vergangenen fünf Jahre auf bleibende Strukturen zu stellen. Das Open Science Lab aus Hannover übernimmt die fundamentale Infrastruktur, und der Verein übernimmt experimentellere Interfaces wie Gamification oder Plugins.

  • Föderierte Wiki-Architektur: Wikibase + Full Text Wiki, verbunden über interne Queries
  • Module für Datenakquise, Zwischenspeicherung, Transkription (Whisper ASR, lokal)
  • Interfaces: nicht nur für Forschende und Entwickler*innen, sondern auch für Urheber*innen und Plattformbetreibende
  • Federation mit Wikidata, ORKG, TIB AV-Portal - ohne deren Infrastruktur zu überlasten

Wer mitmachen will: Wir vom WissKomm Wiki sind auf der GPN, sprecht uns an :) Zum Talk gibts hoffentlich noch den Workshop.

Links

PhD Student in Data Science und Digital Libraries, aktiv in der Wissenschaftskommunikation, Gründer des gemeinnützigen BorgNetzWerk e.V., alles mit einem Ziel:
Die Wissens-Infrastruktur für Wissenschaftskommunikation fördern. Ganz konkret heißt das "WissKomm Wiki", eine offene Infrastruktur zum kartografieren von wissenschaftlich relevanten Videos und Podcasts.
Wenn ich mich nicht gerade mit dem nächsten Paper, Proposal oder Talk zu dem Thema beschäftige, dann... puh - wann war das letzte Mal? Nach dem PhD vielleicht wieder ;)

Etwas ausführlicher hat es das Phaeno mal hier aufbereitet.

This speaker also appears in: