Automatisierte Inhaltserschließung in der Deutschen Nationalbibliothek

Was Maschinen können und was nicht

30. August 2017
von Börsenblatt
Die Deutsche Nationalbibliothek will künftig nicht nur Netzpublikationen, sondern auch gedruckte Bücher mit automatischen Verfahren inhaltlich erschließen. Dagegen werden jetzt Bedenken laut. Worum es dabei geht, und was bei der geplanten Umstellung auf dem Spiel steht, hat boersenblatt.net recherchiert.

Hätte nicht der Generaldirektor der Bayerischen Staatsbibliothek, Klaus Ceynowa, in einem längeren Artikel in der "FAZ" die geplante maschinelle Inhaltserschließung von Büchern in der Deutschen Nationalbibliothek (DNB) harsch kritisiert, wäre die Zäsur, die der 1. September 2017 in der Geschichte dieser Institution darstellt, womöglich unbeachtet geblieben.

Denn an diesem Tag beginnt ein neuer Abschnitt in der Geschichte der Deutschen Nationalbibliografie: Von da ab werden alle gedruckten Publikationen der Reihen B (Monografien und Periodika außerhalb des Verlagsbuchhandels) und H (deutsche bzw. deutschsprachige Hochschulschriften) mit Hilfe maschineller Verfahren auf der Basis gescannter Inhaltsverzeichnisse und anderer Buchteile (zum Beispiel Klappentexte) erschlossen.

Dabei wird nicht – wie bei Verlagspublikationen – ein wissenschaftlicher Referent Schlagwörter vergeben, sondern eine Software, die ein computerlinguistisches Programm anwendet. Das Verfahren wird seit 2014 bei digitalen Publikationen praktiziert, deren Sammlung seit 2006 auch zum gesetzlichen Auftrag der DNB gehört.

Die maschinelle Erschließung, so Ceynowa in der "FAZ", soll das intellektuelle Erfassen der Essenz eines Werkes ersetzen. Dabei seien die Ergebnisse einer automatischen Inhaltserschließung – dies zeigten eigene Untersuchungen der DNB – vergleichsweise ernüchternd. Nur 50 Prozent der algorithmisch generierten Schlagwörter hätten sich als "nützlich", 50 Prozent hingegen als "wenig nützlich" oder falsch erwiesen. Fazit: Die DNB als das "nationalbibliographische Zentrum Deutschlands" sei "seiner Kernaufgabe einer hochqualitativen Inhaltserschließung offenbar überdrüssig geworden".

Ein Buch mit vagen Metadaten geht im Ozean der Fundstellen unter

Die Qualität der Metadaten entscheidet aber über die Such- und Findbarkeit der Buchinhalte – sowohl in Portalen wie der "Deutschen Digitalen Bibliothek" als auch in Suchmaschinen. Je aussagekräftiger und spezifischer die Verschlagwortung eines Buches ist, desto besser kann es gefunden werden; je unspezifischer und pauschaler, desto schlechter. Und das bedeutet: Ein Buch mit seiner besonderen Thematik wird unter Umständen nicht gefunden, weil es wegen zu allgemeiner und vager Metadaten in einem Ozean von Fundstellen nicht mehr auffällt. Deshalb machen sich Verleger und Bibliothekare, aber auch Autoren und Leser Sorgen, ob ihre Bücher – und das heißt auch: deren Inhalte – recherchiert und genutzt werden. Denn was nützt die Aufbewahrung von Wissen, wenn dieses unzugänglich bleibt – und zwar in allen Bibliotheken und Portalen, die den entsprechenden Eintrag der Nationalbibliographie nutzen?

Der Frankfurter Verleger Vittorio E. Klostermann, Mitglied des Verwaltungsrats der DNB, zeigt Verständnis für die Kritik. "Das hohe Ansehen, das die DNB in der Öffentlichkeit genießt, ist eng mit dem Ansehen des gedruckten Buches verbunden, jenes Mediums, das nicht nur über hunderte von Jahren unsere geistigen Schätze aufbewahrt und überliefert hat, sondern dessen Bedeutung auch heute ungebrochen ist."

Dass man auf das Buch als Gegenstand gar nicht verzichten mag, das hätten die Diskussionen um die Ausleih-Präferenzen der DNB im vergangenen Jahr gezeigt, und das zeigten jetzt sogar rückläufige Prozentsätze des E-Books an den Gesamtverkäufen im Publikumsmarkt.

Die Notwendigkeit der intellektuellen Überprüfung

"Dass man der großen Menge elektronischer Datenquellen nicht anders Herr / Frau werden kann als durch automatisierte Erschließungsverfahren", so Klostermann weiter, "das lässt sich vermitteln: Lieber eine Erschließung mit Fehlern als keine. Die Zahl der zu erschließenden gedruckten Bücher ist jedoch gar nicht explodiert. Jeder würde verstehen, wenn Bücher nach wie vor sorgfältiger erschlossen werden als andere Datenquellen. Ein besonderes Problem sehe ich bei den Geisteswissenschaften: Alle Texte, die mit Ironie, mit schillernder Semantik, mit Allegorien arbeiten, brauchen die menschliche Intelligenz. Solange diese nicht maschinell repräsentiert werden kann, solange wird die Fehlerquote der automatischen Erschließung dort inakzeptabel sein."

Klostermanns Vorschlag: "Ich kann mir durchaus vorstellen, auch die gedruckten Bücher automatisch zu erschließen, solange sichergestellt ist, dass das Ergebnis anschließend intellektuell überprüft wird. Diese Nachbehandlung darf aber nicht als notwendiges Übel auf dem Weg zur vollständig automatischen Erschließung angesehen werden, sondern muss als *der eigentliche, der wichtigere Schritt* getan werden."

Weshalb aber hat die DNB entschieden, diesen Weg zu gehen? Und wie funktioniert das computerlinguistische Verfahren der automatischen Inhaltserschließung überhaupt?

Ute Schwens, Direktorin der DNB in Frankfurt, beschäftigt sich seit mehreren Jahren mit dem Thema automatische Inhaltserschließung; seit zwei Jahren gibt es Überlegungen, diese auch auf Gedrucktes auszuweiten. Zwei Argumente sind es, die Schwens für das neue Verfahren vorbringt:

  • Es gebe inzwischen erheblich mehr digitale als gedruckte Medien. Weil Bibliotheksnutzer – zum Beispiel Forscher – medienübergreifend recherchieren, sollten Erschließungsdaten gedruckter Bücher strukturell und inhaltlich denjenigen für digitale Medien gleichen.
  • Zudem verfolge man den Ansatz, alle Publikationen zu erschließen. Bisher seien etwa Dissertationen (aus der "Reihe H") nicht verbal erschlossen worden. Eine Erschließung sämtlicher Publikationen sei allerdings mit einem seit Jahren zurückgehenden Personalschlüssel nicht zu bewältigen.

Erste Erkenntnis: Statt gesonderter Behandlung, wie Klostermann sie vorschlägt, soll es also im Interesse der Nutzer Gleichbehandlung geben – ein Erschließungsschema für alle Publikationen. Zweite Erkenntnis: Die automatische Erschließung entspringt zugleich einer praktischen Überlegung: Wie lässt sich die wachsende Zahl vor allem digitaler Publikationen von einem immer kleiner werdenden Team bewältigen, das über die Kernaufgaben hinaus mit immer neuen Aufgaben betraut wird?

Über diese Punkte, so Schwens, habe man auch in den Gremien – dem Verwaltungsrat und dem Beirat – gesprochen. Einen offenen Dissens in dieser Frage habe man nicht erkennen können.

Qualitätsanspruch versus Quantitätsproblem

Das Missverhältnis zwischen dem exponentiellen Wachstum von Publikationen (und Informationsquellen) auf der einen Seite und der Kapazität von Bibliotheksmitarbeitern auf der anderen Seite wirft natürlich die generelle Frage auf, wie große Wissensbestände überhaupt noch erschlossen werden können. 2016 verzeichnete die DNB einen Zugang von 1,37 Millionen Netzpublikationen und von 522.000 körperlichen Medienwerken; bei nur ca. 100.000 Titeln handelte es sich um Bucherscheinungen aus dem Verlagsbuchhandel, von denen ca. 74.000 verbal  erschlossen wurden.

Elisabeth Mödden, die an der DNB den Bereich der „Automatischen Inhaltserschließung“ leitet, erläutert das durchaus komplexe Verfahren, das in der Bibliothek bereits seit Jahren getestet und angewandt wird. 2010 wurden die Überlegungen begonnen, seit 2014 werden Netzpublikationen (Reihe O) automatisch erschlossen. Dabei wurde in Zusammenarbeit mit einem Dienstleister ein Verfahren zur automatischen Vergabe von Sachgruppen und Schlagwörtern entwickelt, das die Daten einer Publikation sowohl statistisch als auch qualitativ gewichtet.

Die verwendeten Schlagwörter stammen aus der ebenfalls für die Nationalbibliografie genutzten Gemeinsamen Normdatei (GND), die ihrerseits nur intellektuell, das heißt also von wissenschaftlichen Bibliotheksmitarbeitern aufgebaut und erweitert wird. Je besser eine entsprechend gepflegte Normdatei ist, desto höher – so die Erwartung des Teams um Elisabeth Mödden – ist der Anteil der gut nachnutzbaren Erschließungsergebnisse bei den maschinellen Verfahren.

Die Grenzen der algorithmischen Verschlagwortung

Natürlich ist man sich in Frankfurt der Grenzen des eigenen Tuns bewusst: Rund 20 Prozent der automatisch vergebenen Schlagwörter sind noch falsch, und die Präzision der Verschlagwortung hängt in hohem Maße von der Eindeutigkeit des Fachvokabulars ab: Veröffentlichungen zur Mineralogie lassen sich mit großer Wahrscheinlichkeit wesentlich leichter inhaltlich erschließen als etwa eine Studie über die Rolle der Intrige in der Literatur.

Nicht umsonst finden sich in dem Positionspapier der DNB "Die inhaltliche Erschließung des schriftlichen kulturellen Erbes auf dem Weg in die Zukunft" vorsichtige Formulierungen im Hinblick auf die Zuverlässigkeit des gewählten Verfahrens: "Eine intellektuelle Erschließung wird künftig weiterhin für Publikationen derjenigen Fachgebiete vorgenommen, für die automatische Verfahren (noch) keine zufriedenstellenden Ergebnisse liefern."

Im ebenfalls auf der Website veröffentlichten Papier "Grundzüge und erste Schritte der künftigen inhaltlichen Erschließung von Publikationen in der Deutschen Nationalbibliothek" heißt es: "Automatische Erschließungsverfahren benötigen zur Aktualisierung und Ergänzung der verwendeten Terminologie und Verbesserung ihrer Ergebnisse eine entsprechende intellektuelle Überwachung und Steuerung. Dazu werden Verfahren des Qualitätsmanagements aufgebaut."

Der Tätigkeitsschwerpunkt eines wissenschaftlichen Mitarbeiters der DNB wird sich also verschieben: von der Einzelfallbearbeitung hin zur Normdatenpflege und zum Qualitäts- und Datenmanagement, wie es im oben genannten Positionspapier heißt.

Ein wichtiger Bereich bleibt zunächst von der algorithmischen Schlagwortvergabe ausgenommen: die Bücher und Zeitschriften aus der Produktion der Verlage (Reihe A). Diese werden zunächst weiterhin intellektuell erschlossen – durch die Vergabe von Schlagwörtern aus der Gemeinsamen Normdatei. Wie "entwicklungsfähig" das computerlinguistische Verfahren ist, bleibt abzuwarten. Von den Ergebnissen der neuen Anwendungsphase wird abhängen, ob und wann die DNB das Verfahren auf andere Gebiete ausweitet.

Vittorio E. Klostermann wünscht sich im übrigen, dass die DNB ein Thema wie dieses nicht im stillen Kämmerlein behandelt: "Eine Kritik wie die von Herrn Ceynowa bietet meines Erachtens eine gute Gelegenheit, öffentlich darzustellen, welche großen und nützlichen Anstrengungen die DNB unternimmt, um ihren gesetzlichen Auftrag zu erfüllen. Sie wird sicher Zustimmung finden, wenn sie zu erkennen gibt, dass sie entsprechend den Wünschen ihrer Nutzer die unterschiedlichen Medien und Fächer differenziert bearbeitet."