Webarchiv mit Volltextrecherche

Deutsche Nationalbibliothek macht Webseitensammlung zugänglich

16. Juli 2015
von Börsenblatt
In den Lesesälen der Deutschen Nationalbibliothek in Leipzig und Frankfurt am Main werden erstmals Webseiten aus der Sammlung der Bibliothek bereitgestellt. Nachdem die Sammlung von Online-Hochschulschriften und E-Books bereits im vergangenen Jahr die Marke von einer Million Werken überschritten hat, ist damit ein weiterer Schritt zur umfassenden Sammlung aller Veröffentlichungen mit Bezug zu Deutschland getan.
Mit der selektiven Sammlung von Webseiten kommt die Deutsche Nationalbibliothek ihrem Auftrag zur Bewahrung von Netzpublikationen in einem besonders umfangreichen und schwer abgrenzbaren Segment nach. Diese bislang für Bibliotheken nur schwer handhabbare Publikationsform wird damit zunächst in ausgewählten Bereichen für Forschung und Wissenschaft dauerhaft bewahrt und in den Lesesälen der Deutschen Nationalbibliothek in Leipzig und Frankfurt am Main zugänglich gemacht.

In einem ersten Schritt liegt der Fokus auf Websites von Institutionen, wie etwa Bundesbehörden, Interessenverbänden und Kultureinrichtungen. Ergänzend werden Inhalte zu Ereignissen wie der Bundestagswahl im vergangenen Jahr gesammelt. Die derzeit rund 700 meist vierteljährlich gesammelten Webseiten werden bibliothekarisch erschlossen und sind sowohl über die Katalogeinträge in der Deutschen Nationalbibliografie als auch über eine Volltextsuche recherchierbar.

Da Webseiten häufig aktualisiert werden und es selten möglich ist, auf frühere Versionen zuzugreifen, ermöglich das Webarchiv das Auffinden von Informationen, die inzwischen nicht mehr verfügbar sind. Teil der Sammlung sind zum Beispiel auch die Seiten der FDP-Bundestagsfraktion der vergangenen Legislaturperiode, die online nicht mehr aufrufbar sind. Zudem kann die optische und inhaltliche Veränderung von Webseiten über die Zeit verfolgt und analysiert werden. Verweise in wissenschaftlichen Arbeiten auf nicht mehr vorhandene Webinhalte werden im Webarchiv nachvollziehbar.

Die Deutsche Nationalbibliothek wird ihr selektives Harvesting mit einem Dienstleister weiterführen und ausweiten. Ergänzend wird noch in diesem Jahr zusammen mit der französischen Firma Internet Memory Research ein experimenteller sogenannter Top-Level-Domain-Crawl für .de durchgeführt, um die Möglichkeiten einer solchen breiteren Momentaufnahme von deutschen Webseiten zu erforschen. Für die Erweiterung der Sammlung um Webseiten zu bestimmten Themenbereichen sind Kooperationen, etwa mit dem Fachportal "AcademicLinkshare", geplant.