Was passiert nun mit den Daten, die in VTO eingestellt werden? Nun, zunächst überprüfen wir, ob die Qualität der PDFs unseren Vorgaben entspricht. Und da erleben wir mit schöner Regelmäßigkeit durchaus die eine oder andere Überraschung. Wie beispielsweise PDFs, in denen alle Texte als Bild abgespeichert sind, im Volltext durchsuchbar gemacht werden sollen, erschließt sich nicht sofort. Und dass Verleger ihre Bücher gerne mit Druckmarken und Color Codes im Internet wieder sehen möchten, darf auch bezweifelt werden.
Sind die Qualitätskontrollen erst einmal durchlaufen, wandeln wir jede einzelne Seite in JPGs um. Das gesamte PDF wird überarbeitet, nicht zum eigentlichen Text gehörenden Bestandteile wie Inhalts- oder Stichwortverzeichnis werden entsprechend gekennzeichnet, die gelieferten Metadaten werden mit dem PDF verglichen. Dann wird der Text extrahiert, um ihn durchsuchbar zu machen. Dazu muss nicht nur hinterlegt werden, welches Wort auf welcher Seite erscheint, sondern muss mit seiner exakten Vermaßung versehen werden, damit die Fundstelle später bei der Suche gekennzeichnet werden kann. Schließlich müssen alle so erstellten Einzeldateien zusammen geführt und auf ihre Konsistenz überprüft werden. Und letztlich erfolgt eine nochmalige Qualitätskontrolle, um sicher zu stellen, dass Verleger, Buchhändler und Nutzer später mit dem Ergebnis zufrieden sein werden.
Ein komplexer Prozess, das erkennt man schnell. Momentan ist hier noch viel Handarbeit nötig, was selbst dann zu erheblichen Kosten führt, wenn man diese Arbeiten in Indien ausführen lässt, wie wir das tun. Wir wollen möglichst viel davon automatisieren, um diese Kosten zu senken. Das kann allerdings nur dann gelingen, wenn wir die gelieferten Originaldaten nicht nachbearbeiten müssen; bedeutender ist allerdings, dass es momentan noch keine Software-Lösungen gibt, die eine vollständige Automatisierung ermöglicht (sollte es sie doch geben, wäre ich für entsprechenden Hinweise mehr als dankbar). Hier wird die MVB in den kommenden Monaten mit führenden Software-Spezialisten zusammen arbeiten, um einen möglichst hohen Automatisierungsgrad zu erreichen.