25.07.2007
Autor: Ronald Schild: MVB-Geschäftsführer
Rubrik: Datenkonvertierung
 

Darf’s ein wenig mehr sein – oder was lassen wir uns Qualität kosten?

In meinem letzten Beitrag habe ich das Thema Kosten bei VTO angerissen. Verleger, die mit Datenkonvertierung Erfahrung haben, wissen, wie aufwendig die Aufbereitung von Buchdaten ist, selbst wenn die Daten in guter Qualität digital vorliegen.

Was passiert nun mit den Daten, die in VTO eingestellt werden? Nun, zunächst überprüfen wir, ob die Qualität der PDFs unseren Vorgaben entspricht. Und da erleben wir mit schöner Regelmäßigkeit durchaus die eine oder andere Überraschung. Wie beispielsweise PDFs, in denen alle Texte als Bild abgespeichert sind, im Volltext durchsuchbar gemacht werden sollen, erschließt sich nicht sofort. Und dass Verleger ihre Bücher gerne mit Druckmarken und Color Codes im Internet wieder sehen möchten, darf auch bezweifelt werden.

Sind die Qualitätskontrollen erst einmal durchlaufen, wandeln wir jede einzelne Seite in JPGs um. Das gesamte PDF wird überarbeitet, nicht zum eigentlichen Text gehörenden Bestandteile wie Inhalts- oder Stichwortverzeichnis werden entsprechend gekennzeichnet, die gelieferten Metadaten werden mit dem PDF verglichen. Dann wird der Text extrahiert, um ihn durchsuchbar zu machen. Dazu muss nicht nur hinterlegt werden, welches Wort auf welcher Seite erscheint, sondern muss mit seiner exakten Vermaßung versehen werden, damit die Fundstelle später bei der Suche gekennzeichnet werden kann. Schließlich müssen alle so erstellten Einzeldateien zusammen geführt und auf ihre Konsistenz überprüft werden. Und letztlich erfolgt eine nochmalige Qualitätskontrolle, um sicher zu stellen, dass Verleger, Buchhändler und Nutzer später mit dem Ergebnis zufrieden sein werden.

Ein komplexer Prozess, das erkennt man schnell. Momentan ist hier noch viel Handarbeit nötig, was selbst dann zu erheblichen Kosten führt, wenn man diese Arbeiten in Indien ausführen lässt, wie wir das tun. Wir wollen möglichst viel davon automatisieren, um diese Kosten zu senken. Das kann allerdings nur dann gelingen, wenn wir die gelieferten Originaldaten nicht nachbearbeiten müssen; bedeutender ist allerdings, dass es momentan noch keine Software-Lösungen gibt, die eine vollständige Automatisierung ermöglicht (sollte es sie doch geben, wäre ich für entsprechenden Hinweise mehr als dankbar). Hier wird die MVB in den kommenden Monaten mit führenden Software-Spezialisten zusammen arbeiten, um einen möglichst hohen Automatisierungsgrad zu erreichen.

2 Kommentare

1. Jens Redmer02.08.2007 15:51hbooks.google.com

Lieber Ronald,

hierin liegt doch genau die Crux selbst für einen modernen Verlag, egal ob klein oder groß:

Obwohl natürlich alle Verlage in der einen oder anderen Form elektronisch layouten und drucken, ist es auch heute immer noch für die überwältigende Zahl an Verlagen ein großer Aufwand - selbst für die ganz ganz großen Namen - auf Knopfdruck ein "online-fähiges" PDF zu erzeugen, um an den neuen digitalen Promotions-Werkzeugen wie Amazon's Search Inside, Microsoft's Live Book Search oder Google Book Search teilzunehmen.

PDF ist zwar eines der am weitesten verbreiteten Datenformate, nur ist eben PDF nicht PDF. Viele Einzelheiten in einer Spezifikation müssen genau eingehalten werden, um optimal mit VTO, Amazon, Google und Co. zusammenzuarbeiten.

Man denke an Schnittmarken, Farbmarken, etc, die alle entfernt werden müssen; aus mehreren Dateien für einzelne Kapitel muß eine einzige Datei erzeugt werden; Dateinamen-Konventionen müssen eingehalten werden etc. Ein sehr großer Aufwand für jeden Verlag, egal ob 50 oder 5.000 Bücher im lieferbaren Programm.

Von einer echten Integrierung in die Produktionsprozesse sind die meisten Verlage noch sehr weit entfernt; das wird sich ganz sicher innerhalb der nächsten Jahre entscheidend erleichtern, nur: soweit ist der "Otto Normalverbraucher Verlag GmbH" noch nicht.

Genau aus diesem Grund haben sich "Google und Co." dazu entschlossen, Ihren Partnern diese "Konvertierung" abzunehmen und auch physische, gedruckte Bücher entgegenzunehmen. Natürlich geht auch das nicht kostenlos, aber der Mehrwert für den Verlag, auf einmal sämtliche Bücher (kostenfrei) bewerben zu können, und natürlich auch der Mehrwert für Google, mehr Inhalte durchsuchbar und findbar zu machen, sind erheblich und rechtfertigen dies.

Damit erübrigt sich für solche Verlage die Frage "Wieviele Bücher kann ich denn nun als Test nutzen; mein Budget zur Konvertierung ist auf X begrenzt..."

Gerade für kleinere Verlage, die mal eben nicht 150 Euro pro Titel ausgeben können, sind das zum Teil kriegsentscheidende Fragen.

herzliche Grüße!

Jens Redmer

2. Hans-Jürgen Reff02.08.2007 18:01hwww.german-dataservice.de

Hallo Herr Schild,

Scheinbar hat man in Indien noch nichts von durchsuchbaren PDFs, bzw. PDFs mit "Text under image" gehört, die von allen OCR-Programmen vollautomatisch erzeugt werden und das liefern, was man in Indien nachträglich manuell erzeugt. Oder wird hier ein "workaround" für eine mangelhafte Buchsuchmaschinen-Software gemacht?

Mit besten Grüßen

Hans-Jürgen Reff
www.german-dataservice.de
Tel. 05060 961107

Kommentar schreiben

Kommentar schreiben

Bitte geben Sie diese Buchstabenfolge hier noch einmal ein: