06.08.2007
Autor: Ronald Schild: MVB-Geschäftsführer
Rubrik: Digitale Formate
 

Scanvorgang und Schrifterkennung funktionieren nie fehlerfrei

Der VTO Blog scheint sich steigender Beliebtheit zu erfreuen, zumindest scheint die Kommentierfreudigkeit darauf schließen zu lassen.

Ein Kommentar von Jens Redmer, Director Google Book Search, hat bei mir großes Erstaunen hervorgerufen. Hier der Ausschnitt im O-Ton:

„Genau aus diesem Grund haben sich "Google und Co." dazu entschlossen, Ihren Partnern diese "Konvertierung" abzunehmen und auch physische, gedruckte Bücher entgegenzunehmen. Natürlich geht auch das nicht kostenlos [...]“

Die Frage, die sich hier natürlich sofort stellt, lautet: Wird Google in Zukunft Gebühren verlangen, um Bücher in die Google Buchsuche einzustellen?

Eine hochspannende Frage, denn das Einstellen von Büchern in Internet-Buchplattformen ist nach wie vor eine aufwendige Angelegenheit. Auch wenn die Daten in vorbildlicher Qualität von Verlagen vorgehalten werden – was bei weitem nicht immer der Fall ist – müssen sie für die Weiterverwendung bearbeitet, d. h. konvertiert werden. Auch das Scannen von gedruckten Büchern löst dieses Problem nicht. Im Gegenteil, man nimmt sogar eine Qualitätsverminderung in Kauf, denn der Scanvorgang und die Schrifterkennung funktionieren nie fehlerfrei. Das mag für eine reine Suche akzeptabel sein, schränkt aber die Verkaufsmöglichkeiten stark ein – denn welcher Leser wäre mit einem kostenpflichtigen eBook zufrieden, das Satz- und orthographische Fehler enthält?

Natürlich ist das Scannen eine interessante Lösung: man kann schnell hohe Titelanzahlen bewältigen und auch solche Titel berücksichtigen, die digital überhaupt nicht vorliegen. Genau aus diesem Grund werden wir in Kürze eine Scanlösung für VTO anbieten. Mittel- und langfristig muss das Ziel aber sein, die Produktionsprozesse in Verlagen so zu organisieren, dass eine problemlose Weiterverwendung für unterschiedlichste digitale Formate möglich wird.

2 Kommentare

1. Jens Redmer06.08.2007 16:06hbooks.google.de

Lieber Ronald,

Google, Amazon und Microsoft mögen das Scannen nicht. Es ist teuer, aufwändig in der Qualiätssicherstellung, mühsam und ein weiterer Zeit- und Kostenfaktor.

Das Angebot an Verlagspartner, neben PDF-Dokumenten auch gedruckte Bücher zum Einstellen in die Buchsuchen kostenlos anzunehmen, hat das vornehmliche Ziel, den Index der Buchsuchen auf eine kritische Menge von durchsuchbaren Titeln zu bringen, derer es für ein umfassendes, nutzbares Produkt bedarf.

Wie in einem anderen Kommentar genannt ist es heute (noch) für die meisten Verlagspartner eher schwierig, "auf Knopfdruck" verwertbare PDF-Dokumente zu erzeugen, ohne die interne IT-Mannschaft auf Sommerpause zu schicken.

Natürlich kostet der Betrieb einer (Buchsuchmaschine), das Hosten von grossen Datenmengen und die professionelle Partnerbetreuung viel Geld.

Es gibt einen allerdings einen fundamentalen Unterschied zwischen VTO und allen anderen Buchsuchmaschinen: VTO muss sich selbst als "Stand-alone Produkt" durch Teilnahmegebühren finanzieren, alle anderen Produkte sind als Kundenbindungsinstrumente für "Google und Co." vielmehr Investment in ihre Produktqualität und Kundenloyalität als Profit-Center.

Anders als VTO also, das seine Betriebkosten direkt decken muss, können "Google und Co" deren Buchsuchmaschinen genau deswegen kostenfrei für die teilnehmenden Partner betreiben, weil diese Services nur einen Teil deren Gesamtproduktportfolios darstellen, dessen Wert durch den Betrieb der Buchsuchmaschine erheblich erhöht wird und "indirekt" Erlöse im Kerngeschäft erzeugen, nicht notwendigerweise direkt durch die Buchsuchmaschine.

Natürlich sind "Google und Co" ergebnisorientierte Unternehmen; das Investment in eine erhöhte Produktqualität (zB. Einbindung von Buchergebnissen in jeder Google- oder Microsoft-Suche, Integration einer "virtuellen Blätterfunktion" bei Amazon als weiterer Schmökeranreiz auf deren Internetseite) wird durch diese erheblichen Produktverbesserungen mehr als wettgemacht.

Teilnahmegebühren werden also gar nicht benötigt, weil es nicht das Geschäftsmodell der Buchsuchmaschinenbetreiber ist - deren Kern liegt woanders, aber genau dieser Kern wird durch die Buchsuchen sehr positiv unterstützt.

Jeder Verlagsverantwortliche muss umfassend verschiedene online- und offline-Werbeinstrumente nutzen und für sich nützlich machen. Die meisten Amazon-Buchsuche-Partner sind auch Buchsuche-Partner bei Google, die meisten Google-Partner wollen auch bei Microsoft mitmachen - und viele wollen zusätzlich auch bei VTO mitmachen.

Keiner der Buchsuche-Partner der Verlagsszene benötigt Exklusivität - das kann auch gar nicht gewünscht sein.

Es gilt nicht das Entweder-oder, sondern sowohl-als-auch.

Sehr erfolgreich, wie die Ergebnisse zeigen.

2. Mathias Schindler06.08.2007 18:42hisbn.mathias-schindler.de

Welche Erkennungsrate ist denn nötig, bis eine Volltextsuche eines Textes für einen kaufwilligen Kunden "nützlich" wird? Natürlich ist es schade, wenn statt Dante nur unverständliche OCR-Brühe zu sehen ist, um mal ein nicht so schönes Beispiel auszusuchen.

Gehen wir mal von 95% Trefferquote bei der OCR aus, was bei einem modernen Schrifttyp und halbwegs brauchbarer Scan-Qualität erreichbar sein sollte. Refining kann man ja nachher immer noch machen und bestreitet jemand, daß OCR jemals schlechter werden wird als jetzt? Heisst das nicht übersetzt, daß von 10 Suchanfragen die meisten in der Regel finden, was sie suchen, wenn auch vielleicht nicht vollständig?

Welches Produkt wird ein Kunde, der eben keine Zeit und Lust auf eine vergleichende Recherche in ASI, GBS und VTO hat, am ehesten bevorzugen? Einen Fundus mit 7000 Büchern, die zu 10% einsehbar sind und vielleicht 99% OCR-Trefferrate haben oder einen Fundus mit 70.000 Büchern, vielleicht einer höheren Einsehbarkeit und 95% OCR-Trefferrate?

Kommentar schreiben

Kommentar schreiben

Bitte geben Sie diese Buchstabenfolge hier noch einmal ein: