Aaron Fischer Ingenieur, Vater, Heimwerker, Problemlöser

07 July, 2008

Distributed Proofreader

Text

Letzten Winter bin ich auf das Projekt Gutenberg gestoßen und fand es eine wirklich tolle Idee. Wer es nicht kennt: Bücher deren Autoren bereits seit längerem gestorben sind, gelten als Allgemeingut und dürfen frei verwendet werden. Um dieses Allgemeingut zu gewährleisten hat sich das Gutenberg-Projekt zur Aufgabe gemacht, diese Bücher und Texte zu digitalisieren und allen in offenen Formaten zum freien Download bereitzustellen.

Doch die erste Frage die ich mir gestellt hatte war: Wer bezahlt die aufwändige Digitalisierung? Schnell bin ich über librarything.de auf pgdp.net gestoßen (Project Gutenberg Distributed Proovereaders). Hier helfen hinderte von freiwilligen beim manuellen Korrekturlesen und Einscannen der Bücher.

Der Vorgang ist recht simpel: Eine Person scannt alle Seiten eines Buches (welches als Allgemeingut gilt) mit einem normalen Scanner ein und jagt diese Bilder durch eine OCR-Software. Natürlich erkennt die Software nicht alles hundertprozentig und die Formatierung geht auch verloren. Gerade bei Frakturschrift wird viel falsch erkannt und muss manuell korrigiert werden. Auch Dinge wie Seitenzahlen oder Schmutz der als Wort erkannt wurde müssen entfernt werden, oder Überschriften müssen als solche gekennzeichnet werden. Diesen Job übernehmen die freiwilligen Helfer in mehreren Etappen. Die erste Durchsicht behebt nur die groben Fehler und kümmert sich nicht um die Formatierung. Die zweite und dritte Durchsicht macht den Feinschliff und korrigiert evtl. vergessene Erkennungsfehler u.ä. Das fertige Produkt wird dann in PDF, TXT und andere Ausgabeformate transformiert und an das Projekt Gutenberg übergeben, welche dann für die Publikation und den Download sorgen.

Weltweit werden im Schnitt 200 Bücher pro Monat auf diese Weise digitalisiert. Eine beachtliche Leistung! Ich habe bereits 130 Seiten bei gaga.net (dem deutschen Ableger) korrigiert und dann bei pgdp.net weitergemacht. Der Grund dafür war die etwas merkwürdige Lizenzierung bei Gaga. Hier werden die Rechte teilweise auf spiegel.de übertragen. Beim amerikanischen Original landen alle korrigierten Bücher direkt bei Gutenberg.

Mir hat es bis jetzt viel Spaß gemacht, ab und an ein paar Seiten zu korrigieren. Die Frakturschrift ist sehr gewöhnungsbedürftig, aber nach ein paar Seiten klappt das ganz gut. Vor allem ist es interessant, Texte zu lesen, die man sonst nie gelesen hätte. Da kommt man oft in Versuchung, immer weiter zu machen :) Für mich ein ideales Mittel, um mal für ein paar Minuten abzuschalten und zudem was für die Allgemeinheit zu tun.

Mitmachen kann jeder der Lust hat. Das Korrigieren läuft über den Browser und kann von überall (einigermaßen großer Bildschirm vorausgesetzt) gemacht werden. Anfangs darf man sich allerdings nur Bücher heraussuchen, die in Stufe P1 (erste Korrektur-Instanz) stehen, später darf man auch das Formatieren und die Korrektur der Korrektur übernehmen.