FYI.

This story is over 5 years old.

Tech

Das Internet Archive speichert das Wissen der Menschheit mit 800 Seiten pro Stunde

Zu Besuch bei den Archivaren, die schon 2,5 Millionen historischer Buchseiten gescannt und digitalisiert haben.
Helen Claes am ​Buchscanner im Euston Data Centre. Bild: Motherboard 

Im obersten Stockwerk der Wellcome Library sitzen zwölf Menschen hinter schweren Vorhängen in tiefer Dunkelheit. Nur der blended weiße LED-Schein eines großen Scanners spendet den Archivaren ein wenig Licht.

Wir sind im Euston Scan Centre, in dem sich momentan ein Team des Internet Archives eingerichtet hat, um in einem ambitionierten Projekt, die gesamten medizinischen Buchbestände des 19. Jahrhunderts aus zehn britischen Bibliotheken digitalisieren soll.

Anzeige

Jeder der Archivare versucht, 800 Seiten pro Stunde einzuscannen und seit dem Projektbeginn im vergangenen Oktober wurden bereits sage und schreibe zweieinhalb Millionen Buchseiten digitalisiert. Bis zum Jahr 2016 sollen so 16 bis 17 Millionen Seiten digitalisiert werden.

Book Scanner Helen Claes

Der Raum riecht nach einer modernen Bücherei: Staub, Rollteppich und das Odeur aufgewärmter Geräte. In dem Raum ist es vollkommen still. Bis auf das gelegentliche Knipsen, wenn ein Bild gemacht wird, und dem unregelmäßigen Quietschen der Fußpedale, welche die Scanner steuern. Chris Booth, der britische Digitalisierungsmanager des Internet Archives, erklärte mir das Mammutprojekt.

Es beginnt mit den Büchern, die aus der Wellcome Library und anderen Bibliotheken ankommen. Die Definition für medizinische Bücher ist eher locker und auch pseudowissenschaftliche Werke wie zum Beispiel pherenologische Texte, werden mit aufgenommen.

Für die Bücher ist es wie Urlaub.

Die Bücher selbst werden in orangen Kisten angeliefert, nachdem sichergestellt wurde, dass sich in dem Rohmaterial auch keine Duplikate finden, die bereits online zu finden sind. Jedem Buch wird von Anfang an eine URL zugeteilt, die zur eindeutigen Identifikation dient.

In den Anlieferungsregalen prüfen Mitarbeiter die Bücher auf ihre Tauglichkeit für den Scan. Richtig dicke Schinken funktionieren eher schlecht, weil der Scanner nicht ganz bis in den Falz hineinreicht und Worte abhackt. „Im 19. Jahrhundert hat man sich eben noch nicht so viele Gedanken über Digitalisierung gemacht", erklärte mir Booth.

Anzeige

Viele der Bücher haben eine Bindung aus weißem Band, die die Seiten vor dem Auseinanderfallen bewahrt. Booth erzählt mir, dass manche sogar noch unbeschnittene Seiten haben: Auch nach all diesen Jahren hat sie noch nie jemand geöffnet.

Die Digitalisierungskampagne will das nun ändern—die Bücher sollen wieder gelesen werden oder zumindest für jeden zur Verfügung stehen, der sich ihnen widmen will.

Die Maschinen, mit denen das Team arbeitet, nennen sich Table Top Scribes und bauen auf einem Open Source-Design auf. Der Mitarbeiter legt ein offenes Buch auf eine V-förmige Plattform und und bedient dann ein Fußpedal, das die Plattform an eine ebenfalls V-förmige Glasplatte hebt.

Zwei Nikon-Kameras fotografieren beide Seiten auf einmal. „Dabei wird kaum Schaden angerichtet", sagt Booth und erklärt, dass zur Vermeidung von Beschädigungen ultraviolette LEDS eingesetzt werden. Eigentlich, so sagt er, sei das ganze „ein Urlaub für die Bücher", mit denen im normalen Ausleihbetrieb weit weniger zimperlich umgegangen wird.

Wenn die Bücher eingescannt wurden, erscheinen die Seiten auf dem Monitor und der Scanner überprüft, ob auch alle Buchstaben erfasst wurden. Anschließend prüft in den USA ein Team noch ein zweites Mal nach, ob die Aufnahmen auch zufriedenstellend aussieht. Die Software dafür heißt Scribe und wurde speziell vom Internet Archive entwickelt.

Es ist Fließbandarbeit, und doch stößt das Team häufig auf interessante Schätze—eklige Bilder von schlimmen Krankheiten, verquere Ansichten zur Schwangerschaft von männlichen Autoren, sogar höfliche Ablehnungsschreiben von Redakteuren, die als Lesezeichen zweckentfremdet wurden. Die besten Fundstücke schickt das Team per Skype herum. Die meisten Buchscanner haben dabei Kopfhörer auf, und während meines Besuches erwischte ich einen von ihnen mit einem kleinen Fenster in der Desktop-Ecke, auf dem er gleichzeitig die gescannten Seiten checkte und Youtube-Videos schaute.​

Anzeige

Book Scanner Paul Horn

Ein paar größere Scanner können auch mit dickeren Bänden umgehen, und einem Nebenraum ist ein separater Tisch aufgebaut, auf dem Ausziehdiagramme, Grafiken und Karten gescannt werden, die in alten Texten sehr häufig vorkommen.

Booth zupft ein paar Bilder aus einem Stapel, um sie mir zu zeigen: Eins stellt einen minutiös detaillierten Augenheilkunde-Test dar, ein anderes zeigt chirurgische Werkzeuge und etwas, das wie eine mechanische Hand aussieht.

Die digitalisierten Bücher werden ein Teil der UK Medical Heritage Library, die archive.org hostet und von der Wellcome Library gespiegelt wird. Sie werden unter einer Creative Commons-Lizenz veröffentlicht, und diverse Künstler haben bereits angefragt, um Collagen mit Bildern aus dem Bestand zu machen.

Sobald die Bücher fertig gescannt wurden, werden sie zur Bibliothek zurückgeschickt, wo sie wieder vergessen oder weniger pfleglich behandelt werden. Immerhin müssen sich ihre digitalen Zwillinge nicht mit verknickten Rücken und Eselsohren herumschlagen.