05-17-2011, 10:45 AM | #1 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Scans für den Reader
Es gibt da draußen sooo viele gescante Bücher, die es noch nicht nach Gutenberg und Co geschafft haben. OCR von Fraktur selbst zu machen, ist teuer, schwierig oder unmöglich, aber warum auf OCR warten, wenn man Fraktur lesen kann?
Da ich gerade ganz versessen auf Salice-Contessa bin, habe ich mir seine Erzählungen aus Scans der Gesammelten Schriften heraus geholt und in Erwartung meines Readers ein bisschen optimiert. Das Ergebnis war besser als erwartet und es hat Spaß gemacht, also habe ich ein bisschen am Herstellungsprozess gefeilt und weiter rumgespielt (Ihr kennt ja inzwischen meine Vorliebe für solche Spielereien). Es gibt wohl Tools, die die Ränder von PDFs automatisch beschneiden, aber das Ergebnis ist irgendwie nicht so hübsch, also habe ich mir ein Script gestrickt, das die händische Bearbeitung wesentlich erleichtert. Wenn's jemanden interessiert, kann ich gern erklären, wie und was. Das Ergebnis jedenfalls würde ich gerne mit Euch teilen. Da Scans wohl eher nicht so gerne hier gesehen sind, habe ich sie bei Archive.org hochgeladen. http://www.archive.org/details/ScansFrEbookReader Karl Wilhelm Salice-Contessa: Das Schwert und die Schlagen Todesengel Gisela von Arnim: Drei Märchen: Mondkönigs Tochter; Aus den Papieren eines Spatzen; Heimelchen Das Gespensterbuch von A. Apel und F. Laun (Hrsg.) Die Vorbedeutungen; Der Gespensterläugner; Klara Mongomery - Aus den Papieren des Chevaliers St. **ge Abendländische 1001 Nacht. Die schönsten Mährchen und Sagen aller europäischen Völker. von J.P. Lyser Band 1 Abteilung 1 und 2 Band 2 Abteilung 1 und 2 Das ist weitestgehend noch Experimentierstadium, wer also Fehler findet, kann sie gerne behalten. Es würde mich aber auf jeden Fall interessieren, ob Ihr prinzipiell Interesse an bearbeiteten Scans habt, oder eher nicht. Ich sehe gerade, das ist alles wenig übersichtlich. Archive lässt mich aber gerade nicht ran, um die Seite besser zu gestalten. Im Moment geht leider nur blind runterladen oder warten, bis ich daran was ändern kann. Sorry. |
05-18-2011, 03:03 AM | #2 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Ich fand die Bearbeitung ansprechend. Als etwas älterer Leser habe ich jedoch Probleme mit a. den Störstellen durchscheinender Rückseiten und b. der "Fettigkeit" des Schrtiftbilds, welche beide die Lesbarkeit herunter setzen.
Aber daran kannst Du nichts ändern, wenn Du lediglich die Scanvorlage bearbeitest. Das ist ja schon das Problem beim Scannen. Wenn sich da nicht ein Spezialist der OCR Propblematik annimmt, wird es wohl auch in Zukunft bei Faksimiles bleiben. Jedenfalls danke für die Bearbeitung. Funktioniert das Tool eigentlich dynamisch oder geht das über eine fest eingestellte Schnittmaske, wie bei Adobe Acrobat? Klaus |
Advert | |
|
05-18-2011, 08:46 AM | #3 | |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Ja, die Scans im Netz sind häufig ziemlich schlecht. Gutenberg DE z.B. macht deshalb prinzipiell eigene Scans, weil man nur so ein brauchbares OCR Ergebnis bekommt.
Nun, die Scans sind da, sie sind besser als nichts und sie sind umsonst. Für viele der Bücher aus dem 19ten Jahrhundert sind sie die einzige Chance, überhaupt noch gelesen zu werden und für uns die einzige Chance, sie zu lesen. Also nutzen wir sie, so weit das geht, und hoffen auf bessere Technik in der Zukunft. Die Scans habe ich von Hand jede Seite einzeln beschnitten. Das klingt schlimmer, als es ist, denn es gibt ein Tool, das einem viel Arbeit abnimmt: Autohotkey http://de.autohotkey.com/ Damit kann man Scripts erstellen und ausführen, die Tastendruck oder Mausklick an den Computer senden. Zum Bearbeiten habe ich Irfanview verwendet http://www.chip.de/downloads/IrfanView_12998187.html Zunächst habe ich die Bilder aus dem PDF extrahiert. Das geht mit Calibre (nach epub konvertieren und nach zip umbenennen) oder mit pdfill http://www.chip.de/downloads/PDFill-..._44529795.html Das pdfill Tool ist wesentlich schneller. Beide Möglichkeiten liefern aber bei Bildern oder unklaren Seiten einfach eine weiße Seite. Die muss man dann mit der Foto Funktion in einem beliebigen PDF Betrachter ergänzen. Das habe ich leider erst recht spät bemerkt. Der Todesengel hat deshalb leider mindestens eine fehlende Seite. Von Hand würde man jetzt das erste Bild öffnen, den Schnittbereich markieren, ausschneiden, speichern und das nächste Bild öffnen. Abgesehen vom Markieren des Schnittbereichs lasse ich alles von dem Hotkey Scirpt machen. Ich muss nur noch zwei Tasten drücken und fertig. Das ist das Script: Quote:
Archive.org ist inzwischen auch mit der automatischen Bearbeitung fertig geworden. Über die Titel kann man jetzt die entsprechenden PDFs runterladen. |
|
05-19-2011, 07:57 AM | #4 |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
Vielen Dank erst mal für eine interessante Lese-Erfahrung - aus irgendeinem Grund hat mich "Das Schwert und die Schlangen" direkt interessiert, obwohl ich von dem Autor noch nie was gehört hatte ... die Qualität des Scans ist - nun ja Jetzt habe ich gesehen, dass du zwei Geschichten von Salice hier schon veröffentlicht hast - sind das selbst konvertiere, oder gab es die schon als "digitalen" Text? Wenn du selbst konvertiert hast - gibt es OCR für Fraktur die funktioniert? Oder ist abtippen angesagt? Falls "abtippen" die einzige Möglichkeit ist - würde ich mich mal an die Schlangen begeben ... |
05-19-2011, 09:47 AM | #5 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Ich mache gerade meine ersten Gehversuche mit Tesseract-OCR: da ist schon einiges an Arbeit von Fraktur-Freunden geleistet worden. Ich habe ein altes Physiologiebuch aus der Mitte des 19.Jh mit schönen Zeichnungen. Da liegt die OCR Fehlerrate bei ca. 10% (der Rest ist Fleißarbeit).
Ich würde mich auch gerne einmal an Herrn Salice-Contessa versuchen und dann berichten. |
Advert | |
|
05-19-2011, 10:26 AM | #6 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Außer dem Abbyy Finereader XIX ist Tesseract wohl die einzige Möglichkeit für OCR von Fraktur. Ich habe es leider nicht zum Laufen bekommen. 10% Fehler klingt doch gar nicht so schlecht! Besser als das Google OCR von lateinischer Schrift.
Klaus, wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist. Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen. Uluhara, die beiden Erzählungen, die ich hier hochgeladen habe, und noch ein paar mehr, gibt es auch bei Gutenberg DE und inzwischen wohl auch bei Amazon. Wenn Dir Das Schwert und die Schlagen gefallen haben, wirst Du Das Gastmahl auch mögen, könnte ich mir vorstellen. |
05-19-2011, 10:28 AM | #7 | |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
Quote:
aber keine Hetze - gut Ding will Weile haben ich fang einfach mal an zu tippen ... @ Hokuspokus du schreibst, dass im Todesengel was fehlt - könntest du das entweder ausbessern oder die "komplette" Ursprungs-PDF zur Verfügung stellen? Hi, Hi, das nenn ich mal Simultan-Posting :-) |
|
05-19-2011, 11:13 AM | #8 | |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Quote:
Wenn Du also noch die Seiten in tif anbieten könntest, wäre das super. Aber auch pdf ist o.k., da konvertiere ich einfach mit Acrobat in tif. Klaus |
|
05-19-2011, 02:20 PM | #9 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Aaalso,
die fehlenden Seiten beim Todesengel waren gar nicht mein Fehler, die Seiten 21 und 22 fehlen schon in dem Scan, den ich benutzt habe. Es gibt aber noch einen anderen Scan, der komplett zu sein scheint, allerdings von einer anderen Ausgabe mit anderer Seiteneinteilung. Ich kann die fehlenden Seiten leider nicht einfach einflicken. Ich werde die Erzählung wohl nochmal ganz neu bearbeiten müssen. *seufzt* Inzwischen gibt es die komplette Erzählung hier http://books.google.de/books?id=gXgT...page&q&f=false ab Seite 257 Sicherheitshalber habe ich Schwert und Schlage auch nochmal nachgesehen - es fehlen auch zwei Seiten, die dritt und viertletzte (war mir beim Lesen gar nicht so aufgefallen). Hier war es mein Fehler, ich habe die Seiten eingefügt und das pdf bei Archive neu hochgeladen. http://www.archive.org/details/ScansFrEbookReader Klaus, die einzelnen tif files und zur Kontrolle nochmal das unbearbeitete pdf von Schwert und Schlage kannst Du hier runterladen. http://ge.tt/#7jYNqrH PDFill kann auch ein einziges tif mit mehreren Seiten daraus machen, falls das besser ist. Ich wusste es nicht und habs einzeln gemacht. Oh Mann, wäre das schön, wenn wir die Geschichte zusammen verfügbar machen könnten. Wie gesagt, Proofreading mache ich jederzeit gerne. |
05-19-2011, 02:43 PM | #10 |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
na gut, dass du die fehlenden Seiten im Schwert noch bemerkt hast Wollte nur mal kurz einen Zwischenstatus geben : beim Schwert hat mich jetzt der Ehrgeiz gepackt - das mache ich per tippen fertig! versprochen! (also nicht zu viel Ehrgeiz in das OCR stecken - vielleicht lieber in den Todesengel ) um die Erstellung des ebooks und das Hochladen etc. sollte sich dann aber wer anders kümmern - denn bis ich das endlich mal vernünftig auf die Kette kriege, dauert wohl noch was @Hokuspokus - könntest Du das übernehmen? würde dir dann mein .doc zukommen lassen - oder jedes andere Format dass ich in Word erstellen kann, ganz wie gewünscht ... Gruß, Uluhara ... die noch ein bißchen weiter tippt ... |
05-19-2011, 03:06 PM | #11 | |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Quote:
.doc wäre fein, dass kann ich gleich mit Libre Office weiterverarbeiten. Kannst Du es dann hier hochladen, wenn Du fertig bist? http://ge.tt/# Das ist so super, dass Du Dir diese Mühe machst!!! Hm, für's OCR würde ich dann aber nicht unbedingt den Todesengel empfehlen. Der war von allen S-C die ich bis jetzt gelesen habe, am wenigsten interessant. Ich hätte dann noch im Angebot: Meister Dietrich Aus Herr Balthasars Leben Die Weiße Rose Das Bildnis der Mutter Die Titel sagen jetzt auch nicht so schrecklich viel. Vielleicht am besten, Klaus versucht sein Glück mit dem Scan, der am saubersten aussieht? Das scheint Meister Dietrich zu sein. Ich guck nochmal drüber, ob alle Seiten da sind, dann kann ich's in tif umwandeln und hochladen. Klaus, sagst Du mir, ob Du tif am Stück/mehrseitig oder einzeln willst? |
|
05-19-2011, 05:51 PM | #12 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Einzel-Tifs sind besser geeignet, solange ich noch übe . Anbei eine Seite (jpg) des Physiologiebuchs, das ich erwähnt habe. Das Schriftbild ist recht klein, aber scharf umrissen (ich scanne das Buch selbst). Die Erkennungsrate ist ordentlich, wie aus dem angehängten Textfile zu erkennen ist.
Ich habe kurz ein paar Seiten aus "Das Schwert und die Schlangen" getestet (aus http://www.archive.org/details/ScansFrEbookReader) , die waren aber nicht so dolle, es war wohl das Schriftbild zu groß und verwaschen. Klaus |
05-19-2011, 06:02 PM | #13 |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
wow
kann man dich engagieren? ich hätte da noch ein paar Bücher im Schrank in Fraktur ... scannen würde ich die auch selber ... meine OCR Versuche endeten in 95% Sonderzeichen, die nichts, aber auch gar nichts mit dem Text zu tun hatten ... bitte bitte bitte ein Schritt-für-Schritt-Anleitung wie ich das nachmachen kann ... bitte bitte ... und das mit dem Ergebis beim Schwert habe ich so befürchtet ... und leider sind alle scans die ich bisher gefunden haben von nicht wirklich besserer Qualität ... aber vielleicht kann Hokuspokus da ja noch was auftreiben ... |
05-20-2011, 02:44 AM | #14 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
... es liegt wohl weniger an mir als an den "Machern" des Projekts Tesseract, die mit Sicherheit bereits sehr viel Arbeit dort hinein gesteckt haben . Wenn du dich daran versuchen willst: http://code.google.com/p/tesseract-ocr/ gibt einen guten Überblick, und in den Downloads kannst du gleich die die Programme und Trainingsbibliotheken herunter laden. Die Bibliothek für Fraktur ist deu-frak.traineddata.gz.
Das Problem liegt wohl nicht nur an "unsauberen" Scans, sondern auch an den verschiedenen Varianten der Fraktur. Was ich so gelesen habe, muss manchmal für ein en neuen Frakturtyp intensiv trainiert werden (was Zeitaufwand bedeutet). Ich fange gerade an mich da ein wenig einzulesen: es lohnt sich, wenn man Fraktur mag. Klaus |
05-20-2011, 03:01 AM | #15 |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
@ Hokuspokus (oder alle anderen interessierten )
melde Vollzug, das Schwert und die Schlagen ist abgetippt hier die Datei: http://ge.tt/5qJkqNG?c und ich hoffe das funktioniert so - kann mir bitte jemand sagen ob die Datei da ist und runtergeladen werden kann und zu öffnen ist? @ Klaus danke für den link -werde ich mir mal "bei Gelegenheit" ansehen - werde nur leider die nächsten 2 Wochen kaum zum spielen kommen ... so viel zu lesen, und so wenig Zeit |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Das Aus für den txtr Reader? | Bratzzo | Andere Lesegeräte | 22 | 12-05-2010 09:16 PM |
gibt es den perfekten eBook-Reader für mich? | Ataraxia | Erste Hilfe | 6 | 05-25-2010 10:54 AM |
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern | beachwanderer | Lounge | 2 | 02-24-2010 03:51 AM |
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten | mos | Andere Lesegeräte | 0 | 01-30-2010 04:52 AM |
Welche Features wünscht Ihr euch für den "perfekten Reader"? | Josch91 | Lounge | 9 | 08-03-2009 03:22 PM |