10-16-2015, 01:43 PM | #1 |
Junior Member
Posts: 1
Karma: 10
Join Date: Oct 2015
Device: none
|
Wie scannt ihr Frakturschriften ein?
Hallo zusammen,
ich scanne alte Frakturschriften im tiff-Format ein, um sie später in Textdateien umzuwandeln, die ich mir dann vorlesen lassen kann. Hierbei habe ich bereits einige Programme ausprobiert, die mit Tesseract arbeiten: - FreeOCR - Gimagereader - LimeOCR daneben: - Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten - ScanTailor zum Optimieren der Seiten Die Ergebnisse sind immer recht unterschiedlich und ich bin noch nicht so recht dahintergekommen, was eigentlich die beste Scan-Einstellung ist? Erstaunlicherweise liefern FreeOCR und gimagereader unterschiedliche Ergebnisse, obwohl sie ja beide auf Tesseract beruhen - wobei FreeOCR mit Tesseract etwas besser ist? Was sind Eure Erfahrungen? Es gibt ja auch die Möglichkeit, den normalen Finereader zu trainieren. Scheint mir aber eine Menge Arbeit? Wie scannt ihr die Vorlagen ein (300, dpi, 600 dpi, .... besondere Einstellungen?) Welche Programme benutzt ihr? Womit habt ihr die be3sten Erfahrungen gemacht? Vielen Dank für Eure Antworten! vergnuegt |
12-09-2015, 04:21 AM | #2 |
Enthusiast
Posts: 37
Karma: 1560432
Join Date: Dec 2015
Device: none
|
Hallo zusammen,
da ich inzwischen einige Erfahrungen bei der Textumwandlung von Frakturschrift habe, kann ich dazu was beitragen. Scannen Bisher hatte ich das Glück, den Scan über mein Multifunktionsgerät durchführen zu können, weil mir bei Dokumentscan die Funktion "Durchschein-Effekt reduzieren" zur Verfügung steht. Ich bin da manchmal erstaunt, wie weiß der Hintergrund ist, wenn die Vorlage stark gebräunt ist. Ich denke, daß das für die spätere Texterkennung hilfreich ist. Ich scanne mit 300 dpi und speichere im tif-Format ab. Vorbereitung Praktisch für die Texterkennung hat sich erwiesen, dass ich alle Scan-Dateien durchgehe und die Texte begradige (bei schrägen Scan) und zuschneide, soweit erforderlich. Diese mache ich mit Paint.NET Umwandlung Für die Umwandlung zu Text, nutze ich auch Tesseract. Aber die Umwandlung selbst führe ich nicht in einen Grafik-Programm durch, sondern über die Windows-Kommando-Ebene. Nach dieser Hilfeanleitung konnte ich die Befehle meinen Gegebenheiten anpassen und das funktionierte super. Last edited by Foxi; 02-21-2020 at 08:06 AM. Reason: Schreibfehler korrigiert |
Advert | |
|
12-11-2015, 03:57 AM | #3 |
Enthusiast
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
|
Generell stimme ich foxis Beitrag voll zu, hier vielleicht noch ein paar unsortierte eigene Erfahrungen:
* Je größer die Scan-Auflösung, desto besser die Texterkennung, insofern kann die Auflösung nie groß genug genug sein. Allerdings wachsen Dateigröße und Bearbeitungszeit irgendwann über alle sinnvolle Maße. Deswegen beschränke ich mich meistens auf 600dpi, außer bei Texten mit unverschämt kleiner Schriftgröße. * Ich kann in meinem Scanprogramm für Graustufen-Scans den zu verwendenden Farbkanal einstellen. Falls so etwas bei Dir auch geht, dann solltest Du auch einmal mit den Einstellungen herumprobieren, weil "Problemzonen" (vergilbtes Papier, braune Flecken, etc.) damit zum Teil erfreulich stark reduziert werden. * Ich nutze Tesseract auf der Linux-Kommandozeile. * Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert. Ich hatte nämlich den Eindruck, daß das zu Tesseract gehörende Standardmuster für Fraktur einen viel zu großen Zeichenvorrat unterstützt, was nur auf den ersten Blick gut erscheint, denn gerade bei Fraktur gibt es eine ganze Reihe sehr ähnlicher Zeichen, und wenn ich vermeiden kann, daß immer wieder bestimmte Buchstaben fälschlich als irgendein exotisches Sonderzeichen erkannt werden, indem ich von vorneherein Tesseract nur auf Buchstaben, Ziffern und gängige Satzzeichen trainiere, dann spart mich das Zeit beim Nachkorrigieren ;-) |
12-16-2015, 02:22 AM | #4 |
Enthusiast
Posts: 37
Karma: 1560432
Join Date: Dec 2015
Device: none
|
@gawl,
da hab ich mal ne Frage: Wie kann man Tesseract trainieren? Ich bin da eher ein Nutzer, der froh ist, dass das läuft. Hab mich da nicht vertieft beschäftigt mit. Als ich feststellte, dass oft immer wiederkehrende Fehlinterpretationen gibt, was nicht nur bei der Umwandlung von Frakturschrift vorkommt, stellte ich mein Vorgehensweise um. Die einzelnen txt-Dateien in einen Gesamte zusammengefasst und dann alles in Open Office Writer-Datei kopiert und Stück für Stück abgearbeitet, und wenn mir solche Fehlerwiederholungen auffielen, dann mit der Suchen/Ersetzen-Funktion korrigiert. Die falschen Anführungszeichen kriegte ich damit schön behoben. Oder wenn Namen/Eigennamen gleichmäßig falsch erkannt wurden. Oder bestimmte Buchstabenkombinationen. Last edited by Foxi; 12-16-2015 at 02:25 AM. |
12-17-2015, 10:22 AM | #5 | |
Berti
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
|
Quote:
|
|
Advert | |
|
12-17-2015, 11:09 AM | #6 |
Berti
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
|
guck dir mal die folgende Seite an:
http://vietocr.sourceforge.net/training.html |
12-18-2015, 03:09 AM | #7 |
Enthusiast
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
|
Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/
@mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-) Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war... Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-) |
12-18-2015, 04:29 AM | #8 | |
Berti
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
|
Quote:
Also sag mir nur wo ich es abholen kann ... Im Gegenzug bin ich natürlich gerne bereit, signifikante Ergebnisse meiner Beschäftigung mit dem Thema zu teilen. Achja, das Thema schwelt schon lange bei mir, daher ist es auch nicht so eilig. |
|
12-29-2015, 06:38 AM | #9 |
Enthusiast
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
|
deu-schwab -- Meine eigenen Tesseract-Trainingserfahrungen
Ich habe mir einmal kurz angesehen, was ich damals (September 2013) so verunstaltet habe...
Ich zweifle immer noch, ob jemand anderer da etwas verstehen kann, möchte mich jetzt aber keineswegs drücken ;-) Ich ging damals nach folgender Anleitung vor: https://code.google.com/p/tesseract-...ningTesseract3 Außerdem war mein Ziel, eine Schwabacher zu trainieren, daher benannte die entstehende Tessdata-Datei "deu-schwab" (siehe Attachment). Da mein eigentliches Hobby (im Gegensatz zu manch anderem Mobileread-Enthusiasten) darin bestand, Ebooks in Frakturschriften zu bauen, habe ich die "deu-schwab" so angelegt, daß das "lange s" der Fraktur erhalten bleiben solle (Unicode U+17F) und *nicht* einfach durch Rund-s ersetzt werden solle. Das könnt ihr im eigentlichen Trainings-Ordner trainings_und_wortliste/tesseract_training in den Dateien de.schwabacher.exp[01].box sehen Ich hatte tatsächlich nur Zeit für 2 Trainings-PNG ("0" und "1"), das ist eigentlich arg knapp, aber für mehr reichte die Zeit nicht, und zu meiner positiven Überraschung wurde das Endergebnis durchaus brauchbar. Gemäß dem Rat der Wiki-Seite waren diese beiden PNG übrigens *nicht* Original-Scans aus einem Buch, denn dann bestünde die Gefahr, daß Tesseract sich die Scanfehler (wellige Zeilen, unterschiedlich große Buchstaben, etc.) als "Soll" mit aneignet. Stattdessen habe ich die Seiten in Inkscape (www.inkscape.org) unter Verwendung einer Schwabacher Schriftart in geeigneter Schriftgröße (vergleichbar mit den Scans) selbst getippt und anschließend nach PNG exportiert. Selbstverständlich hatte ich die zu Tesseract schon mitgelieferte "de-frak" ausgepackt und als Startdateien verwendet, deswegen liegt dieser Unterordner auch mit dabei, einige der zahlreichen Dateien habe ich nämlich einfach unverändert übernommen. Den größten Aufwand habe ich mir damals noch mit dem "Wörterbuch" gemacht. Dasjenige, das Bestandteil der "de-frak" ist, empfand ich als ungeeignet (zum Teil eigenartige Wörter und keine "Lang-s"), daher habe ich versucht, aus meinen bis dato selbst erstellten Fraktur-Ebooks alle Wörter zu extrahieren und zu sammeln und nach Häufigkeit zu sortieren. Daher finden sich viele Zwischenstufen im Unterordner trainings_und_wortliste/Wortlisten_fuer_word-dawg_und_word-txt. Hier müßtest Ihr Euch natürlich selbst überlegen, inwiefern Ihr Euch Arbeit machen wollt, ich hatte damals den Eindruck, daß das Wörterbuch durchaus großen Einfluß hat auf die Sicherheit, mit der Wörter erkannt werden, und habe deswegen mehr Zeit darin investiert als in die eigentliche graphische Erkennung über die PNG... |
02-19-2020, 09:10 AM | #10 | |
Connoisseur
Posts: 80
Karma: 2178856
Join Date: Oct 2013
Device: Kobo Clara HD
|
Benutzerdefinierte Fraktursprachen (FR 15)
Quote:
Wie kann eine benutzerdefinierte Sprache in FR 15 importieren? Eigentlich bietet sich doch so eine Lösung an? Aber warum gibt es das noch nicht? Oder doch? Dann kann man sich doch FR Fraktur sparen. Benutzerdefinierte Fraktursprachen müssen doch irgenwie in FR 15 importierbar sein oder liege ich das falsch? |
|
02-16-2022, 05:40 PM | #11 |
Connoisseur
Posts: 58
Karma: 718318
Join Date: Jan 2021
Device: Kindle Paperwhite, iPad Air, Fire HD 8 + LineageOS
|
trainedata Dateien für tesseract Fraktur der UB-Mannheim
Um den thread mal wieder auf einen aktuellen Stand zu bringen.
Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata). Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier: https://github.com/tesseract-ocr/tes...iki/GT4HistOCR Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht: https://ub-backup.bib.uni-mannheim.d...05.traineddata |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Wie schützt Ihr Euer PB302 | gulu-gulu | PocketBook | 3 | 03-09-2010 08:36 AM |
Ein Buch so teuer wie ein Reader | K-Thom | Lounge | 11 | 03-06-2010 06:26 AM |
Wie alt seid ihr? | Ulli | Lounge | 30 | 02-10-2010 11:14 AM |
Wie sortiert Ihr Eure Bücher? | eibix | E-Books | 1 | 12-02-2009 04:05 PM |