Wie scannt ihr Frakturschriften ein?

vergnuegt · 10-16-2015, 01:43 PM

Hallo zusammen,

ich scanne alte Frakturschriften im tiff-Format ein, um sie später in Textdateien umzuwandeln, die ich mir dann vorlesen lassen kann. Hierbei habe ich bereits einige Programme ausprobiert, die mit Tesseract arbeiten:

- FreeOCR
- Gimagereader
- LimeOCR

daneben:
- Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten

- ScanTailor zum Optimieren der Seiten

Die Ergebnisse sind immer recht unterschiedlich und ich bin noch nicht so recht dahintergekommen, was eigentlich die beste Scan-Einstellung ist?

Erstaunlicherweise liefern FreeOCR und gimagereader unterschiedliche Ergebnisse, obwohl sie ja beide auf Tesseract beruhen - wobei FreeOCR mit Tesseract etwas besser ist? Was sind Eure Erfahrungen? Es gibt ja auch die Möglichkeit, den normalen Finereader zu trainieren. Scheint mir aber eine Menge Arbeit?

Wie scannt ihr die Vorlagen ein (300, dpi, 600 dpi, .... besondere Einstellungen?)

Welche Programme benutzt ihr?

Womit habt ihr die be3sten Erfahrungen gemacht?

Vielen Dank für Eure Antworten!

vergnuegt

Foxi · 12-09-2015, 04:21 AM

Hallo zusammen,

da ich inzwischen einige Erfahrungen bei der Textumwandlung von Frakturschrift habe, kann ich dazu was beitragen.

Scannen
Bisher hatte ich das Glück, den Scan über mein Multifunktionsgerät durchführen zu können, weil mir bei Dokumentscan die Funktion "Durchschein-Effekt reduzieren" zur Verfügung steht. Ich bin da manchmal erstaunt, wie weiß der Hintergrund ist, wenn die Vorlage stark gebräunt ist. Ich denke, daß das für die spätere Texterkennung hilfreich ist.

Ich scanne mit 300 dpi und speichere im tif-Format ab.

Vorbereitung
Praktisch für die Texterkennung hat sich erwiesen, dass ich alle Scan-Dateien durchgehe und die Texte begradige (bei schrägen Scan) und zuschneide, soweit erforderlich. Diese mache ich mit Paint.NET

Umwandlung
Für die Umwandlung zu Text, nutze ich auch Tesseract. Aber die Umwandlung selbst führe ich nicht in einen Grafik-Programm durch, sondern über die Windows-Kommando-Ebene. Nach dieser Hilfeanleitung konnte ich die Befehle meinen Gegebenheiten anpassen und das funktionierte super.

gawl · 12-11-2015, 03:57 AM

Generell stimme ich foxis Beitrag voll zu, hier vielleicht noch ein paar unsortierte eigene Erfahrungen:
* Je größer die Scan-Auflösung, desto besser die Texterkennung, insofern kann die Auflösung nie groß genug genug sein. Allerdings wachsen Dateigröße und Bearbeitungszeit irgendwann über alle sinnvolle Maße. Deswegen beschränke ich mich meistens auf 600dpi, außer bei Texten mit unverschämt kleiner Schriftgröße.
* Ich kann in meinem Scanprogramm für Graustufen-Scans den zu verwendenden Farbkanal einstellen. Falls so etwas bei Dir auch geht, dann solltest Du auch einmal mit den Einstellungen herumprobieren, weil "Problemzonen" (vergilbtes Papier, braune Flecken, etc.) damit zum Teil erfreulich stark reduziert werden.
* Ich nutze Tesseract auf der Linux-Kommandozeile.
* Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert. Ich hatte nämlich den Eindruck, daß das zu Tesseract gehörende Standardmuster für Fraktur einen viel zu großen Zeichenvorrat unterstützt, was nur auf den ersten Blick gut erscheint, denn gerade bei Fraktur gibt es eine ganze Reihe sehr ähnlicher Zeichen, und wenn ich vermeiden kann, daß immer wieder bestimmte Buchstaben fälschlich als irgendein exotisches Sonderzeichen erkannt werden, indem ich von vorneherein Tesseract nur auf Buchstaben, Ziffern und gängige Satzzeichen trainiere, dann spart mich das Zeit beim Nachkorrigieren ;-)

Foxi · 12-16-2015, 02:22 AM

@gawl,

da hab ich mal ne Frage: Wie kann man Tesseract trainieren? Ich bin da eher ein Nutzer, der froh ist, dass das läuft. Hab mich da nicht vertieft beschäftigt mit.

Als ich feststellte, dass oft immer wiederkehrende Fehlinterpretationen gibt, was nicht nur bei der Umwandlung von Frakturschrift vorkommt, stellte ich mein Vorgehensweise um.

Die einzelnen txt-Dateien in einen Gesamte zusammengefasst und dann alles in Open Office Writer-Datei kopiert und Stück für Stück abgearbeitet, und wenn mir solche Fehlerwiederholungen auffielen, dann mit der Suchen/Ersetzen-Funktion korrigiert. Die falschen Anführungszeichen kriegte ich damit schön behoben. Oder wenn Namen/Eigennamen gleichmäßig falsch erkannt wurden. Oder bestimmte Buchstabenkombinationen.

mmat1 · 12-17-2015, 10:22 AM

Quote:

Originally Posted by gawl;

* Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert.

Wärst du bereit, die Trainingsdaten der Allgemeinheit zur Verfügung zu stellen??

mmat1 · 12-17-2015, 11:09 AM

Quote:

Originally Posted by Foxi

da hab ich mal ne Frage: Wie kann man Tesseract trainieren? .

guck dir mal die folgende Seite an:
http://vietocr.sourceforge.net/training.html

gawl · 12-18-2015, 03:09 AM

Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/

@mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-)

Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war...

Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-)

mmat1 · 12-18-2015, 04:29 AM

Quote:

Originally Posted by gawl

Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/

@mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-)

Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war...

Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-)

Ja danke, das wäre Nett. Die Sourcen für das offizielle Frakturtraining sind zwar öffentlich, aber wie ich meine ziemlich untauglich, da sie offensichtlich auf einer anderen Sprache basieren. Mainzer Fraktur hatte ich auch schon ins Auge gefasst, daneben ggf. noch ein bis zwei weitere...

Also sag mir nur wo ich es abholen kann ...

Im Gegenzug bin ich natürlich gerne bereit, signifikante Ergebnisse meiner Beschäftigung mit dem Thema zu teilen.

Achja, das Thema schwelt schon lange bei mir, daher ist es auch nicht so eilig.

gawl · 12-29-2015, 06:38 AM

Ich habe mir einmal kurz angesehen, was ich damals (September 2013) so verunstaltet habe...
Ich zweifle immer noch, ob jemand anderer da etwas verstehen kann, möchte mich jetzt aber keineswegs drücken ;-)
Ich ging damals nach folgender Anleitung vor: https://code.google.com/p/tesseract-...ningTesseract3
Außerdem war mein Ziel, eine Schwabacher zu trainieren, daher benannte die entstehende Tessdata-Datei "deu-schwab" (siehe Attachment).
Da mein eigentliches Hobby (im Gegensatz zu manch anderem Mobileread-Enthusiasten) darin bestand, Ebooks in Frakturschriften zu bauen, habe ich die "deu-schwab" so angelegt, daß das "lange s" der Fraktur erhalten bleiben solle (Unicode U+17F) und *nicht* einfach durch Rund-s ersetzt werden solle. Das könnt ihr im eigentlichen Trainings-Ordner trainings_und_wortliste/tesseract_training in den Dateien de.schwabacher.exp[01].box sehen
Ich hatte tatsächlich nur Zeit für 2 Trainings-PNG ("0" und "1"), das ist eigentlich arg knapp, aber für mehr reichte die Zeit nicht, und zu meiner positiven Überraschung wurde das Endergebnis durchaus brauchbar.
Gemäß dem Rat der Wiki-Seite waren diese beiden PNG übrigens *nicht* Original-Scans aus einem Buch, denn dann bestünde die Gefahr, daß Tesseract sich die Scanfehler (wellige Zeilen, unterschiedlich große Buchstaben, etc.) als "Soll" mit aneignet. Stattdessen habe ich die Seiten in Inkscape (www.inkscape.org) unter Verwendung einer Schwabacher Schriftart in geeigneter Schriftgröße (vergleichbar mit den Scans) selbst getippt und anschließend nach PNG exportiert.
Selbstverständlich hatte ich die zu Tesseract schon mitgelieferte "de-frak" ausgepackt und als Startdateien verwendet, deswegen liegt dieser Unterordner auch mit dabei, einige der zahlreichen Dateien habe ich nämlich einfach unverändert übernommen.
Den größten Aufwand habe ich mir damals noch mit dem "Wörterbuch" gemacht. Dasjenige, das Bestandteil der "de-frak" ist, empfand ich als ungeeignet (zum Teil eigenartige Wörter und keine "Lang-s"), daher habe ich versucht, aus meinen bis dato selbst erstellten Fraktur-Ebooks alle Wörter zu extrahieren und zu sammeln und nach Häufigkeit zu sortieren. Daher finden sich viele Zwischenstufen im Unterordner trainings_und_wortliste/Wortlisten_fuer_word-dawg_und_word-txt. Hier müßtest Ihr Euch natürlich selbst überlegen, inwiefern Ihr Euch Arbeit machen wollt, ich hatte damals den Eindruck, daß das Wörterbuch durchaus großen Einfluß hat auf die Sicherheit, mit der Wörter erkannt werden, und habe deswegen mehr Zeit darin investiert als in die eigentliche graphische Erkennung über die PNG...

famfam · 02-19-2020, 09:10 AM

Quote:

Originally Posted by vergnuegt

Hallo zusammen,

daneben:
- Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten

Gibt es vielleicht im inet benutzerdefinierte Sprachen für FR 15, die kostenlos zum download bereitgestellt sind? Genau sowas suche ich.
Wie kann eine benutzerdefinierte Sprache in FR 15 importieren?

Eigentlich bietet sich doch so eine Lösung an? Aber warum gibt es das noch nicht? Oder doch?

Dann kann man sich doch FR Fraktur sparen.

Benutzerdefinierte Fraktursprachen müssen doch irgenwie in FR 15 importierbar sein oder liege ich das falsch?

Jannu · 02-16-2022, 05:40 PM

Um den thread mal wieder auf einen aktuellen Stand zu bringen.

Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata).

Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier:

https://github.com/tesseract-ocr/tes...iki/GT4HistOCR

Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht:

https://ub-backup.bib.uni-mannheim.d...05.traineddata

10-16-2015, 01:43 PM	#1
vergnuegt Junior Member Posts: 1 Karma: 10 Join Date: Oct 2015 Device: none	Wie scannt ihr Frakturschriften ein? Hallo zusammen, ich scanne alte Frakturschriften im tiff-Format ein, um sie später in Textdateien umzuwandeln, die ich mir dann vorlesen lassen kann. Hierbei habe ich bereits einige Programme ausprobiert, die mit Tesseract arbeiten: - FreeOCR - Gimagereader - LimeOCR daneben: - Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten - ScanTailor zum Optimieren der Seiten Die Ergebnisse sind immer recht unterschiedlich und ich bin noch nicht so recht dahintergekommen, was eigentlich die beste Scan-Einstellung ist? Erstaunlicherweise liefern FreeOCR und gimagereader unterschiedliche Ergebnisse, obwohl sie ja beide auf Tesseract beruhen - wobei FreeOCR mit Tesseract etwas besser ist? Was sind Eure Erfahrungen? Es gibt ja auch die Möglichkeit, den normalen Finereader zu trainieren. Scheint mir aber eine Menge Arbeit? Wie scannt ihr die Vorlagen ein (300, dpi, 600 dpi, .... besondere Einstellungen?) Welche Programme benutzt ihr? Womit habt ihr die be3sten Erfahrungen gemacht? Vielen Dank für Eure Antworten! vergnuegt

12-09-2015, 04:21 AM	#2
Foxi Enthusiast Posts: 37 Karma: 1560432 Join Date: Dec 2015 Device: none	Hallo zusammen, da ich inzwischen einige Erfahrungen bei der Textumwandlung von Frakturschrift habe, kann ich dazu was beitragen. Scannen Bisher hatte ich das Glück, den Scan über mein Multifunktionsgerät durchführen zu können, weil mir bei Dokumentscan die Funktion "Durchschein-Effekt reduzieren" zur Verfügung steht. Ich bin da manchmal erstaunt, wie weiß der Hintergrund ist, wenn die Vorlage stark gebräunt ist. Ich denke, daß das für die spätere Texterkennung hilfreich ist. Ich scanne mit 300 dpi und speichere im tif-Format ab. Vorbereitung Praktisch für die Texterkennung hat sich erwiesen, dass ich alle Scan-Dateien durchgehe und die Texte begradige (bei schrägen Scan) und zuschneide, soweit erforderlich. Diese mache ich mit Paint.NET Umwandlung Für die Umwandlung zu Text, nutze ich auch Tesseract. Aber die Umwandlung selbst führe ich nicht in einen Grafik-Programm durch, sondern über die Windows-Kommando-Ebene. Nach dieser Hilfeanleitung konnte ich die Befehle meinen Gegebenheiten anpassen und das funktionierte super. Last edited by Foxi; 02-21-2020 at 08:06 AM. Reason: Schreibfehler korrigiert

12-16-2015, 02:22 AM	#4
Foxi Enthusiast Posts: 37 Karma: 1560432 Join Date: Dec 2015 Device: none	@gawl, da hab ich mal ne Frage: Wie kann man Tesseract trainieren? Ich bin da eher ein Nutzer, der froh ist, dass das läuft. Hab mich da nicht vertieft beschäftigt mit. Als ich feststellte, dass oft immer wiederkehrende Fehlinterpretationen gibt, was nicht nur bei der Umwandlung von Frakturschrift vorkommt, stellte ich mein Vorgehensweise um. Die einzelnen txt-Dateien in einen Gesamte zusammengefasst und dann alles in Open Office Writer-Datei kopiert und Stück für Stück abgearbeitet, und wenn mir solche Fehlerwiederholungen auffielen, dann mit der Suchen/Ersetzen-Funktion korrigiert. Die falschen Anführungszeichen kriegte ich damit schön behoben. Oder wenn Namen/Eigennamen gleichmäßig falsch erkannt wurden. Oder bestimmte Buchstabenkombinationen. Last edited by Foxi; 12-16-2015 at 02:25 AM.

02-16-2022, 05:40 PM	#11
Jannu Connoisseur Posts: 58 Karma: 718318 Join Date: Jan 2021 Device: Kindle Paperwhite, iPad Air, Fire HD 8 + LineageOS	trainedata Dateien für tesseract Fraktur der UB-Mannheim Um den thread mal wieder auf einen aktuellen Stand zu bringen. Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata). Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier: https://github.com/tesseract-ocr/tes...iki/GT4HistOCR Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht: https://ub-backup.bib.uni-mannheim.d...05.traineddata

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
Wie schützt Ihr Euer PB302	gulu-gulu	PocketBook	3	03-09-2010 08:36 AM
Ein Buch so teuer wie ein Reader	K-Thom	Lounge	11	03-06-2010 06:26 AM
Wie alt seid ihr?	Ulli	Lounge	30	02-10-2010 11:14 AM
Wie sortiert Ihr Eure Bücher?	eibix	E-Books	1	12-02-2009 04:05 PM

12-11-2015, 03:57 AM	#3
gawl Enthusiast Posts: 27 Karma: 18672 Join Date: Mar 2013 Device: Pocketbook Touch	Generell stimme ich foxis Beitrag voll zu, hier vielleicht noch ein paar unsortierte eigene Erfahrungen: * Je größer die Scan-Auflösung, desto besser die Texterkennung, insofern kann die Auflösung nie groß genug genug sein. Allerdings wachsen Dateigröße und Bearbeitungszeit irgendwann über alle sinnvolle Maße. Deswegen beschränke ich mich meistens auf 600dpi, außer bei Texten mit unverschämt kleiner Schriftgröße. * Ich kann in meinem Scanprogramm für Graustufen-Scans den zu verwendenden Farbkanal einstellen. Falls so etwas bei Dir auch geht, dann solltest Du auch einmal mit den Einstellungen herumprobieren, weil "Problemzonen" (vergilbtes Papier, braune Flecken, etc.) damit zum Teil erfreulich stark reduziert werden. * Ich nutze Tesseract auf der Linux-Kommandozeile. * Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert. Ich hatte nämlich den Eindruck, daß das zu Tesseract gehörende Standardmuster für Fraktur einen viel zu großen Zeichenvorrat unterstützt, was nur auf den ersten Blick gut erscheint, denn gerade bei Fraktur gibt es eine ganze Reihe sehr ähnlicher Zeichen, und wenn ich vermeiden kann, daß immer wieder bestimmte Buchstaben fälschlich als irgendein exotisches Sonderzeichen erkannt werden, indem ich von vorneherein Tesseract nur auf Buchstaben, Ziffern und gängige Satzzeichen trainiere, dann spart mich das Zeit beim Nachkorrigieren ;-)

12-18-2015, 03:09 AM	#7
gawl Enthusiast Posts: 27 Karma: 18672 Join Date: Mar 2013 Device: Pocketbook Touch	Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/ @mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-) Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war... Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-)