Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > Software

Notices

Reply
 
Thread Tools Search this Thread
Old 10-16-2015, 01:43 PM   #1
vergnuegt
Junior Member
vergnuegt began at the beginning.
 
Posts: 1
Karma: 10
Join Date: Oct 2015
Device: none
Wie scannt ihr Frakturschriften ein?

Hallo zusammen,

ich scanne alte Frakturschriften im tiff-Format ein, um sie später in Textdateien umzuwandeln, die ich mir dann vorlesen lassen kann. Hierbei habe ich bereits einige Programme ausprobiert, die mit Tesseract arbeiten:

- FreeOCR
- Gimagereader
- LimeOCR

daneben:
- Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten

- ScanTailor zum Optimieren der Seiten

Die Ergebnisse sind immer recht unterschiedlich und ich bin noch nicht so recht dahintergekommen, was eigentlich die beste Scan-Einstellung ist?

Erstaunlicherweise liefern FreeOCR und gimagereader unterschiedliche Ergebnisse, obwohl sie ja beide auf Tesseract beruhen - wobei FreeOCR mit Tesseract etwas besser ist? Was sind Eure Erfahrungen? Es gibt ja auch die Möglichkeit, den normalen Finereader zu trainieren. Scheint mir aber eine Menge Arbeit?

Wie scannt ihr die Vorlagen ein (300, dpi, 600 dpi, .... besondere Einstellungen?)

Welche Programme benutzt ihr?

Womit habt ihr die be3sten Erfahrungen gemacht?

Vielen Dank für Eure Antworten!

vergnuegt
vergnuegt is offline   Reply With Quote
Old 12-09-2015, 04:21 AM   #2
Foxi
Enthusiast
Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.
 
Posts: 37
Karma: 1560432
Join Date: Dec 2015
Device: none
Hallo zusammen,

da ich inzwischen einige Erfahrungen bei der Textumwandlung von Frakturschrift habe, kann ich dazu was beitragen.


Scannen
Bisher hatte ich das Glück, den Scan über mein Multifunktionsgerät durchführen zu können, weil mir bei Dokumentscan die Funktion "Durchschein-Effekt reduzieren" zur Verfügung steht. Ich bin da manchmal erstaunt, wie weiß der Hintergrund ist, wenn die Vorlage stark gebräunt ist. Ich denke, daß das für die spätere Texterkennung hilfreich ist.

Ich scanne mit 300 dpi und speichere im tif-Format ab.

Vorbereitung
Praktisch für die Texterkennung hat sich erwiesen, dass ich alle Scan-Dateien durchgehe und die Texte begradige (bei schrägen Scan) und zuschneide, soweit erforderlich. Diese mache ich mit Paint.NET

Umwandlung
Für die Umwandlung zu Text, nutze ich auch Tesseract. Aber die Umwandlung selbst führe ich nicht in einen Grafik-Programm durch, sondern über die Windows-Kommando-Ebene. Nach dieser Hilfeanleitung konnte ich die Befehle meinen Gegebenheiten anpassen und das funktionierte super.

Last edited by Foxi; 02-21-2020 at 08:06 AM. Reason: Schreibfehler korrigiert
Foxi is offline   Reply With Quote
Old 12-11-2015, 03:57 AM   #3
gawl
Enthusiast
gawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic something
 
gawl's Avatar
 
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
Generell stimme ich foxis Beitrag voll zu, hier vielleicht noch ein paar unsortierte eigene Erfahrungen:
* Je größer die Scan-Auflösung, desto besser die Texterkennung, insofern kann die Auflösung nie groß genug genug sein. Allerdings wachsen Dateigröße und Bearbeitungszeit irgendwann über alle sinnvolle Maße. Deswegen beschränke ich mich meistens auf 600dpi, außer bei Texten mit unverschämt kleiner Schriftgröße.
* Ich kann in meinem Scanprogramm für Graustufen-Scans den zu verwendenden Farbkanal einstellen. Falls so etwas bei Dir auch geht, dann solltest Du auch einmal mit den Einstellungen herumprobieren, weil "Problemzonen" (vergilbtes Papier, braune Flecken, etc.) damit zum Teil erfreulich stark reduziert werden.
* Ich nutze Tesseract auf der Linux-Kommandozeile.
* Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert. Ich hatte nämlich den Eindruck, daß das zu Tesseract gehörende Standardmuster für Fraktur einen viel zu großen Zeichenvorrat unterstützt, was nur auf den ersten Blick gut erscheint, denn gerade bei Fraktur gibt es eine ganze Reihe sehr ähnlicher Zeichen, und wenn ich vermeiden kann, daß immer wieder bestimmte Buchstaben fälschlich als irgendein exotisches Sonderzeichen erkannt werden, indem ich von vorneherein Tesseract nur auf Buchstaben, Ziffern und gängige Satzzeichen trainiere, dann spart mich das Zeit beim Nachkorrigieren ;-)
gawl is offline   Reply With Quote
Old 12-16-2015, 02:22 AM   #4
Foxi
Enthusiast
Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.Foxi ought to be getting tired of karma fortunes by now.
 
Posts: 37
Karma: 1560432
Join Date: Dec 2015
Device: none
@gawl,

da hab ich mal ne Frage: Wie kann man Tesseract trainieren? Ich bin da eher ein Nutzer, der froh ist, dass das läuft. Hab mich da nicht vertieft beschäftigt mit.

Als ich feststellte, dass oft immer wiederkehrende Fehlinterpretationen gibt, was nicht nur bei der Umwandlung von Frakturschrift vorkommt, stellte ich mein Vorgehensweise um.

Die einzelnen txt-Dateien in einen Gesamte zusammengefasst und dann alles in Open Office Writer-Datei kopiert und Stück für Stück abgearbeitet, und wenn mir solche Fehlerwiederholungen auffielen, dann mit der Suchen/Ersetzen-Funktion korrigiert. Die falschen Anführungszeichen kriegte ich damit schön behoben. Oder wenn Namen/Eigennamen gleichmäßig falsch erkannt wurden. Oder bestimmte Buchstabenkombinationen.

Last edited by Foxi; 12-16-2015 at 02:25 AM.
Foxi is offline   Reply With Quote
Old 12-17-2015, 10:22 AM   #5
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Quote:
Originally Posted by gawl;
* Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert.
Wärst du bereit, die Trainingsdaten der Allgemeinheit zur Verfügung zu stellen??
mmat1 is offline   Reply With Quote
Old 12-17-2015, 11:09 AM   #6
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Quote:
Originally Posted by Foxi View Post

da hab ich mal ne Frage: Wie kann man Tesseract trainieren? .
guck dir mal die folgende Seite an:
http://vietocr.sourceforge.net/training.html
mmat1 is offline   Reply With Quote
Old 12-18-2015, 03:09 AM   #7
gawl
Enthusiast
gawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic something
 
gawl's Avatar
 
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/

@mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-)

Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war...

Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-)
gawl is offline   Reply With Quote
Old 12-18-2015, 04:29 AM   #8
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Quote:
Originally Posted by gawl View Post
Sorry, bin zur Zeit a bisserl in Vorweihnachtshektik und kann nicht so zeitnah antworten, wie ich gerne möchte :-/

@mmat1: Den Verweis auf den jTessBoxEditor kannte ich noch nicht, vielen Dank! :-)

Meine eigenen Trainingsversuche sind schon a bisserl länger her (um 2014 herum), vielleicht gab es diesen Editor da noch nicht (oder ich wußte davon nichts). Ich habe alles noch ziemlich "basic" über etliche Kommandozeilen-Tools und händisch editierte Textdateien zusammengedengelt, alles auf Basis einer (englischsprachigen) Webseite, die ich nur mäßig verständlich fand, so daß vieles auch mühsames "Trial and Error" war...

Selbstverständlich kann ich meine Dateien zur Verfügung stellen. Inwiefern diese für Euch nützlich sind, ist dann die andere Frage, denn wie gesagt, war alles noch recht elementar gedengelt, aber das kann jeder Interessierte ja dann selbst beurteilen ;-)
Ja danke, das wäre Nett. Die Sourcen für das offizielle Frakturtraining sind zwar öffentlich, aber wie ich meine ziemlich untauglich, da sie offensichtlich auf einer anderen Sprache basieren. Mainzer Fraktur hatte ich auch schon ins Auge gefasst, daneben ggf. noch ein bis zwei weitere...

Also sag mir nur wo ich es abholen kann ... Im Gegenzug bin ich natürlich gerne bereit, signifikante Ergebnisse meiner Beschäftigung mit dem Thema zu teilen.

Achja, das Thema schwelt schon lange bei mir, daher ist es auch nicht so eilig.
mmat1 is offline   Reply With Quote
Old 12-29-2015, 06:38 AM   #9
gawl
Enthusiast
gawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic something
 
gawl's Avatar
 
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
deu-schwab -- Meine eigenen Tesseract-Trainingserfahrungen

Ich habe mir einmal kurz angesehen, was ich damals (September 2013) so verunstaltet habe...
Ich zweifle immer noch, ob jemand anderer da etwas verstehen kann, möchte mich jetzt aber keineswegs drücken ;-)
Ich ging damals nach folgender Anleitung vor: https://code.google.com/p/tesseract-...ningTesseract3
Außerdem war mein Ziel, eine Schwabacher zu trainieren, daher benannte die entstehende Tessdata-Datei "deu-schwab" (siehe Attachment).
Da mein eigentliches Hobby (im Gegensatz zu manch anderem Mobileread-Enthusiasten) darin bestand, Ebooks in Frakturschriften zu bauen, habe ich die "deu-schwab" so angelegt, daß das "lange s" der Fraktur erhalten bleiben solle (Unicode U+17F) und *nicht* einfach durch Rund-s ersetzt werden solle. Das könnt ihr im eigentlichen Trainings-Ordner trainings_und_wortliste/tesseract_training in den Dateien de.schwabacher.exp[01].box sehen
Ich hatte tatsächlich nur Zeit für 2 Trainings-PNG ("0" und "1"), das ist eigentlich arg knapp, aber für mehr reichte die Zeit nicht, und zu meiner positiven Überraschung wurde das Endergebnis durchaus brauchbar.
Gemäß dem Rat der Wiki-Seite waren diese beiden PNG übrigens *nicht* Original-Scans aus einem Buch, denn dann bestünde die Gefahr, daß Tesseract sich die Scanfehler (wellige Zeilen, unterschiedlich große Buchstaben, etc.) als "Soll" mit aneignet. Stattdessen habe ich die Seiten in Inkscape (www.inkscape.org) unter Verwendung einer Schwabacher Schriftart in geeigneter Schriftgröße (vergleichbar mit den Scans) selbst getippt und anschließend nach PNG exportiert.
Selbstverständlich hatte ich die zu Tesseract schon mitgelieferte "de-frak" ausgepackt und als Startdateien verwendet, deswegen liegt dieser Unterordner auch mit dabei, einige der zahlreichen Dateien habe ich nämlich einfach unverändert übernommen.
Den größten Aufwand habe ich mir damals noch mit dem "Wörterbuch" gemacht. Dasjenige, das Bestandteil der "de-frak" ist, empfand ich als ungeeignet (zum Teil eigenartige Wörter und keine "Lang-s"), daher habe ich versucht, aus meinen bis dato selbst erstellten Fraktur-Ebooks alle Wörter zu extrahieren und zu sammeln und nach Häufigkeit zu sortieren. Daher finden sich viele Zwischenstufen im Unterordner trainings_und_wortliste/Wortlisten_fuer_word-dawg_und_word-txt. Hier müßtest Ihr Euch natürlich selbst überlegen, inwiefern Ihr Euch Arbeit machen wollt, ich hatte damals den Eindruck, daß das Wörterbuch durchaus großen Einfluß hat auf die Sicherheit, mit der Wörter erkannt werden, und habe deswegen mehr Zeit darin investiert als in die eigentliche graphische Erkennung über die PNG...
Attached Files
File Type: zip deu-schwab.zip (7.41 MB, 843 views)
gawl is offline   Reply With Quote
Old 02-19-2020, 09:10 AM   #10
famfam
Connoisseur
famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.famfam ought to be getting tired of karma fortunes by now.
 
Posts: 80
Karma: 2178856
Join Date: Oct 2013
Device: Kobo Clara HD
Benutzerdefinierte Fraktursprachen (FR 15)

Quote:
Originally Posted by vergnuegt View Post
Hallo zusammen,

daneben:
- Finereader Fraktur (online, kostenpflichtig) -> funktioniert am besten
Gibt es vielleicht im inet benutzerdefinierte Sprachen für FR 15, die kostenlos zum download bereitgestellt sind? Genau sowas suche ich.
Wie kann eine benutzerdefinierte Sprache in FR 15 importieren?

Eigentlich bietet sich doch so eine Lösung an? Aber warum gibt es das noch nicht? Oder doch?

Dann kann man sich doch FR Fraktur sparen.

Benutzerdefinierte Fraktursprachen müssen doch irgenwie in FR 15 importierbar sein oder liege ich das falsch?
famfam is offline   Reply With Quote
Old 02-16-2022, 05:40 PM   #11
Jannu
Connoisseur
Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.Jannu ought to be getting tired of karma fortunes by now.
 
Posts: 58
Karma: 718318
Join Date: Jan 2021
Device: Kindle Paperwhite, iPad Air, Fire HD 8 + LineageOS
trainedata Dateien für tesseract Fraktur der UB-Mannheim

Um den thread mal wieder auf einen aktuellen Stand zu bringen.

Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata).

Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier:

https://github.com/tesseract-ocr/tes...iki/GT4HistOCR

Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht:

https://ub-backup.bib.uni-mannheim.d...05.traineddata
Jannu is offline   Reply With Quote
Reply


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Wie schützt Ihr Euer PB302 gulu-gulu PocketBook 3 03-09-2010 08:36 AM
Ein Buch so teuer wie ein Reader K-Thom Lounge 11 03-06-2010 06:26 AM
Wie alt seid ihr? Ulli Lounge 30 02-10-2010 11:14 AM
Wie sortiert Ihr Eure Bücher? eibix E-Books 1 12-02-2009 04:05 PM


All times are GMT -4. The time now is 03:59 PM.


MobileRead.com is a privately owned, operated and funded community.