Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > E-Books

Notices

Reply
 
Thread Tools Search this Thread
Old 05-20-2011, 03:04 AM   #16
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Das Ergebnis ist wirklich beeindruckend! Wow!
Jetzt ärgert es mich um so mehr, dass ich Tesseract nicht zum Laufen bekommen habe.
Die Scans sind leider alle nicht besser, Google eben, aber vielleicht macht es ja einen kleinen Unterschied, wenn Du nicht die beschnittenen Seiten sondern die Bilder von den Originalseiten nimmst?
Wenn Du dein Glück nochmal versuchen willst, Meister Dietrich ist hier: http://ge.tt/#7jYNqrH
Du wirst an den Dateinamen merken, dass Seiten fehlen, aber diesmal ist das Buch komplett. Die Seiten waren teilweise doppelt gescant.
Generell sind die Scans von Archive.org besser, aber das meiste, was man da findet, ist leider auch nur von Google übernommen.
Hokuspokus is offline   Reply With Quote
Old 05-20-2011, 03:08 AM   #17
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Quote:
Originally Posted by Uluhara View Post
@ Hokuspokus (oder alle anderen interessierten )

melde Vollzug, das Schwert und die Schlagen ist abgetippt

hier die Datei: http://ge.tt/5qJkqNG?c

und ich hoffe das funktioniert so - kann mir bitte jemand sagen ob die Datei da ist und runtergeladen werden kann und zu öffnen ist?
Supervielendankeschön!!!
Ja, die Datei ist da und runtergeladen. Ich mach mich gleich an die Arbeit ...
Hokuspokus is offline   Reply With Quote
Advert
Old 05-20-2011, 04:00 AM   #18
piff
Enthusiast
piff began at the beginning.
 
piff's Avatar
 
Posts: 31
Karma: 10
Join Date: Nov 2010
Device: PB360
Ein paar nützliche Informationen zu Tesseract findet man auch auf den folgenden Seiten:
https://adnanvatandas.wordpress.com/...eract-windows/
http://wiki.ubuntuusers.de/tesseract-ocr
http://wiki.ubuntuusers.de/tesseract...ocr_trainieren

Die Ubuntu-Links erklären auch das Handling schön anschaulich und Schritt für Schritt. Auch als Windows-Nutzer kann man mMn gut davon profitieren.
Denn Scan von Klaus hab ich mal durch ein frisch installiertes Tesseract (ohne Training) durchgejagt. Das Ergebnis ist schon mal recht gut.
piff is offline   Reply With Quote
Old 05-20-2011, 05:00 AM   #19
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Hallole ... hier überschlagen sich ja die Aktivitäten! Hier einmal eine kleine Kochanleitung für Windows Anwender, die sich auch auf Betriebssystemebene bewegen können (Kenntnisse von DOS und den benötigten Kommandos sind leider erforderlich):
  • Schritt 1: Lade herunter von http://code.google.com/p/tesseract-ocr/downloads/list : tesseract-ocr-setup-3.00.exe und deu-frak.traineddata.gz
  • Schritt 2: Entpacke und installiere mit tesseract-ocr-setup-3.00.exe, entpacke in das Unterverzeichnis \tessdata die Datei deu-frak.traineddata
  • Schritt 3: im Verzeichnis C:\Program Files (x86)\Tesseract-OCR sollten jetzt folgende Elemente zu sehen sein (siehe Anhang Textfile liste.txt
  • Schritt 4: auf Kommandozeilenebene wird z.B. folgender Befehl gegeben: tesseract f:\temp\img01.tif f:\temp\img01 -l deu-frak
Damit habe ich die erste Hürde überwunden: ich lasse mit tesseract ein Bild mit dem Namen img01.tif im Verzeichnis F:\temp so bearbeiten, daß ein Textfile mit dem Namen img01.txt imselben Verzeichnis ausgegeben wird. Der Befehl -l deu-frak weist tesseract an auf die Trainingsbibliothek desselben Namens zuzugreifen. Normaler deutscher Text (keine Fraktur) wird also mit -l deu bearbeitet [edit], wobei diese natürlich vorhanden sein muß!

Training u.s.w. ist dann komplizierter und da helfen die von piff genannten Links weiter.

Klaus
Attached Files
File Type: txt liste.txt (3.6 KB, 832 views)

Last edited by kbaerwald; 05-20-2011 at 05:05 AM.
kbaerwald is offline   Reply With Quote
Old 05-20-2011, 05:20 AM   #20
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Quote:
Originally Posted by Hokuspokus View Post
Wenn Du dein Glück nochmal versuchen willst, Meister Dietrich ist hier: http://ge.tt/#7jYNqrH
Du wirst an den Dateinamen merken, dass Seiten fehlen, aber diesmal ist das Buch komplett. Die Seiten waren teilweise doppelt gescant.
Generell sind die Scans von Archive.org besser, aber das meiste, was man da findet, ist leider auch nur von Google übernommen.
Das sieht doch schon einmal gut aus: ich habe die Seite 140 von "Meister Dietrich" genommen, ein wenig Maniküre betrieben (Randbeschnitt) und durch tesseract geschoben. Original und "Fälschung" im Anhang. Alles komplett unbearbeitet.

Es erhebt sich natürlich die Frage ob nicht ein Schnellschreiber wie Uluhara schneller zum Ziel gelangt, wenn noch viel nachgearbeitet bzw. tesseract trainiert werden muß.

Klaus
Attached Thumbnails
Click image for larger version

Name:	img12.jpg
Views:	677
Size:	458.3 KB
ID:	71614  
Attached Files
File Type: txt img12.txt (1.4 KB, 664 views)
kbaerwald is offline   Reply With Quote
Advert
Old 05-20-2011, 07:16 AM   #21
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Das sieht wirklich gut aus. Würdest Du die anderen Seiten auch durch Tesseract schicken? Dann würde ich das Proofreading übernehmen.
Abschreiben geht wohl nur dann schneller, wenn man wirklich gut 10 Finger schreiben kann. Kann ich leider nicht.

Die Anleitungen zu Tesseract werde ich mir in einer ruhigen Stunde mal ausführlich zu Gemüte führen. Vielen Dank piff und Klaus für die Infos!
Hokuspokus is offline   Reply With Quote
Old 05-20-2011, 07:42 AM   #22
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Quote:
Originally Posted by Hokuspokus View Post
Das sieht wirklich gut aus. Würdest Du die anderen Seiten auch durch Tesseract schicken? Dann würde ich das Proofreading übernehmen.
Abschreiben geht wohl nur dann schneller, wenn man wirklich gut 10 Finger schreiben kann. Kann ich leider nicht.

Die Anleitungen zu Tesseract werde ich mir in einer ruhigen Stunde mal ausführlich zu Gemüte führen. Vielen Dank piff und Klaus für die Infos!
O.K. dauert ein wenig - melde mich dann wieder.

Klaus
kbaerwald is offline   Reply With Quote
Old 05-20-2011, 10:00 AM   #23
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Ich habe die pdf Datei (Meister Dietrich) genommen, Seiten grob beschnitten und in tif gewandelt. Danach Behandlung mit tesseract und *.txt in meister_dietrich.txt zusammengeführt. Es sieht nicht so "schön" aus wie bei meinem selbst gescannten Material: schätze die fehlerrate bei etwa 15-20% je nach Vorlage. Aber es ist über weite Strecken durchaus lesbar.

Ich sehe folgende Probleme:
  • schräge Seitenlage beim Scan -> kann man korrigieren
  • unebene und gewölbte Scanvorlage: ist beim Auflegen eines geöffneten Buchs auf die Glasplatte des Scanners zu beoachten -> ich habe einen Buchscanner, der dies weitgehend verhindert. Es gibt wohl OCR Programme, die das korrigieren.
  • zahlreiche Verunreinigungen -> wüsste nicht, wie das zu korrigieren ist (vielleicht gibt es so etwas wie die Staub- und Kratzerentfernung bei gescannten Fotos?). Man kann das schön sehen auf Seite 2, die praktisch leer ist - da baut sich tesseract etwas zusammen.
  • zu "fettes" Schriftbild verändert sozusagen die Gestalt der Fonts und erschwert damit OCR -> kann man m.E. nur während der Scanphase in den Griff bekommen

Ich habe die Textdatei zwecks Korrekturlesen angehängt - viel Spaß.

Klaus

[edit] Pdf Datei wurde bereinigt und präzise geschnitten (Vermeidung von Störstellen), teilweise wurden Seiten gerade gerückt. Es gibt nun die imho deutlich besser interpretierte Version 2 im Anhang.
Attached Files
File Type: txt meister_dietrich.txt (129.6 KB, 707 views)
File Type: txt meister-dietrich_v2.txt (121.6 KB, 711 views)

Last edited by kbaerwald; 05-20-2011 at 12:12 PM. Reason: Ergänzung
kbaerwald is offline   Reply With Quote
Old 05-20-2011, 05:29 PM   #24
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Super! Vielen Dank!
Die epub Version von Schwert und Schlage wird wohl morgen fertig werden. Muss noch ein Cover entwerfen. Dann fange ich gleich mit dem PR für Meister Dietrich an.
Hokuspokus is offline   Reply With Quote
Old 05-26-2011, 06:05 PM   #25
Vauh
Zealot
Vauh began at the beginning.
 
Posts: 141
Karma: 10
Join Date: Dec 2007
Device: Pocketbook Touch Lux 3
Super, das ist ja interessant. Schaue ich mir auch mal an, obwohl ich kaum selbst etwas machen kann. Ich habe einen Mac und mit den Windows-Programmen in der Emulation ist es auch nicht so toll mit der Zusammenarbeit mit meinem Scanner.

Vauh
Vauh is offline   Reply With Quote
Old 05-27-2011, 04:28 AM   #26
piff
Enthusiast
piff began at the beginning.
 
piff's Avatar
 
Posts: 31
Karma: 10
Join Date: Nov 2010
Device: PB360
Übrigens Tesseract läuft auch auf Maschinen mit dem angebissnen Apfel.
Guckst Du:
http://www.macresearch.org/do-it-you...ecognition-ocr
http://www.malcolmhardie.com/ocr/index.html
piff is offline   Reply With Quote
Old 05-27-2011, 11:41 AM   #27
Vauh
Zealot
Vauh began at the beginning.
 
Posts: 141
Karma: 10
Join Date: Dec 2007
Device: Pocketbook Touch Lux 3
Danke, wusste ich nicht. Probiere ich gerne mal aus.

Vauh
Vauh is offline   Reply With Quote
Old 05-27-2011, 11:49 AM   #28
Vauh
Zealot
Vauh began at the beginning.
 
Posts: 141
Karma: 10
Join Date: Dec 2007
Device: Pocketbook Touch Lux 3
Wo findet man eigentlich Scans alter Bücher, die man bearbeiten kann?
Oder scannt ihr eigene Bücher und bearbeitet die dann?
Ich habe zwar einige alte Bücher, aber leider nicht so viele.

Vauh
Vauh is offline   Reply With Quote
Old 05-27-2011, 12:38 PM   #29
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
Quote:
Originally Posted by Vauh View Post
Wo findet man eigentlich Scans alter Bücher, die man bearbeiten kann?
Oder scannt ihr eigene Bücher und bearbeitet die dann?
Ich habe zwar einige alte Bücher, aber leider nicht so viele.

Vauh
Hallo Vauh,

durch die Scans von Hokuspokus bin ich auf http://books.google.de/ aufmerksam geworden - da scheint jede Menge Potential drinzustecken, auch wenn ich die Suchfunktion irgendwie "merkwürdig" finde ... und das ausgerechnet auf einer Google Seite
Uluhara is offline   Reply With Quote
Old 05-27-2011, 04:53 PM   #30
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Qualitativ bessere Scans findet man bei Archive.org, obwohl da auch viele Google Scans zu finden sind. Allerdings kriegt man manchmal über Archive auch Google Bücher, die von Google aus irgendwelchen Gründen für nicht US IPs gesperrt sind. (all files http)
http://www.archive.org/details/texts
Hokuspokus is offline   Reply With Quote
Reply


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Das Aus für den txtr Reader? Bratzzo Andere Lesegeräte 22 12-05-2010 09:16 PM
gibt es den perfekten eBook-Reader für mich? Ataraxia Erste Hilfe 6 05-25-2010 10:54 AM
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern beachwanderer Lounge 2 02-24-2010 03:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten mos Andere Lesegeräte 0 01-30-2010 04:52 AM
Welche Features wünscht Ihr euch für den "perfekten Reader"? Josch91 Lounge 9 08-03-2009 03:22 PM


All times are GMT -4. The time now is 07:03 PM.


MobileRead.com is a privately owned, operated and funded community.