Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > E-Books

Notices

Reply
 
Thread Tools Search this Thread
Old 05-17-2011, 10:45 AM   #1
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Scans für den Reader

Es gibt da draußen sooo viele gescante Bücher, die es noch nicht nach Gutenberg und Co geschafft haben. OCR von Fraktur selbst zu machen, ist teuer, schwierig oder unmöglich, aber warum auf OCR warten, wenn man Fraktur lesen kann?

Da ich gerade ganz versessen auf Salice-Contessa bin, habe ich mir seine Erzählungen aus Scans der Gesammelten Schriften heraus geholt und in Erwartung meines Readers ein bisschen optimiert. Das Ergebnis war besser als erwartet und es hat Spaß gemacht, also habe ich ein bisschen am Herstellungsprozess gefeilt und weiter rumgespielt (Ihr kennt ja inzwischen meine Vorliebe für solche Spielereien).

Es gibt wohl Tools, die die Ränder von PDFs automatisch beschneiden, aber das Ergebnis ist irgendwie nicht so hübsch, also habe ich mir ein Script gestrickt, das die händische Bearbeitung wesentlich erleichtert. Wenn's jemanden interessiert, kann ich gern erklären, wie und was.

Das Ergebnis jedenfalls würde ich gerne mit Euch teilen. Da Scans wohl eher nicht so gerne hier gesehen sind, habe ich sie bei Archive.org hochgeladen.
http://www.archive.org/details/ScansFrEbookReader

Karl Wilhelm Salice-Contessa:
Das Schwert und die Schlagen
Todesengel

Gisela von Arnim:
Drei Märchen: Mondkönigs Tochter; Aus den Papieren eines Spatzen; Heimelchen

Das Gespensterbuch von A. Apel und F. Laun (Hrsg.)
Die Vorbedeutungen; Der Gespensterläugner; Klara Mongomery - Aus den Papieren des Chevaliers St. **ge

Abendländische 1001 Nacht. Die schönsten Mährchen und Sagen aller europäischen Völker. von J.P. Lyser
Band 1 Abteilung 1 und 2
Band 2 Abteilung 1 und 2

Das ist weitestgehend noch Experimentierstadium, wer also Fehler findet, kann sie gerne behalten. Es würde mich aber auf jeden Fall interessieren, ob Ihr prinzipiell Interesse an bearbeiteten Scans habt, oder eher nicht.

Ich sehe gerade, das ist alles wenig übersichtlich. Archive lässt mich aber gerade nicht ran, um die Seite besser zu gestalten. Im Moment geht leider nur blind runterladen oder warten, bis ich daran was ändern kann. Sorry.
Hokuspokus is offline   Reply With Quote
Old 05-18-2011, 03:03 AM   #2
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Ich fand die Bearbeitung ansprechend. Als etwas älterer Leser habe ich jedoch Probleme mit a. den Störstellen durchscheinender Rückseiten und b. der "Fettigkeit" des Schrtiftbilds, welche beide die Lesbarkeit herunter setzen.

Aber daran kannst Du nichts ändern, wenn Du lediglich die Scanvorlage bearbeitest. Das ist ja schon das Problem beim Scannen.

Wenn sich da nicht ein Spezialist der OCR Propblematik annimmt, wird es wohl auch in Zukunft bei Faksimiles bleiben.

Jedenfalls danke für die Bearbeitung. Funktioniert das Tool eigentlich dynamisch oder geht das über eine fest eingestellte Schnittmaske, wie bei Adobe Acrobat?

Klaus
kbaerwald is offline   Reply With Quote
Advert
Old 05-18-2011, 08:46 AM   #3
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Ja, die Scans im Netz sind häufig ziemlich schlecht. Gutenberg DE z.B. macht deshalb prinzipiell eigene Scans, weil man nur so ein brauchbares OCR Ergebnis bekommt.

Nun, die Scans sind da, sie sind besser als nichts und sie sind umsonst. Für viele der Bücher aus dem 19ten Jahrhundert sind sie die einzige Chance, überhaupt noch gelesen zu werden und für uns die einzige Chance, sie zu lesen. Also nutzen wir sie, so weit das geht, und hoffen auf bessere Technik in der Zukunft.

Die Scans habe ich von Hand jede Seite einzeln beschnitten. Das klingt schlimmer, als es ist, denn es gibt ein Tool, das einem viel Arbeit abnimmt: Autohotkey http://de.autohotkey.com/
Damit kann man Scripts erstellen und ausführen, die Tastendruck oder Mausklick an den Computer senden.

Zum Bearbeiten habe ich Irfanview verwendet http://www.chip.de/downloads/IrfanView_12998187.html

Zunächst habe ich die Bilder aus dem PDF extrahiert. Das geht mit Calibre (nach epub konvertieren und nach zip umbenennen) oder mit pdfill http://www.chip.de/downloads/PDFill-..._44529795.html
Das pdfill Tool ist wesentlich schneller. Beide Möglichkeiten liefern aber bei Bildern oder unklaren Seiten einfach eine weiße Seite. Die muss man dann mit der Foto Funktion in einem beliebigen PDF Betrachter ergänzen. Das habe ich leider erst recht spät bemerkt. Der Todesengel hat deshalb leider mindestens eine fehlende Seite.

Von Hand würde man jetzt das erste Bild öffnen, den Schnittbereich markieren, ausschneiden, speichern und das nächste Bild öffnen. Abgesehen vom Markieren des Schnittbereichs lasse ich alles von dem Hotkey Scirpt machen. Ich muss nur noch zwei Tasten drücken und fertig.

Das ist das Script:
Quote:
;snip ********************************************
;
; AutoHotkey Version: 1.x
; Language: English
; Platform: Win7
; Author: Hokuspokus
;
; Script Function:
; gescante Buchseiten beschneiden
;

#NoEnv ; Recommended for performance and compatibility with future AutoHotkey releases.
SendMode Input ; Recommended for new scripts due to its superior speed and reliability.
SetWorkingDir %A_ScriptDir% ; Ensures a consistent starting directory.

;cut:
SC03A & a::
{
Send, ^y
Send, ^s
MouseClick, left, xxx, yy

}
Return

;snap ******************************************
Code in ein txt file copieren, speichern und die txt Datei in wasauchimmer.ahk umbenennen. Doppelklick startet das Script, dass sich dann als grünes H im Systemtray aufhält. Ausgelöst wird es, in dem man gleichzeitig Capslock und a drückt. Da es einen Mausklick auf eine bestimmte Stelle des Bildschirms emuliert (auf den Pfeil, der die nächste Datei im Verzeichnis öffnet), muss es an den jeweiligen Bildschirm angepasst werden. Bei Autohotkey ist ein Tool dabei, mit dem man die genau Position ermitteln kann. Die Werte müssen in der grünen Zeile entsprechend geändert werden. Man kann das Script natürlich auch auf andere Bildbearbeitungsprogramme anpassen.

Archive.org ist inzwischen auch mit der automatischen Bearbeitung fertig geworden. Über die Titel kann man jetzt die entsprechenden PDFs runterladen.
Hokuspokus is offline   Reply With Quote
Old 05-19-2011, 07:57 AM   #4
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505


Vielen Dank erst mal für eine interessante Lese-Erfahrung - aus irgendeinem Grund hat mich "Das Schwert und die Schlangen" direkt interessiert, obwohl ich von dem Autor noch nie was gehört hatte ...

die Qualität des Scans ist - nun ja

Jetzt habe ich gesehen, dass du zwei Geschichten von Salice hier schon veröffentlicht hast - sind das selbst konvertiere, oder gab es die schon als "digitalen" Text?

Wenn du selbst konvertiert hast - gibt es OCR für Fraktur die funktioniert? Oder ist abtippen angesagt?

Falls "abtippen" die einzige Möglichkeit ist - würde ich mich mal an die Schlangen begeben ...
Uluhara is offline   Reply With Quote
Old 05-19-2011, 09:47 AM   #5
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Ich mache gerade meine ersten Gehversuche mit Tesseract-OCR: da ist schon einiges an Arbeit von Fraktur-Freunden geleistet worden. Ich habe ein altes Physiologiebuch aus der Mitte des 19.Jh mit schönen Zeichnungen. Da liegt die OCR Fehlerrate bei ca. 10% (der Rest ist Fleißarbeit).

Ich würde mich auch gerne einmal an Herrn Salice-Contessa versuchen und dann berichten.
kbaerwald is offline   Reply With Quote
Advert
Old 05-19-2011, 10:26 AM   #6
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Außer dem Abbyy Finereader XIX ist Tesseract wohl die einzige Möglichkeit für OCR von Fraktur. Ich habe es leider nicht zum Laufen bekommen. 10% Fehler klingt doch gar nicht so schlecht! Besser als das Google OCR von lateinischer Schrift.

Klaus,
wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist.
Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen.

Uluhara,
die beiden Erzählungen, die ich hier hochgeladen habe, und noch ein paar mehr, gibt es auch bei Gutenberg DE und inzwischen wohl auch bei Amazon. Wenn Dir Das Schwert und die Schlagen gefallen haben, wirst Du Das Gastmahl auch mögen, könnte ich mir vorstellen.
Hokuspokus is offline   Reply With Quote
Old 05-19-2011, 10:28 AM   #7
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
Quote:
Originally Posted by kbaerwald View Post
Ich mache gerade meine ersten Gehversuche mit Tesseract-OCR: da ist schon einiges an Arbeit von Fraktur-Freunden geleistet worden. Ich habe ein altes Physiologiebuch aus der Mitte des 19.Jh mit schönen Zeichnungen. Da liegt die OCR Fehlerrate bei ca. 10% (der Rest ist Fleißarbeit).

Ich würde mich auch gerne einmal an Herrn Salice-Contessa versuchen und dann berichten.
oh ja, bitte mal versuchen! ruhig mit dem Schwert von oben aus dem link - das würde mich doch interessieren ob das klappt!

aber keine Hetze - gut Ding will Weile haben

ich fang einfach mal an zu tippen ...


@ Hokuspokus

du schreibst, dass im Todesengel was fehlt - könntest du das entweder ausbessern oder die "komplette" Ursprungs-PDF zur Verfügung stellen?



Hi, Hi, das nenn ich mal Simultan-Posting :-)
Uluhara is offline   Reply With Quote
Old 05-19-2011, 11:13 AM   #8
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Quote:
Originally Posted by Hokuspokus View Post
Klaus,
wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist.
Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen.
Also, Tesseract-OCR frißt nur tif, ich versuche gerade eine Windows Batch-Datei ans Laufen zu bringen, die alle tif's aus einem dir lädt und dieselbe Menge an Textfiles ausgibt. FreeOCR bietet eine GUI an , die ich aber noch nicht richtig ans Laufen gebracht habe. Da wäre ich flexibler.

Wenn Du also noch die Seiten in tif anbieten könntest, wäre das super. Aber auch pdf ist o.k., da konvertiere ich einfach mit Acrobat in tif.

Klaus
kbaerwald is offline   Reply With Quote
Old 05-19-2011, 02:20 PM   #9
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Aaalso,

die fehlenden Seiten beim Todesengel waren gar nicht mein Fehler, die Seiten 21 und 22 fehlen schon in dem Scan, den ich benutzt habe. Es gibt aber noch einen anderen Scan, der komplett zu sein scheint, allerdings von einer anderen Ausgabe mit anderer Seiteneinteilung. Ich kann die fehlenden Seiten leider nicht einfach einflicken. Ich werde die Erzählung wohl nochmal ganz neu bearbeiten müssen. *seufzt*
Inzwischen gibt es die komplette Erzählung hier http://books.google.de/books?id=gXgT...page&q&f=false
ab Seite 257

Sicherheitshalber habe ich Schwert und Schlage auch nochmal nachgesehen - es fehlen auch zwei Seiten, die dritt und viertletzte (war mir beim Lesen gar nicht so aufgefallen). Hier war es mein Fehler, ich habe die Seiten eingefügt und das pdf bei Archive neu hochgeladen.
http://www.archive.org/details/ScansFrEbookReader

Klaus,
die einzelnen tif files und zur Kontrolle nochmal das unbearbeitete pdf von Schwert und Schlage kannst Du hier runterladen. http://ge.tt/#7jYNqrH
PDFill kann auch ein einziges tif mit mehreren Seiten daraus machen, falls das besser ist. Ich wusste es nicht und habs einzeln gemacht.

Oh Mann, wäre das schön, wenn wir die Geschichte zusammen verfügbar machen könnten. Wie gesagt, Proofreading mache ich jederzeit gerne.
Hokuspokus is offline   Reply With Quote
Old 05-19-2011, 02:43 PM   #10
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505


na gut, dass du die fehlenden Seiten im Schwert noch bemerkt hast




Wollte nur mal kurz einen Zwischenstatus geben : beim Schwert hat mich jetzt der Ehrgeiz gepackt - das mache ich per tippen fertig! versprochen! (also nicht zu viel Ehrgeiz in das OCR stecken - vielleicht lieber in den Todesengel )

um die Erstellung des ebooks und das Hochladen etc. sollte sich dann aber wer anders kümmern - denn bis ich das endlich mal vernünftig auf die Kette kriege, dauert wohl noch was

@Hokuspokus - könntest Du das übernehmen? würde dir dann mein .doc zukommen lassen - oder jedes andere Format dass ich in Word erstellen kann, ganz wie gewünscht ...

Gruß, Uluhara

... die noch ein bißchen weiter tippt ...
Uluhara is offline   Reply With Quote
Old 05-19-2011, 03:06 PM   #11
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
Quote:
Originally Posted by Uluhara View Post
@Hokuspokus - könntest Du das übernehmen? würde dir dann mein .doc zukommen lassen - oder jedes andere Format dass ich in Word erstellen kann, ganz wie gewünscht ...

Gruß, Uluhara

... die noch ein bißchen weiter tippt ...
Klar, gerne.
.doc wäre fein, dass kann ich gleich mit Libre Office weiterverarbeiten. Kannst Du es dann hier hochladen, wenn Du fertig bist?
http://ge.tt/#

Das ist so super, dass Du Dir diese Mühe machst!!!

Hm, für's OCR würde ich dann aber nicht unbedingt den Todesengel empfehlen. Der war von allen S-C die ich bis jetzt gelesen habe, am wenigsten interessant.
Ich hätte dann noch im Angebot:
Meister Dietrich
Aus Herr Balthasars Leben
Die Weiße Rose
Das Bildnis der Mutter

Die Titel sagen jetzt auch nicht so schrecklich viel. Vielleicht am besten, Klaus versucht sein Glück mit dem Scan, der am saubersten aussieht? Das scheint Meister Dietrich zu sein. Ich guck nochmal drüber, ob alle Seiten da sind, dann kann ich's in tif umwandeln und hochladen.

Klaus, sagst Du mir, ob Du tif am Stück/mehrseitig oder einzeln willst?
Hokuspokus is offline   Reply With Quote
Old 05-19-2011, 05:51 PM   #12
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Einzel-Tifs sind besser geeignet, solange ich noch übe . Anbei eine Seite (jpg) des Physiologiebuchs, das ich erwähnt habe. Das Schriftbild ist recht klein, aber scharf umrissen (ich scanne das Buch selbst). Die Erkennungsrate ist ordentlich, wie aus dem angehängten Textfile zu erkennen ist.

Ich habe kurz ein paar Seiten aus "Das Schwert und die Schlangen" getestet (aus http://www.archive.org/details/ScansFrEbookReader) , die waren aber nicht so dolle, es war wohl das Schriftbild zu groß und verwaschen.

Klaus
Attached Thumbnails
Click image for larger version

Name:	IMG_0004.jpg
Views:	1210
Size:	1.17 MB
ID:	71600  
Attached Files
File Type: txt img_0004.txt (3.7 KB, 644 views)
kbaerwald is offline   Reply With Quote
Old 05-19-2011, 06:02 PM   #13
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
wow

kann man dich engagieren? ich hätte da noch ein paar Bücher im Schrank in Fraktur ... scannen würde ich die auch selber ...

meine OCR Versuche endeten in 95% Sonderzeichen, die nichts, aber auch gar nichts mit dem Text zu tun hatten ...


bitte bitte bitte ein Schritt-für-Schritt-Anleitung wie ich das nachmachen kann ... bitte bitte ...


und das mit dem Ergebis beim Schwert habe ich so befürchtet ... und leider sind alle scans die ich bisher gefunden haben von nicht wirklich besserer Qualität ... aber vielleicht kann Hokuspokus da ja noch was auftreiben ...
Uluhara is offline   Reply With Quote
Old 05-20-2011, 02:44 AM   #14
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
... es liegt wohl weniger an mir als an den "Machern" des Projekts Tesseract, die mit Sicherheit bereits sehr viel Arbeit dort hinein gesteckt haben . Wenn du dich daran versuchen willst: http://code.google.com/p/tesseract-ocr/ gibt einen guten Überblick, und in den Downloads kannst du gleich die die Programme und Trainingsbibliotheken herunter laden. Die Bibliothek für Fraktur ist deu-frak.traineddata.gz.

Das Problem liegt wohl nicht nur an "unsauberen" Scans, sondern auch an den verschiedenen Varianten der Fraktur. Was ich so gelesen habe, muss manchmal für ein en neuen Frakturtyp intensiv trainiert werden (was Zeitaufwand bedeutet). Ich fange gerade an mich da ein wenig einzulesen: es lohnt sich, wenn man Fraktur mag.

Klaus
kbaerwald is offline   Reply With Quote
Old 05-20-2011, 03:01 AM   #15
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
@ Hokuspokus (oder alle anderen interessierten )

melde Vollzug, das Schwert und die Schlagen ist abgetippt

hier die Datei: http://ge.tt/5qJkqNG?c

und ich hoffe das funktioniert so - kann mir bitte jemand sagen ob die Datei da ist und runtergeladen werden kann und zu öffnen ist?


@ Klaus

danke für den link -werde ich mir mal "bei Gelegenheit" ansehen - werde nur leider die nächsten 2 Wochen kaum zum spielen kommen ... so viel zu lesen, und so wenig Zeit
Uluhara is offline   Reply With Quote
Reply


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Das Aus für den txtr Reader? Bratzzo Andere Lesegeräte 22 12-05-2010 09:16 PM
gibt es den perfekten eBook-Reader für mich? Ataraxia Erste Hilfe 6 05-25-2010 10:54 AM
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern beachwanderer Lounge 2 02-24-2010 03:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten mos Andere Lesegeräte 0 01-30-2010 04:52 AM
Welche Features wünscht Ihr euch für den "perfekten Reader"? Josch91 Lounge 9 08-03-2009 03:22 PM


All times are GMT -4. The time now is 10:13 AM.


MobileRead.com is a privately owned, operated and funded community.