05-27-2011, 05:41 PM | #31 |
Zealot
Posts: 141
Karma: 10
Join Date: Dec 2007
Device: Pocketbook Touch Lux 3
|
Nun, US-IPs sind für mich kein Problem. Mein Sohn lebt in den USA.
Ich schaue mir die Sachen gerne mal an und melde mich wieder. Danke. Vauh |
05-29-2011, 01:33 PM | #32 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Hallo hokuspokus
Leider sind ja viele Scans aus der Google Library schlecht: insbesondere machen zu fett gescannte Schriften (überbelichet) und zahlreiche Flecken und "Fliegenschiß" solche Scans für OCR unbrauchbar. Wenn dann noch Fraktur-Scans gemacht werden, ist es oft ganz schwer brauchbares Ausgangsmaterial zu bekommen. Von Polaroid gibt es ein Freeware Programm (PolaDSR=Dust & Scratch Removal), welches von Fotografen eingesetzt wird zur Retusche von Schwarzweißfotos (da funktionieren die modernen IR-basierenden Systeme nicht!). Wenn man jetzt die einzelnen tifs mit diesem Programm "behandelt" (es muß vorsichtig vorgegangen werden, damit nicht gleich alle Umlaute entfernt werden), so resultiert ein gesäubertes tif, welches dann durch tesseract et al. geschickt werden kann. Ich habe einmal eine Seite aus dem Todesengel von Karl Wilhelm Salice-Contessa entsprechend vorbehandelt und dann mit tesseract interpretiert. Es sieht am Ende immer noch recht schlimm aus, aber man kann wenigstens einen Sinn erahnen. Bei den OCR Fehlern bzgl. "fetten" Buchstaben hilft das natürlich auch nicht: hier muss neu gescannt werden. Dem gescannten Material des "Todesengel" kann man leider nur schlechte Noten geben, hier ist es wahrscheinlich sinnvoller, wenn alles abgetippt wird: m.E. ist hier der Gesamtaufwand verglichen mit OCR + DSR pro tif geringer. Überlege dir, ob du dich herantraust, oder wir finden jemanden, der mehr OCR-Arbeit da hineinsteckt. Beispiele, wie immer, in der Anlage. Auch das etwas fragwürdige Gesamt-Textfile des gescannten "Todesengels" (mit den fehlenden Seiten) als todesengel_gesamt.txt. Klaus |
Advert | |
|
05-29-2011, 02:13 PM | #33 |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
Hallo kbaerwald,
Danke für die Infos zum "Scannen mit OCR von Fraktur" - hört sich an als machtest Du richtige Fortschritte Zur Scan-Qualität vom Todesengel: ehrlich gesagt wundert es mich, dass du da überhaupt was rausholen konntest ... die Seiten sind wirklich teilweise ein Graus, die kann ich teilweise kaum lesen / entziffern und muss manchmal zum "Kontext raten" übergehen Melde mich also hiermit zum "Abtippen" - kann aber etwas dauern, hab im Moment reichlich zu tun ... wünsche noch einen schönen Sonntag |
05-29-2011, 02:58 PM | #34 |
Enthusiast
Posts: 37
Karma: 500222
Join Date: Mar 2011
Device: none
|
Übrigens gibt es "Das Schwert und die Schlangen" auch bei Google (e)books (auch als PDF, in besserer Qualität als das im ersten Beitrag dieses Threads verlinkte Dokument), interessanterweise nicht als Fließtext verfügbar, obwohl das Dokument durchsuchbar ist, also durch OCR lief ...
|
05-29-2011, 03:44 PM | #35 | |
Connoisseur
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
|
Quote:
https://www.mobileread.com/forums/sho...06#post1547206 wie komm ich denn an das von dir verlinkte Dokument ran? Kann ich irgendwie nicht öffnen ... vielleicht ist da ja noch was drin was besser zu gebrauchen ist als die Scans die ich schon habe? |
|
Advert | |
|
05-29-2011, 04:30 PM | #36 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Das gibt es auch als ganz normales Google Book.
http://books.google.de/books?id=1DIu...gbs_navlinks_s Möglich, dass dieser Scan besser ausgefallen ist, als der, den ich benutzt habe. Meister Dietrich ist nach wie vor in Arbeit, ich komme nur irgendwie zu nichts im Moment. |
05-30-2011, 09:28 AM | #37 |
Enthusiast
Posts: 37
Karma: 500222
Join Date: Mar 2011
Device: none
|
Rechts auf der Seite, wo der große "Jetzt lesen"-Knopf ist, steht dadrunter auch "Auf ihrem Gerät lesen". Auf der Seite unten ist dann ein PDF-Download.
|
05-30-2011, 10:36 AM | #38 |
BioReader
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
|
Dank Zatakawa ... neue Vorlage von "Der Todesengel" ... neues OCR Glück ... besseres Ergebnis.
Textfile anbei zum Abtippen oder Redigieren. Klaus |
11-18-2013, 11:42 AM | #39 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Als Ergänzung zur OCRten Erzählprosa von Karl Wilhelm Salice-Contessa: Hier gibt's alle noch nicht OCRten Novellen und Erzählungen als Randbeschnittene pdfs, falls jemand Interesse hat: https://archive.org/details/SaliceContessaErzaehlungen
Ich hatte ja versucht, das OCR von Meister Dietrich Korrektur zu lesen, aber ich muss gestehen, dass das einfach nicht meine Baustelle ist. Hut ab und großen Respekt für alle, die das machen! Ein paar Seiten habe ich geschafft, dann habe ich entnervt aufgegeben. Zweite Idee war, den Text in eine Textverarbeitung zu diktieren. Da muss man aber hinterher auch gründlich Korrekturlesen und man hat das Problem mit der nicht originalem Rechtschreibung. Da lese ich lieber direkt vom Scann. |
12-04-2013, 03:44 PM | #40 | ||
Berti
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
|
Quote:
Quote:
Was für ein Scan mit einem wie gemachten OCR ?? |
||
12-05-2013, 05:15 AM | #41 |
Fidibus
Posts: 441
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Die Erzählungen, die OCRt sind, hatte ich als epub hochgeladen (erster Link, beide Posts übrigens vom selben Tag), es gibt aber noch so einiges, das nicht OCRt ist, das sind die pdfs bei Archive.
Wenn ich einen bestimmten Text lesen möchte, nehme ich gerne auch den Scann, wenn's kein epub gibt. Dem einen oder anderen mag es ähnlich gehen (20 Downloads immerhin, laut Archive). Der Zusammenhang ist, dass Meister Dietrich auch eine von den nicht OCRten Erzählungen von Contessa ist. Naja, nach zwei Jahren mag sich jeder selbst gedacht haben, dass das nix mehr wird mit mir und dem Meister Dietrich, wenigstens diejenigen, die sich noch daran erinnern konnten. Andererseits schadet es auch nicht, es zu sagen. Ich will jetzt nicht aus anderer Leute Nähkästchen plaudern, aber wahrscheinlich gibt es hier bald eine Komplettausgabe der Erzählungen von Contessa als epub, von daher ist das alte OCR jetzt eh nicht mehr interessant. War ein Google Scann mit Tesseract OCRt. https://www.mobileread.com/forums/sho...4&postcount=23 |
12-07-2013, 05:06 PM | #42 | |
Berti
Posts: 1,197
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
|
Quote:
|
|
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Das Aus für den txtr Reader? | Bratzzo | Andere Lesegeräte | 22 | 12-05-2010 09:16 PM |
gibt es den perfekten eBook-Reader für mich? | Ataraxia | Erste Hilfe | 6 | 05-25-2010 10:54 AM |
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern | beachwanderer | Lounge | 2 | 02-24-2010 03:51 AM |
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten | mos | Andere Lesegeräte | 0 | 01-30-2010 04:52 AM |
Welche Features wünscht Ihr euch für den "perfekten Reader"? | Josch91 | Lounge | 9 | 08-03-2009 03:22 PM |