PB 622 - Silbentrennung verbessern? (bei epub)

NASCARaddicted · 08-19-2012, 05:20 PM

Hallo

Ich wollte mal fragen: gibt es eine Möglichkeit, bzw. wird dran gearbeitet die Silbentrennung zu verbessern?

Ich denke mal, perfekt wird die Silbentrennung nie werden (können) aber manche aktuellen Trennung stören mich schon ein wenig.

Mehrfach habe ich schon erlebt, daß das Wort "ihr" getrennt wurde, als in "i-hr". Also als ich noch in der Schule war (bis 1993), da galt noch die alte Rechtschreibung, und nach der durfte ein Buchstabe bei der Trennung nicht alleine stehen. Soweit ich mich erinnere mußten es mindestens 3 Buchstaben sein, also konnte man Worte mit weniger als 6 Buchstaben gar nicht trennen?

Und heute hatte ich einen noch schlimmeren Fall (man sollte meinen "schlimmer geht nimmer"). Wie würdet ihr das Wort "Terra-Aquarium" trennen? Also beim Pocketbook wurde daraus "Terra-A-quarium". Also bei dem Strich nach Terra handelt es sich um ein normalen Bindestrich, also ein "Minus". Da ist die Trennung ja durchaus erlaubt. Also sollte man doch erwarten, daß das A besser in die nächste Zeile rutscht ... Bei selbst erstellten epubs habe ich mehrfach den Fall, daß ein Doppelname auftaucht ("Hans-Jürgen", den Namen hab ich extra mit einem Span-Tag bearbeitet (white-space:nowrap;), da ist es dann ja auch Absicht. Aber normalerweise wird bei einem Minus ja umgebrochen ... und nicht ein Zeichen danach.

Umgekehrt habe ich auch schon erlebt, daß ein langes Wort nicht getrennt wurde und so (durch den Blocksatz bzw. "justify") eine Zeile mit sehr großen Wortabständen entstand.

Um mich nicht falsch zu verstehen: An sich liebe ich die Silbentrennung ja - es gibt (normalerweise) keine Zeilen mehr mit riesigen Wort-Abständen, und die ebooks sehen dadurch einem Papierbuch noch ähnlicher. Aber solche seltsamen Trennung tun mir wirklich in den Augen weh.

Also, gibt es eine Möglichkeit, die Silbentrennung zu verbessern? Eventuell durch ein Firmware-Update? Zumindest die Trennung von kurzen Worten müßte man doch verhindern können, damit keine 3-Buchstaben-Wörter mehr getrennt werden.

P.S. Was ja auch interessant ist: Ich hab festgestellt, daß die Silbentrennung nur funktioniert, wenn die Text-Sprache im Header richtig eingestellt ist. Da ich selber viel html in epub umwandle, achte ich da mittlerweile drauf. Es ist aber immer wieder erschreckend, wieviele Kauf-ebooks scheinbar keine Sprache angegeben haben, den da funktioniert die Silbentrennung gar nicht.

frostschutz · 08-19-2012, 05:58 PM

Das mit der Silbentrennung ist leider generell ein Problem, bei allen Adobe-DRM-Readern. Das ist aber glaube ich Sache der Adobe Software. Da gibts es Hyphen-Dics die man anpassen kann für jede Sprache, irgendwo gabs auch einen Thread dazu wie diese Anpassung aussehen muss oder kann. Das funktioniert aber auch nur leidlich.

Evtl. ist es im FBReader besser, falls diese Software beim PB noch dabei ist (hatte selbst nur das PB360). Bei Adobe-DRM-Büchern müsste das DRM dann halt entfernt werden. Spätestens wenn Metadaten (Sprache) falsch ist kommt man eh nicht drum herum.

Ich lese hauptsächlich Englisch und da kann man es sich leisten, die Silbentrennung ganz abzuschalten, wenn man nicht gerade eine riesengroße Schrift verwendet; die Wörter im Englischen sind in der Regel kürzer so daß Zeilen mit großen Wortabständen die Ausnahme sind. Bei deutschen Texten ist das schon anspruchsvoller, aber im Zweifelsfall einer grottenfalschen Trennung trotzdem vorzuziehen. Große Abstände werfen mich nicht aus dem Lesefluss raus, übermäßig viele oder gar falsche Trennungen dagegen schon.

Montyp535 · 08-20-2012, 05:49 AM

also manchmal wundere ich mich auch über trennungen - z-um oder a-ber, am "schönsten" fand ich a-m (alles worte, die im originalen epub ungetrennt vorliegen) - aber diverse lange Worte blieben stehen... aber man gewöhnt sich dran :-)
Eine Besserung wäre freilich wünschenswert...

SIRSteiner · 08-20-2012, 07:03 AM

Hallo,

dazu gibt es 2 Möglichkeiten:

1. Die Abhandlung im folgenden Forum lesen:

http://www.e-reader-forum.de/ebook-r...ilbentrennung/

2. Den fbreader verwenden, damit habe ich keine Probleme mit der Trennung.

Gruß
Ronny

sento · 08-20-2012, 06:53 PM

Der von SIRSteiner gepostete Thread und die dortigen Erläuterungen hatte ich geschrieben.

Ich will dies nicht noch einmal hier in aller Ausführlichkeit auseinandernehmen.

Das von dir (ich meine Nascar) erläuterte Problem liegt zum einen daran, dass in der Silbentrennung erlaubt wird ab einem Zeichen Links und Rechts zu trennen. Also braucht das Wort nur zwei Buchstaben und es wird getrennt.
Du findest diese Silbentrennungsdatei unter: Pocket622/system/fonts/adobe/hyphenDicts
Dort findest du sie unter dem Namen "hyph_de.dic". Die Zahlen für LEFTHYPHENMIN und RIGHTHYPHENMIN bestimmen die Anzahl der Notwendigen Zeichen, ab denen auf einer Seite abgetrennt werden darf. Erhöhst du sie auf 3, dann wird erst ab drei Zeichen Links und Rechts abgetrennt. Also ab sechs Zeichen insgesamt. Leider wirst du feststellen, dass sich das Problem dadurch nicht lösen lässt, weil die Silbentrennung von Adobe jedes einzelne Zeichen zum Wort addiert. Beispielsweise "zum.<<". Der Punkt am "zum" wird als ein Zeichen gerechnet und die französischen Anführungszeichen als zwei. Im Ergebnis macht das mit den drei Zeichen von Zum insgesamt sechs. Trotz deiner Erhöhung der Minima kann die Silbentrennung hier zuschlagen: zu-m.<<.
Dafür gibt es unterschiedliche Lösungen, mit denen ich herumexperimentiert habe. Im meinem verlinkten Post vom e-reader-forum steht zu den Lösungsmöglichkeiten ein wenig mehr, von der grundsätzlichen Herangehensweise.

Ich habe inzwischen mit verschiedenen Silbentrennungslisten gearbeitet. Zeitweise in dem Thread auch eine zur Verfügung gestellt, zum Testen und anschauen. Inzwischen habe ich mit Hilfe von Patgen, dem Dictionary der die Silbentrennung von Adobe zu Grunde liegt und einer umfangreichen freien Wortliste eigene Trennmuster erstellt. Diese sind natürlich weit von der Perfektion entfernt. Ich selbst lese mit meinem neusten Experiment erst seit ca. einer Woche. Es liegt eben leider nicht nur an den Listen, sondern auch der Funktionsweise des von Adobe verwendeten Algorithmus.

Grundsätzlich wird die Silbentrennung durch meine neue Silbentrennungstabelle und unzähligen Änderungen, in meinen Augen, aufgewertet. Zum Einen sind Einzelabtrennungen von nur einem Buchstaben Vergangenheit und zum Anderen wird die allgemeine Trennung an den richtigen Stellen erhöht.
Natürlich umfasst meine selbst zusammengestellte Wortliste nicht alle möglichen Worte. Die größte Schwachstelle sind seltene Substantive bzw. Komposita, die nicht in der Wortliste auftauchen, mit der ich die Trennmuster erstellt habe. Ein Beispiel: Ark-anghule. Das Wort war nicht Teil der Trennmuster. Die Silbentrennung nimmt nun das spezifischste Muster für dieses Wort. Wenn dieses Muster k1ang ist, dann sieht das Ergebnis so aus. Ein weiteres Beispiel: As-tgabel. Durch das Muster ".as1t" wird ihm die Trennung hier erlaubt. Das ist ein Beispiel eines scheinbar fehlerhaften Musters. In der Wortliste steht Astgabel, richtig getrennt. Leider kommt hier ein Problem des Algorithmus von Adobe zum tragen. An sich sollte Groß/Kleinschreibung nicht bedeutend sein, aber das sieht Adobe leider anders. Das erstellte Muster kommt nicht zum tragen, da es mit einem kleinen "a" anfängt.
Nur um einmal kurz zu verdeutlichen, welche Probleme auf dem Weg aufgetaucht sind und zu lösen waren bzw. sind. Adobe überrascht einen immer wieder aufs Neue.

Ich habe meine eigene, experimentelle Silbentrennungtabelle in den Anhang getan. Im Archiv befindet sich auch eine kleine Anleitung. Unter 4.2 sollte stehen, wie man sie einsetzt. (Die originale Tabelle im oben genannten Verzeichnis umbenennen [oder löschen, aber dann ist sie erst mal weg

] und meine in das Verzeichnis kopieren.)
Bekannte Probleme (die ich noch nicht erwähnte):

ST-Trennung: "st" wird nicht immer getrennt, wo es die Neue Rechtschreibung vorsieht. In einer früheren Silbentrennungstabelle gab es das Problem, das "st" mitunter an Stellen getrennt wurde, wo es nicht trennen sollte. Aus Sicherheit habe ich das Allgemein stärker unterbunden. Das führt leider dazu, dass Wörter wie Kri-stall, vor dem "st" getrennt werden. Wo ich das sehe korrigierte ich es. Mir ist es allerdings lieber, bei einigen Substantiven wird in seltenen Ausnahmen nicht getrennt, als eine falsche Trennung. Die falsche Trennung würde den Sinn des Wortes entstellen. Dies passiert bei einer unterlassenen Trennung nicht. Ganz Allgemein bin ich schon fast an der Stelle, wo ich die Trennung lieber untersagen möchte und vor dem "st" trennen lasse. Vor allem bei Steigerungsformen. Mal sehen.

Probleme durch eigene Trennmuster:
Ich habe zu den von Patgen generierten Trennmustern ebenfalls viele eigene erstellt, die Probleme beheben sollen. Allerdings sind diese sehr umfangreich und können selbst Probleme auslösen. Es ist eben noch recht experimentell.

Scheinbare Abtrennungen:
Damit meine ich Trennungen, die gar keine sind. In einigen Büchern kam es beispielsweise zu Umbrüchen wie: >>A - ber; wobei hier kein Trennstrich vorkommt. Die Zeile endet mit A und fängt mit ber an. Oder sie endet mit ">>". Das liegt allerdings am eBook und ist nicht der Silbentrennung geschuldet. Im eBook steht in solch einem Fall <span> >>A </span> ber. Für den AdobeViewer scheint es sich damit um zwei Worte zu handeln und nicht nur um eines. Selbst mit ausgeschalteter Silbentrennung würde dies passieren. Müsste man das eBook selbst bearbeiten.

Drei Punkte: (Problem obsolet, wenn mit der normalen Version gearbeitet wird)
Es gibt zwei Arten von Möglichkeiten wie drei Punkte im Ebook umgesetzt werden: "..." und "…". Ersteres sind drei normale Punkte hintereinander. Letzteres das Zeichen Auslassungspunkte. Erstes ist ein Problem. Es kann vorkommen, dass die drei normalen Punkte mit Bindestrich in die nächste Zeile gezogen werden:
und
-...
Dies ließe sich nur umgehen indem bei Calibre das Ebook umgewandelt wird und mit Suchen&Ersetzen der Ausdruck "\.\.\." gegen "…" ausgetauscht wird. Konvertieren und das Problem wäre gelöst.
Alternativ in der Zeile über dem NEXTLEVEL folgendes das "%" bei "%6...6" entfernen (ab beta5). Dann besteht allerdings wieder die Möglichkeit einer Abtrennung eines einzelnen Buchstabens:
un-
d ...
Für das Problem habe ich noch keine Lösung, außer der Konvertierung.

Bitte die Werte für LEFTHYPHENMIN und RIGHTHYPHENMIN nicht aus einem Spaß heraus ändern. Die Trennmuster habe ich von Patgen mit der Absicht erstellt, dass sie in der Praxis 2 und 3 betragen.

Nachteil:
Das Öffnen der Bücher dauert bei längeren Büchern nun zwei Sekunden länger.

Wichtigste Änderungen der letzten Versionen:
- Zwei systematische Fahler ausgeräumt.

NASCARaddicted · 08-20-2012, 07:58 PM

Danke sento, für den sehr informativen Post und deinen Anhang. Ich werde ihn bald testen (muß aber noch warten, bis mein Akku ganz leer ist. Ich weiß, es ist heutzutage nicht mehr so schlimm, wenn man einen Akku der nicht ganz leer ist wieder lädt, aber es ist immer noch meine erste Akkuladung (seit Mitte Juni) darum will ich mal ausreizen, wie weit ich komme).

Den Link von SIRSteiner hab ich mir auch schon angeguckt und den Inhalt kurz überflogen.
Daß Zeichen wie die französischen Gänsefüßchen auch als Buchstaben angesehen werden hab ich schon gelesen. Aber gerade heute hatte ich wieder den Fall eines einzelnen Buchstaben, ohne irgendwelche anderen Zeichen daneben, also weder Gänsefüßchen, noch Interpunktion. Wobei, es war schon ein Punkt da, aber dann kam erst ein Leerzeichen und dann kam "A-lles". (Aber ohne die Gänsefüßchen, die hab ich nur gemacht um das Wort deutlicher zu machen). Und ein Leerzeichen dürfte ja normalerweise nicht gezählt werden.

sento · 08-20-2012, 08:14 PM

Der einzelne Buchstabe ist dem niedrigen Minima geschuldet. Es steht standardmäßig auf 1 für beide Seiten. Er darf also immer nach einem Buchstaben trennen. Erhöhen musst du. In meiner Tabelle habe ich für Links zwei Buchstaben gewählt und für Rechts drei.
Aber das reicht eben noch nicht aus. Damit wird dein A-lles zwar verhindert, aber bei >>A-lles schlägt er schon wieder zu. Ebenfalls bei Umlauten am Anfang, denn diese zählen nicht als ein, sondern zwei Zeichen. Möglich wäre natürlich die Minima immer weiter in die Höhe zu treiben, aber damit wird dann kaum noch ein Wort getrennt. Hier muss man umfangreiche Änderungen vornehmen, um dem Problem Herr zu werden. Am einfachsten ist das Definieren von Wortgrenzen. Das hat allerdings ebenfalls seine Tücken. Wortgrenzen für Zeichen am Wortanfang (>> Beispielsweise) stellen ein Problem dar. Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet. Nur zwei Beispiele.

Ich habe das weitestgehend behoben. Aber man ist natürlich nie gefeit, was es so alles an Zeichen gibt. Neulich ist mir ein seltsamer länglicher Strich in einem Buch begegnet. Natürlich wurde er mitgezählt. Inzwischen stoße ich allerdings nicht mehr auf solche Zeichen. So langsam habe ich alle kennengelernt. Die Hauptprobleme sind jetzt eher falsche Trennungen ala Ark-anghule.

NASCARaddicted · 08-21-2012, 06:14 AM

Quote:

Originally Posted by sento

Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet.

Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?

Montyp535 · 08-21-2012, 06:35 AM

sehr interessante Infos - werd ich mal probieren - bei Erhöhung der Grenze komm ich so schon mal um die seltsamen Trennungen rum - und meine Frau auch - die hat sich jetzt schon mal aufgeregt, wie seltsam manche Worte getrennt wären (Anmerkung: sie ist Deutschlehrerin...)

sento · 08-21-2012, 07:20 AM

Quote:

Originally Posted by NASCARaddicted

Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?

@NASCAR
Viele eBooks haben für die Ausalassungspunkte einfach drei normale Punkte hintereinander verwendet. Das ist ja auch nicht weiter schlimm.
Im ersten eBook, wo ich Probleme mit drei Punkten hatte, waren es Auslassungspunkte. Ich muss gestehen, dass ich vorher überhaupt nicht wusste, dass es dafür ein extra Zeichen gibt. Ich hatte geglaubt alle würden einfach drei normale Punkte hintereinander ins eBook schreiben. War nicht der Fall.
Im nächsten Buch war es dann so, wie ich es auch gemacht hätte: drei stinknormale Punkte hintereinander. Leider führt das zu einem sehr seltsamen Abtrennungsverhalten beim Pocketbook, wenn der Punkt als Wortgrenze definiert wird. Die drei Punkte werden mit Strich in die nächste Zeile verschoben. Das war nicht zu beheben, solange der Punkt eine Wortgrenze ist.

In der originalen Silbentrennung wird mit Wortgrenzen auch gar nicht gearbeitet. Daher wird ihnen so etwas nicht aufgefallen sein.

@Monty
Die Erhöhung der Minima verhindert eine Trennung allerdings nur bei Wörtern, an denen kein Satzzeichen klebt bzw. keinen Umlaut am Anfang oder Ende haben. Mein Beispiel war hier "zum". Drei Zeichen. Mit 2/3 wird hier mit Sicherheit nicht getrennt, aber bei "zum.<<" darf wieder getrennt werden, wenn auch nur eine Stelle in Frage kommt "zu-m.<<".
Je weiter du erhöhst, desto unwahrscheinlicher wird es natürlich. Bei einem Minimum von 5 Rechts kann mein Beispiel nicht mehr getrennt werden, aber das heißt auch, dass normale Wörter ohne Satzzeichen drann, nun 5 Buchstaben Rechts und 2 Links brauchen für eine Abtrennung. Die Möglichkeit der Abtrennung normaler Wörter wird damit erheblich eingeschränkt. Läuft dem Sinn der Silbentrennung zu wider.

Daher habe ich versucht mit meiner Tabelle die Probleme, ohne stetiges Erhöhen der Minima in den Griff zu bekommen.

NASCARaddicted · 08-21-2012, 08:00 AM

Ich hab mir jetzt mal die hyph_de angeguckt.

Es dürfte ja kein Problem sein, bestimmte Worte selbst hinzufügen, oder? Ich meine als Beispiel: wenn man viel Karl May liest, dann sollte man eventuell "Indianer" hinzufügen. Oh, und das Wort "Pferd", den neulich hatte ich in einem ebook 2mal ein P-ferd drin ...

Was ich gerade eben auch noch herausgefunden habe: Wenn man früher ein "ck" getrennt hatte, wurde daraus ein kk, also z.B. "Zucker Zuk-ker" oder "Decke Dek-ke". Jetzt hab ich eine Seite im Internet gefunden, auf der steht, daß nach der neuen Regelung so getrennt wird: Zu-cker, De-cke ....

Was mich aber noch mehr überrascht hat: Auf einer anderen Seite wird folgendes erwähnt:

Einzelne Buchstaben am Wortbeginn können künftig abgetrennt werden, wie z.B. A-bend, o-ben, O-fen (mit Betonung auf "können", müssen aber nicht)
Also optisch sieht es auf jedenfall besser aus, wenn man so ein Wort in die nächste Zeile schiebt.

Die Sache wird langsam kompliziert.

sento · 08-21-2012, 08:34 AM

Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.

Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.
A-ber wird bei mir allerings nicht getrennt. Links müssen mindestens zwei Buchstaben vorhanden sein, damit der AdobeViewer trennt. Daher kann so etwas wie A-ber und o-ben nicht vorkommen. Ich habe bereits bei der Erstellung der Trennmuster vorgegeben, dass Links zwei Buchstaben vorhanden sein müssen. Ein Buchstabe ist unsinnig. Die Minima sollten deswegen immer mindestens 2 betragen.
Willst du die alte Silbentrennung muss eine Silbentrennungstabelle dafür geschaffen werden, die nach deren Regeln trennt. Das ist natürlich möglich. Ich bin allerdings zur Zeit eher am experimentieren mit der Neuen Rechtschreibung.

Du kannst ohne Probleme eigene Wörter definieren. In meiner Datei muss diese Definition allerings nach der Zeile "NEXTLEVEL" stehen. Niemals davor!
In der originalen Adobe kann nach den Minima fröhlich vor sich hin definiert werden.

Gewünschte Bruchstellen werden mit ungeraden Zahlen, unerwünschte mit geraden Zahlen gekennzeichnet. Dabei musst du auch die anderen Muster berücksichtigen. Das spezifischste Muster und die höhere Zahl gewinnen.

Nehmen wir Indianer. Wird dieses Wort falsch getrennt: Ind-ianer (ausgedacht), dann kannst du beispielsweise mit: n7d6i1a3ner, die Trennung komplett vorgeben. Durch die 6 nach dem "d" wird die Trennung dort untersagt. Die Ungeraden geben die Trennstellen an.
Alternativ kannst du in den Trennmustern das heraussuchen, was für die Trennung nach dem "d" verantwortlich ist und ändern. Allerdings ist dabei Vorsicht geboten, da du unbeabsichtigt ein Muster verändern könntest, was bei weiteren Wörtern zum Tragen kommt, die nach deiner Änderung falsch getrennt werden könnten.
Beispielsweise hatte ich heute an-onym. Nach Duden kann es so tatsächlich getrennt werden und in der meiner Silbentabelle zugrunde liegenden Wortliste ist diese Möglichkeit vorhanden. Ein Eingriff in das originale Trennmuster, wäre ungünstig. Man könnte die Wortliste verändern und die Trennmuster mit Patgen neu erstellen, aber im Gegensatz zur originalen Silbentrennung basiert meine Tabelle auf einer Wortliste von einer halben Million Einträgen. Meine komplette Freizeit der nächsten Monate würde es kosten alle Wörter zu sichten und sie auf die empfohlene Schreibweise des Dudens umzustellen. Ist mir zu viel Arbeit, für ein oder zwei Wörter, die ich anders trennen würde. Deshalb definiere ich hier schlicht, wie du vorhast die Ausnahmen in der Tabelle selbst. Hier wäre es beispielsweise: n6o7nym. Problem gelöst.

Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.

Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.

NASCARaddicted · 08-21-2012, 09:00 PM

Quote:

Originally Posted by sento

Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.

Ja, ich hab auch noch den alten Merksatz im Kopf: Trenne nie das st, denn es tut ihm weh ...
Generell akzeptiere ich ja auch die neue Rechtschreibung (außer bei Worten wie z.B. Delphin, da bleibe ich bei der alten Schreibweise). Die meisten ebooks sind ja auch nach der neuen Rechtschreibung geschrieben (außer eventuell Bücher vom Gutenberg Project) Von daher denke ich auch, es ist sinnvoller, sich auf die neue Rechtschreibung zu konzentrieren.

Quote:

Originally Posted by sento

Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.

Ja, ich hab auch nicht erwartet, daß die Silbentrennung aus "ck" ein "kk" machen könnte. Aber durch die neue Rechtschreibreform hat sich das Thema ja scheinbar eh erledigt, da man "ck" selbst ja nicht mehr trennt.

Quote:

Originally Posted by sento

Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.

Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.

Tja, ich lese zur Zeit eine Mittelalter-Romanserie, und da es damals noch keine Autos gab kommen P-ferde öfters vor. Scheinbar ist das bei der Original-Adobe Silbentrennung die einzigste Trennmöglichkeit, den ich hab schon 3 Fälle, bei denen Pferd (bzw. Pferde, Pferdewagen, etc), direkt nach dem P getrennt werden.

Ich finde es auf jeden Fall cool, daß wir (und vor allem natürlich sento) selbst so viel daran ändern können. Ich denke mal, so was ist nicht bei jedem Gerät möglich.

sebigbos · 08-22-2012, 06:02 AM

Soooo, nun, nach 2 Tagen, hab ich das alles mal durchgelesen. Sehr interessant. Vielleicht schreibt ja mal einer eine Doktor-Arbeit über die Details...

Für so Leute wie mich, die bloß Sachen wie ih-r oder D-ach loswerden wollen ohne sich um die 0,01% verbleibender Fälle zu scheren, funktioniert das hier am Anfang der system\fonts\adobe\hyph_de.dic ganz wunderbar:

Code:

UTF-8
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2

COMPOUNDLEFTHYPHENMIN 2
COMPOUNDRIGHTHYPHENMIN 2
NOHYPHEN .,;
1.1
1;1
NEXTLEVEL

PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.

NASCARaddicted · 08-22-2012, 07:34 AM

Quote:

Originally Posted by sebigbos

PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.

Es gibt noch was anderes, außer notepad++?

Nee, aber mal ernsthaft, ich denke notepad++ ist einer der besten Editoren, ich benutze nix anderes. Jeder, der sich mit html und/oder ebooks befaßt, sollte ihn sich mal angucken.

Das soll jetzt keine Werbung sein (das Programm ist ja kostenlos) sondern einfach nur ein Tip. Am Anfang hab ich noch mit dem original Windows Notepad gearbeitet ...

08-19-2012, 05:20 PM	#1
NASCARaddicted Addict Posts: 340 Karma: 43106 Join Date: Apr 2009 Location: Germany Device: BeBook One, Pocketbook Touch, Pocketbook Touch HD	PB 622 - Silbentrennung verbessern? (bei epub) Hallo Ich wollte mal fragen: gibt es eine Möglichkeit, bzw. wird dran gearbeitet die Silbentrennung zu verbessern? Ich denke mal, perfekt wird die Silbentrennung nie werden (können) aber manche aktuellen Trennung stören mich schon ein wenig. Mehrfach habe ich schon erlebt, daß das Wort "ihr" getrennt wurde, als in "i-hr". Also als ich noch in der Schule war (bis 1993), da galt noch die alte Rechtschreibung, und nach der durfte ein Buchstabe bei der Trennung nicht alleine stehen. Soweit ich mich erinnere mußten es mindestens 3 Buchstaben sein, also konnte man Worte mit weniger als 6 Buchstaben gar nicht trennen? Und heute hatte ich einen noch schlimmeren Fall (man sollte meinen "schlimmer geht nimmer"). Wie würdet ihr das Wort "Terra-Aquarium" trennen? Also beim Pocketbook wurde daraus "Terra-A-quarium". Also bei dem Strich nach Terra handelt es sich um ein normalen Bindestrich, also ein "Minus". Da ist die Trennung ja durchaus erlaubt. Also sollte man doch erwarten, daß das A besser in die nächste Zeile rutscht ... Bei selbst erstellten epubs habe ich mehrfach den Fall, daß ein Doppelname auftaucht ("Hans-Jürgen", den Namen hab ich extra mit einem Span-Tag bearbeitet (white-space:nowrap;), da ist es dann ja auch Absicht. Aber normalerweise wird bei einem Minus ja umgebrochen ... und nicht ein Zeichen danach. Umgekehrt habe ich auch schon erlebt, daß ein langes Wort nicht getrennt wurde und so (durch den Blocksatz bzw. "justify") eine Zeile mit sehr großen Wortabständen entstand. Um mich nicht falsch zu verstehen: An sich liebe ich die Silbentrennung ja - es gibt (normalerweise) keine Zeilen mehr mit riesigen Wort-Abständen, und die ebooks sehen dadurch einem Papierbuch noch ähnlicher. Aber solche seltsamen Trennung tun mir wirklich in den Augen weh. Also, gibt es eine Möglichkeit, die Silbentrennung zu verbessern? Eventuell durch ein Firmware-Update? Zumindest die Trennung von kurzen Worten müßte man doch verhindern können, damit keine 3-Buchstaben-Wörter mehr getrennt werden. P.S. Was ja auch interessant ist: Ich hab festgestellt, daß die Silbentrennung nur funktioniert, wenn die Text-Sprache im Header richtig eingestellt ist. Da ich selber viel html in epub umwandle, achte ich da mittlerweile drauf. Es ist aber immer wieder erschreckend, wieviele Kauf-ebooks scheinbar keine Sprache angegeben haben, den da funktioniert die Silbentrennung gar nicht.

08-20-2012, 08:14 PM	#7
sento Zealot Posts: 124 Karma: 1001130 Join Date: Mar 2012 Location: Germany Device: Pocketbook Touch 622	Der einzelne Buchstabe ist dem niedrigen Minima geschuldet. Es steht standardmäßig auf 1 für beide Seiten. Er darf also immer nach einem Buchstaben trennen. Erhöhen musst du. In meiner Tabelle habe ich für Links zwei Buchstaben gewählt und für Rechts drei. Aber das reicht eben noch nicht aus. Damit wird dein A-lles zwar verhindert, aber bei >>A-lles schlägt er schon wieder zu. Ebenfalls bei Umlauten am Anfang, denn diese zählen nicht als ein, sondern zwei Zeichen. Möglich wäre natürlich die Minima immer weiter in die Höhe zu treiben, aber damit wird dann kaum noch ein Wort getrennt. Hier muss man umfangreiche Änderungen vornehmen, um dem Problem Herr zu werden. Am einfachsten ist das Definieren von Wortgrenzen. Das hat allerdings ebenfalls seine Tücken. Wortgrenzen für Zeichen am Wortanfang (>> Beispielsweise) stellen ein Problem dar. Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet. Nur zwei Beispiele. Ich habe das weitestgehend behoben. Aber man ist natürlich nie gefeit, was es so alles an Zeichen gibt. Neulich ist mir ein seltsamer länglicher Strich in einem Buch begegnet. Natürlich wurde er mitgezählt. Inzwischen stoße ich allerdings nicht mehr auf solche Zeichen. So langsam habe ich alle kennengelernt. Die Hauptprobleme sind jetzt eher falsche Trennungen ala Ark-anghule. Last edited by sento; 08-20-2012 at 08:16 PM.

08-21-2012, 08:34 AM	#12
sento Zealot Posts: 124 Karma: 1001130 Join Date: Mar 2012 Location: Germany Device: Pocketbook Touch 622	Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten. Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben. A-ber wird bei mir allerings nicht getrennt. Links müssen mindestens zwei Buchstaben vorhanden sein, damit der AdobeViewer trennt. Daher kann so etwas wie A-ber und o-ben nicht vorkommen. Ich habe bereits bei der Erstellung der Trennmuster vorgegeben, dass Links zwei Buchstaben vorhanden sein müssen. Ein Buchstabe ist unsinnig. Die Minima sollten deswegen immer mindestens 2 betragen. Willst du die alte Silbentrennung muss eine Silbentrennungstabelle dafür geschaffen werden, die nach deren Regeln trennt. Das ist natürlich möglich. Ich bin allerdings zur Zeit eher am experimentieren mit der Neuen Rechtschreibung. Du kannst ohne Probleme eigene Wörter definieren. In meiner Datei muss diese Definition allerings nach der Zeile "NEXTLEVEL" stehen. Niemals davor! In der originalen Adobe kann nach den Minima fröhlich vor sich hin definiert werden. Gewünschte Bruchstellen werden mit ungeraden Zahlen, unerwünschte mit geraden Zahlen gekennzeichnet. Dabei musst du auch die anderen Muster berücksichtigen. Das spezifischste Muster und die höhere Zahl gewinnen. Nehmen wir Indianer. Wird dieses Wort falsch getrennt: Ind-ianer (ausgedacht), dann kannst du beispielsweise mit: n7d6i1a3ner, die Trennung komplett vorgeben. Durch die 6 nach dem "d" wird die Trennung dort untersagt. Die Ungeraden geben die Trennstellen an. Alternativ kannst du in den Trennmustern das heraussuchen, was für die Trennung nach dem "d" verantwortlich ist und ändern. Allerdings ist dabei Vorsicht geboten, da du unbeabsichtigt ein Muster verändern könntest, was bei weiteren Wörtern zum Tragen kommt, die nach deiner Änderung falsch getrennt werden könnten. Beispielsweise hatte ich heute an-onym. Nach Duden kann es so tatsächlich getrennt werden und in der meiner Silbentabelle zugrunde liegenden Wortliste ist diese Möglichkeit vorhanden. Ein Eingriff in das originale Trennmuster, wäre ungünstig. Man könnte die Wortliste verändern und die Trennmuster mit Patgen neu erstellen, aber im Gegensatz zur originalen Silbentrennung basiert meine Tabelle auf einer Wortliste von einer halben Million Einträgen. Meine komplette Freizeit der nächsten Monate würde es kosten alle Wörter zu sichten und sie auf die empfohlene Schreibweise des Dudens umzustellen. Ist mir zu viel Arbeit, für ein oder zwei Wörter, die ich anders trennen würde. Deshalb definiere ich hier schlicht, wie du vorhast die Ausnahmen in der Tabelle selbst. Hier wäre es beispielsweise: n6o7nym. Problem gelöst. Pferd wird bei meiner Silbentrennung zumindest richtig getrennt. Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen. Last edited by sento; 08-21-2012 at 09:17 AM.

08-22-2012, 06:02 AM	#14
sebigbos Addict Posts: 307 Karma: 8366 Join Date: Nov 2011 Device: PB 903 pro; PB 622	Soooo, nun, nach 2 Tagen, hab ich das alles mal durchgelesen. Sehr interessant. Vielleicht schreibt ja mal einer eine Doktor-Arbeit über die Details... Für so Leute wie mich, die bloß Sachen wie ih-r oder D-ach loswerden wollen ohne sich um die 0,01% verbleibender Fälle zu scheren, funktioniert das hier am Anfang der system\fonts\adobe\hyph_de.dic ganz wunderbar: Code: UTF-8 LEFTHYPHENMIN 2 RIGHTHYPHENMIN 2 COMPOUNDLEFTHYPHENMIN 2 COMPOUNDRIGHTHYPHENMIN 2 NOHYPHEN .,; 1.1 1;1 NEXTLEVEL PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
Ausführliche Test von Pocketbook Touch (622) bei e-leseratte.de	Forkosigan	PocketBook	0	05-08-2012 11:35 AM
Silbentrennung -- ich bin geschockt	praetor	Amazon Kindle	9	11-03-2011 08:55 AM
silbentrennung	millinho	Amazon Kindle	6	06-30-2011 04:06 AM
Serie anzeigen bei ePub?	babe	PocketBook	14	11-15-2010 07:48 AM
ePub-Voransicht bei Thalia	netseeker	E-Books	11	03-28-2009 09:56 AM

08-19-2012, 05:58 PM	#2
frostschutz Linux User Posts: 2,279 Karma: 6123806 Join Date: Sep 2010 Location: Heidelberg, Germany Device: none	Das mit der Silbentrennung ist leider generell ein Problem, bei allen Adobe-DRM-Readern. Das ist aber glaube ich Sache der Adobe Software. Da gibts es Hyphen-Dics die man anpassen kann für jede Sprache, irgendwo gabs auch einen Thread dazu wie diese Anpassung aussehen muss oder kann. Das funktioniert aber auch nur leidlich. Evtl. ist es im FBReader besser, falls diese Software beim PB noch dabei ist (hatte selbst nur das PB360). Bei Adobe-DRM-Büchern müsste das DRM dann halt entfernt werden. Spätestens wenn Metadaten (Sprache) falsch ist kommt man eh nicht drum herum. Ich lese hauptsächlich Englisch und da kann man es sich leisten, die Silbentrennung ganz abzuschalten, wenn man nicht gerade eine riesengroße Schrift verwendet; die Wörter im Englischen sind in der Regel kürzer so daß Zeilen mit großen Wortabständen die Ausnahme sind. Bei deutschen Texten ist das schon anspruchsvoller, aber im Zweifelsfall einer grottenfalschen Trennung trotzdem vorzuziehen. Große Abstände werfen mich nicht aus dem Lesefluss raus, übermäßig viele oder gar falsche Trennungen dagegen schon.

08-20-2012, 05:49 AM	#3
Montyp535 Zealot Posts: 141 Karma: 10 Join Date: Dec 2009 Location: MD Device: (former) Ebookwise 1150, PB 302, (now) PB 612, PB Touch, HTC DesireS	also manchmal wundere ich mich auch über trennungen - z-um oder a-ber, am "schönsten" fand ich a-m (alles worte, die im originalen epub ungetrennt vorliegen) - aber diverse lange Worte blieben stehen... aber man gewöhnt sich dran :-) Eine Besserung wäre freilich wünschenswert...

08-20-2012, 07:03 AM	#4
SIRSteiner Nameless Being	Hallo, dazu gibt es 2 Möglichkeiten: 1. Die Abhandlung im folgenden Forum lesen: http://www.e-reader-forum.de/ebook-r...ilbentrennung/ 2. Den fbreader verwenden, damit habe ich keine Probleme mit der Trennung. Gruß Ronny

08-20-2012, 07:58 PM	#6
NASCARaddicted Addict Posts: 340 Karma: 43106 Join Date: Apr 2009 Location: Germany Device: BeBook One, Pocketbook Touch, Pocketbook Touch HD	Danke sento, für den sehr informativen Post und deinen Anhang. Ich werde ihn bald testen (muß aber noch warten, bis mein Akku ganz leer ist. Ich weiß, es ist heutzutage nicht mehr so schlimm, wenn man einen Akku der nicht ganz leer ist wieder lädt, aber es ist immer noch meine erste Akkuladung (seit Mitte Juni) darum will ich mal ausreizen, wie weit ich komme). Den Link von SIRSteiner hab ich mir auch schon angeguckt und den Inhalt kurz überflogen. Daß Zeichen wie die französischen Gänsefüßchen auch als Buchstaben angesehen werden hab ich schon gelesen. Aber gerade heute hatte ich wieder den Fall eines einzelnen Buchstaben, ohne irgendwelche anderen Zeichen daneben, also weder Gänsefüßchen, noch Interpunktion. Wobei, es war schon ein Punkt da, aber dann kam erst ein Leerzeichen und dann kam "A-lles". (Aber ohne die Gänsefüßchen, die hab ich nur gemacht um das Wort deutlicher zu machen). Und ein Leerzeichen dürfte ja normalerweise nicht gezählt werden.

08-21-2012, 06:35 AM	#9
Montyp535 Zealot Posts: 141 Karma: 10 Join Date: Dec 2009 Location: MD Device: (former) Ebookwise 1150, PB 302, (now) PB 612, PB Touch, HTC DesireS	sehr interessante Infos - werd ich mal probieren - bei Erhöhung der Grenze komm ich so schon mal um die seltsamen Trennungen rum - und meine Frau auch - die hat sich jetzt schon mal aufgeregt, wie seltsam manche Worte getrennt wären (Anmerkung: sie ist Deutschlehrerin...)

08-21-2012, 08:00 AM	#11
NASCARaddicted Addict Posts: 340 Karma: 43106 Join Date: Apr 2009 Location: Germany Device: BeBook One, Pocketbook Touch, Pocketbook Touch HD	Ich hab mir jetzt mal die hyph_de angeguckt. Es dürfte ja kein Problem sein, bestimmte Worte selbst hinzufügen, oder? Ich meine als Beispiel: wenn man viel Karl May liest, dann sollte man eventuell "Indianer" hinzufügen. Oh, und das Wort "Pferd", den neulich hatte ich in einem ebook 2mal ein P-ferd drin ... Was ich gerade eben auch noch herausgefunden habe: Wenn man früher ein "ck" getrennt hatte, wurde daraus ein kk, also z.B. "Zucker Zuk-ker" oder "Decke Dek-ke". Jetzt hab ich eine Seite im Internet gefunden, auf der steht, daß nach der neuen Regelung so getrennt wird: Zu-cker, De-cke .... Was mich aber noch mehr überrascht hat: Auf einer anderen Seite wird folgendes erwähnt: Einzelne Buchstaben am Wortbeginn können künftig abgetrennt werden, wie z.B. A-bend, o-ben, O-fen (mit Betonung auf "können", müssen aber nicht) Also optisch sieht es auf jedenfall besser aus, wenn man so ein Wort in die nächste Zeile schiebt. Die Sache wird langsam kompliziert.

Advert

Advert