|
|
Thread Tools | Search this Thread |
11-24-2009, 09:44 AM | #1 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Tipps zur Vorbereitung einer ePub-Datei aus zweispaltiger PDF-Vorlage
Hey-hey,
ich hab' jetzt mein erstes Projekt für eine ePub-Datei gefunden und hätte gern ein paar Tipps von Euch Kräcks: Die Vorlage ist ein zweispaltiges PDF*, das mir in der Vorbereitung zur Umwandlung nach ePub einiges an Arbeit macht. Ich versuche einen möglichst effizienten Arbeitsablauf zu erarbeiten. Zusätzlich möchte ich möglichst viel über die ePub-Erstellung lernen und hab' bereits ein paar Ansätze verfolgt:
Ach ja, die eigentliche Erstellung mache ich bislang mit Sigil, da es eine Split-Ansicht hat, in der auch das XHTML-Markup sichtbar/bearbeitbar ist. Bei der Erstellung des Inhaltsverzeichnisses könnte Sigil auch sehr nützlich sein. Das erwähnte "Zweispalten-Problem" besteht darin, dass der Text über die Zwischenablage zwar in eine Spalte überführt wird, die ehemals zwei Spalten aber nicht getrennt, sondern in eine Spalte nebeneinander gequetscht wurden. Das heißt, ich muss jede Zeile per Hand splitten und danach die Zeilenvorschübe entfernen. Letzteres ist nicht das Problem, das mach' ich im Editor per Regex und "Suchen/Ersetzen". Das Splitten der zwei-Spalten-in-einer kriege ich nicht ohne viel Arbeit hin, Blockeditieren lässt sich der Text hier in Aptana/Komodo Edit/Gedit unter Linux irgendwie nicht. Oder ich hab's bisher nicht richtig gemacht. Habt Ihr schonmal so eine Konversion selbst gemacht und falls ja, habt Ihr Tipps für mich? Freue mich über jedweden Hinweis und wenn es RTFM! plus Verweis auf Doku/Software ist. * Ich kann aus lizenzrechtlichen Gründen die Vorlage leider nicht zugänglich machen. Last edited by polyfragmentiert; 11-24-2009 at 12:21 PM. |
11-24-2009, 04:53 PM | #2 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Ein vielversprechender Ansatz in Sachen "Spalten auseinanderklabüstern" ist das Tool "pdftotext" aus den "psutils" unter Linux:
Code:
pdftotext -raw Last edited by polyfragmentiert; 11-25-2009 at 10:23 AM. |
Advert | |
|
11-25-2009, 12:02 AM | #3 |
book creator
Posts: 9,656
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: Kindle Scribe
|
Es gibt die Möglichkeit, mit pdfcrop eine auch für Reader lesbare Datei zu schaffen. Allerdings ist das keine Konversion im üblichen Sinne.
|
11-25-2009, 12:05 AM | #4 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
Wird dir evt. nicht viel helfen, weiß nicht ob es unter Linux PDF Software gibt, die derartiges kann. Für mein Ubuntu habe ich nichts dergleichen, aber ich hatte mal eine pdf Datei wo jeweils eine Doppelseite eines Buches pro (Quergelegte) PDF Seite abgebildet war (Schwarzbuch der Steuerverschwendung) Dort habe ich per PDF Software erst die linke Hälfte ausgeschnitten, dann die entstandene .pdf Datei in Einzelseiten spalten lassen und per Rename-Tool (Empfehlung: joe) von 1 mit 2er Schritten durchnummeriert, also 1, 3, 5, 7 ..., dann das selbe mit rechts, nur von 2 an mit 2er Schritten durchnummeriert also 2, 4, 6 .... Dann das Ganze der Reihenfolge nach zusammengefügt und ich hatte die Seiten statt jeweils zwei nebeneinander einzeln untereinander, selbiges dürfte auch bei Zweispaltenpdfs möglich sein und könnte Vorteile beim Umwandeln geben.
|
11-25-2009, 03:08 AM | #5 |
Wizard
Posts: 1,430
Karma: 95000
Join Date: Dec 2007
Location: Germany, near Bingen/Rhein
Device: K3,K4,PB360,PB360+,PB701-IQ und noch diverse andere Lesegeräte....
|
2-spaltige PDF's jage ich immer duch eine OCR-Software wenn ich sie umwandeln will.
Meistens funktioniert das ganz gut. |
Advert | |
|
11-25-2009, 05:58 AM | #6 | |
Connoisseur
Posts: 70
Karma: 482
Join Date: Nov 2009
Device: Pocketbook 360 black
|
Quote:
Steuerung+V schaltet in den "Visual Modus". Mit den Pfeiltasten kannst du einen Block markieren. Diesen dann ganz normal mit "y" kopieren. Gruß Lino |
|
11-25-2009, 06:53 AM | #7 |
Connoisseur
Posts: 70
Karma: 482
Join Date: Nov 2009
Device: Pocketbook 360 black
|
Ausgehend von der *.txt Datei mit zwei Spaltenblöcken, könntest Du es unter Linux auch ohne Editor per Script versuchen:
cat datei.txt | cut -cN-M wobei: N Zeichen beginnend von 1 N- von Zeichen bis zum Ende der Zeile N-M vom Nten zum Mten (einschl.)Zeichen -M vom ersten zum Mten (einschl.) Zeichen Beispiel: ab Spalte 50 bis Zeilenende ausschneiden und in neu.txt speichern cat datei.txt | cut -c50- >neu.txt Ob's so wie gewünscht funktioniert, hängt auch davon ab, ob noch Steuerzeichen in der konvertierten txt Datei enthalten sind. Gruß Lino |
11-25-2009, 09:00 AM | #8 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Danke schonmal für Eure vielfältigen Tipps Ich schau' mit die von pdftotext erzeugte Datei erstmal genauer an, behalte Eure Hinweise aber im Hinterkopf.
Edit: Ich mach's für dieses Mal über den folgenden Weg:
* Für den Vorgang hab' ich noch ein Makro mit Tastaturkürzel angelegt, so dass das schon recht fix geht. Das nimmt mir schonmal einiges an Arbeit ab, die umzuwandelnde Datei ist ohne Bilder nur etwa 15 Seiten lang. Nochmals danke für Eure Hinweise, die ich später teilweise noch ausprobieren werde. Ihr seid super und bekommt alle Karma, auch wenn's zur Zeit nur 4 Einheiten sind, hehe. Kleinvieh macht ja bekanntlich auch Mist. Last edited by polyfragmentiert; 11-25-2009 at 03:41 PM. |
11-25-2009, 01:35 PM | #9 |
book creator
Posts: 9,656
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: Kindle Scribe
|
|
11-27-2009, 08:27 AM | #10 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Ein sehr schöner Nebeneffekt der TOC-Funktion von Sigil ist, dass man da mit der Übersicht die eigene Überschriftenhierarchie überprüfen kann. Im reinen Markup-Modus kann man da schon Mal durcheinander kommen.
Ich lerne gerade tiefe Demut vor den Leuten, die ganze Bücher oder sogar Buchreihen bearbeiten. Da steckt schon eine Menge Grob- und Detail-Arbeit drin. <virtuelles Karma verteil'> Last edited by polyfragmentiert; 11-27-2009 at 09:03 AM. |
11-27-2009, 12:51 PM | #11 | |
book creator
Posts: 9,656
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: Kindle Scribe
|
Quote:
Uebrigens Poly: PB 360 kann mehrspaltige PDFs Spalte für Spalte lesen und verbreitert dabei jede Spalte auf volle Bildschirmbreite (springt von Spalte 1 zu Spalte 2 und dann erst zur nächsten Seite)! Ist der Glanz für Romanhefte! |
|
11-27-2009, 12:54 PM | #12 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Ja, ich las es bereits in Deinem Testfaden, super Sache!
|
11-29-2009, 08:05 AM | #13 |
Groupie
Posts: 165
Karma: 496
Join Date: Nov 2009
Location: Germany
Device: Pocketbook 360, iPodTouch
|
Hallo,
bin hier ganz neu und habe mich gerade erst angemeldet. Zweispaltige PDF´s wandle ich immer mit "Stanza Desktop" in .epub Dateien um. Das funktioniert eigentlich ganz leidlich, jedenfalls habe ich damit immer bessere Ergebnisse erzielt als mit Calibre. Allerdings beachtet "Stanza Desktop" bei der Umwandling keine Grafiken, was (je nachdem welches Ergebniss man erwartet) ein Nachteil aber auch ein gewaltiger Vorteil sein kann. Grüße von Sturgis. |
11-29-2009, 08:32 AM | #14 |
Groupie
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
|
Hi Sturgis,
danke für Deinen Einwurf. Die Methode mit dem genannten pdftotext -raw und die manuelle Weiterbearbeitung funktioniert hier sehr gut. Ich muss dazu sagen, dass ich es aber auch drauf angelegt habe, das möglichst manuell zu machen. Sollte ich später mal umfangreichere Werke bearbeiten, werd' ich mir auch mal "Stanza Destop" anschauen. Willkommen bei MobileRead! |
02-24-2010, 05:23 AM | #15 |
Junior Member
Posts: 1
Karma: 10
Join Date: Feb 2010
Location: Germany, Berlin
Device: android, G1
|
Ich habe jetzt mal pdftotext so gehackt, dass es bei meinem PDF-Dateien auch bei zweispaltigen Text saubere Ergebnisse liefert und fast keine manuelle Nacharbeit nötig ist .
Umbrüche werden nun vor jeder Einrückung, nach jedem Block und nach jeder neuen Seite erzeugt. Es gibt nun eine Option -noblkbrk, die die Umbrüche nach neuen Blocks abschaltet. Das Sortieren der Blöcke erfolgt nun von links nach rechts und etwas entspannter. Ein Aufruf von Code:
pdftotext -noblkbrk <pdffile> Wenn man keine Seitenumbrüche haben will, sollte man Kopf und Fußzeilen abscheiden: Code:
pdftotext -x 60 -y 80 -W 475 -H 682 -noblkbrk -nopgbrk <pdffile> Ich kann damit aus meinen PDF's gut lesbaren Text für FBReader erzeugen, aber es ist sicher nicht für alle Fälle brauchbar. |
Tags |
epub conversion, epub creation |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Wie kann aus Dateinamen der Titel der PDF Datei erzeugen? Dringend! | Shyne | Erste Hilfe | 2 | 06-06-2010 05:40 PM |
Calibre - Metadaten aus Html Datei lesen | horseman | Software | 3 | 04-18-2010 06:18 AM |
epub in mobi ist die Datei immer soviel größer? | mos | E-Books | 4 | 01-09-2010 06:30 PM |
Probleme beim Öffnen von großer ePub Datei | ise | PocketBook | 2 | 12-21-2009 05:00 AM |
Frage zu ungültiger ePub-Datei und Inhaltsverzeichnis | polyfragmentiert | Erste Hilfe | 4 | 11-22-2009 08:09 AM |