02-11-2011, 02:45 PM | #16 | |||||
Connoisseur
Posts: 86
Karma: 33940
Join Date: May 2010
Device: Opus
|
Quote:
Quote:
Quote:
--- Quote:
--- Quote:
De plus, si on se met à faire un catalogue, je ne vois de raison a priori de le limiter aux livres finis. Eric. |
|||||
02-11-2011, 05:23 PM | #17 |
Groupie
Posts: 195
Karma: 542
Join Date: Jul 2008
Device: Tablette android SmartQ T7 - Nook Touch - Pocketbook 602
|
@ Tpt et Eric
Vous prenez le problème à l'envers me semble-t-il. La problème n'est pas pour le moment de dire que quelqu'un va écrire tel ou tel type d'application, que ce sera du Json (je ne sais pas trop ce que c'est à part que Firefox semble utiliser des fichiers de ce type) ou autre. Le problème, ce sont les données existantes et celles qui peuvent exister. Je ne crois pas une seconde que se constituera une équipe qui rentrera à la main les données et qui sera capable de tenir sur la durée. J'ai trop vu depuis 8 ans de projets enthousiastes, irréalistes et avortés. Donc, il s'agit de savoir si les sites/groupes/personnes en question, du moins ceux qui le veulent, sont capables de fournir un format de données à partir de leurs outils, de manière automatique, pour alimenter une base de données centrale (y compris avec l'aide d'un programmateur extérieur, évidemment). Je ne connais pas le détail de PG / DP, et on ne pourra guère avancer si un de leurs responsables, s'il y en a au niveau francophone (???), ne vient pas ici, mais je suppose qu'ils ont un système de base de données qui permet d'exporter des données précises. Pour nous, nous avons une base de données MySql et un catalogue OPDS, on doit pouvoir faire quelque chose. Mais nous n'avons pour ainsi dire plus d'informaticien, une aide extérieure sera automatiquement nécessaire, sauf utilisation directe de notre catalogue OPDS. Pour les petits sites/personnes seules, qui n'ont pas d'outil existant, il faudra par contre entrer manuellement les données, avec la collaboration ou non de la personne concernée, à moins qu'il soit possible de récupérer les données d'un catalogue OPDS, catalogue qui pourrait être fait facilement avec Calibre et Calibre2OPDS, soit par les personnes/sites, soit par des tiers. En ce qui concerne les dumps de Wikisource, je suis loin d'être persuadé qu'ils permettent d'alimenter une base de données, sachant que si l'état du texte (validé, terminé relu une fois, etc, etc) n'est pas connu avec précision, cela n'a aucune valeur : il faudrait peut-être étudier ce point avant de s'avancer... Ce n'est que lorsque vous aurez fait un état complet des données existantes, des possibilités de conversion pour obtenir un format unique, des possibilités de récupération automatique des données, que vous pourrez envisager les langages de programmation / méthodes à utiliser... Last edited by Coolmicro; 02-11-2011 at 05:26 PM. |
Advert | |
|
02-12-2011, 03:31 PM | #18 |
Wikisource contributor
Posts: 4
Karma: 10
Join Date: Feb 2011
Device: none
|
Pour wikisource, cela va être très compliqué : il n'y a vraiment pour l'instant aucune métadonnées et il n'en aura pas avant longtemps. Sinon je pense que tout le monde pourra exporter un fichier au format OPDS (ce n'est qu'une simple génération de xml) contenant tout les livres avec leurs métadonnées que l'on donnerai au site qui saurait le synchroniser avec sa base de donnée. Le site générerait aussi un vrai OPDS avec moteur de recherche pour être intégrer dans les lecteurs et aurai une fonctionnalité de fusion des entrées en doublons. Mais il faudrait aussi une forte politique d'uniformisation concernant par exemple les noms d'auteur ou les titres.
|
02-12-2011, 06:33 PM | #19 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Bonjour,
Quelques idées, notées en vrac qui vont dans le sens d’une approche pragmatique. Vous allez directement à celle qui vous intéresse. La cote d’alerte est atteinte. J’ai publié il y a quelques jours Les derniers jours de Pékin pour m’apercevoir, en fréquentant un autre forum, que ce livre avait déjà été publié sur Gutenberg sous forme d’epub. Après Les Pléiades, c’est un deuxième titre qui fait l’objet d’une duplication involontaire. Jusqu’à présent, j’avais principalement publié des ouvrages historiques tellement confidentiels que j’avais échappé à ce phénomène. Maintenant, la cote d’alerte est atteinte pour moi.... Le mieux est l’ennemi du bien Idéalement, les oeuvres en cours de numérisation devraient pouvoir être incluses pour prévenir toute duplication des efforts. Leur absence n’est toutefois pas dramatique. Faisons un petit calcul à la Bigard. Admettons que les œuvres en cours de numérisation au cours d’une année calendaire représentent entre 12 et 24% du total déjà numérisé. Cela me parait un chiffre optimiste, mais admettons. Cela ne fait que 1 à 2% par mois. Si l’on effectue une mise à jour mensuelle, le résultat obtenu recensera à un instant t entre 98 et 99% des œuvres numérisées. Certes il peut encore y avoir de la duplication dans le reliquat, mais cette probabilité est alors devenue très faible. Ce n’est pas parce qu’on n’est pas parfaits que l’on ne doit pas essayer d’être très bons tout de suite.... La sémantique contre la centralisation. Absence de critère universel Quel critère retenir pour estimer qu’une œuvre doit faire partie de la base ? - la langue : française (encore faut-il le dire) - le format : il y a pléthore. Une image PDF de Gallica en fait-elle partie? Les livres audio ? Un seul format, tous les formats ? - les droits (domaine public oui mais lequel ? canadien, français....) On voit bien à partir de là qu’il y a des différence qui ne sont pas faciles à combler. Absence de nom générique Outre le nom de l’auteur et le titre de l’oeuvre, comment la rechercher la plus efficacement sur Google? Il y a bien etext mais c’est surtout Gutenberg, ebook semble plus répandu mais pas universel... epub mais il y a mobi, etc... La conclusion est que ce n’est pas clair. Chacun voit midi à sa porte. Et il a raison. L’important c’est que sa «production» soit connue Ce serait la première difficulté à surmonter avant de mettre au point une base de données centralisée. Mais d’ailleurs... Un fichier centralisé ? Pourquoi ? Il me semble que nous pourrions faire l’économie d'un fichier centralisé. Plutôt que de contacter chaque acteur de l’éco-système et de tenter de le persuader de collaborer selon des lignes encore incertaines, il me semble que l’on pourrait tenter une autre approche, du haut vers le bas. On peut imaginer une procédure qui garantisse l'indexation périodique par les robots de Google. Il nous appartiendrait ensuite simplement d'informer chaque éditeur souhaitant participer de la procédure à suivre pour que sa production soit à coup sûr "visible" par le robot. Après, ce sera à chaque éditeur, dûment prévenu, de balayer devant sa porte. Pourquoi ne le ferait-il pas ? Son intérêt n’est-il pas que les œuvres qu’il publie soient diffusées ? C’est pourquoi, après avoir dégrossi la question entre nous, il me semble qu’un contact avec Google serait sans doute fructueux. Nous aurions la garantie d’avoir des conseils efficaces. C’est aussi l’intérêt de Google. |
02-13-2011, 09:57 AM | #20 |
Groupie
Posts: 195
Karma: 542
Join Date: Jul 2008
Device: Tablette android SmartQ T7 - Nook Touch - Pocketbook 602
|
Salut Robert,
Honnêtement, je pense que Google fait bien son boulot, déjà actuellement, et que c'est toi qui n'as pas fait les recherches correctes avant de commencer le travail. Il suffisait de saisir "Les derniers jours de Pékin ebook" pour trouver immédiatement. Concernant les livres déjà parus, je n'ai pas eu un seul problème de doublons en 8 ans de travail. Mais Google ne peut pas indexer, par définition, les livres en cours de travail, non parus. Pour ELG, cela représente environ 500 titres (mais nous avons une page spéciale déjà citée), pour PG pas mal aussi. Si la présente discussion a uniquement pour but d'éviter les doublons, il n'y a pas besoin de faire de grosse machinerie : ELG a une liste, PG a des listes, Wikisource aussi. Il suffirait que tout le monde ait ses listes de travaux en cours. |
Advert | |
|
02-13-2011, 07:45 PM | #21 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Bonjour Dois-je attribuer ce changement de prénom à la brusque chute de l'estime dans laquelle tu me tiens ? En ce qui concerne ta remarque sur Google, je la mets dans ma musette mais Google ne m'aurait toujours pas donné (au moins en première page) le titre de l'ouvrage d'Eric. J'ai peur que ce discours sur la complexité de l'affichage des travaux en cours, effectivement difficile à faire pour une multitude de raisons que tu as citées, ne nous détourne d'une démarche plus simple: améliorer dès à présent la recherche sur la la liste de travaux réalisés en améliorant la coopération avec Google comme je l'ai indiqué. Je constate par ailleurs que Mobile Read vient me semble t-il de déléguer à Google une "custom search" qui fonctionne bien et qui se justifie par le nombre de leurs titres (plus de dix mille je crois). Ce serait bien que quelque computer guru de chez MR nous fasse savoir comment ils s'y sont pris. Proposition Si la création et la maintenance sur le long terme d'une base de données centralisée sont des tâches compliquées, en y réfléchissant un peu, il serait peut-être possible de progresser simultanément sur les deux points suivants. - la création d'une -petite- base de données portant exclusivement sur les œuvres en cours d'élaboration et qui agrègerait les informations des éditeurs voulant bien participer. J'ai cru noter sur ce fil qu'un volontaire s'était fait connaître. On pourrait envisager pour cette liste une diffusion limitée aux participants (après tout c'est eux que ça regarde) pour inciter les éditeurs hésitants à s'y joindre. - une coopération accrue avec Google pour garantir l'indexation et donc la visibilité des œuvres existantes (par exemple à la Mobile read) afin que Google pointe à coup sûr sur le site de l'éditeur. Cette coopération devrait favoriser la diffusion. Last edited by roger64; 02-14-2011 at 03:57 AM. Reason: Proposition |
02-14-2011, 01:53 PM | #22 | ||
Groupie
Posts: 195
Karma: 542
Join Date: Jul 2008
Device: Tablette android SmartQ T7 - Nook Touch - Pocketbook 602
|
Quote:
Quote:
Pour la coopération accrue avec Google, je n'ai rien contre si c'est vraiment possible. |
||
03-01-2011, 10:24 AM | #23 |
Junior Member
Posts: 9
Karma: 10
Join Date: Mar 2011
Device: Sony Reader PRS650
|
Pour les livres de Wikisource, par bonheur le .djvu est (presque) toujours un dérivé d'autre chose (PDF de Google ou de Gallica) ou tiré d'Internet Archive qui a aussi en ligne le .pdf équivalent. La "source" est indiquée (presque toujours) dans la description du fichier .djvu sur Wikimedia Commons, et on peut aller le chercher.
|
03-05-2011, 12:23 AM | #24 |
Junior Member
Posts: 9
Karma: 10
Join Date: Mar 2011
Device: Sony Reader PRS650
|
Catalogage sur Wikisource
Petite réflexion sur Wikisource, où je contribue.
Wikisource n'offre pas au lecteur le même service que les éditeurs de livres numériques comme Ebooksgratuits, Classiques des sciences sociales, Gutemberg et les autres. Le site propose des textes en lignes, accessibles immédiatement. Exemple: je veux consulter la biographie officielle et légendaire de Confucius écrite par Sima Qian. Je trouve "Mémoires historiques" en six volumes Pdf sur Classiques des sciences sociales . Il faut tout télécharger et explorer pour trouver le 47e chapitre qui contient ce que je cherche. Sur Wikisource j'y suis en trois clics . Mais si j'ai envie de lire en entier ce texte de 300 000 caractères je ne vais pas le faire le nez sur l'écran; je télécharge donc le 5e volume sur Classiques des sciences sociales et je le mets dans ma liseuse. C'est d'ailleurs le même texte; Wikisource a exploité le travail de C.S.S. et le renvoi au texte téléchargeable est sur le site (malheureusement sur une page "discussion" qu'il faut avoir l'idée de consulter; les initiés savent). Wikisource, avec sa structure par auteurs, ouvrages, sujets (ça s'appelle les "portails"), est capable d'accueillir un catalogue de livres numériques stockés ailleurs. Chaque éditeur y mettrait lui-même en wiki, sous une forme commune, l'adresse de ses livres disponibles dès leur parution, et l'annonce des ouvrages en cours. Pour les éditeurs qui n'ont pas envie de participer, il y aurait sûrement des bonnes volontés. La reprise de l'existant serait difficile à automatiser mais ce n'est pas une tâche surhumaine (à 3 minutes par ouvrage, les 4500 livres de Classiques des sciences sociales demanderaient 225 heures). Personnellement, je préfèrerais cela à une base de données de haute technologie. Ce n'est d'ailleurs pas contradictoire. Ceci est une idée personnelle, et je ne sait pas si elle est acceptable par la communauté de Wikisource, dont la préoccupation est l'enrichissement du site en textes ("originaux" établis sur un fac-simile, ou textes repris ailleurs) et pas autre chose. Il faudrait ouvrir des centaines de pages pour des auteurs qui n'ont pas de textes, et des milliers de pages pour des ouvrages dont le texte est ailleurs. La charge d'administration serait alourdie d'autant. Et avec un peu de malchance ça attirerait les spammeurs, qui pour l'instant se manifestent peu sur Wikisource. Dans tous les cas, il faudrait des bonnes volontés pour alimenter le site avec les nouveautés des éditeurs qui ne se soucieraient pas de participer. Je n'imagine pas qu'un éditeur puisse être contre. Gutemberg publie une norme pour faire les liens correctement. Quant à la possibilité de faire vivre ce genre d'idée, voir le discours précédent de Coolmicro qui a de l'ancienneté et a déja vu des projets du même genre s'éteindre. Mais la population de bénévoles des projets Wikimedia est riche. Last edited by Wuyouyuan; 03-05-2011 at 12:31 AM. |
03-23-2011, 07:40 AM | #25 |
Addict
Posts: 259
Karma: 434
Join Date: Feb 2010
Device: none
|
En même temps, je me demande toujours pourquoi une telle peur de voir plusieurs éditions d’un même ebook ?
Dans l’univers du papier, ça arrive constamment : rien que chez moi, j’ai 5 éditions différentes des Misérables… Moi, ça ne me dérange pas du tout : l’édition est elle-même une création. Chaque créateur d’epub y met sa patte, son style, sa technique, sa précision et son exigence aussi. Et le lecteur peut choisir. Je trouve que ça serait terrible si l’édition électronique se dirigeait peu à peu vers une sorte d’unicité de chaque œuvre. |
03-23-2011, 10:34 AM | #26 |
Groupie
Posts: 195
Karma: 542
Join Date: Jul 2008
Device: Tablette android SmartQ T7 - Nook Touch - Pocketbook 602
|
Oui Nicolas, c'est un point de vue.
Mais pense qu'il s'agit de bénévoles, qu'on ne parle pas d'édition commerciale : que chacun fasse les epub ou autre à sa manière, c'est très bien; mais concernant le travail de correction qui est si long, si tout le monde se consacre aux même oeuvres par méconnaissance de ce qui est fait ailleurs, cela signifie que un tas d'oeuvres ne seront jamais publiées, étant donné le peu de bénévoles qui oeuvrent... Bref, le souci, ce qui était discuté, c'était que chacun puisse être informé, tant au niveaux des lecteurs que des éditeurs bénévoles, de ce qui existe, afin que chacun prenne ses décisions en connaissance de cause. |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
E-Books Japon : Joint venture entre grands pour nouvel ebook | DannyElfman | Forum Français | 5 | 06-17-2010 10:28 AM |
éditeurs en modèle d'agence et leurs sucursales | Deneb | Lounge français | 12 | 04-19-2010 08:00 AM |
Chit-Chat Les éditeurs parlent des liseuses sur le blog Bélial' | filip | Forum Français | 9 | 02-12-2010 04:59 PM |
Seriously thoughtful Entretien entre Michel Dahan et Pierrick Fay | Grimaud | Lounge français | 3 | 12-11-2009 07:47 AM |
[Le Monde]Le livre entre dans la révolution numérique | discusaigon | Lounge français | 0 | 09-29-2009 11:46 AM |