L'édition savante dans la bibliothèque virtuelle

Publication d'un livre en SGML sur le World Wide Web


Proposition de travail dirigé soumise au Comité des études de l'EBSI

par Guy Teasdale

École de bibliothéconomie et des sciences de l'information
Université de Montréal
16 janvier 1996


  1. Le problème
    1. Introduction
    2. Énoncé du problème
    3. Importance de l'étude
  2. Objectifs
    1. Connaître et comprendre les principaux formats de diffusion électronique
    2. Comprendre les mécanismes d'implantation d'une solution SGML
    3. Mesurer les implications d'une décision de passer au SGML
    4. Connaître les outils disponibles dans une SGMLisation
    5. Limitations
  3. Revue de la littérature
  4. Méthodologie

Le problème

Introduction

Avec l'arrivée du World Wide Web, les bibliothèques ont maintenant à leur disposition un outil grand public leur permettant de diffuser et d'avoir accès facilement à des documents numérisés. La vitesse fulgurante avec laquelle le WWW s'est imposé comme outil de navigation de l'Internet n'a pas permis de pousser très loin la réflexion sur les documents que l'on y retrouve.

Ce travail se veut donc une réflexion sur l'information numérisée. Plus spécifiquement, nous nous intéresserons aux différents formats que peut prendre cette information. Il est possible, en effet, de diffuser sur Internet de multiples façons :

Ø Textes en format ASCII (American Standard Code for Information Interchange),

Ø Textes formatés selon un langage propriétaire de traitement de texte (Word Perfect, Word etc.), sous différentes versions.

Ø Textes formatés selon un langage propriétaire de description de page ( PDF ou Page Description Format de la compagnie Adobe),

Ø Hypertextes formatés en HTML (Hyper Text Markup Language). Le HTML est le langage originel du Word Wide Web et en est à sa troisième version (non encore officiellement adoptée).

Ø De nombreuses compagnies tentent d'imposer leur propre langage propriétaire sur le WWW. Microsoft avec son Internet Explorer, Netscape, avec ses ajouts à la norme HTML, en sont des exemples. Il est à prévoir que ces guerres de langage vont se poursuivre.

Face à cette tour de Babel numérisée, les bibliothèques ont à prendre des décisions difficiles : quel langage choisir pour diffuser les documents qui formeront la bibliothèque virtuelle ? Comment s'assurer qu'ils pourront être encore lus par les logiciels du futur ?

La norme ISO-8879:1986 ou Standard Generalized Markup Language (SGML) nous semble la plus susceptible de satisfaire les besoins particuliers des bibliothèques universitaires à ce chapitre. C'est une norme internationale qui comprend maintenant beaucoup d'applications et de Définition de Type de Document (DTD), qui sont développées depuis plusieurs année. Ces DTD sont appliquées aux exigences particulières de la recherche universitaire. Nous pensons, par exemple, à la DTD du Text Encoding Initiative.

Le SGML présente un intérêt d'autant plus grand qu'il existe maintenant des baladeurs du WWW qui permettent de lire directement des documents SGML, aussi facilement que l'on lit un document HTML. Le baladeur Panorama, de la compagnie SoftQuad <http://www.sq.ca/> est même distribué gratuitement sur Internet dans sa version démo. Cette version est tout à fait fonctionnelle; on peut dès à présent, lire des documents SGML sur différents sites WWW, notamment au National Centre for Supercomputing Applications (NCSA).

Pour bien comprendre tous les enjeux de la diffusion de livres sur Internet, nous procéderons à une étude de cas. Dans le cadre de cette étude nous effectuerons la conversion d'un ouvrage imprimé vers un format électronique. Nous avons choisi un livre publié par les Presses de l'Université Laval en 1995. Cet ouvrage de 472 pages, dont nous possédons les fichiers en format WordPerfect 5.1, devra être converti au format HTML et au format SGML à l'aide d'une DTD qui reste à déterminer. Ce livre sera :

Trudel, François, Paul Charest et Yvan Breton (sous la direction de). La construction de l'anthropologie québécoise : mélanges offerts à Marc-Adélard Tremblay à l'occasion du 25e anniversaire du Département d'anthropologie de l'Université Laval. Sainte-Foy, Les Presses de l'Université Laval, 1995.

Par la suite, cet ouvrage sera placé sur un site WWW de l'Université Laval, où il pourra être consulté dans les deux formats (HTML et SGML), ce qui devrait permettre de mieux percevoir les avantages et inconvénients respectifs de chacun.

Précisons que cette problématique se situe dans le contexte d'une bibliothèque universitaire de recherche et concerne uniquement cette partie de la documentation qu'il est convenu d'appeler l'édition savante (scholarly communication). La réflexion sur les avantages et inconvénients du SGML devrait être directement transposable à des documents tels que des thèses ou des rapports de recherche. Il ne s'agit donc pas de savoir si une DTD SGML plus évoluée remplacera la DTD HTML actuellement en usage sur le WWW. Il s'agit de voir si le SGML est un choix valable pour les publications savantes dont les bibliothèques ont pour mission d'assurer l'acquisition, la diffusion et la pérennité.

De plus, cette problématique est située dans le contexte actuel de ressources budgétaires limitées, de façon parfois drastique. Les bibliothèques doivent, dans ce contexte, s'assurer de choisir un format de diffusion économique. Après avoir consacré d'énormes ressources à la construction d'une inforoute ou d'une bibliothèque virtuelle, il ne faudrait pas, dans 5 ans, devoir procéder à la reconversion de toutes ces données parce que nos logiciels d'alors ne reconnaîtraient plus nos formats d'aujourd'hui.

Énoncé du problème

À terme, cette recherche devrait nous permettre de répondre à la question suivante : Le SGML est-il une solution viable et économique pour la diffusion et l'exploitation de la documentation savante sur Internet ?

Importance de l'étude

Devant la montée des coûts de l'édition et la baisse des revenus des bibliothèques, la nécessité de partager les collections au moyen de l'Internet devient de plus en plus pressante. Alors que l'inforoute est en train de s'élaborer, les bibliothécaires doivent pousser plus loin leur réflexion entourant le document électronique. Outre les préoccupations traditionnelles concernant l'acquisition, la sélection, la conservation, l'élagage et la diffusion, le document électronique amène à se poser d'autres questions liées à la nature même de ce document.

L'hypertexte et le réseau Internet apportent aux bibliothèques un changement aussi fondamental que celui provoqué par Gutenberg au XVième siècle. D'abord basées sur l'écrit, puis sur l'imprimé, les bibliothèques doivent maintenant composer avec de l'information sur support << luminescent et fugitif >>. Ce nouveau support nécessite que l'on aborde le document d'une façon nouvelle. Or, les traditions documentaires, fondées sur cinq siècles d'imprimés et sur quelques millénaires d'écrits, rétrécissent notre façon de voir le document électronique. Ce travail dirigé devrait permettre de mieux connaître les particularités et surtout les immenses possibilités permises par son support électronique réticulaire.

Objectifs

Outre l'objectif principal, que l'on retrouve dans l'énoncé du problème, nous croyons que ce travail nous permettra d'atteindre, au fur et à mesure de sa réalisation, plusieurs objectifs secondaires. Parmi les plus intéressants, citons ceux-ci:

Connaître et comprendre les principaux formats de diffusion électronique

Ce travail dirigé devrait nous permettre de comprendre les différents formats de diffusion d'information sur Internet de même que leurs avantages et inconvénients respectifs. Nous examinerons quelques uns des principaux standards internationaux. ASCII, HTML, SGML, ODA, HyTime, DSSSL.

Nous croyons que le SGML permettrait une utilisation beaucoup plus raffinée de l'information que ne le permet le HTML, actuellement utilisé sur le Web. Cette recherche des différentes normes devrait nous confirmer que le choix du SGML s'impose dans le cas particulier de l'édition savante.

Comprendre les mécanismes d'implantation d'une solution SGML

Il ne s'agit évidemment pas, dans ce travail, d'implanter le SGML à l'Université Laval ou même à la bibliothèque de l'Université Laval. Mais le fait d'avoir à convertir un document d'un format propriétaire (WordPerfect 5.1) vers un format ouvert, permettra de connaître les méthodes d'implantation du SGML de même que les difficultés inhérentes à un tel projet. Cette expérience pratique serait éminemment rentable dans le cas où la bibliothèque déciderait de pousser plus loin l'expérimentation.

Mesurer les implications d'une décision de passer au SGML

Actuellement, la majeure partie de l'argent dépensé dans l'industrie SGML est consacrée à la conversion de documents existants déjà en d'autres formats. Dans la bibliothèque virtuelle qui est en train de s'édifier, il est certain que les gouvernements voudront s'assurer d'avoir un contenu français et voudront permettre de partager des contenus uniques et rendre accessibles les richesses documentaires locales à l'échelle nationale. Déjà dans le projet canadien LIBRIS1, << Les universités de recherche canadiennes proposent l'établissement coordonné d'un réseau national de bibliothèques numériques permettant l'accès aux travaux érudits en reliant les centres d'excellence en recherche [...] >> (p. 2) .Ce projet propose, entre autres, la numérisation d'un million de volumes du patrimoine canadien . (p. 38-39).

Donc, il ne s'agit pas de savoir si la numérisation des collections va se faire, il s'agit de savoir comment et à quel coût. Ce travail dirigé permettant d'étudier la conversion d'un document existant déjà sous une forme numérique, devrait nous rendre plus apte à mesurer les coûts et enjeux d'une telle entreprise nationale quand viendra le temps d'y participer.

Connaître les outils disponibles dans une SGMLisation

Le SGML est un marché actuellement en forte croissance. De nombreux outils apparaissent. En plus des petites compagnies de logiciels spécialisées, de grands manufacturiers de logiciels proposent leurs solutions (Microsoft, Novell-WordPerfect). Nous verrons les particularités de ces logiciels.

Limitations

Le SGML peut s'appliquer à tous genre de documents : périodique, cartographique, multimédia, musical, braille, etc. Chaque catégorie de document nécessitant un traitement et une réflexion particulière, ce travail se limitera à la catégorie ouvrage collectif

Cette question des formats d'échanges dans la bibliothèque virtuelle ne représente qu'une des avenues de recherche de ce sujet très vaste. Parmi les autres sujets que je n'aborderai pas, mentionnons :

Ø le droit d'auteur.

Ø les moyens de contrôler la vente de l'information numérisée (tarification).

Ø l'indexation, le repérage des documents électroniques

Ø la manipulation des documents (la notion d'original).

Ø la reconnaissance optique des caractères (ROC), qui permettra de procéder à la numérisation rétrospective des documents papier.

Ø l'archivage

Ø la documentation administrative

Revue de la littérature

La problématique étant très actuelle, une bonne partie de la documentation se retrouve sur Internet. La revue de la littérature comprendra donc un examen des principaux sites WWW consacrés au SGML, au TEI, aux << Digital Libraries >>, aux autres normes internationales de formats (ODA, DSSSL), aux formats propriétaires (PDF) et enfin aux sites des principaux fournisseurs de produits SGML. Tous ces sites contiennent de nombreux textes de réflexion sur le SGML et sur la problématique de la conversion des données vers le SGML.

Signalons en particulier la bibliographie de Robin Cover, accessible sur le site du Summer Institute of Linguistics <http://www.sil.org/sgml/sgml.html>, qui comprend à peu près tout ce qui s'est écrit sur le SGML (plus de 1 000 notices). Nous consultons cette liste régulièrement.

En ce qui concerne la problématique de l'édition électronique des publications savantes, on retrouve une bibliographie d'ouvrages publiés depuis 1990, également constamment tenue à jour, dans un périodique électronique.

Bailey, Charles W. Jr. << Network-Based Electronic Publishing of Scholarly Works : A Selective Bibliography. >> The Public-Access Computer Systems Review 6, no. 1 (1995). La dernière mise à jour date du 8 janvier 1996.

La liste de discussion Usenet comp.text.sgml, permet de suivre les derniers développements dans le domaine.

Outre ces sources d'information générale, nous nous inspirerons également de projets en cours à divers endroits. Déjà plusieurs bibliothèques ont perçu l'importance du SGML. La NASA subventionne plusieurs recherches sur la << Digital Library >>. Un périodique électronique, d-lib, publie depuis 6 mois des articles où il est question de cette problématique <http://www.dlib.org/>.

D'autres ont commencé à diffuser leurs publications savantes sur Internet. On peut dès à présent s'abonner aux périodiques de l'Université John Hopkins <http://muse.jhu.edu>. Leurs publications sont en HTML mais les responsables envisagent le passage éventuel au SGML

Des milliers de livres sont déjà disponibles en format électronique. Pour l'instant la plupart sont en ASCII ou en HTML, mais on sent que la problématique SGML est présente partout. Pour l'Association des Bibliophiles Universels, par exemple, le SGML semble un idéal encore lointain.

<< Il n'existe pas en matière de balisage de texte de norme ou de standard universellement connu et utilisable sur tous les ordinateurs de l'Internet. C'est bien le but de SGML, mais il est mal diffusé et encore faudrait-il s'entendre sur une DTD commune... En attendant ce grand jour, les textes d'ABU sont transcrits sous une forme très frustre (sic) mais simple et robuste. Notez qu'HTML (utilisé avec l'ISO Latin) pourrait tout-à- fait jouer ce rôle. >> - FAQ ABU <http://www.cnam.fr/ABU>

D'autres, comme le responsable du projet Gutenberg, Michael S. Hart, ont réglé la question en utilisant le format ASCII pur. Le projet Gutenberg vise à rendre accessible 10 000 ouvrages d'ici l'an 2001.

On le voit, le SGML ne fait pas que des adhérents. Les détracteurs où les tièdes mentionnent sa complexité versus la simplicité de l'ASCII et du HTML ou du format PDF. Notre travail pourra contribuer à renforcer, ou au contraire, à affaiblir ce genres d'objections.

Le Electronic Text Center de l'Université de Virginie utilise le SGML avec la DTD du TEI (Text Encoding Initiative). Plusieurs milliers d'ouvrages balisés en SGML sont disponibles à cet endroit. La DTD du TEI est développée depuis plusieurs années par des spécialistes des sciences humaines et de la linguistique. Nous examinerons la possibilité de l'utiliser en consultant l'énorme masse documentaire produite par le TEI disponible à : <http://www-tei.uic.edu/orgs/tei>.

Avant d'en arriver à choisir une DTD, il est nécessaire de se familiariser avec le SGML. Les ouvrages suivants ont été ou seront consultés :

Goldfarb, C.F. (1990). The SGML Handbook, Oxford, Clarendon Press.

Huard, G., Marcoux, Y., & Poulin, D. (1995). Le SGML en documentation juridique et gouvernementale : potentiel et mise en oeuvre, Québec : Éditeur officiel du Québec.

Sandoval, V. (1994). SGML : Un outil pour la gestion électronique de documents, Techniques de l'information. Paris : Hermès.

SGML et Inforoutes : Pour la diffusion optimale de l'information gouvernementale et juridique. Musée du Québec, Mercredi le 27 septembre 1995 (1995). Montréal : Centre de recherche en droit public.

Van Herwijnen, E. (1995). SGML Pratique, Paris : International Thomson Publishing France.

Méthodologie

Ø Examen de ce qui existe déjà sur l'Internet. Les presses de l'Université du Michigan ont publié un ouvrage en format SGML accessible sur leur WWW. Cet ouvrage est encodé à l'aide de la DTD ISO 12083 Book que j'envisage d'utiliser. On peut consulter cet ouvrage à l'aide des logiciels Mosaic et Panorama à l'adresse suivante : <http://www.press.umich.edu/bookhome/bordin>.

Ø Familiarisation avec les principaux formats d'échanges normalisés : HTML, SGML, ODA, DSSSL, PDL ; ou propriétaires, PDF.

Ø Examen des outils logiciels disponibles.

Ø Examen de différentes méthodes d'implantation du SGML. Il existe quelques méthodes d'implantation, comprenant une analyse fonctionnelle et une analyse des documents. Comme il ne s'agit que de convertir un seul ouvrage, cette analyse ne sera pas aussi poussée qu'une analyse d'implantation réelle mais permettra toutefois d'en connaître la méthodologie.

Ø Examen des DTD existantes pouvant le mieux correspondre au type de document à convertir. DTD TEI, DTD DocBook de O'Reilly, DTD Book de l'AAP. Il y a même une DTD Rainbow, pour les documents de traitement de texte mal structurés. Cette DTD convertit en SGML à partir du format RTF. Le format RTF est un format d'échange entre traitements de textes développé par Microsoft.

Ø Choix, création ou adaptation de la DTD et des outils et de la méthode de codage. Il s'agit de voir quels sont les moyens disponibles pour automatiser le plus possible toute l'opération.

Ø Traduction de la DTD SGML choisie en DTD HTML. Il est facile de passer automatiquement d'un texte riche vers un texte pauvre (SGML --> HTML). L'inverse est beaucoup plus difficile et exige en général un traitement intellectuel. Nous essaierons de demeurer conséquent avec nos objectifs visant une solution économique. La solution devra comprendre une conversion SGML --> HTML sans (re)balisage manuel.

Ø Installation du livre encodé sur un site WWW dans ses deux formats.

N.B. Ce texte constitue ma proposition de travail dirigé soumise au Comité des études de l'EBSI le 16 janvier 1996. Le contenu n'a pas été modifié, mis à part le titre, même si le projet a subi de légers ajustements en cours de réalisation. Le titre original du projet était: SGML et World Wide Web : Les balises de l'édition électronique universitaire : Publication d'un livre en SGML sur le WWW


1. Le projet canadien LIBRIS- Projet essentiel au soutien et au renforcement de la recherche et de l'enseignement au Canada : Proposition pour le développement coordonné d'une bibliothèque virtuelle en réseau à l'échelle nationale. Ottawa, Association des bibliothèques de recherche du Canada, Juin 1995.