Sur la Bibliothèque Numérique Européenne

Publié par agiffard le 6 Decembre, 2005 - 13:26

Ce texte reprend pour l'essentiel mon intervention à la séance du 05-11-2005, consacrée aux concepts et pratiques des technologies cognitives à partir de la question des bibliothèques numériques.

dire : ce sont nos livres

Le point qui m'a le plus étonné dans le débat qui a suivi l'annonce de Google Print et l'intervention de JN Jeanneney c'est qu'on a tout de suite brodé sur les chiffres, sans discuter le contenu des programmes de numérisation.

Nous pouvons appeler cette question : la question de la référence, ou, plus simplement, la question du texte, c'est à dire de son oubli.

Je ne sais pas s'il faut considérer toute culture comme secondaire, mais c'est le cas, à coup sûr de la nôtre : relation, par exemple, de l'occident chrétien avec ses sources religieuses juives, philosophiques et scientifiques grecques, juridiques et politiques romaines.

La référence fait question, et il y a une généalogie de cette question que Pierre Legendre en particulier a problèmatisée. Pour assurer cette relation aux sources culturelles, à la référence - ce que Legendre appelle le " vol d'ancêtre " - il faut un montage tout à la fois symbolique et technique. Ce montage nécessite, mais aussi il l'anime, une croyance, cela qui nous pousse à dire : ces références sont les nôtres ; nous sommes les lecteurs de ces textes.

La bibliothèque est une des institutions traditionnelles et centrales de ce montage. Au moyen de la bibliothèque, les hommes, le plus souvent à travers le pouvoir politique, désignent des textes, les nomment, les assemblent et disent : ce sont nos textes, gardons les pour pouvoir les lire.

Il est donc assez intéressant de constater que, dans la courte histoire des bibliothèques numériques, le pouvoir semble s'être fixé pour règle d'éviter la question de la référence.

Il n'y a pas lieu d'accabler les commentateurs qui se sont spontanément concentrés sur la question des chiffres ou des formats, puisque tout nous prépare à considérer cette question : la bibliothèque numérique, en oubliant de demander: quels livres, quels textes dans la bibliothèque '

collection organisée

Evidemment (c'est presque l'ABC de la science des bibliothécaires) la question du texte ne se pose pas isolément : la signification de chaque texte est spécifiée par sa place au sein de la collection.

La bibliothèque de l'Institut Mémoires de l'Edition Contemporaine, par exemple, est une bibliothèque de bibliothèques, et, comme telle, un bon observatoire de l'effet de sens que produit la collection sur le texte.

A l'examen, les bibliothèques rattachées aux auteurs dont l'IMEC a les archives relèvent de plusieurs types : la bibliothèque des livres écrits par l'auteur, la bibliothèque des livres écrits sur l'auteur, la bibliothèque personnelle de l'auteur, et, parfois, une bibliothèque des livres mentionnés par lui. Chacune de ces bibliothèques a sa propre organisation, son intelligence de collection, qui seraient inévitablement perdues si tous les livres étaient redistribués dans une collection unique.

Autrement dit le projet de bibliothèque numérique doit dire en quoi ces textes numériques se distinguent des autres, en quoi ils forment une collection.

Un point absolument central du projet de bibliothèque numérique de la Bibliothèque de France avait été précisément la constitution d'une telle collection, contre les propositions de numériser " selon des critères de gestion ou de préservation ", pratiques habituelles, par exemple, pour les microfiches.

Bien que la question du texte, de la référence soit en quelque sorte égarée dans les débats sur la bibliothèque numérique, le dogme bibliothéconomique selon lequel une bibliothèque numérique, comme toute bibliothèque, devrait être une collection organisée (en quelque sorte une version affaiblie de la question du texte) persiste encore, au moins dans la littérature professionnelle.

On retrouve cette habitude dans le manuel " Digital libraries ", publié par le MIT en 2000.

William Arms y insiste sur le point suivant :

" An informal definition of a digital library is a managed collection of information...A key part of this definition is that the information is managed."

Dans cette définition, le texte a disparu derrière l'information, opération parfois dévolue à l'équivoque notion de " document ". Mais W.Arms qui est un des meilleurs spécialistes de l'informatisation des bibliothèques reprend clairement la notion de collection. Toutefois il semble utiliser indifféremment l'idée d'organisation de l'information et celle d'organisation de la collection.

On avait l'habitude, auparavant, de distinguer le choix du texte, des textes, ce qu'on appelait le corpus, et l'organisation de la collection, ce qu'on appelait l'ordo, ordre qui était lui même un système d'ordres : ordre de la connaissance, ordre de l'étude, ordre de la lecture.

Ce principe, pragmatiquement (le pragmatisme est le mot d'ordre de la bibliothèque numérique; et c'est une grande douceur de vivre dans une époque où chaque chose est simplifiée, facilitée, et comme allégée par ce nouvel esprit pragmatique), pourrait donc être retenu : il y a de bons et de mauvais livres, pourquoi ne pas numériser plutôt les premiers ' certains livres vont assez bien ensemble, ils sont presque habitués à former une société de livres, pourquoi ne pas les numériser ensemble '

à partir d'un conseil de Pascal Quignard

Dans sa " Rhétorique spéculative ", Pascal Quignard oppose Fronton à Sénèque, ce qui n'est pas mal, et donne raison à Fronton, ce qui est beaucoup plus fort.

Je ne sais pas si Quignard va rallier la multitude des lecteurs de Fronton. On a commencé à oublier cet auteur dès les débuts du Moyen Age; c'est le type même du classique latin qui, selon Reynolds et Wilson, a " traversé d'épaisses ténèbres presque sans discontinuer de 550 à 750 " . Dans " Scribes and Scholars " ( " D'Homère à Erasme "), ces historiens anglais font remarquer que, " condamné à avoir toujours le dessous ", ses manuscrits étant les premiers que grattaient les copistes, il ne survit que dans trois palimpsestes.

Fronton a écrit des Eloges de la fumée, de la poussière, de la négligence.

Je donne cet exemple pour préciser qu'on ne peut exiger des promoteurs de la bibliothèque numérique, pas plus que de tout bibliothécaire, de nous garantir qu'ils n'auront pas oublié Fronton, que le titre numérisé correspondra toujours à la meilleure édition, et finalement que la collection sera la plus cohérente et la plus systématique.

En revanche, une demande raisonnable, même d'après les critères de l'époque, serait de voir explicités les principes du corpus et de l'ordo : tel livre pour telle collection, pourquoi tel livre et telle collection.

On pourrait ainsi, sur le modèle de ce qui a pu être proposé par Jacques Virbel pour le livre numérique, distinguer deux acceptions de la bibliothèque numérique : le cas où une bibliothèque classique, avec sa propre logique de collection, est " numérisée ", et le cas, bien différent, où, un certain nombre de textes étant disponibles sous une forme numérique, leur organisation, en tant que collection, est dans l'ordre numérique, l'équivalent de la bibliothèque, dans l'ordre des livres imprimés.

Avec un brin de l'habituel laxisme, on peut considérer que " bibliothèque numérisée " et " bibliothèque numérique originale " relèvent du même ensemble.

qu'est ce qu'une bibliothèque européenne'

Du point de vue de la collection organisée, les différents projets actuels de bibliothèque numérique adoptent ici des approches assez différentes.

Le projet de Bibliothèque Numérique Européenne est passablement évasif sur ce point, malgré les critiques adressées par J-N Jeanneney à Google sur le thème de la sélection. Il s'agirait, si j'ai bien compris, de sommer divers projets nationaux dont certains participent plus d'une politique de " valorisation ", voire de préservation, que de la constitution systématique d'une bibliothèque numérique. Il serait certainement préférable d'éviter un patchwork qui n'aurait d'européen et de bibliothèque que le nom.

Le projet Open Content Alliance, avec Yahoo, dont on a surtout souligné les aspects politiquement corrects (domaine public, autorisation, formats), adopte une politique " opt-in " de pré-sélection, finalement assez proche de celle qui a prévalu à l'origine de Gallica : 18 000 ouvrages classiques (" classic works of American literature ").

Je crois que cette orientation reste une des pistes sérieuses pour la bibliothèque numérique européenne elle même. Elle permettrait de poser une question fondamentale : quels sont les livres que les européens reconnaissent en propre comme les leurs ' De ce point de vue, la bibliothèque numérique européenne pourrait être la première bibliothèque européenne authentique.

Par exemple, un programme pourrait s'inspirer d'Alain de Libera (" Penser au Moyen-Age "), et mettre l'accent sur les contributions des cultures juives ou arabes à la Renaissance du XII ème siècle. J'ai peur qu'on ne prenne pas tout à fait ce chemin là puisque - si j'ai bien compris- les français numérisant " en français ", les allemands en allemand, etc, on risque fort, par exemple, de ne pas s'occuper du tout de la littérature latine, soit l'essentiel de la science en Europe jusqu'au XVIII ème siècle.

Nécessairement la question des textes des européens devrait être débattue. Il n'y a aucune raison d'y répondre de manière identitariste ou fondamentaliste : pourquoi la BNE ne serait elle pas l'occasion de découvrir la culture byzantine, indienne ou japonaise '

Je plaide pour que la question du texte soit de nouveau posée, avec la plus grande liberté par rapport à la réalité physique des collections des bibliothèques. Qu'on cherche non pas l'exemplaire que l'on possède en magasin, mais le meilleur et qu'on l'obtienne en coopérant avec les autres bibliothèques : voilà le type de programme culturel que l'Europe pourrait susciter.

L'autonomie par rapport aux collections réelles est d'autant plus importante, qu'à la différence de la BNF pionnière, la bibliothèque numérique européenne ne sera pas, ou pas seulement, la somme de textes numérisés à partir des collections réelles. Elle devra aussi prendre en compte les textes diffusés sous forme numérique, sur le web pour simplifier.

Du point de vue du bibliothécaire, la question de la sélection (quel texte pour quelle collection ') se pose ici de manière nouvelle : les " contenus internet " ne sont pas médiatisés, c'est à dire validés, comme ils peuvent l'être habituellement par différents intervenants: comités de rédaction, éditeurs, critiques... Le bibliothécaire (à tort) a le sentiment de se retrouver en " première ligne ". En réalité, il se retrouve dans un dispositif de médiation renouvelé.

C'est ici qu'il faut faire intervenir, dans la réflexion, le modèle proposé par Google.

Google : un projet de bibliothèque

Ce projet, pour le moment suspendu, est le plus intéressant à analyser.

Google Print, aujourd'hui " Google Book Search " (" Recherche Google livres "), c'est le refus de choisir : la bibliothèque numérique est la copie de la bibliothèque ou du fonds éditorial papier. La bibliothèque numérique est la bibliothèque numérisée.

Il est clair cependant que l'objectif est bien (voir la version bêta) de créer une seule bibliothèque numérique globale unifiée (cas des nouveautés qui ne devraient pas être numérisées deux fois, chez l'éditeur et dans les bibliothèques). Et ce qu'on ne retrouve pas dans ce projet, c'est la manière dont pourrait être restituée l'intelligence des bibliothèques - des différentes collections. Faisons donc retour sur Google et Google Print.

Google a été fondée, il y a sept ans, par deux informaticiens thésards. Ce point est bien connu et sa publicité permet de réactiver les habituels sophismes sur la technoscience et l'innovation. Moins connu, le fait que, dans l'équipe qui entourait-encadrait Larry Page et Serge Brin se trouvait Terry Winograd, un des champions de l'intelligence artificielle. Et curieusement aussi méconnu, le fait que l'étude était financée par Stanford, dans le cadre du volet " bibliothèques " des autoroutes de l'information, sur un programme précisément appelé " Stanford Digital Library ".

A la base, Google est un moteur de recherche, un outil de calcul à base d'indexation. Mais le point clé, l'idée originale est celle du classement des pages au delà des méthodes habituelles de recherche par indexation. Ce classement, " page ranking ", par la " notoriété " (c'est le terme le plus souvent utilisé en français) est défini par Brin et Page comme une " mesure objective de l'importance des citations qui correspond bien avec l'idée subjective que les gens se font de l'importance du texte ". Lisez Brin et Page ici.

En résumé, ce qui est mesuré et permet donc de classer les sites, c'est le nombre de liens hypertextuels qui renvoient sur eux. La notion de citation est ici utile bien qu'elle soit l'exemple même des transpositions dont nous devons nous méfier, surtout lorsqu'elles sont métaphoriques. Le classement sur Google est donc dépendant du travail des lecteurs du web, du nombre de renvois sur un site qu'ils éditent. Mais, au delà, ce classement vaut comme un dispositif hypertextuel d'ensemble, une présentation des différentes césures de l'infinité du web, une organisation des divers parcours de lecture. Bref la dépendance de Google à l'égard des lecteurs du web est double : individuelle et systémique. A ce titre, Google est fondamentalement une entreprise du monde de l'internet, mobilisant ses valeurs explicites.

Google Print, fils indigne '

Il y a donc une différence importante entre Google et Google print, c'est le caractère beaucoup plus centralisé du deuxième. L'indexation par mots est la partie commune.

Ce qui diffère, (si j'ai bien compris ; dans tout ce paragraphe, je me livre à une analyse assez éloignée des commentaires habituels et j'apprécierais toute critique ou information), c'est l'absence d'utilisation des liens dans Google print. Sur Google print, il semble bien que le classement sera strictement le produit du nombre de demandes ; autrement dit, il repose sur l'audimat et ne sera pas à même de représenter et d'utiliser le réseau des lectures.

Google Print s'éloignerait ainsi de l'hypertexte, de la philosophie du web, des idées même de Google.

S'ajoute à cela, le parti pris, particulièrement décevant, de traiter séparément le web (Google), les livres numérisés (Google Print), et la littérature grise (Google scholar) : on aurait difficilement pu trouver manière plus rustique d'approcher le moteur de recherche multimédia, qui est au programme de la bibliothèque numérique depuis au moins dix ans.

C'est assez cher payer l'abandon du point de vue des bibliothèques - l'oubli de la collection organisée au sein de la collection unique- et des lecteurs considérés, à la différence de la philosophie du web, comme de purs consommateurs.

Le modèle de Google est celui du Grand Lecteur Universel qui organise toutes les collections virtuelles, et prépare toute lecture possible. Je me demande si, à l'occasion de Google Print, une autre piste ne serait pas possible qui consisterait, au contraire, à s'appuyer encore plus sur le travail des lecteurs, la citation, les parcours de lecture, encore plus significatifs peut être dans le cas de textes aussi construits que les livres.

la quantité, une grande question

La solution de Google, pour la bibliothèque numérique, comme pour le web, c'est le détour par la quantité.

La quantité est une grande question de l'histoire des bibliothèques, du livre, et du texte. On pense à Origène, Aboulafia, Lulle, Hugues de Saint Victor, mais aussi Montaigne, ou Leibniz. Dans l'" Advis pour dresser une bibliothèque " avant même d'aborder la question du choix des livres, Gabriel Naudé pose comme premier objectif, la quantité. Il relie cette question à celle de la gloire du prince, ici , Mazarin.

Et c'est effectivement cet argument -sous sa forme publicitaire contemporaine- qui a été mis en avant. La quantité du projet de Google aurait entièrement renouvelé la question et déclassé les projets européens.

A contrario certains critiques ont fait la fine bouche devant les premières réalisations de Google Print en considérant qu'en son état actuel, la collection ne permettait pas d'atteindre la " masse critique ".

Mais la quantité d'une bibliothèque, dans l'histoire technique et épistémologique du texte, ne se réduit évidemment pas à la quantité matérielle, au nombre de livres stockés. En termes modernes, nous dirions qu'elle ne se réduit pas aux couches basses du système, mais qu'elle concerne aussi les couches hautes. C'est à dire la lecture.

La lecture augmente le texte. Chez certains penseurs de l'art de lire, Aboulafia, ou Hugues de Saint Victor, il s'agit bien d'une augmentation réelle, quasi matérielle de la quantité de textes.

Dans une perspective familière aux adhérents d'Ars Industrialis, ce qui se joue autour de l'hypomnematon, c'est la relation entre la memoria comme lecture-écriture et l'anamnèse, la reminiscentia comme écriture-lecture. La quantité fait ici intervenir la lecture, le lecteur, sa subjectivité.

Le principe de Google, c'est le principe de la glose. En général, le web apparaît comme un grand commentaire, un hypertexte, renvoyant à la glose marginale. Mais, plus précisément, le produit du moteur est l'équivalent de la glose interlinéaire, celle qui s'appuie sur le mot et produit le glossaire, l'index : le mot expliqué par le classement de ses occurrences.

Google à travers l'indexation et l'utilisation des liens pour le classement se présente comme le Grand Lecteur Universel du web. Mais précisément, à travers les liens, la procédure automatique du G.L.U mobilise, s'appuie, est conditionnée en même temps qu'elle l'élargit et l'amplifie, par les lectures multiples des lecteurs numériques, à travers les liens hypertextuels.

La quantité de texte chez Google combine la lecture et la glose automatique (l'indexation) et la lecture et la glose humaine (classement par les liens). L'abandon de l'une au profit exclusif de l'autre, risque apparent de Google Print, signe une de ces régressions auxquelles les industries culturelles nous ont habitué, particulièrement significative ici dans le cas d'une entreprise à ce point structurée autour du modèle du web.

sur le modèle économique de Google

On débat encore d'abondance sur le " business model " (modèle économique ou modèle d'affaire) de Google. J'avoue que je ne comprends pas ce débat lorsqu'il se résume à l'alternative : les bibliothèques doivent elles ou non travailler avec des sociétés industrielles comme Google ' De toute évidence, le temps est bien passé où le développement technologique se faisait dans les murs, à l'écart du marché. D'ailleurs, si je me souviens bien, les relations avec les entreprises caractéristiques de cette période étaient bien loin de constituer un modèle opposable à l'offre de Google, y compris sur le plan éthique.

En revanche, l'effet du modèle économique de Google sur les projets de bibliothèque numérique, et à travers eux, sur les bibliothèques publiques elles même, est une question de première importance. J'ai d'emblée souligné (" où il est question de la bibliothèque virtuelle (et de google) " 15/02/05) la vraie nouveauté que constitue le financement des missions d'intérêt public par les industries culturelles et la dépendance ainsi créée à l'égard des revenus publicitaires.

Google est en effet une des entreprises les plus représentatives de l'état actuel des industries culturelles, industries assurant, via la publicité, le passage du devenir culture de l'économie au devenir économie de la culture.

Ce qui devrait tout de même intéresser les professionnels des bibliothèques, c'est que le financement de Google par la publicité, Ad Words et Ad Sense, s'appuie aussi sur le métier de Google, sur une activité de quasi-bibliothécaire : la création puis la vente de mots clés. Son thesaurus est un thesaurus.

Les travaux de Christophe Bruno sont ce que je connais de plus intéressant sur ce sujet. Voir : Google Adwords Happening.

Au delà des revenus publicitaires, et du cash que produit l'entrée réussie en bourse, Google est peut être intéressé stratégiquement par les probables déplacements de la valeur dans la production des contenus. Google Print offrirait une sorte de fonction de table de pré-lecture, service habituel des libraires, qu'elle pourrait chercher à valoriser ultérieurement, par exemple aux dépens des libraires électroniques. C'est comme ça que je comprends l'initiative, ou la riposte, du vieux partenaire, Amazon (" recherche dans le c'ur "). D'autre part, à lui seul, un dispositif comme Google Print pourrait grandement favoriser l'apparition de nouveaux entrants dans le domaine des publications, par exemple, ceux que concerne Google Scholar.

Dans tous les cas, la situation créée par l'initiative de Google est l'illustration la plus évidente que, dans les domaines culturels les plus traditionnels, il n'est pas de stratégie sérieuse qui ne prenne en compte leur nouvelle dimension industrielle.

lecture numérique

J'ai centré mon intervention sur ce qu'on pourrait appeler les questions de la composition de la bibliothèque numérique (le " quoi ' ") ; j'aborde plus rapidement la question technique centrale de la lecture numérique (le " comment ') et celle du sujet de la bibliothèque numérique (le " qui ' "), déjà traité ailleurs.

Un texte doit paraître d'autre part dans un livre coordonné par Aurèle Crasson, de l'Institut des textes et manuscrits, sur l'expérience de la lecture numérique à la Bibliothèque de France, quinze ans après.

Bernard Stiegler dans son texte a évoqué l'expérience du Poste de lecture assisté par ordinateur à laquelle Philippe Aigrain participait aussi.

Le PLAO était un navigateur de lecture pré-web, qui se caractérisait par une approche de la lecture comme lecture de texte et non pas comme recherche et consultation d'informations

Il mettait en 'uvre un groupe de fonctionnalités que Jacques Virbel avait résumé comme le " complexe MAPS " : marquage hypertextuel, annotation (idée de lecture active, lecture-écriture), prospection (outils linguistiques), et simulation.

La démarche de la Bibliothèque de France consistait à construire une coopération entre industries, informaticiens, et un groupe de chercheurs considérés non pas comme des " utilisateurs " ou des " usagers ", mais comme des praticiens, à travers leurs pratiques de lecture, d'étude, ici appuyées sur les NTIC, et mettant en 'uvre des opérations cognitives que nous nous efforcions de comprendre.

situation actuelle de la lecture numérique

Apparemment, depuis quinze ans, l'environnement technique s'est beaucoup modifié, notamment avec le web qui a construit le plan d'opérabilité de la lecture numérique, et en somme, l'a fait exister.

Elle est pourtant toujours aussi mal outillée. Les industries à cet égard se répartissent en deux groupes : les industries de l'information modèle " logiciel " qui ne connaissent que les usages type de leur marché (ici, en gros, le traitement de texte), les industries de l'information modèle publicité qui ne connaissent que des consommateurs. En particulier, l'absence d'intégration fonctionnelle est devenue un obstacle majeur et irritant à la lecture numérique.

Il s'ensuit que certaines critiques identifient la lecture du web à une lecture zapping. Ils ont tort techniquement de confondre hypertexte et zapping. Mais il me semble incontestable que la cause immédiate de cette lecture zapping du web est bien l'absence d'un vrai dispositif de lecture numérique et l'incapacité des différentes industries de l'information à la produire.

Récemment j'ai essayé de reconstituer la généalogie des fonctionnalités des arts de lecture jusqu'à la lecture numérique :
Division dans la lecture
Marquage de lecture jusqu'au marquage numérique hypertextuel
Copie, copie dans la mémoire, copie numérique
Traitement de ce qui est copié à travers la simulation des différentes positions de lecture
Structuration-lecture de la mémoire
Publication des lectures
Lecture collective.

Je crois qu'un tel dossier a un intérêt spécifiquement technologique puisqu'il nous aide à critiquer l'oubli habituel de la technique dans l'approche informatique : oubli de considérer l'ordinateur et le réseau comme objets techniques, spécifiquement comme hypnonemata, et redoublement de cet oubli à travers celui des arts de la lecture, de la technologie de la lecture.
(J'accepte ici tout à fait l'idée de tradition).

Ce travail généalogique a aussi une perspective, un principe, c'est la constitution d'un dossier sur la lecture comme technique de soi.

C'est en ce sens que j'ai proposé quatre déplacements : du texte à la lecture, de la lecture au lecteur, du lecteur aux lecteurs, des lecteurs aux nouvelles subjectivités culturelles.

Un effet de ces déplacements, c'est la nécessité de reconnaître le droit du lecteur.

Ce droit du lecteur n'est pas nécessaire seulement pour garantir une activité traditionnelle, un droit coutumier aujourd'hui limité par la réglementation du numérique. Mais aussi pour faciliter les pratiques de lecture qui, non seulement tirent parti du web, mais sont à la base de son fonctionnement réticulaire.

bases du débat

Vous savez que différentes initiatives accompagnent le ou les projets de bibliothèque numérique.

Voici ce que pourraient être, selon moi, les bases d'une intervention d'Ars Industrialis :

Une philosophie : la lecture, la lecture numérique comme une technologie dans la perspective d'une culture de soi démocratique.

Une idée de la bibliothèque numérique : comme réseau de textes et réseau de lecteurs.

Une perspective technique : construire les instruments techniques d'une lecture numérique ainsi conçue.

Une proposition juridique : mettre en place un droit du lecteur.

Un projet politique immédiat : prendre part au débat lancé par la commission européenne.

agiffard's blog

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Ars Industrialis

ressources

association

activités

ateliers