Dataware et Métadonnées.

 

Le mot« data »signifie « données » et le mot « ware » ; que l'on retrouve dans « hardware » et « software », vient du vieil écossais et signifie « objet de soin ».

 

L'histoire de l'informatique et des technologies de l'information a successivement porté son attention sur les différentes couches de son architecture que sont le hardware (le matériel), le software (le logiciel) et le netware (le réseau). Après le règne du hardware (dominé par IBM) et du software (dominé par Microsoft) ce sont les données des utilisateurs qui font l’objet de tous les soins des entreprises du web 2.0, ce pourquoi nous parlons de dataware (dominé par Google). Le dataware désigne donc une attention toute particulière portée aux données, à leur collecte et leur agrégation à partir desquelles des services sont proposés.

 

Hardware,Software, Netware, Dataware sont les quatre vagues d’architecture qui ont marqué la conception des systèmes d’information.

 

1. La première vague d’architecture est celle du Hardware, dominée par l’entreprise IBM (International Business Machines) et ses Mainframes, gros serveurs centralisés auquel on accède par des terminaux dit "passifs" car ils n'ont aucune autonomie en matière de puissance de calcul et de stockage, et aucune autre finalité que de pouvoir se connecter au système central.

 

2. La deuxième vague est celle du Software, dominée par l’entreprise Microsoft et son architecture « client lourd ». « Lourd » signifie ici que les terminaux disposent d'une puissance de calcul et de stockage qui va permettre, entre autres, l’expansion de la bureautique et plus généralement des logiciels que l'on peut installer et utiliser sur un ordinateur, même sans accès à un serveur. La démocratisation du PC (Personal Computer) verra l’avènement, et le quasi-monopole, du célèbre système d'exploitation Windows de Microsoft.

 

3. La troisième vague d'architecture est celle du Netware, dominée par l’entreprise Sun (qui est l'acronyme de Stanford University Network). Ici on parle d'architecture trois-tiers car on distingue la couche où sont stockées les données, celle où les règles fonctionnelles et métiers sont effectuées par les algorithmes et, finalement, la couche dite de présentation – celle que voit l’utilisateur sur son écran. Dans cette architecture, le fait que les données soient distribuées et accessibles via un réseau est prise en compte. On accède aux applications avec un client léger – et ce client léger n'est autre qu'un navigateur web.

 

4. Enfin, nous sommes à présent rentrés dans une quatrième vague d'architecture que l'on nomme dataware. Cette architecture est celle du web actuel (dans la mouvance de ce qu'on appelle le web 2.0), et elle est dominée par l’entreprise Google. Ainsi, les nouvelles « usines » (entièrement automatisées…et dont la matière première est fournie par les contributeurs des réseaux) du XXIe siècle sont des data centers qui fournissent de la puissance de calcul et de la capacité de stockage (ce qui ne peut se faire sans une colossale dépense d’énergie et la pollution qui en découle).

 

Datawaredésigne une tendance majeure où les données et la manière d'y accéder et de les manipuler deviennent un enjeu technologique, industriel et économique. Il s'agit par exemple, pour les services de réseaux sociaux, de capturer et de « tracer » le plus de données sur les utilisateurs du service. Et il s’agit, pour les moteurs de recherche, de parcourir et d'indexer le plus de documents sur le web.

 

Les métadonnées, données sur les données, sont ce qui permet de mettre en relation des données. Les métadonnées existent depuis la Mésopotamie, où l’on a trouvé des tablettes d’argiles qui décrivaient des stocks de tablettes et constituaient en cela des catalogues. Il n’y avait jamais eu de métadonnées qui n’aient pas été produites par des démarches de contrôle top down, hiérarchiques, descendantes et centralisées (contrôle impérial en Mésopotamie, etc.). Or, depuis 1992, depuis l’apparition du world wide web, la production de métadonnées – c’est-à-dire des éléments de base de la synchronisation – est devenue un processus bottom up, réticulaire, ascendant et décentralisé. A vrai dire, c’est cette opposition elle-même qu’il faut remettre en question.