urfist

LES ARCHIVES OUVERTES
DANS LA COMMUNICATION SCIENTIFIQUE

G. Chartron, Urfist-Paris, chartron@cnam.fr
(14 janvier 2003)

Qu'est-ce qu'une archive ouverte?

Une "archive":
Le terme est ambigu car il renvoie à la notion d'archive telle qu'elle a été définie par les archivistes, connotation forte avec la notion de préservation sur le long terme associée à une politique institutionnelle.
Dans le contexte de la communicaion électronique scientifique, le terme a ses origines dans la communauté "E-prints" et de ses pionniers, il est ici synomyme de réservoir d'information  (appelé aussi parfois "entrepôt").  Le terme est très lié au mouvement "Open Archive Initiative", qui a pour objectif des finalités d'interopérabilité technique entre ces réservoirs (interrogation transversale par des moteurs de recherche).

"Ouverte":
Le terme est lui aussi ambigu, certains  auraient tendance à l'assimiler à la gratuité d'accès car de fait, les premières archives (celle de P. Ginsparg et celle de S. Harnad notamment ont marqué une rupture dans l'économie de la publication scientifique, en ouvrant à tous, les publications scientifiques).

Or, dans le contexte du mouvement OAI (Open Archive Initiative), le terme "Open" concerne l'architecture technique de ces archives et n'est pas synonyme de gratuité d'accès. Il s'agit de définir des protocoles communs pour permettre une facilité d'utilisation du contenu par un ensemble de services extérieurs.
Convergence forte avec le mouvement "Open sources" de l'informatique libre. Un logiciel libre, contrairement à une idée commune répandue, ne signifie pas que ce logiciel soit gratuit. Un logiciel est qualifié de "libre" dans la mesure où l’accès à son code-source est libre, ce qui donc n’a rien à voir avec son prix. Chacun peut utiliser, copier, distribuer et modifier librement un logiciel libre. Par ailleurs, les sociétés commerciales peuvent éventuellement en tirer profit en le distribuant. Le logiciel libre s’oppose à la notion de logiciel propriétaire dont l’utilisation, la redistribution et toute modification sont interdites ou exigent une autorisation spécifique.

Il faut donc conclure sur une certaine ambiguïté du terme "Archive ouverte", il n'a pas la même signification selon son contexte d'utilisation.
Dans les discours dominants,  il est   plutôt assimilé à des réservoirs d'articles en  accès libre, sans barrière économique et juridique, intégrant ou non des protocoles d'interopérabilité.
 

Les enjeux associés

Accès ouvert aux publications scientifiques
Accès simplifié
Recherche croisée: interopérabilité des archives, développement de services associés.
Support de mémoire scientifique
 

Le mouvement OAI (Open Archive Initiative)
http://www.openarchives.org/

Objectif: Développer et promouvoir des sandards interopérables pour les bases d’articles scientifiques.
Définir un ensemble de protocoles techniques liés à l'interrogation des données et à leur description.
Oeuvrer pour que la constitution d'archives électroniques devienne un  processus établi dans la communication scientifique.

Première réunion: à Santa Fee Meeting le 21-22 Octobre 1999 (Nouveau Mexique), Convention de Santa Fee.
Première réunion européenne de l’OAI: 18-20 septembre 2000 au Portugal.
Coordinateurs: Carl Lagoze, Herbert Van de Sompel/ Cornell University-Computer Science
Financement: Digital Library Federator (DLF), the Coalition for Networked Information (CNI), National Science  Foundation(NSF).
La production du groupe: un ensemble de protocoles communs liés aux méta-données (avec le formalisme Dublin Core) et au processus de recherche d'information:
Protocol for Metadata Harvesting, version 2. du 14 Juin  2002, http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm
La première version, version 1.1, datait du 2 juillet 2001.
Le site Web maintient une liste de 45 archives ayant intégré les protocoles OAI; sont listés également un ensemble de services d'interrogation transversales des archives
Utilisation:
originellement les bases d'E-prints mais actuellement extension à d'autres types de contenus numérisés (thèses, catalogues, moteur Scirus d'Elsevier...)
 
Open Archives Forum (L'initiative OAI européenne)
http://www.oaforum.org

Objectif:  Fédérer les initiatives des pays européns pour le développement des archives ouvertes. Etablir un lieu d'expertise et d'échanges sur les développements en cours. Mener des études comparatives au niveau technique et organisationnel.

Partenaires responsables: University of Bath(UK), Istituto di Scienza e Tecnologie della Informazione-CNR(Italie), Computing Center of Humboldt University (Allemagne)
Financement: L'Europe, projet IST, 2001
La production du groupe: site web avec des informations suivies concernant le développement des archives ouvertes européennes. On trouve notamment sur le site une liste des archives, des projets en court, des logiciels disponibles.


Recensement, typologie des archives ouvertes

- Le nombre d'archives ouvertes n'est pas connu.
Les sites de l'OAI et de l'OAF recensent chacun une liste d'archives incomplète. Le principe  est majoritairement fondé sur  l'auto-déclaration des concepteurs...
Site OAI: 45 archives recensées, http://www.openarchives.org/Register/BrowseSites.pl

Site OAF: 12 archives recensées. http://www.oaforum.org/oaf_db/list_db/list_repositories.php
- Faire la différence entre les bases de contenu OAI compatible (le contenu peut être très hétérogène)
et les base e-prints (articles soumis par les auteurs pour un circulation de leurs articles)
- Noter la différence entre archives disciplinaires ( comme arXiv par exemple) et les archives institutionnelles en fort développement (voir par exemple les archives de l'Université de Californie). Les archives institutionnelles n'acceptent que les travaux produits dans leur institution, valorisation et renforcement du label de l'institution.
- Au niveau français, noter les archives hébergées par le CCSD: http://www.ccsd.cnrs.fr
(OAI)
par la cellule mathdoc: http://www-mathdoc.ujf-grenoble.fr/MPRESS (OAI)
et par certaines bibliothèques comme Lille 1: GriseMine, http://bibliotheques.univ-lille1.fr/default.asp?bustl/grisemine

Des exemples 

> ArXiv X/  P. GINSPARG:http://xxx.lanl.gov, http://fr.arXiv.org
Archive ouverte de pré-publications et de post-publications d'articles, créée en 1991 à l'initiative de Paul Ginsparg, physicien à Los Alamos.
En 2001, la base a migré avec son créateur à Cornell University/USA.
Environ 150 000 articles (?) dans la base, à l’origine le domaine est la  physique théorique puis extension à l’informatique, mathématiques, les autres spécialisations de la physique.
15 miroirs dans différents pays, en france celui de Jussieu et du Centre pour la Communication Scientifique Directe/IN2P3
Croissance:  30 000 articles par an.
Consultation: 160 000 accès  sur le seul site américain.
Financement: US National Science Foundation, US Department of Energy, pour le miroir français: Ministère de la recherche et de l'enseignement supérieur.
OAI compatible.
 

> Cogprints/E. HARNAD: http://cogprints.soton.ac.uk
Archive ouverte de pré-publications et de post-publications d'articles, créé en 1997 à l'initiative de Stevan Harnad, chercheur à Southampton University/UK.
Environ 1600  articles dans la base, dans les domaines suivants: Biologie (273), Informatique (489), Edition électronique(37), Linguistique(171), Neuroscience (425), Philosophie (506), Psychologie (886).
Financement: Joint Information Systems Committee (JISC) of the Higher Education Funding Councils/UK.
OAI compatible.
 

> ResearchIndex, http://citeseer.nj.nec.com
Archive ouverte de pré-publications et de post-publications d'articles, créée en 1997 à l'initiative de Steve Lawrence et C. Lee Giles de NEC Research Institute.
7 millions de "pages" dans la base, 5 millions de citations, en  "Computer Sciences". Outils développés pour analyser les citations "Autonomous Citation Indexing" 
629 254 auteurs référencés
Financement: NEC (société internationale d'informatique)
 

> WoPEc (Working papers in Economics)http://netec.mcc.ac.uk/WoPEc.html
Archive ouverte de "working papers" en économie, créée en 1996 avec des financements du programme Electronic Libraries( eLib) /UK.
Environ 80 000 documents (articles de revue + Working papers). Tous les articles sont télédéchargeables mais pas nécesssairement en libre accès. Wopec est maintenu aujourd'hui par  des bénévoles.
2 miroirs aux Etats-Unis et au Japon.
Financement: de 1996-1999, subvention du gouvernement britannique.
OAI compatible.
 

> Index national des prépublications et thèses en mathématiques en France/
The Mathematics Preprint Search System (MPRESS)
http://www-mathdoc.ujf-grenoble.fr/
http://www-mathdoc.ujf-grenoble.fr/MPRESS/
Archive ouverte distribuée (sur les web des laboratoires) coordonnée par la Cellule  MathDoc (Unité mixte de service du CNRS) de Grenoble.

10 archives sont reliées au niveau international par  MPRESS
5245 documents  dans la base française, 45000 documents dans MPRESS.
Financement: Ministère de la recherche pour la France
Méta-données communes: http://www-mathdoc.ujf-grenoble.fr/math-prepub/meta-proposition.html
 

> eScholarship Repository de l'Université de californie: archive institutionnelle
http://repositories.cdlib.org/escholarship/about.html
Base d'achives de working papers et de pré-publications des départements de recherche de l'université de Californie
1021 documents, ouverte en Avril 2002
Financement: l'université de Californie 


En France certains laboratoires ont mis en place des pages Web diffusant des working papers. Ces ressources ne sont toutefois pas organisées en bases de données et l'interopérabilité avec d'autres sources (protocoles OAI par exemple) est encore peu pris en considération pour le moment.
Exemple: Working papers de l'IMRI (Institut pour le Management de la Recherche et de l'Innovation):
http://www.dauphine.fr/imri

Quelle place des archives ouvertes dans le processus de la communication scientifique?

Des places très diversifiées selon les contextes:
- En amont de l'évaluation par les pairs: bases de "pré-publications" ou de working papers,
- En aval de l'évaluation:  base de "post-publications",
- En fait très souvent, les  bases sont des mélanges des deux types.
 

Les problèmes de droits liés à la propriété intellectuelle

Peu d'archives ont encore mis en place un accord officiel avec les auteurs pour gérer les divers droits liés à la propriété intellectuelle.
Certaines ont prévu un paragraphe pour avertir les auteurs de la nécessité de vérifier tous les droits attachés au document qui va être déposé.
Le projet ROMEO (Rights MEtadata for Open archiving)
en cours de développement vise à établir de "bonnes pratiques juridiques"  pour le dépôt de documents dans des archives ouvertes. Chaque pays reste toutefois avec ses spécificités nationales en terme de droits d'auteurs et ces recommandations devront être revues en fonction des contextes nationaux.
Projet ROMEO (Rights MEtadata for Open archiving) http://www.lboro.ac.uk/departments/ls/disresearch/romeo/
Exemple d'accord signé par l'auteur, valable pour tous les dépôts qu'il fera dans l'archive: http://repositories.cdlib.org/iber/econ/policies.html

Les compétences, les acteurs, les modes de financement
 

Les compténces pour le développement de ces archives:
- techniques (gestion de l'archive, des logiciels associés, des ordinateurs et connectivité internationale)
- organisation des documents de l'archive, définition des métadonnées
- évaluation scientifique  pour les classements des documents
- promotion de l'archive et suivi des usages, très importants.

Les acteurs aujourd'hui impliqués:
-des chercheurs pionniers (Ginsparg, Harnad...)
-des institutions de recherche ( CNRS-cellule Mathdoc, CNRS-CCSD, INRA, Institut Max Planck (DE), CERN, ...)
-des universités (Univ.d'Utrecht (NL), Univ. Lyon 2, Univ. Lille1, Univ. de Californie...).
-des sociétés proposant des services (Ingenta-eprints)

Financements:
-Financements intégrés au budget de la recherche (économie de la recherche et économie de l'édition sont alors liées), ex: Los alamos, CCSD
-Financements publics sur actions spécifiques, impulsion pour le développement de nouveaux projets: rôle de la National Science Fondation (OAI) et des programmes européens (OAF)
Ces subventions publiques  sont importantes  au départ, le risque est de voir leur retrait progressif dans un proche avenir sauf si des structures pérennes se mettent en place ou des structures existantes réorientées avec ces nouvelles missions.
 

Les services disponibles pour  développer des archives ouvertes
 

Logiciels en libre accès:
Logiciels eprints de l'université de Southampton: http://www.eprints.org
Dspace (HP laboratoire et Bibliothèques du MIT) ont annoncé la version 1.0 d'une plateforme logicielle: http://dspace.org
CDSware: plateforme logicielle du CERN, logiciel libre: http://cdsware.cern.ch

Liste de logiciels maintenue par l'OAF: http://www.oaforum.org/oaf_db/list_db/list_software.php

Centres de ressources:
Au sein des universités, naissent des services pour assister la création de bases d'archives, de revues électroniques, d'entrepôts de données, de livres électroniques.
En particulier:
- le service eScholarship Publishing/ Université de Californie-USA:  http://escholarship.cdlib.org/
- Figaro, centre de ressources pour la publication en ligne, Université d'Utrecht (NL), projet européen: http://www.figaro-europe.net 
- projet Euclid/USA, Cornell University Library et Duke University Press: http://projecteuclid.org
- le CCSD/France: http://ccsd.cnrs.fr (thèses et archives ouvertes)

Lecture complémentaire

-Actes des Workshops de l'Open Archives Forum: http://www.oaforum.org/workshops/lisb_invitation.php
-OAI forum CERN (2002):  http://documents.cern.ch/AGE/current/fullAgenda.php?ida=a02333
-La communication scientifique revue et corrigée par Internet

site animé par Hélène BOSC, INRA, en collaboration avec Simone Jérôme/Université de Liège, Jean-Philippe Schmitt/CERN http://www.tours.inra.fr/tours/doc/comsci.htm


Urfist de Paris -Ecole des chartes, Ghislaine Chartron : 21 janvier 2002-
http://urfist.enc.sorbonne.fr/archives-ouvertes.htm
Tous droits réservés pour l'exploitation de ce document, G. Chartron, 2003

Retour services électroniques  Urfist de Paris
.