Un portail sur une architecture OAI-PMH
OAI pourquoi, pour qui ?
Le mouvement "open access" est un courant idéologique prônant le libre accès à la littérature de recherche (articles, thèses, ...). Il génère des besoins technologiques pour faciliter cet accès via le réseau internet. Concrètement, une des stratégies consiste en la mise en place d’archives électroniques ouvertes respectant le protocole OAI-PMH - Open Archive Initiative Protocol for Metadata Harvesting : protocole pour le moissonnage des données. Ce protocole, basé sur les notions d’entrepôt et de moissonneur, permet d’harmoniser l’accès à des sources hétérogènes de données indépendamment des applications utilisées.
Au delà de la littérature de recherche, le protocole OAI permet l’accès à tout type de contenu éditorial ou base de données sur internet.
OAI comment l’utiliser ?
Basé sur des requêtes respectant le protocole http - HyperText Transfert Protocol d’échange (protocole pour les liens ou adresses internet) et transportant des contenus en XML - eXtensible Markup Language (format de données), il est assez simple d’apréhender ce protocole sans être un technicien chevronné.
Les requêtes http sont constituées par un vocabulaire restreint décrit dans la spécification OAI-PMH. Voici les 6 verbes de requête du protocole :
- Identify, (l’identité de l’entrepôt OAI) ;
- ListMetadataFormats, (la liste des métadonnées supportées) ;
- ListSets, (la liste des collections) ;
- ListIdentifiers, (la liste des identifiants) ;
- GetRecord, (un enregistrement) ;
- ListRecords, (les enregistrements).
Sans rentrer dans le détail de la composition des requêtes voici quelques exemples qui montrent l’usage de quelques verbes :
- Entrepôt OAI de l’Ecole nationale des chartes
- Entrepôt OAI du site local STRABON Syrie
Essayer l’ensemble de ces liens en regardant bien les paramètres d’URL et le resultat XML rendu.
Pour essayer d’autres entrepôts, voir :
Les fournisseurs de données enregistrés sur le site de OAI
OAI comment faire ?
Les requêtes et les réponses ressemblent à un dialogue entre l’homme qui pose une requête et une machine distante qui répond avec un contenu en XML.
Les fournisseurs de données : Entrepôts
La machine qui répond est en effet un logiciel qui traduit les données qu’il doit exposer en suivant la spécification du protocole OAI. Ce logiciel et les données qu’il expose, font les composants principaux d’un entrepôt (fournisseur de données) qui sait répondre à des requêtes bien spécifiques.
Les fournisseurs de services : Moissonneurs
Si nous remplaçons les requêtes manuelles par un robot (une autre machine) sous forme d’un logiciel :
il lancera ces requêtes de façon récursive, et après,
il archivera les données reçues en XML,
il transformera ces données en service accessible
- sous forme de pages web ou document PDF ou autre forme ;
nous aurons, ainsi, un moissonneur (fournisseur de services).
Chaque enregistrement, contient en général un moyen pour accéder à la resource originale : Un lien si elle est accessible sur internet, un numéro de téléphone ou une adresse peuvent suffir.
Fournisseurs de données : Entrepôts
oai_dc (obligatoire)
Le format DC issu du Dubin Core non qualifié, est le format des enregistrements OAI obligatoire dans chaque entrepôt.
| champs | Définition sommaire |
|---|---|
| dc:identifier | Identifiant |
| dc:title | Titre |
| dc:subject | Sujet |
| dc:description | Description du contenu |
| dc:date | Une date significative des metadonnées |
| dc:coverage | Couverture spatiale ou temporelle |
| dc:creator | Responsable du contenu |
| dc:contributor | Responsable secondaire du contenu |
| dc:publisher | Responsable de la diffusion |
| dc:type | Nature du contenu |
| dc:format | Format du contenu |
| dc:language | Langue du contenu |
| dc:source | Identifiant d’une autre ressource dont est dérivée le contenu |
| dc:relation | Référence à un autre contenu |
| dc:rights | copyright |
oai_[format-concerté] (optionnel)
Chaque entrepôt peut, s’il le souhaite, supporter d’autres formats. Pour Strabon nous sommes partis de DCMI-TERMS :
Légende : (R) Recommendé, (C) Conforme
- identifier (R) -> encodage (URI)
identifier.bibliographicCitation (C)
- title (R)
title.alternate (R)
- subject (R) -> encodage (OMT ou UNESCO) -> Liste fermée voir thésauri correspondants
- description (R)
description.abstract (R)
description.tableOfContents (R)
- date (R) -> encodage (Period ou W3CDTF)
date.valid (R)
date.modified (R)
date.issued (R)
date.available (R)
date.created (R)
date.dateAccepted (C)
date.dateCopyrighted (C)
date.dateSubmitted (C)
- coverage (R)
coverage.spacial -> encodage (Box, Point, ISO3166, TGN, UFI)
coverage.temporal -> encodage (Period, W3CDTF)
- creator (R)
- contributor (R)
- publisher (R)
- type (R) -> encodage(DCMIType) -> Liste fermée :
- Collection
- Dataset
- Event
- Image
-- StillImage
-- MovingImage
- InteractiveResource
- PhysicalObject
- Service
- Software
- Sound
- Text
- format (R) -> encodage (IMT)
format.extent (R)
format.medium (R)
- language (R) -> encodage (ISO639-2, RFC1766 ou RFC3066)
- source (R) -> encodage (URI)
- relation (R) -> encodage (URI)
relation.conformsTo (R)
relation.hasFormat (R)
relation.hasPart (R)
relation.hasVersion (R)
relation.isFormatOf (R)
relation.isPartOf (R)
relation.isReferencedBy (R)
relation.isReplacedBy (R)
relation.isRequiredBy (R)
relation.isVersionOf (R)
relation.references (R)
relation.replaces (R)
relation.requires (R)
- rights (R)
rights.accessRights (C)
rights.licence (C)
- provenance (C)
- rightsHolder (C)
- audience (R)
audience.educationLevel (C)
audience.mediator (R)
- accrualMethod (C)
- accrualPeriodicity (C)
- accrualPolicy (C)
Le format définitif adopté pour Strabon est une extension du DublinCore qualifié. Les schémas de ce format se trouvent à l’adresse suivante : http://strabon.org/ns/1.0
Exemple d’usage :
<dcterms:spatial xsi:type="strabon:Point" strabon:ufi="-2542601"/>
Ce champs décrit une couverture spatiale, identifiée par un type spécifique au projet STRABON "strabon :Point" qui est définit par un code d’un toponyme : UFI (Unique Feature Identifier) issu d’une base internationale de toponymes. Cet UFI est analysé vis à vis d’une base de toponyme afin d’extraire des informations sémantiques sur le lieu ainsi que les coordonnées géographiques.
Fournisseurs de services : Moissonneurs
Rôle, intérêt, avenir
Un peu de technique
Entrepôts OAI dynamiques
Entrepôts OAI statiques
STRABON : volonté d’un portail OAI
serveurs réparties
contenus multimédia variés
- textes riches, illustrations, photos, ...
outils de présentation variés
- Sites dynamiques en SDX, SPIP, MAMBO, galeries photos, sites en Flash
strabon format concerté
Implémentation technique
Entrepôts OAI (format strabon) des sites locaux basés sur chaine de production - diffusion OOo -> Transfolio -> dossiers soumis au site web local)
- Exemple du site local www.syria.strabon.org : ListRecords (strabon)
Entrepôt OAI (oai_dc + strabon) de phpoai2 pour SPIP, MAMBO, PHPWebGallery
- Exemple des articles de ce site SPIP :
ListMetadataFormats
ListRecords (oai_dc)
Entrepôt OAI (strabon) servis par srepod pour les sites statiques
- Exemple oai_dc du site www.france.strabon.org/louvre : ListRecords
Présentation de l’architecture technique
Présentation de l’architecture technique et de l’organisation des serveurs STRABON autour de la méditerrannée.
Présentation des principaux composants logiciels libres
— Transfolio
— Geoloc (GNS ou points WGS84)
— OSRToolkit
— Thesaurus
Présentation de la réutilisation des travaux issus de programmes européens IST : ITM et Hi-Touch
Système d’exploitation Debian Linux et une multitude de composants libres comme : SPIP, MAMBO, SYMPA, PHPWEBGALLERY, SREPOD, PHPOAI2, MOINMOIN, MRTG, AWSTATS, PHP, PYTHON, PERL, APACHE, TOMCAT, JAVA, ...
Webographie
Dossier sur l’"open-access" du service documentaire de l’école nationale des Ponts et Chaussées
INIST
Direction du Livre du Ministère de la Culture et de la Communication français
Hélène Bosc, bibliothécaire
Using the OAI-PMH ... Differently
Resource Harvesting within the OAI-PMH Framework
Open Archives Initiative (OAI)
- The Open Archives Initiative Protocol for Metadata Harvesting
- Specification for an OAI Static Repository and an OAI Static Repository Gateway
Dublin Core Metadata Initiative (DCMI) - DCMI Metadata Terms
- Dublin Core Element Set - Traduction en français par Anne-Marie Vercoustre, Inria
- qualifiers (ancien) - terms (nouveau)
- Coverage : spatial : DCMI Point
- Coverage : temporal : DCMI Period
ADNX : Atelier OAI - PDF
Quelques plateformes supportant l’OAI : EPrints - DSpace - SDX
Liste des outils enregistrés sur le site de l’OAI
Exemples de portail OAI :
- arXiv - Portail et entrepôt : http://arxiv.org - OAI
- OAIster - Portail : http://oaister.umdl.umich.edu/o/oaister/
- Gateway to Cultural Heritage Materials : http://oai.grainger.uiuc.edu/
- Google moissonne des entrepôts OAI avec conditions : http://www.google.com/webmasters/si...
Exemples d’entrepôts OAI :
- Bibliothèque du congrès Américain : Identify - ListMetadataFormats
Présentation "moissonnage des données", Carrefour des acteurs de l’édition en archéologie, CEPAM, Sophia Antipolis, 1er décembre 2005 : http://tech.fr/oai/harvesting.pdf





