Espace éditorial du programme STRABON
Accueil > Partages > Technologie > Un portail sur une architecture (...)

Un portail sur une architecture OAI-PMH

BOUTROS Nader
Le portail Strabon se base sur le principe de moissonnage de données décrit par le protocole OAI-PMH [Open Archives Initiative Protocol for Metadata Harvesting]. Les métadonnées moissonnées proviennent d’une multitude de sources : Les sites locaux STRABON, les sites dynamiques éditoriaux, les sites statiques.

OAI pourquoi, pour qui ?

Le mouvement "open access" est un courant idéologique prônant le libre accès à la littérature de recherche (articles, thèses, ...). Il génère des besoins technologiques pour faciliter cet accès via le réseau internet. Concrètement, une des stratégies consiste en la mise en place d’archives électroniques ouvertes respectant le protocole OAI-PMH - Open Archive Initiative Protocol for Metadata Harvesting : protocole pour le moissonnage des données. Ce protocole, basé sur les notions d’entrepôt et de moissonneur, permet d’harmoniser l’accès à des sources hétérogènes de données indépendamment des applications utilisées.

Au delà de la littérature de recherche, le protocole OAI permet l’accès à tout type de contenu éditorial ou base de données sur internet.

OAI comment l’utiliser ?

Basé sur des requêtes respectant le protocole http - HyperText Transfert Protocol d’échange (protocole pour les liens ou adresses internet) et transportant des contenus en XML - eXtensible Markup Language (format de données), il est assez simple d’apréhender ce protocole sans être un technicien chevronné.

Les requêtes http sont constituées par un vocabulaire restreint décrit dans la spécification OAI-PMH. Voici les 6 verbes de requête du protocole :

-  Sans rentrer dans le détail de la composition des requêtes voici quelques exemples qui montrent l’usage de quelques verbes :

Essayer l’ensemble de ces liens en regardant bien les paramètres d’URL et le resultat XML rendu.

Pour essayer d’autres entrepôts, voir :
-  Les fournisseurs de données enregistrés sur le site de OAI

OAI comment faire ?

Les requêtes et les réponses ressemblent à un dialogue entre l’homme qui pose une requête et une machine distante qui répond avec un contenu en XML.

-  Les fournisseurs de données : Entrepôts
La machine qui répond est en effet un logiciel qui traduit les données qu’il doit exposer en suivant la spécification du protocole OAI. Ce logiciel et les données qu’il expose, font les composants principaux d’un entrepôt (fournisseur de données) qui sait répondre à des requêtes bien spécifiques.

-  Les fournisseurs de services : Moissonneurs
Si nous remplaçons les requêtes manuelles par un robot (une autre machine) sous forme d’un logiciel :
-  il lancera ces requêtes de façon récursive, et après,
-  il archivera les données reçues en XML,
-  il transformera ces données en service accessible

nous aurons, ainsi, un moissonneur (fournisseur de services).
Chaque enregistrement, contient en général un moyen pour accéder à la resource originale : Un lien si elle est accessible sur internet, un numéro de téléphone ou une adresse peuvent suffir.

Fournisseurs de données : Entrepôts

-  oai_dc (obligatoire)
Le format DC issu du Dubin Core non qualifié, est le format des enregistrements OAI obligatoire dans chaque entrepôt.

champsDéfinition sommaire
dc:identifierIdentifiant
dc:titleTitre
dc:subjectSujet
dc:descriptionDescription du contenu
dc:dateUne date significative des metadonnées
dc:coverageCouverture spatiale ou temporelle
dc:creatorResponsable du contenu
dc:contributorResponsable secondaire du contenu
dc:publisherResponsable de la diffusion
dc:typeNature du contenu
dc:formatFormat du contenu
dc:languageLangue du contenu
dc:sourceIdentifiant d’une autre ressource dont est dérivée le contenu
dc:relationRéférence à un autre contenu
dc:rightscopyright

-  oai_[format-concerté] (optionnel) Chaque entrepôt peut, s’il le souhaite, supporter d’autres formats. Pour Strabon nous sommes partis de DCMI-TERMS : Légende : (R) Recommendé, (C) Conforme


- identifier (R) -> encodage (URI)
  identifier.bibliographicCitation (C)
- title (R)
  title.alternate (R)
- subject (R) -> encodage (OMT ou UNESCO) -> Liste fermée voir thésauri correspondants
- description (R)
  description.abstract (R)
  description.tableOfContents (R)
- date (R) -> encodage (Period ou W3CDTF)
  date.valid (R)
  date.modified (R)
  date.issued (R)
  date.available (R)
  date.created (R)
  date.dateAccepted (C)
  date.dateCopyrighted (C)
  date.dateSubmitted (C)
- coverage (R)
  coverage.spacial -> encodage (Box, Point, ISO3166, TGN, UFI)
  coverage.temporal -> encodage (Period, W3CDTF)
- creator (R)
- contributor (R)
- publisher (R)
- type (R) -> encodage(DCMIType) -> Liste fermée :
           - Collection
           - Dataset
           - Event
           - Image
           -- StillImage
           -- MovingImage
           - InteractiveResource
           - PhysicalObject
           - Service
           - Software
           - Sound
           - Text
- format (R) -> encodage (IMT)
  format.extent (R)
  format.medium (R)
- language (R) -> encodage (ISO639-2, RFC1766 ou RFC3066)
- source (R) -> encodage (URI)
- relation (R) -> encodage (URI)
  relation.conformsTo (R)
  relation.hasFormat (R)
  relation.hasPart (R)
  relation.hasVersion (R)
  relation.isFormatOf (R)
  relation.isPartOf (R)
  relation.isReferencedBy (R)
  relation.isReplacedBy (R)
  relation.isRequiredBy (R)
  relation.isVersionOf (R)
  relation.references (R)
  relation.replaces (R)
  relation.requires (R)
- rights (R)
  rights.accessRights (C)
  rights.licence (C)
- provenance (C)
- rightsHolder (C)
- audience (R)
  audience.educationLevel (C)
  audience.mediator (R)
- accrualMethod (C)
- accrualPeriodicity (C)
- accrualPolicy (C)

Le format définitif adopté pour Strabon est une extension du DublinCore qualifié. Les schémas de ce format se trouvent à l’adresse suivante : http://strabon.org/ns/1.0

Exemple d’usage :


<dcterms:spatial xsi:type="strabon:Point" strabon:ufi="-2542601"/>

Ce champs décrit une couverture spatiale, identifiée par un type spécifique au projet STRABON "strabon :Point" qui est définit par un code d’un toponyme : UFI (Unique Feature Identifier) issu d’une base internationale de toponymes. Cet UFI est analysé vis à vis d’une base de toponyme afin d’extraire des informations sémantiques sur le lieu ainsi que les coordonnées géographiques.

Fournisseurs de services : Moissonneurs

-  Rôle, intérêt, avenir

Un peu de technique

-  Entrepôts OAI dynamiques
-  Entrepôts OAI statiques

STRABON : volonté d’un portail OAI

-  serveurs réparties

PDF - 1.6 Mo
Architecture des serveurs

-  contenus multimédia variés

-  outils de présentation variés

-  strabon format concerté

Implémentation technique

PDF - 140.6 ko
Schéma de l’architecture OAI

-  Entrepôts OAI (format strabon) des sites locaux basés sur chaine de production - diffusion OOo -> Transfolio -> dossiers soumis au site web local)

-  Entrepôt OAI (oai_dc + strabon) de phpoai2 pour SPIP, MAMBO, PHPWebGallery

-  Entrepôt OAI (strabon) servis par srepod pour les sites statiques

Présentation de l’architecture technique

-  Présentation de l’architecture technique et de l’organisation des serveurs STRABON autour de la méditerrannée.

-  Présentation des principaux composants logiciels libres
— Transfolio
— Geoloc (GNS ou points WGS84)
— OSRToolkit
— Thesaurus

-  Présentation de la réutilisation des travaux issus de programmes européens IST : ITM et Hi-Touch

-  Système d’exploitation Debian Linux et une multitude de composants libres comme : SPIP, MAMBO, SYMPA, PHPWEBGALLERY, SREPOD, PHPOAI2, MOINMOIN, MRTG, AWSTATS, PHP, PYTHON, PERL, APACHE, TOMCAT, JAVA, ...

Webographie

-  Dossier sur l’"open-access" du service documentaire de l’école nationale des Ponts et Chaussées
-  INIST
-  Direction du Livre du Ministère de la Culture et de la Communication français
-  Hélène Bosc, bibliothécaire
-  Using the OAI-PMH ... Differently

-  Resource Harvesting within the OAI-PMH Framework

-  Open Archives Initiative (OAI)

-  Dublin Core Metadata Initiative (DCMI) - DCMI Metadata Terms

-  ADNX : Atelier OAI - PDF
-  Quelques plateformes supportant l’OAI : EPrints - DSpace - SDX
-  Liste des outils enregistrés sur le site de l’OAI

-  Exemples de portail OAI :

-  Exemples d’entrepôts OAI :

-  Présentation "moissonnage des données", Carrefour des acteurs de l’édition en archéologie, CEPAM, Sophia Antipolis, 1er décembre 2005 : http://tech.fr/oai/harvesting.pdf

Forum
Poster un message


Mots-clés

Dans la même rubrique

Programme STRABON — http://www.strabon.org/