Présentation

Les Ouvriers des deux mondes est une collection de monographies publiée sous l'égide de Frédéric Le Play (†1882) et de la Société internationale des études pratiques d'économie sociale, avec pour sous-titre études sur les travaux, la vie domestique et la condition morale des populations ouvrières des diverses contrées et sur les rapports qui les unissent aux autres classes.

Les monographies ont été rassemblées en trois séries de treize volumes de 1857 à 1913, deux fascicules supplémentaires paraissant en 1930.


Le projet numérique

Le programme de recherche Time us, financé par l'Agence nationale de la recherche de 2016 à 2021, s'est donné pour objectif de « reconstituer les rémunérations et les budgets temps des femmes et des hommes travaillant dans le textile pour quatre régions industrielles françaises (Lille, Paris, Lyon, Marseille) dans une perspective européenne et de longue durée, en réunissant en une seule équipe pluridisciplinaire des historiens des techniques, de l’économie et du travail, des spécialistes dans le traitement automatique des langues (TAL) et des sociologues spécialistes des monographies de famille ». Son équipe est composée de chercheur-euse-s et d'ingénieur-e-s issu-e-s de sept laboratoires : le Laboratoire de recherches historiques Rhöne-Alpes (LARHRA-UMR 5190), Temps, Espaces, Langages, Europe méridionale-Méditerranée (TELEMME-UMR 7303), l'Institut de Recherches Historiques du Septentrion (IRHIS-UMR 8259), le Centre Maurice Halbwachs (CMH-UMR 8097), le Centre de recherches historiques (CRH-UMR 8558), l'équipe-projet Automatic Language Modelling and Analysis & Computational Humanities (ALMAnaCH-Inria) et le Laboratoire Identités, Cultures, Territoires (LICT).

Parmi ses nombreux corpus d'étude se trouve Les ouvriers des deux mondes. Au commencement du projet, les monographies étaient déjà disponibles sous forme numériques sur Gallica et Internet Archives. Ces numérisations ont constitué le point de départ de trois réalisations scientifiques : l'acquisition (OCR) et la structuration automatisées des textes au format XML et au standard TEI, le traitement automatique des langues (TAL/NLP) et l'édition électronique des textes.

La phase d'OCR et de structuration automatique a été réalisée en 2019 par l'application LSE-OD2M, développée par Alix Chagué, ingénieure de recherche et de développement de l'équipe-projet ALMAnaCH d'Inria. L'application prenait comme données d'entrées les images d'Internet Archives, réalisait l'OCR grâce au système Kraken de Benjamin Kiessling (Université PSL/EPHE), puis détectait les monographies et leurs structures logiques afin de produire des documents XML structurés autour de ces grandes divisions. Les treize fichiers XML ainsi obtenus, correspondant aux treize volumes numérisés sur Internet Archives, ont ensuite été scindés en autant de fichiers qu'il y avait de monographie. Cette chaîne de traitement a ensuite été réutilisée par Jean-Damien Généro pour l'acquisition des monographies n°109 à 112 et n°109bis et 111bis, qui étaient en ligne uniquement sur Gallica.

La phase de traitement automatique du langage a été réalisée par Éric Villemonte de la Clergerie, chargé de recherche d'Inria (ALMAnaCH), avec les textes des Ouvriers des deux mondes mélangés à ceux d'autres corpus du programme Time Us.

L'édition électronique a nécessité d'enrichir l'encodage minimal des fichiers XML et de les doter d'un véritable encodage scientifique de 2020 à 2021. Plusieurs points ont retenu l'attention de l'équipe : une signalisation optimale de la structure logique des monographies, des notes de bas de page et des figures (tableaux, cartes, photographies), le repérage des enquêteurs (les monographes) et des enquêtés (les ouvriers et leurs familles), la conservation du lien entre les images originelles et les textes. Réalisé par Jean-Damien Généro (École nationales des chartes, puis Centre Maurice Halbwachs, puis Centre de recherches historiques), cet encodage a été matérialisé à partir de janvier 2021 par un prototype de plateforme de publication numérique sous la forme d'une application Python/Flask, qui permettait d'afficher les textes grâce à une feuille de transformation XSL dynamique. Une nouvelle phase d'encodage a permis l'ajout d'une fonctionnalité de recherche au sein de trois paragraphes de la structure logique (Propriétés de l'ouvrier, Travaux et industries, Habitation, mobilier et vêtements).

Le site ouvriersdeuxmondes.huma-num.fr a été développé par la société Oslandia à partir du prototype de Jean-Damien Généro. Il présente les textes résultant de l'OCR et de l'encodage scientifique, avec une carte, des index et des fonctionnalités de recherche.


Crédits

  • Direction du projet : Centre de recherches historiques (UMR 8558).
  • Direction scientifique : Anne Lhuissier, directrice de recherche à l'INRAE, et Stéphane Baciocchi, ingénieur de recherche à l'EHESS.
  • Direction technique : Jean-Damien Généro, ingénieur d'études au CNRS.
  • Acquisition des textes (OCR) et encodage intial des fichiers XML : Alix Chagué (Inria).
  • Encodage scientifique des fichiers XML : Jean-Damien Généro (CNRS).
  • Conception et développement du site internet : Jean-Damien Généro (CNRS) et Thomas Muguet (Oslandia).
  • Maquette graphique du site internet : Hugo Chièze (EHESS)
  • Financement : programme ANR Time Us (ANR-16-CE26-0018).
  • Partenaires : Centre Maurice Halbwachs (UMR 8097) et ALMAnaCH (Inria).
  • Hébergement : IR* Huma-Num.
  • Instances Git : GitLab Inria (non-maintenue depuis septembre 2021), GitHub (non-maintenue depuis octobre 2021), GitLab CNRS (Huma-Num) (current).
  • Dépôt des données: 10.34847/nkl.d3b3een3

L'utilisation, le partage et l’adaptation du contenu sont autorisés selon les termes de la Licence Ouverte V 2.0 (équivalente à une licence CC-BY 4.0).