2 mai-1 juil. 2023 Paris (France)

Axe 1. Sujets proposés par la BnF > Humanités numériques et Intelligence artificielle

Les collections numériques conservées par la BnF (plus de 8 millions de documents dans Gallica, plus d'1 pétaoctet de données dans les archives du web, 2,4 millions d'auteurs dans Data.bnf.fr, etc.) sont susceptibles de faire l’objet d’analyses innovantes par les outils et les méthodes mobilisés dans le champ communément appelé des « humanités numériques » : traitements statistiques, mise en réseau de documents, analyses de type « fouille d’images » et « fouille de textes et de données », etc., en lien avec le nouvel espace dédié du BnF DataLab. Ces méthodes n’excluent pas les approches traditionnelles ou qualitatives de ces documents, qui se révèlent bien souvent complémentaires.

 

20 ans d’archives du web électoral (2002-2022)

Les collectes du web électoral constituent les archives uniques de la vie politique française de ces vingt dernières années. Les collectes ciblées réalisées à l’occasion de chaque échéance électorale ont pour objectif de capturer la vie politique sur le web à travers l’archivage de sites des formations politiques, des candidats, d’organisations de soutien, d’associations, de pages web de médias ou encore de blogs individuels. Des élections municipales aux élections présidentielles en passant par les élections départementales, régionales et européennes, la diversité des débats et les grandes tendances se manifestant sur le web sont couvertes afin de respecter la représentativité et le pluralisme politique et idéologique. Les niveaux « national » et « régional » sont également pris en compte. Les contenus sélectionnés sont étiquetés avec des catégories qui reprennent celles utilisées par les préfectures. Avec l’évolution des modes de communication en ligne et les outils pour les collecter, l’archivage s’est élargi à d’autres formes de médias numériques, notamment les réseaux sociaux et les chaines vidéo. Pour en savoir plus : https://webcorpora.hypotheses.org/896

Volumétrie : la volumétrie des archives varie à chaque élection. À titre d’exemple, pour les archives concernant les élections présidentielles et législatives de 2002 : 1.906 sites ont été ciblés et 6.278 captures effectuées (soit 93,3% de l’objectif) ; 11.915.687 fichiers ont été produits pour un poids total équivalent à 534 Go, soit un poids moyen de 85 Mo par site.

Pistes de recherche : de par sa cohérence et sa profondeur historique, les archives du web électoral permettent d’étudier l’évolution de la communication des différentes tendances politiques, d’analyser la récurrence ou la réactivation de thématiques dans le temps (le pouvoir d’achat, l’Europe, la sécurité, etc.). Une approche régionale ou locale de la collection peut trouver des compléments dans d’autres archives web de la BnF, notamment la collecte de l’actualité (presse) et les collectes régionales existantes.

Contacts :

Vladimir Tybin, chef de service du dépôt légal numérique

01 53 79 46 93, vladimir.tybin@bnf.fr

Référent scientifique : Alexandre Faye, chargé de collections numériques et responsable des projets de recherche

01 53 79 59 24, alexandre.faye@bnf.fr

 

Les données de la conservation : une richesse d’informations à explorer

Les activités de conservation effectuées sur les collections de la BnF créent un ensemble de données, réparties entre les différents producteurs (ateliers internes, laboratoire, prestataires externes, chargés de conservation, etc.), qui permettent de renseigner l'histoire de chacun des 40 millions de documents conservés par l'établissement. Ces données existent sous plusieurs formes : bases de données, fichiers bureautiques de différents formats (Excel, Word, etc.), photographies, documents papiers, etc. Cette masse d'informations est suffisamment volumineuse pour pouvoir entraîner des modèles et expérimenter des méthodes de fouille de données.

A titre d'exemples, la fouille pourrait porter sur les dossiers de restauration dont le contenu n’est pas connu ou indexé (text mining), ou sur les photographies de documents conservés : pour catégoriser des contenus, ajouter des métadonnées, etc.

La BnF mène également plusieurs expérimentations afin de prédire l'état des collections à partir des données. D'autres expérimentations pourraient continuer en ce sens, mais aussi porter sur une évaluation des conditions de conservation et de magasinage dans les magasins. Par exemple :

  • reconnaissance de dégradations sur des photographies de documents ;
  • prédiction et surveillance de l'atmosphère dans les magasins vis-à-vis des prévisions météo ;
  • aide à l'implantation des collections déplacées en lots par prédiction de la place occupée.

Contact :

Célia Cabane, cheffe de projet Gestion des données utiles à la conservation, département de la Conservation

celia.cabane@bnf.fr

Personnes connectées : 2