Jeroen Buysse, Liberas
La plupart des organisations et quelques personnes, pour lesquels Liberas regroupe les archives, disposent d’un site internet mais les newsletters, les photographies et les vidéos sont de plus en plus souvent publiés sur les réseaux sociaux, plutôt que sur les sites internet. C’est certainement le cas des personnes. C’est pourquoi, Liberas archive, depuis 2018, les réseaux sociaux comme Twitter, Facebook, WhatsApp, etc.
Sur base de l’expérience des dernières années, on remarque que c’est surtout facebook qui est utilisé par les personnes et les organisations pour la diffusion des messages.
Sélection
La première étape, à ne pas sous-estimer, est la sélection que l’on doit faire parmi les nombreux pages, groupes et profils. Liberas s’est basé sur ses producteurs d’archives, mais a également recherché activement les pages facebooks actives des personnes et organisations qui relèvent de son secteur d’activité mais pour lesquels le centre d’archives n’avait pas encore d’archives.
Le résultat ? Une liste qui n’est jamais complètement terminé et qui est retravailler constamment. Dans le cadre de l’archivage des données en lien avec le coronavirus, nous avons ajouté 38 pages facebook d’associations professionnelles, comme l’Association professionnelle des infirmières indépendantes (Vlaamse Beroepsvereniging Zelfstandige Verpleegkundigen) ou Boulanger de Flandre (Bakers Flanders).
Actuellement, 700 pages facebook, groupes et profils sont listés. Le contenu publié depuis le 1er mars a été archivé entre le 6 et le 8 avril.
Outil
Le logiciel que l’on utilise pour la récolte de site web ne parait pas utilisable pour le téléchargement de page facebook de façon relativement complète. Facebook protège fortement sa plateforme. Il y a bien une fonction sur facebook pour télécharger une page, mais ce n’est accessible que par la personne qui possède la page.
Après analyse des différents logiciels, il semblait impossible de télécharger une page facebook telle qu’elle est publiée. Une solution cependant : les logiciels de scraping. Ce type de logiciel permet de parcours les pages facebook et d’enregistrer le contenus et ses métadonnées.
Bino Posts Scraper and Publisher (http://postsscraper.com/) est un de ces logiciels qui récolte également les photographies et les vidéos des pages. Ce scraper prend également en compte tous les statuts, les liens postés et les descriptions des images et des vidéos d’une façon structurée dans un fichier au format CSV. La limite se situe aux niveaux des commentaires que le logiciel n’enregistre pas. Pour autant, il enregistre le nombre de « likes ».
Le but de tels enregistrements n’est pas de reprendre le look et l’ergonomie d’une page facebook telle qu’on la consulte mais permet cependant d’enregistrer tous les contenus publiées avec leur métadonnée.
Le programme permet également de définir une période pendant laquelle le contenu doit être enregistré afin de ne pas enregistrer les données précédemment récoltées.
Les résultats
Pour la période allant du 1er mars au 8 avril 2020, nous avons récolté :
- 1.431 statuts
- 3.374 photos (601 MB)
- 443 vidéos (6,4 GB)
Quand on observe rapidement les résultats, nous avons bien à faire ici et là à du bruit comme, par exemple, des photos personnelles. Mais, globalement, nous pouvons une belle image (graphique) de comment la crise du coronavirus est représentée en ligne. Beaucoup d’appels à rester à l’intérieur et de remerciement aux travailleurs des soins de santé mais également, par exemple, des informations sur comment les personnes et les organisations s’adaptent aux circonstances.
Conservation et accessibilité
Les données sont pour l’instant conservées sur un serveur interne. Nous réfléchissons encore à comment nous pourrions fournir ces données de façon structurées dans notre gestionnaire des collections pour rendre ces données accessibles et consultables en interne. Les possibilités et conditions pour l’utilisation de ces données n’est pas encore tout à fait claire (en terme de droit d’auteur). Les experts supposent que ces éléments seront clarifiés à l’avenir et qu’il est important de récolter autant de données publiques que possible.