Archiveren van Facebook @Liberas

Jeroen Buysse, Liberas

De meeste organisaties en sommige personen waarvan Liberas het archief verzamelt, beschikken over een website, maar nieuwsberichten, afbeeldingen en video’s worden de laatste jaren eerder via sociale media gedeeld dan op een website geplaatst. Dat is zeker het geval voor personen. Daarom archiveert Liberas sinds 2018 sociale media zoals Twitter, Facebook, YouTube, WhatsApp, …

Uit ervaring van de laatste jaren blijkt dat vooral Facebook wordt gebruikt door de personen en organisaties waarvan wij content willen binnenhalen.

Selectie

De eerste niet te onderschatten stap is de selectie die gemaakt moet worden van de binnen te halen pagina’s, groepen en profielen. Liberas heeft zich in eerste instantie gebaseerd op haar archiefvormers, maar heeft daarnaast ook actief gezocht naar facebookpagina’s van personen en organisaties de wel binnen ons werkterrein vallen, maar waarvan we nog geen archief bezitten.

Dit resulteerde in een lijst die nooit af is en constant bijgewerkt wordt. Zo hebben wij voor de archivering in het kader van de coronacrisis nog de facebookpagina’s van 38 overkoepelende beroepsverenigingen toegevoegd zoals bijv. Vlaamse Beroepsvereniging Zelfstandige Verpleegkundigen of Bakkers Vlaanderen.

Momenteel staan er 700 facebookpagina’s, -groepen en -profielen op onze lijst. De content die vanaf 1 maart 2020 op deze pagina’s, groepen en profielen geplaatst werd, werd gearchiveerd tussen 6 en 8 april.

Tool

De software die we gebruiken om websites te harvesten, bleek niet in staat om op een aanvaardbare manier ook Facebookpagina’s te downloaden. Facebook schermt zijn platform zoveel mogelijk af. Er is wel een functie in Facebook ingebouwd om de pagina te downloaden, maar die is enkel toegankelijk voor de eigenaar van de pagina.

Na analyse van verschillende software bleek het onmogelijk om een Facebookpagina zoals ze gepubliceerd is, te downloaden. Wat wel dichtbij een oplossing kwam, is zogenaamde scrape software. Deze software kan doorheen een Facebookpagina lopen en samen met de bijhorende metadata alle gepubliceerde content eraf “schrapen”.

Bino Posts Scraper and Publisher (http://postsscraper.com/) is zo een programma dat alle afbeeldingen en video’s van een Facebookpagina binnenhaalt. Daarnaast worden ook alle statusupdates, geposte links en de beschrijvingen van de afbeeldingen en video’s gestructureerd in een csv-formaat binnengetrokken. Enige beperking is dat comments op een post niet meegenomen worden, maar bijvoorbeeld wel het aantal likes.

Het resultaat is dat niet de echte look-and-feel van een Facebookpagina gedownload kan worden, maar dat we wel in staat zijn om alle gepubliceerde content met beschrijving binnen te halen.

Het programma laat bovendien ook toe om een periode af te bakenen waarbinnen content gedownload moet worden zodat we niet steeds opnieuw dezelfde data moeten binnenhalen

De resultaten

Over de periode 1 maart tot 8 april 2020 werd binnengehaald:

  • 1.431 statussen
  • 3.374 foto’s (601 MB)
  • 443 video’s (6,4 GB)

Wanneer we snel door de resultaten scrollen, hebben we onvermijdelijk te maken met hier en daar wat ruis van bijv. persoonlijke foto’s. Maar in het algemeen krijgen we toch een mooi (grafisch) beeld van hoe de coronacrisis online beleefd wordt. Heel veel oproepen om binnen te blijven, dankbetuigingen aan zorgverleners maar ook bijv. hoe personen en organisaties zich proberen aan te passen aan de steeds wijzigende situatie.

Bewaring en toegankelijkheid

De data worden voorlopig op een interne server bijgehouden. We onderzoeken nog hoe we de gegevens gestructureerd kunnen opladen in ons collectiebeheersysteem zodat we alles intern doorzoekbaar en raadpleegbaar kunnen maken. De mogelijkheden en voorwaarden voor het gebruik van deze data zijn nog niet helemaal duidelijk (auteursrechtelijke overwegingen). Experts gaan er van uit dat in de toekomst dit wel wordt uitgeklaard en dat het belangrijk is om nu reeds zo veel mogelijk publiek materiaal te verzamelen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *