{"id":1258,"date":"2020-04-13T18:52:00","date_gmt":"2020-04-13T16:52:00","guid":{"rendered":"https:\/\/archivesquarantainearchief.be\/?p=1258"},"modified":"2020-04-21T20:44:16","modified_gmt":"2020-04-21T18:44:16","slug":"sites-web-blog-et-reseaux-sociaux-quelques-solutions-pour-archiver-le-web","status":"publish","type":"post","link":"https:\/\/archivesquarantainearchief.be\/fr\/2020\/04\/13\/sites-web-blog-et-reseaux-sociaux-quelques-solutions-pour-archiver-le-web\/","title":{"rendered":"Sites, blog et r\u00e9seaux sociaux : quelques solutions pour archiver le web"},"content":{"rendered":"\n<p>On ne le dira jamais assez : internet est aujourd\u2019hui une mine d\u2019informations et de t\u00e9moignages. La crise actuelle ne fait pas exception. Mais, d\u00e8s lors, comment conserver ces t\u00e9moignages ? Quels outils pour la lecture et la conservation hors ligne ? <\/p>\n\n\n\n<p>Dans un premier article (<a rel=\"noreferrer noopener\" aria-label=\"ici (opens in a new tab)\" href=\"http:\/\/archivesquarantainearchief.be\/fr\/2020\/04\/10\/hoe-pak-je-het-archiveren-van-de-coronacrisis-aan\/\" target=\"_blank\"><strong>ici<\/strong><\/a>), notre coll\u00e8gue Willem Vanneste de l&#8217;Universit\u00e9 d&#8217;Anvers vous donnait une s\u00e9rie de premiers conseils et de pistes de r\u00e9flexions pour lancer votre projet d\u2019archivage du web. <\/p>\n\n\n\n<p>Nous proposons ici d\u2019explorer quelques unes des solutions d\u2019archivage du web mentionn\u00e9es dans <a href=\"https:\/\/assets.amsterdam.nl\/publish\/pages\/803681\/hl_digitaalarchiverenparticulieren_stadsarchiefamsterdam_30_2018.pdf\">le manuel pour l&#8217;archivage digial \u00e0 l&#8217;usage des particuliers<\/a> (en n\u00e9erlandais) et des outils et logiciels propos\u00e9s par l\u2019<a href=\"http:\/\/netpreserve.org\/web-archiving\/tools-and-software\/\">International Internet Preservation Consortium<\/a> (en anglais). <\/p>\n\n\n\n<p>Notre pr\u00e9sentation reste succincte : n\u2019h\u00e9sitez pas \u00e0 tester vous m\u00eame ces applications !<\/p>\n\n\n\n<div class=\"wp-block-file\"><a href=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/20200414_OUTILS_web_VH1.pdf\"> Vous voulez r\u00e9utiliser ou partager cet outil ? T\u00e9l\u00e9chargez-le ici au format PDF<\/a><a href=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/20200414_OUTILS_web_VH1.pdf\" class=\"wp-block-file__button\" download>Download<\/a><\/div>\n\n\n\n<h3>Pr\u00e9cisions importantes<\/h3>\n\n\n\n<p>Nous sommes loin d\u2019\u00eatre des informaticiens chevronn\u00e9s et nous sommes incapables de rentrer dans les d\u00e9tails \u00e0 ce niveau\u2026<br> Cependant, un \u00e9l\u00e9ment est \u00e0 prendre en compte lorsque l\u2019on d\u00e9cide de t\u00e9l\u00e9charger des images, vid\u00e9os et textes d\u2019un site web : le droit d\u2019auteur. En effet, librement accessible ne signifie pas libre de droit. Pour une conservation historique et archivistique, l\u2019extraction d\u2019un site internet public n\u2019est pas un probl\u00e8me mais sa r\u00e9utilisation, par la suite, peut parfois \u00eatre sujette \u00e0 discussion. Le mieux est de demander \u00e0 l\u2019administrateur d\u2019un site internet, d\u2019un blog ou d\u2019une page d\u2019un r\u00e9seau social s\u2019il peut vous autoriser explicitement \u00e0 reprendre partiellement son site web pour une conservation \u00e0 long terme.<br> Il est important de bien pr\u00e9ciser aupr\u00e8s de l\u2019interlocuteur le but de votre d\u00e9marche : il s\u2019agit de garder son t\u00e9moignage pour les g\u00e9n\u00e9rations futures mais pas de r\u00e9utiliser sans vergogne son travail de photographe, par exemple.<br>Par ailleurs, il est n\u00e9cessaire de prendre en compte les aspects de vie priv\u00e9e : la pr\u00e9sence de commentaire vous emp\u00eachera de rediffuser librement de tels enregistrements qui seront cependant utilisables dans le cadre d\u2019une d\u00e9marche archivistique, historique et scientifique.<\/p>\n\n\n\n<h3>Pr\u00e9sentation des outils <\/h3>\n\n\n\n<ol><li><em><strong>Enregistrement par un tiers<\/strong><\/em><br>Avant tout, la question est de savoir si vous avez les moyens techniques (serveurs, infrastructures, etc.) pour sauvegarder un site web\u2026 Ou si vous avez le courage de lancer un tel projet.<br><img loading=\"lazy\" width=\"372\" height=\"149\" class=\"wp-image-1261\" style=\"width: 350px;\" src=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/182680-1.png\" alt=\"\" srcset=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/182680-1.png 372w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/182680-1-300x120.png 300w\" sizes=\"(max-width: 372px) 100vw, 372px\" \/><br>N\u2019h\u00e9sitez donc pas \u00e0 utiliser le <a rel=\"noreferrer noopener\" aria-label=\"Wayback Machine (opens in a new tab)\" href=\"https:\/\/archive.org\/web\/\" target=\"_blank\">Wayback Machine<\/a> d\u2019Internet Archives : dans \u201cSave Page Now\u201d, vous pouvez sugg\u00e9rer des pages web \u00e0 enregistrer. Ce site, le plus connu et le plus ancien en termes d\u2019archivage du web, fournit des clich\u00e9s de pages web, sur plusieurs ann\u00e9es, et offre une bonne source pour les sites d\u00e9sormais supprim\u00e9s ou l\u2019\u00e9volution graphique du web.<\/li><li><strong><em>Un seul poste de r\u00e9seau social<\/em><\/strong><br> Ne cherchez pas \u00e0 vous compliquer la vie : les solutions les plus simples sont parfois les meilleures\u2026 Dans le cadre des r\u00e9seaux sociaux, peut-\u00eatre voudrez-vous conserver l\u2019un ou l\u2019autre poste int\u00e9ressant comme t\u00e9moignage ou trace d\u2019une activit\u00e9 en ces temps incertains : la fonction \u201cprise d\u2019\u00e9cran\/print screen\u201d vous sera d\u2019une grande aide. Il ne semble pas n\u00e9cessaire de sortir l\u2019artillerie lourde, pour ces petites traces.<\/li><li><strong><em>Vous d\u00e9sirez enregistrer une seule page ou un petit nombre de pages d\u2019un site web ?<\/em><\/strong><br><br><em> a. Solution sans inscription : deux extensions pour Firefox et Chrome<\/em><br><br>La plupart du temps, une simple extension \u00e0 ajouter \u00e0 votre navigateur peut suffire : \u201c<a rel=\"noreferrer noopener\" aria-label=\" (opens in a new tab)\" href=\"https:\/\/addons.mozilla.org\/fr\/firefox\/addon\/single-file\/\" target=\"_blank\">SingleFile\u201d<\/a> ou encore \u201c<a rel=\"noreferrer noopener\" aria-label=\"Save Page WE (opens in a new tab)\" href=\"https:\/\/addons.mozilla.org\/fr\/firefox\/addon\/save-page-we\/\" target=\"_blank\">Save Page WE<\/a>\u201d, deux outils permettant l&#8217;enregistrement au format HTML, en un seul fichier, et existant aussi bien sous Google Chrome\/Chromium que sous Firefox.<br>Par ailleurs, ces extensions fonctionnent \u00e9galement pour l\u2019enregistrement partiel d\u2019une page de r\u00e9seau social : il faut alors \u201cscroller\u201d jusqu\u2019\u00e0 atteindre la date d\u00e9sir\u00e9e (dans notre cas, le d\u00e9but du confinement) puis d\u2019utiliser l\u2019extension. Pour les postes trop longs, il faudra \u00e9galement cliquer sur \u201cafficher la suite\u201d.<br><br><em>b. Solution avec inscription : <\/em><a rel=\"noreferrer noopener\" aria-label=\"www.webrecorder.io  (opens in a new tab)\" href=\"https:\/\/webrecorder.io\/\" target=\"_blank\"><em>www.webrecorder.io<\/em> <\/a><br><\/li><\/ol>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"alignleft size-large is-resized\"><img loading=\"lazy\" src=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-3.png\" alt=\"\" class=\"wp-image-1338\" width=\"398\" height=\"130\" srcset=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-3.png 795w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-3-300x98.png 300w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-3-768x250.png 768w\" sizes=\"(max-width: 398px) 100vw, 398px\" \/><\/figure><\/div>\n\n\n\n<p>Avec une simple inscription, ce site internet vous permet de facilement cr\u00e9er une collection comprenant l\u2019ensemble des pages que vous d\u00e9sirez.Les pages, regroup\u00e9es en collection, s&#8217;ins\u00e8rent dans un m\u00eame fichier Warc, t\u00e9l\u00e9chargeable sur votre ordinateur. Des fonctionnalit\u00e9s sp\u00e9cifiques existent \u00e9galement pour les r\u00e9seaux sociaux, YouTube, soundcloud, etc. <br><br><em>c. Une solution sous Linux : <a href=\"https:\/\/github.com\/pirate\/ArchiveBox\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"ArchiveBox (opens in a new tab)\">ArchiveBox<\/a><\/em><br>Cette solution permet \u00e9galement d\u2019enregistrer une s\u00e9rie de pages sur base d\u2019un dossier de marque-pages ou d\u2019un historique de navigation.<br>L\u2019interface de lecture est une simple interface en html fournissant l\u2019acc\u00e8s \u00e0 ces diff\u00e9rents formats, avec \u00e9galement un lien vers le site d\u2019origine, la mention d\u2019une date d\u2019enregistrement et de mise \u00e0 jour \u00e9ventuelle. Ces m\u00e9tadonn\u00e9es permettent donc la cr\u00e9ation d\u2019une interface simple pour l\u2019utilisateur final et les \u00e9ventuels lecteurs. <br>L\u2019int\u00e9r\u00eat de cette solution r\u00e9side dans la cr\u00e9ation d\u2019un portail accessible hors ligne comprenant l\u2019ensemble de vos enregistrements et dans la multiplicit\u00e9 des formats d\u2019enregistrement : HTML, PDF, PNG, WARC\u2026<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-resized\"><img src=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-4.png\" alt=\"\" class=\"wp-image-1339\" width=\"747\" srcset=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-4.png 1347w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-4-300x128.png 300w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-4-1024x438.png 1024w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-4-768x328.png 768w\" sizes=\"(max-width: 1347px) 100vw, 1347px\" \/><\/figure>\n\n\n\n<p> 4. <strong><em>Un site complet ou une partie de ce site<\/em><\/strong><\/p>\n\n\n\n<p><br>a. <em>La solution la plus courante : <a href=\"https:\/\/www.httrack.com\/\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"Httrack (opens in a new tab)\">Httrack<\/a><\/em><br><\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"alignleft size-large is-resized\"><img loading=\"lazy\" src=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-6-1024x521.png\" alt=\"\" class=\"wp-image-1341\" width=\"312\" height=\"159\" srcset=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-6-1024x521.png 1024w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-6-300x153.png 300w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-6-768x391.png 768w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-6.png 1495w\" sizes=\"(max-width: 312px) 100vw, 312px\" \/><\/figure><\/div>\n\n\n\n<p>La solution la plus connue et la plus simple \u00e0 mettre en oeuvre est Httrack, open source et disponible gratuitement, utilisable sous Linux mais \u00e9galement sous Windows sans installation.<br>Ce logiciel permet tr\u00e8s facilement d\u2019extraire au format HTML et pour une lecture hors ligne un site web, en s\u00e9lectionnant sp\u00e9cifiquement l\u2019URL du site complet (exemple : www.villeuntel.be\/) ou d\u2019une partie de ce site (www.villeuntel.be\/sant\u00e9\/covid19). <\/p>\n\n\n\n<p>Le logiciel est par ailleurs param\u00e9trable pour la profondeur d\u2019extraction (nombre de sous-menus \u00e0 extraire, prise en compte des liens vers des sites ext\u00e9rieurs, etc.). Il prend partiellement en compte les aspects dynamiques (vid\u00e9os, flash, etc.).<br>Cette solution fonctionne \u00e9galement pour l\u2019enregistrement d\u2019une seule page.<br> Il existe un tutoriel en fran\u00e7ais : <a href=\"https:\/\/archive.framalibre.org\/IMG\/pdf\/intro_winhttrack.pdf\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"https:\/\/archive.framalibre.org\/IMG\/pdf\/intro_winhttrack.pdf  (opens in a new tab)\">https:\/\/archive.framalibre.org\/IMG\/pdf\/intro_winhttrack.pdf <\/a><br><\/p>\n\n\n\n<p><em>b. Une solution sous Linux : <a href=\"http:\/\/www.gnu.org\/software\/wget\/\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"Wget (opens in a new tab)\">Wget<\/a><\/em><br> Pour les utilisateurs les plus aguerris, la solution Wget sous Linux (existant \u00e9galement sous Windows, mais de fa\u00e7on non native) est un programme en ligne de commande qui vous permettra d\u2019obtenir un r\u00e9sultat au format WARC. N\u2019h\u00e9sitez donc pas \u00e0 consulter la page du wiki d\u2019Ubuntu, qui offre un premier aper\u00e7u de ses fonctionnalit\u00e9s (ainsi que la possibilit\u00e9 d\u2019une interface graphique, pour faciliter son usage) : <a href=\"https:\/\/doc.ubuntu-fr.org\/wget\" target=\"_blank\" rel=\"noreferrer noopener\" aria-label=\"https:\/\/doc.ubuntu-fr.org\/wget\n  (opens in a new tab)\">https:\/\/doc.ubuntu-fr.org\/wget<br> <\/a><\/p>\n\n\n\n<h3>Lire les fichiers extraits <\/h3>\n\n\n\n<p>Que faire de ces fichiers ainsi extraits ? Comment les lire ? Comment les r\u00e9utiliser ?<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img src=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-8.png\" alt=\"\" class=\"wp-image-1349\" width=\"150\" srcset=\"https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-8.png 372w, https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/image-8-295x300.png 295w\" sizes=\"(max-width: 372px) 100vw, 372px\" \/><\/figure>\n\n\n\n<ul><li><em><strong>Fichier html unique : SingleFile, Save Page We, webrecorder.io<\/strong><\/em><br> La lecture d\u2019un tel fichier est simple : les navigateurs web les plus courants n\u2019auront aucun mal \u00e0 les lire.<\/li><li><em> <strong>Fichier html et dossiers en lien : Httrack<\/strong><\/em><br>La lecture reste tout aussi simple au travers d\u2019un navigateur web.<br>L\u2019int\u00e9r\u00eat de ce format ? Il extrait les diff\u00e9rents fichiers d\u2019une page, ce qui peut \u00eatre int\u00e9ressant pour s\u00e9lectionner l\u2019ensemble des images d\u2019un site internet ou d\u2019un de ses sous sites.<br>Le seul point d\u2019attention \u00e0 avoir : lors du d\u00e9placement des fichiers, il faudra prendre l\u2019ensemble des fichiers sans les s\u00e9parer.<\/li><li> <em><strong>Fichier Warc (Web Archives) : Wget, webrecorder.io<\/strong><\/em><br>Pour lire ce type de fichier ou rendre ces fichiers accessibles aupr\u00e8s du public, il vous faudra installer une solution sp\u00e9cifique, soit en ligne (<a href=\"https:\/\/wab.ac\/\">https:\/\/wab.ac\/<\/a>) soit en local.<br>Pour une solution en local, il existe le logiciel <a href=\"https:\/\/github.com\/webrecorder\/webrecorder-player\">Webrecorder player.<\/a><\/li><li> <em><strong>Solution hybride : ArchiveBox<\/strong><\/em><br>Globalement, l\u2019interface \u201clecture\u201d d\u2019ArchiveBox fonctionne tr\u00e8s simplement via les navigateurs webs classiques. L\u2019interface donne cependant acc\u00e8s \u00e0 plusieurs versions, dont deux en html, une en PDF et une prise d\u2019\u00e9cran ainsi qu\u2019un renvoi vers le site d\u2019origine et vers le Wayback Machine d\u2019Internet Archives. L\u2019int\u00e9r\u00eat de la d\u00e9marche est de fournir au futur lecteur plusieurs portes d\u2019entr\u00e9e : la prise d\u2019\u00e9cran, notamment, permet de garder l\u2019aspect graphique d\u2019origine de la page, ce que le fichier html ne conserve pas toujours int\u00e9gralement. Un des menus permet \u00e9galement le t\u00e9l\u00e9chargement d\u2019un fichier au format Warc et Json. <\/li><\/ul>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>On ne le dira jamais assez : internet est aujourd\u2019hui une mine d\u2019informations et de t\u00e9moignages. La crise actuelle ne fait pas exception. Mais, comment conserver ces t\u00e9moignages ? Quels outils pour la lecture et la conservation hors ligne ?<\/p>\n","protected":false},"author":15,"featured_media":1286,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_links_to":"","_links_to_target":""},"categories":[7,68,67],"tags":[],"uagb_featured_image_src":{"full":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",930,400,false],"thumbnail":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari-150x150.jpg",150,150,true],"medium":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari-300x129.jpg",300,129,true],"medium_large":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari-768x330.jpg",768,330,true],"large":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",930,400,false],"1536x1536":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",930,400,false],"2048x2048":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",930,400,false],"trp-custom-language-flag":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",18,8,false],"neve-blog":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",930,400,false],"audioigniter_cover":["https:\/\/archivesquarantainearchief.be\/wp-content\/uploads\/2020\/04\/firefox-ie-chrome-safari.jpg",560,241,false]},"uagb_author_info":{"display_name":"Virginien Horge, Ville de Mons","author_link":"https:\/\/archivesquarantainearchief.be\/fr\/author\/vhorge\/"},"uagb_comment_info":1,"uagb_excerpt":"On ne le dira jamais assez : internet est aujourd\u2019hui une mine d\u2019informations et de t\u00e9moignages. La crise actuelle ne fait pas exception. Mais, comment conserver ces t\u00e9moignages ? Quels outils pour la lecture et la conservation hors ligne ?","_links":{"self":[{"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/posts\/1258"}],"collection":[{"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/users\/15"}],"replies":[{"embeddable":true,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/comments?post=1258"}],"version-history":[{"count":10,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/posts\/1258\/revisions"}],"predecessor-version":[{"id":1868,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/posts\/1258\/revisions\/1868"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/media\/1286"}],"wp:attachment":[{"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/media?parent=1258"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/categories?post=1258"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/archivesquarantainearchief.be\/fr\/wp-json\/wp\/v2\/tags?post=1258"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}