Terug naar overzicht

Chrono Scraper: een zoekfunctie voor de Wayback Machine

Tool om de Wayback Machine doorzoekbaar te maken

Chrono Scraper is een zoekfunctie in Wayback Machine, een archief dat belangrijk bronmateriaal levert voor journalisten en wetenschappers.

Chrono Scraper

De “Wayback Machine” van het Internet Archive biedt al sinds 2001 toegang tot verdwenen of oudere versies van websites die vandaag niet meer online staan. Het bevat zo’n 100 petabyte aan data, variërend van kleine blogs tot grotere websites van overheden en bedrijven, uit de hele wereld.

Belangrijk bronmateriaal

De Wayback Machine levert relevant bronmateriaal dat anders niet meer zou bestaan: van het onderzoek naar de MH17-ramp, tot de ontdekking dat Amerikaanse overheidswebsites het begrip “klimaatverandering” verwijderden kort na de aanstelling van Donald Trump. Journalisten, wetenschappers en andere onderzoekers maken er regelmatig gebruik van.

Zoekfunctie ontwikkelen

Een belangrijke element ontbreekt helaas: de zoekfunctie. Websites in de Wayback Machine zijn handmatig door te bladeren, maar niet te doorzoeken op basis van trefwoorden. Vanwege de enorme omvang van dit archief zal deze zoekfunctie er ook niet snel komen.

In dit project wordt een tool ontwikkeld om deze zoekfunctie te creëren. Niet voor het gehele archief, maar voor specifieke websites die je zelf kunt opgeven. Het beoogde resultaat is dat gebruikers vanuit hun browser gemakkelijk een aantal bewaarde websites uit de Wayback Machine kunnen “indexeren”, waarna deze doorzoekbaar zijn. In dit project zal een prototype van de Chrono Scraper worden gebouwd en getest onder potentiële gebruikers.

Resultaten

In dit project is de Chrono Scraper ontwikkeld: een tool die het archief van het internet (de Wayback Machine) op een toegankelijke manier doorzoekbaar moest maken voor gebruikers. Op basis van gebruikersonderzoek en verdere ontwikkeling werd een prototype gerealiseerd. Tijdens het traject werd echter duidelijk dat externe technische afhankelijkheden groter en complexer waren dan vooraf voorzien. Hierdoor is de tool momenteel nog niet geschikt voor brede publieke inzet, maar wordt onderzocht of de obstakels kunnen worden weggenomen en doorontwikkeling op termijn mogelijk is.

Dit is een pioniersproject. SIDN fonds ondersteunt projecten in de idee-fase, zodat het idee door een sterk team verder uitgewerkt kan worden naar een eerste versie, pilot of experimenteel ontwerp.