Wat is web scraping?

OsiScraper maakt het mogelijk om informatie zoals tekst, URL’s, video’s en afbeeldingen van webpagina’s te extraheren, standaardiseren en op te slaan.

Het scrapen richt zich op de conversie van ongesorteerde gegevens (meestal in HTML-formaat) naar gestructureerde data die kan worden bewaard en geanalyseerd in lokale databases, zoals XLSX, CSV, SQL of andere soorten bestanden.

Doordat de informatie van de webpagina door het scrapen offline wordt gehaald op de eigen computer in een spreadsheet formaat, zorgt dit ervoor dat de informatie gemakkelijk doorzoekbaar wordt. Bovendien blijft de data ook op een later moment beschikbaar, zelfs als de informatie op de website niet meer beschikbaar is.

Om dit te kunnen bewerkstelligen dient er per gewenste website een ‘recipe’ gemaakt te worden. Dit betreft een recipe (scriptje) voor die betreffende website.

Het is daarbij belangrijk dat de gebruiker de juiste elementen uit de broncode van de pagina weet te halen. Heeft de gebruiker eenmaal de juiste elementen gevonden, dan kan deze het recipe lokaal opslaan (Save This Scrape) in de vorm van een YAML bestand.

Dit bestand kan heel gemakkelijk binnen de organisatie verspreid en ingeladen worden (Open Saved Scrape), zodat niet alle gebruikers steeds opnieuw het wiel moeten uitvinden.


Voorbeeld

U heeft een recipe voor Amazon. Dit scriptje, wanneer u dit heeft geopend via de knop ‘Open Saved Scrape’, zorgt ervoor dat OsiScraper precies weet wat hij moet doen op het moment dat u een Amazon-product URL in het dashboard plaatst.

U hoeft alleen op ‘Start Browser’ en ‘Start Scraper’ te drukken en achterover te zitten.
Alle product-informatie, waaronder omschrijving, ratings en prijzen worden nu in klare tekst opgeslagen in een CSV, XLSX en/of SQL bestand. De media (product-afbeeldingen) worden in een aparte map opgeslagen. Dit alles lokaal op het apparaat van de gebruiker.


Ingebouwde onderdelen én de beschikbare recipe commands maken het mogelijk om bij het scrapen het menselijke gedrag zo goed mogelijk na te bootsen. Dit zorgt ervoor dat OsiScraper niet als een bot wordt herkend door de webpagina.

OsiScraper bevat veel geavanceerde functies, zodat ook de informatie waar andere scrapers niet bij kunnen komen toch gescraped kan worden. Hierbij kunt u denken aan mobiele simulatie en het halen van informatie uit de broncode van de pagina, zoals bijvoorbeeld EXIF-informatie of een Facebook ID.

OsiScraper; wat is het? hoe werkt het?