Cloudflare-forskere hævder, at Perplexity skraber hjemmesider på trods af AI Bot Block

Photo by Joshua Woroniecki on Unsplash

Cloudflare-forskere hævder, at Perplexity skraber hjemmesider på trods af AI Bot Block

Læsetid: 2 Minut

Forskere fra internetinfrastrukturudbyderen Cloudflare hævder, at AI-systemet Perplexity har skrabet indhold fra hjemmesider uden tilladelse, selv når udgivere har implementeret AI bot-blokeringer.

Har du travlt? Her er de hurtige fakta:

  • Cloudflare påstår, at Perplexity har skrabet indhold fra hjemmesider uden tilladelse.
  • Forskere bekræftede Perplexitys “stealth crawling”-adfærd, selv når udgivere implementerer AI bot-blokeringer.
  • En talsperson fra Perplexity kaldte Cloudflares rapport for et “publicity stunt.”

Ifølge en rapport delt af Cloudflare mandag, gennemsøger Perplexity hjemmesider ved hjælp af dens standardbrugeragent og skifter sin identitet for at omgå disse blokeringer. Denne “stealth crawling” adfærd blev bekræftet af Cloudflares eksperter.

“Vi ser fortsat beviser på, at Perplexity gentagne gange ændrer deres brugeragent og ændrer deres kilde-ASNs for at skjule deres crawling-aktivitet, samt ignorerer – eller undertiden ikke engang henter – robots.txt filer,” skrev forskerne.

Crawlers forventes at være gennemsigtige, tydeligt angive deres formål og respektere hjemmesiders præferencer, men forskerne hævder, at Perplexity ikke har fulgt disse tillidsprincipper. Denne konklusion blev nået efter en undersøgelse udløst af kundeklager.

“Vi modtog klager fra kunder, som både havde forbudt Perplexitys kravleaktivitet i deres robots.txt filer og også oprettet WAF-regler for specifikt at blokere begge Perplexitys erklærede crawlers: PerplexityBot og Perplexity-User,” skrev forskerne. “Disse kunder fortalte os, at Perplexity stadig var i stand til at få adgang til deres indhold, selv når de så dens bots blev blokeret med succes.”

Cloudflare forskere sagde, at de verificerede disse påstande ved at replikere blokeringerne og gennemføre flere tests for at observere crawlerens adfærd. I en test oprettede de nye domæner, der endnu ikke var blevet indekseret, og inkluderede robots.txt filer for at blokere “respektfulde bots”. Senere forespurgte de Perplexity om specifik information om de begrænsede domæner og fandt, at den AI-drevne svarmaskine stadig leverede detaljer og præcis information om websitet.

“Denne reaktion var uventet, da vi havde taget alle nødvendige forholdsregler for at forhindre, at disse data kunne hentes af deres crawlers,” tilføjede forskerne.

En talsperson fra Perplexity, Jesse Dwyer, kaldte forskningen for en “publicity stunt” i en udtalelse for The Verge. Dwyer tilføjede, at der er “misforståelser” i Cloudflares rapport.

Cloudflare har udviklet flere værktøjer til at hjælpe udgivere med at forhindre uautoriseret AI-crawling. I marts udgav Cloudflare “AI Labyrinth,” et værktøj, der omdirigerer uautoriserede crawlers ind i AI-genererede indholdslabyrinter. Sidste måned lancerede de “Pay Per Crawl,” et system til at opkræve AI-bots for at få adgang til udgiveres indhold.

Kunne du lide denne artikel?
Så anmeld den venligst!
Jeg hadede den Jeg kan ikke rigtigt lide den Den var ok Ret god! Var vild med den!

Vi er glade for du synes om vores arbejde!

Som en værdsat læser, håber vi du har lyst til at tjekke os på Trustpilot? Det er hurtigt, og betyder alverden for os. Tak for at du er fantastisk!

Bedøm os på Trustpilot
0 Brugere som har 0 stemt
Overskrift
Kommentar
Tak for din feedback