Scraping webové obrazovky: užitečné tipy od Semalt

V dnešní době se data mohou stát vaším nejdůležitějším aktivem. Proto nikdy není dobré nechat ho vklouznout do rukou vašich konkurentů. Někdy však může být obtížné tomu zabránit kvůli škrábání obrazovky. Jedná se o techniku, která se již roky používá k extrahování dat z webových stránek.

Tato metoda představuje pro firmu dva významné problémy. V první řadě lze data použít k získání výhody oproti podniku, možná podhodnocením cen a získáním informací o produktech. Pokud to bude vytrvale, může také technika snížit výkon webových stránek.

Obecně je škrábání obrazovky koncept, který byl vytvořen programy emulace terminálu před několika desítkami let. Je to programová technika, která získává informace z obrazovek, které jsou primárně určeny k prohlížení lidmi. Program předstírá, že je člověk, čte data, shromažďuje cenné informace a zpracovává je pro uložení.

Tato technika se v průběhu let významně vyvinula, zejména s vynálezem webových prolézacích modulů. To se vyvíjelo ještě více s vývojem e-retail screen scraping, například, webové stránky pro srovnání cen. Tyto webové stránky využívají programy, které pravidelně navštěvují populární e-maloobchod, aby získaly nejnovější ceny a informace o dostupnosti daného produktu nebo služby. Tato data se poté ukládají do databáze a používají se pro srovnávací přehledy prostředí elektronického obchodování.

Konkurenční stírání obrazovky má řadu negativních dopadů na IT systémy firmy v tom, že je to jen další příklad nežádoucího provozu. Nedávné studie prokázaly, že nejméně 61% veškerého provozu je generováno roboty. Tyto roboty spotřebovávají životně důležité zdroje a šířku pásma určenou pro skutečné uživatele webu, což může vést ke zvýšení latence skutečných zákazníků.

Scraping obrazovky probíhá již dlouhou dobu. Teprve nedávno však oběti tohoto chování začínají reagovat. Některé tvrdily o nekalých obchodních praktikách a porušování autorských práv, zatímco naopak firmy provádějící škrabání se brání tím, že se hlásí ke svobodě informací.

Mnoho majitelů webových stránek se uchylovalo k psaní zásad používání na svých webových stránkách, které zakazují agresivní škrábání. Tyto politiky bohužel nemohou prosadit, a proto se zdá, že se tento problém v dohledné době nezmizí.

Před lety společnost eBay zavedla rozhraní API, které umožňuje dobrý škrabák přístup k vašim datům. Nezastavuje však škodlivé shromažďování informací, které mají být použity pro konkurenční výhodu. Jedinou skutečnou obranu lze dosáhnout využitím technologie, která může blokovat návštěvníky vašeho webu, kteří nejsou lidmi. To umožňuje skutečným uživatelům přístup na váš web a blokování prolézacích modulů před poškozením.

Dalšími účinnými způsoby, jakými lze bojovat se stíráním obrazovky, jsou použití technik, jako je inteligence IP reputace, detekce spoofed IP zdroje, analýza chování podle požadavků, hodnocení úrovně hrozby v reálném čase a vymáhání polohy na místě.