При веб парсинге сайтов рано или поздно приходится сталкиваться с механизмами защиты от ботов. Сайты могут блокировать массовые запросы по IP-адресу, выдавать сложные капчи или применять другие антибот меры. Я хочу рассмотреть как реализовать на Python парсинг сайта с обходом таких защит: Читать далее
В предыдущей статье - Распознавание капчи токеном или кликами, что быстрее? Сравнение методов на практике (я ее кстати опубликовал еще и на DTF) я сравнил два метода обхода капчи (кликами и токеном) но с использованием Puppeteer, и анонсировал, что в следующей статье (то есть уже в этой) сделаю практическое сравнение этих же двух методов, но уже с использованием selenium и обход капчи будем считать завершенным. Полная картина, так сказать сложится. Ну… Не будем тянуть, переходим сразу к делу. Читать далее
CAPTCHA-протоколы призваны отличать ботов от людей, однако в мире автоматизации и тестирования часто возникает необходимость эти капчи обходить. Существуют специальные сервисы распознавания капчи, которые берут на себя решение этих задач с помощью сочетания алгоритмов и…
Можно было бы написать так - “опытные разработчики, занимающиеся парсингом и автоматизацией, нередко сталкиваются с необходимостью обхода современных капч”. Но это слишком скучно… Я лучше начну так - продолжая изучать забавный мир капч, я в своих изучениях добрался таки до китайской версии защиты - GeeTest капчи. Давайте разбираться, что же это за зверь, где он обитает и почему нужно его опасаться… Или не нужно… В общем в процессе поймете! Читать далее