Скрапинг навсегда

Скрапинг навсегда
При правильном сочетании прокси, пользовательских агентов и браузеров вы можете скрапить любые веб-сайты. Даже те, которые кажутся непробиваемыми.

Данные стали топливом для роста бизнеса за последнее десятилетие, а Интернет является основным источником данных: 5 миллиардов пользователей генерируют миллиарды килобайт каждую секунду. Анализ веб-данных может помочь компаниям найти идеи для достижения своих бизнес-целей. Однако сбор информации в таких объемах весьма непрост, особенно для тех, кто все еще думает, что кнопка «Экспорт в Excel» и ручная обработка являются единственными вариантами.

Помощником по сбору данных для бизнеса и одновременно головной болью для администраторов веб-сайтов был и остается веб-скрапинг. C одной стороны он позволяет предприятиям автоматизировать процессы сбора данных с помощью ботов или автоматизированных скриптов, с другой часто нагружает анализируемые сайты а также ворует интеллектуальную собственность. Веб-скрапинг неплох, если использовать его правильно. Во многих случаях владельцы данных хотят предоставить их как можно большему количеству людей. Например, государственные веб-сайты. Эти данные обычно доступны через API, но из-за большого объема иногда необходимо использовать скрапинг для их сбора.

Другой пример легального сканирования включает в себя агрегирование информации, например туристических веб-сайтов, порталов бронирования отелей и сайтов по продаже билетов на концерты. Роботы, которые распространяют контент с этих сайтов, получают данные через API или путем сканирования и, как правило, направляют трафик на веб-сайт владельца данных. В этом случае боты могут служить ключевой частью бизнес-модели.

За последние два десятилетия боты превратились из простых скриптов с небольшим количеством функций в сложные интеллектуальные программы, которые веб-сайты и их системы безопасности вполне могут принять за людей.

Как появился веб-скрапинг

За свою историю веб-скрапинг претерпел значительные изменения, в первую очередь из-за все возрастающей сложности Интернета. Относительно немногие помнят великолепную простоту веб-страниц 90-х годов. Тогда скрапинг было намного проще, считает Юрас Юршенас, главный операционный директор Oxylabs.io

Если спросить про то, как появился скрапинг веб-страниц, то большинство даст ответ, который всем известен — Google. Это определенно самая успешная компания, использующая автоматическое сканирование, но далеко не первая.

Насколько известно, первое приложение для сканирования веб-страниц с подходящим названием Wanderer («Странник») было разработано в 1993 году Мэтью Греем. Оно использовалось для обнаружения новых веб-сайтов и оценки размера всемирной паутины. Неудивительно, что Мэтью теперь является техническим директором по поиску в Google.

Очевидно, веб-скрапинг начался вскоре после создания Интернета в 1989 году. Прошло всего несколько с лишним лет, прежде чем кто-то стал собирать данные, хранящиеся в Сети. Конечно, в первую очередь им двигало любопытство и страсть. Вероятно, в 1993 году Интернет имел небольшую финансовую ценность. В эпоху Netscape Navigator многие веб-сайты все еще были далеки от того, чтобы быть близкими к бизнесу.

Однако вскоре была обнаружена полезность веб-скрапинга, поскольку в том же году была запущена Jump Station — первая поисковая система с автоматическим сканированием. Она использовала названия и заголовки документов для индексации веб-страниц, найденных с помощью простого линейного поиска, но не предоставляла никакого ранжирования результатов. Конкуренты подхватили тему и развили ее.

Большинство поисковых систем использовали рудиментарный скрапинг для сбора и индексации страниц. Рейтинги обычно составлялись путем ручной набивки ключевых слов повсюду. Так происходило долгое время из-за отсутствия сложного анализа данных.

Алгоритм PageRank Ларри Пейджа, который был принят Google, можно считать самым значительным ранним достижением в скрапинге. Вместо поиска по ключевым словам, входящие и исходящие ссылки стали критерием важности веб-сайта.

Появление WWW

Тем не менее, в то время веб-скрапинг так и не прижился. Поисковые системы и компании, получающие прибыль от данных, были единственными, кто действительно занимался скрапингом и автоматическим сканированием. На протяжении большей части ранней истории не было причин делать скрапинг для кого-то еще.

По мере того, как Интернет отходил от прославленных TXT-файлов, Geocities и AngelFire в пользу профессионально созданных страниц с платежными шлюзами и продуктами, деловой интерес рос. Открылась возможность выхода на новую аудиторию и покупателей. В свою очередь, компании начали переходить на цифровые технологии.

Внезапно мониторинг определенных страниц в Интернете стал чем-то полезным. Данные в Сети перестали быть просто информацией. Они приобрели ценность. Их могли анализировать и использовать для исследований.

Но была (и остается) одна проблема. В то время как обычные интернет-пользователи раньше создавали упрощенные веб-сайты, ведение бизнеса означало занятие маркетингом и продажами. Компании взяли все лучшие практики из обычной рекламы и перенесли ее в онлайн. Появились блестящие, гладкие и оптимизированные веб-сайты. Оптимизированные для просмотра, поиска и покупок.

Профессионализация Интернета привела к созданию веб-сайтов, которые представляли собой гораздо больше, чем просто электронные таблицы Excel. В результате лежащий в основе HTML стал более сложным, а это означало, что извлечение данных стало значительно сложнее.

Возникла интересная дилемма. В каком-то смысле Интернет стал сокровищницей невероятно полезных данных. С другой стороны, добраться до этих данных стало неоправданно сложно. Это произошло из-за постоянно увеличивающейся скорости изменений на веб-сайтах.

Выделенный скрапинг

В результате скрапинг должен был стать узкоспециализированным и отраслевым. Скраперы и парсеры нужно было писать под конкретные сайты. Кстати, многие рукописные проекты до сих пор проходят тот же процесс.

Как ни странно, многие скраперы промышленного уровня не продвинулись так далеко. Некоторые специализированные скраперы сегодня могут обрабатывать только определенные типы: для поисковых систем, страниц электронной коммерции и обычных веб-сайтов соответственно.

Эти разбиения необходимы из-за характера страниц. Страницы продукта по своей конечной цели сильно отличаются от страниц поисковых систем, что делает их структуру другой. Теоретически, по мере роста разницы между структурами будет возрастать сложность скрапинга и парсинга.

На практике это означает, что в обозримом будущем будут необходимы специализированные скраперы и парсеры. Есть некоторая надежда, что решения, основанные на искусственном интеллекте и машинном обучении, могут упростить этот процесс. Тесты показывают многообещающие результаты для синтаксического анализа на основе машинного обучения.

В 2021 году большинство крупных провайдеров, таких как Bright Data, Zyte, Oxylabs, Diffbot запустили собственный API данных, который использует ИИ для анализа данных. Однако пока качество данных или цены на эти средства извлечения часто не соответствуют требованиям многих разработчиков.

Конфликт сторон

Бесконечная война между веб-скрапингом и веб-сайтами, пытающимися его заблокировать, не утихала в 2021 году, и веб-скрапинг по-прежнему оставался на шаг впереди.

Веб-сайты и поставщики средств защиты от ботов продолжают разрабатывать более сложные меры защиты. Но до сих пор ни один антибот не нашел волшебной палочки, чтобы полностью предотвратить скрапинг.

При правильном сочетании прокси, пользовательских агентов и браузеров вы можете скрапить любые веб-сайты. Даже те, которые кажутся непробиваемыми.

Будущее скрапинга в мире данных

Сейчас популярно мнение, что глобальный спрос на данные постоянно растет. Юрас Юршенас считает это ошибкой. Спрос на данные всегда существовал и всегда будет. Нет ничего более ценного для любой деятельности, бизнеса или чего-то еще, чем способность понимать окружающую среду.

Разговоры о «растущем спросе на данные» мало чем отличаются от взгляда в кривое зеркало. Данные всегда были основой бизнеса, исследований и власти. Даже относительно простые предприятия сегодня используют бухгалтерские книги, выписывают счета и управляют запасами.

У данных всегда было свое место. Что изменилось с появлением Интернета и развитием цифрового бизнеса, так это освобождение от ограничений географического пространства (и, в некотором смысле, времени). Компании теперь не должны быть привязаны к физическому местоположению.

Бизнес в некотором смысле освободился и получил лучший доступ к другим рынкам. С другой стороны, появилось больше источников данных, потому что поле конкуренции и ресурсы также увеличились. Таким образом, цифровизация ускорила спрос на данные.

Раньше не было смысла конкурировать с бизнесом на другом конце света. Любая информация о них могла быть в лучшем случае интересной, а в худшем — бесполезной. Сегодня эти данные в худшем случае интересны, а в лучшем – жизненно важны.

Веб-скрапинг — способ удовлетворить этот спрос. Также нет оснований полагать, что спрос замедлится. Цифровизация, открытие новых рынков и важность большего количества данных идут рука об руку. Таким образом, веб-скрапинг, за исключением чрезмерного надзора со стороны регулирующих органов или глобального апокалипсиса, теперь навсегда.

Опубликовано 28.03.2022