Добавить новость
Новости сегодня

Новости от TheMoneytizer

Perplexity использует обходные механизмы, чтобы сканировать запрещающие это делать сайты

Вчера, 4 августа, в официальном блоге компании Cloudflare появилась весьма интересная публикация о том, что боты поисковой системы на базе искусственного интеллекта Perplexity сканируют даже те сайты, которые прямо запретили это делать в своей документации. Специалисты компании отмечают, что изначально Perplexity применяет своего стандартного пользовательского агента, но в случае обнаружения сетевой блокировки, которая мешает ИИ сканировать сайты для сбора данных, система, видимо, задействует некие механизмы обхода данной блокировки, дабы в итоге всё же собрать на ресурсе искомую информацию.

Изображение: Cloudflare

Представители Cloudflare заявили, что получили ряд жалоб от своих клиентов, которые запретили Perplexity сканировать свои сайты посредством файла robots.txt, а также создали специальные правила WAF, чтобы заблокировать конкретных ботов Perplexity — PerplexityBot и Perplexity-User. Проблема в том, что это не помогло — Perplexity всё ещё получала доступ к их контенту, хотя сами боты были успешно заблокированы. Чтобы изучить этот вопрос, специалисты из Cloudflare решили провести эксперимент — они создали несколько совершенно новых доменов (они только были приобретены и ещ даже не были проиндексированы ни одной поисковой системой) и имплементировали файл robots.txt с правилами, запрещающими любым ботам получать доступ к любой части веб-сайта.

Изображение: Cloudflare

После этого специалисты отправились на Perplexity AI и задали вопросы об этих доменах — ИИ по-прежнему предоставлял подробную информацию о контенте, размещённом на каждом из этих веб-сайтов. И это при том, что энтузиасты приняли все необходимые меры, чтобы тестовые сайты не предоставляли поисковым ботам свою информацию. Но оказалось, что Perplexity использует для сканирования сайтов не только заявленного юзер-агента, но и некий универсальный браузер, который имитирует Google Chrome на macOS. Именно эта система начинает подключаться к сайту, когда поисковой бот по умолчанию блокируется настройками robots.txt.

Изображение: Cloudflare

Более того, данный скрытный поисковой бот использовал несколько IP-адресов, которые не указаны в официальном диапазоне адресов Perplexity, периодически меняя их в ответ на политики, описанные в robots.txt, и блокировки со стороны Cloudflare. Также бот отправлял запросы с разных ASN, пытаясь обойти блокировки со стороны сайтов. Все эти манипуляции, по словам авторов эксперимента, противоречат нормам сканирования контента в интернете, которые изложены в протоколе RFC 9309.

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media






Топ новостей на этот час

Rss.plus





СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *