Автор: Джей Питерс (новостной редактор, освещающий технологии, игры и многое другое. Он присоединился к The Verge в 2019 году после почти двух лет работы в Techmeme) — следовать за автором: https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit?
Reddit сообщает, что он поймал компании, работающие с искусственным интеллектом, на том, что они удаляют свои данные из Wayback Machine Internet Archive, поэтому он собирается начать блокировать индексацию подавляющего большинства материалов Reddit Интернет-архивом. Wayback Machine больше не сможет просматривать страницы с подробной информацией о публикациях, комментарии или профили; вместо этого он сможет индексировать только домашнюю страницу Reddit.com, что фактически означает, что Internet Archive сможет архивировать только информацию о том, какие заголовки новостей и сообщения были наиболее популярны в определенный день.
Миссия Internet Archive заключается в хранении цифрового архива веб-сайтов в Интернете и “других культурных артефактов”, а Wayback Machine — это инструмент, который вы можете использовать для просмотра страниц в том виде, в каком они появлялись на определенные даты, но Reddit считает, что не весь его контент следует архивировать таким образом. У Reddit есть недавняя история с закрытием доступа к инструментам scraper, поскольку компании, работающие с ИИ, начали массово использовать их (и злоупотреблять ими), но он готов предоставить эти данные, если компании заплатят. В начале прошлого года Reddit заключил сделку с Google о предоставлении данных для поиска Google и обучения искусственному интеллекту, а несколько месяцев спустя начал блокировать доступ к своим данным со стороны крупных поисковых систем, если они не заплатят.
Reddit сообщает, что обнаружил, что компании, занимающиеся разработкой искусственного интеллекта, копируют данные Wayback Machine, принадлежащей Internet Archive, поэтому он собирается запретить Internet Archive индексировать подавляющее большинство материалов Reddit. Wayback Machine больше не сможет индексировать страницы с информацией о публикациях, комментарии и профили; вместо этого он сможет индексировать только главную страницу Reddit.com, что фактически означает, что Internet Archive сможет архивировать только информацию о том, какие новостные заголовки и публикации были наиболее популярны в определённый день.
«Internet Archive предоставляет услуги для открытой сети, но нам известны случаи, когда компании, занимающиеся ИИ, нарушают политику платформы, в том числе и нашу, и извлекают данные из Wayback Machine», — рассказал The Verge представитель компании Тим Ратшмидт .
Миссия Архива Интернета — вести цифровой архив веб-сайтов и «других культурных артефактов», а Wayback Machine — это инструмент, позволяющий просматривать страницы в том виде, в котором они были опубликованы в определённые даты. Однако Reddit считает, что не весь контент следует архивировать таким образом. «Пока они не смогут защитить свой сайт и соблюдать правила платформы (например, уважение к конфиденциальности пользователей, касающееся удаления удалённого контента), мы ограничиваем им доступ к некоторым данным Reddit, чтобы защитить пользователей», — говорит Ратшмидт.
По словам Ратшмидта, ограничения начнут «ужесточаться» уже сегодня, и Reddit заявляет, что заранее связался с Архивом Интернета, чтобы «предупредить их об ограничениях до их вступления в силу». Он также добавил, что Reddit и раньше «выражал обеспокоенность» возможностью извлекать контент из Архива Интернета. Reddit в последнее время ограничивал доступ к инструментам для парсинга, поскольку компании ИИ начали массово их использовать (и злоупотреблять), но он готов предоставлять эти данные, если компании заплатят. В начале прошлого года Reddit заключил сделку с Google на данные поиска Google и данные для обучения ИИ, а несколько месяцев спустя начал блокировать крупным поисковым системам сканирование своих данных, если они не заплатят . Он также заявил, что его печально известные изменения API с 2023 года , которые вынудили некоторые сторонние приложения закрыться, что привело к протестам , были связаны с тем, что эти API использовались для обучения моделей ИИ.
Reddit также заключил сделку по ИИ с OpenAI , но в июне подал в суд на Anthropic , утверждая, что Anthropic продолжает собирать данные с Reddit даже после того, как Anthropic заявила, что больше не занимается сбором данных. «У нас давние отношения с Reddit, и мы продолжаем вести постоянные обсуждения этого вопроса», — заявил Марк Грэм, директор Wayback Machine, в своем заявлении для The Verge .
фото: Изображение: The Verge