Борьба с Тенью в Цифровой Вселенной: LAION Очищает Данные для Искусственного Интеллекта

37

Мир искусственного интеллекта, подобно зеркалу, отражает все наши надежды и страхи. В его сияющих алгоритмах запечатлеваются как гениальные творения, так и темные уголки человеческой природы. Немецкая исследовательская организация LAION, стоящая за созданием наборов данных, питающих мощные модели генеративного ИИ, таких как Stable Diffusion, столкнулась с одной из самых острых проблем этой отрасли: борьбой с незаконным контентом, в частности, материалами сексуального насилия над детьми (CSAM).

Перерождение LAION-5B: От Теневых Ссылок к Свету Исследований

LAION, осознавая весомость задачи, выпустила обновленный набор данных Re-LAION-5B – переработанную версию своего знаменитого LAION-5B. Это не просто косметический ремонт; это глубокое очищение от темных пятен.

  1. Команда экспертов: LAION объединила усилия с такими авторитетными организациями, как Internet Watch, Human Rights Watch, Канадский центр защиты детей и бывшей Стэнфордской интернет-обсерваторией.
  2. Методика «Светофора»: Специалисты проанализировали LAION-5B, выявив тысячи ссылок на известные и потенциально подозрительные CSAM. Удаление осуществлялось по принципу «нулевой терпимости» – каждая ссылка, даже если ее связь с незаконным контентом была вероятной, была изъята.
  3. Две версии для разных нужд: Re-LAION-5B доступен в двух вариантах: Research (для исследовательских целей) и Research-Safe (с дополнительным удалением NSFW контента), чтобы обеспечить максимальную безопасность.

Важно подчеркнуть, что LAION не хранит изображения напрямую. Их наборы данных содержат индексы ссылок на картинки и альтернативный текст, собранные из открытых источников. Это как карта, указывающая на места, а не сами объекты.

Отчет Стэнфорда: Зеркало Проблем и Призыв к Действию

Релиз Re-LAION-5B стал ответом на тревожный отчет Стэнфордской интернет-обсерватории, опубликованный в декабре 2023 года. В нем обнаружилось наличие CSAM в LAION-5B 400M – части LAION-5B. Стэнфордские исследователи предупредили о сложности удаления вредоносного контента и подчеркнули, что его присутствие не обязательно сказывается на работе обученных моделей, но все же создает этический дилемму.

В отчете звучал призыв к признанию LAION-5B устаревшим и ограничению его распространения. Это повлекло за собой действия: стартап AI Runway удалил свою модель Stable Diffusion 1.5 с платформы Hugging Face, где она ранее была доступна.

Новый Набор Данных: Шаг к Светлому Будущему ИИ

LAION-5B, содержащий более 5,5 миллиардов пар текст-изображение и лицензированный Apache 2.0, становится надежным инструментом для исследователей. LAION предоставляет метаданные, позволяющие третьим сторонам очистить существующие копии LAION-5B от незаконного контента.

LAION подчеркивает: их наборы данных предназначены исключительно для научных целей, а не коммерческого использования. Тем не менее, история показывает, что эти данные привлекательны и для крупных игроков, таких как Google, который ранее использовал LAION для обучения своих моделей генерации изображений.

LAION открыто признает свою ответственность и призывает всех, кто использует старый LAION-5B, перейти на обновленную версию. Это шаг к светлой стороне ИИ – миру, где технологии развиваются с уважением к морали и безопасности каждого.

В этой борьбе за чистоту цифрового пространства LAION демонстрирует пример решимости и прозрачности, показывая, что даже в стремительно развивающемся мире ИИ этические ценности остаются на первом месте.