Скандальное обучение ИИ: Apple, NVIDIA и Anthropic использовали YouTube без разрешения
Ведущие технологические компании, включая Apple, NVIDIA и Anthropic, использовали транскрипты видео с YouTube для обучения своих ШИ-моделей без должного разрешения, что вызывает беспокойство по поводу этичности и законности таких практик.
Обучение ИИ-моделей
Несанкционированное использование данных YouTube
Согласно исследованию Proof News, ведущие технологические гиганты, такие как Apple, NVIDIA и Anthropic, использовали субтитры из более 173 тысяч видеороликов YouTube для тренировки своих систем искусственного интеллекта. Эти материалы были собраны с более чем 48 тысяч каналов, нарушая правила платформы, запрещающие сбор контента без соответствующего разрешения.
Источники и разнообразие контента
Компании использовали широкий спектр источников, включая образовательные каналы (Khan Academy, MIT, Harvard), ведущие новостные агентства (The New York Times, BBC, ABC News), а также развлекательные шоу и популярных YouTube-блоггеров. Интересно, что среди использованных материалов были даже пропагандировавшие сомнительные теории, например, о плоской Земле.
Реакция владельцев контента
Многие владельцы каналов, чьи видео были использованы для обучения ИИ, не были проинформированы об этом. Некоторые из них выражают обеспокоенность по поводу возможности ИИ генерировать контент, подобный их, или даже создавать точные копии.
Роль EleutherAI и набор данных The Pile
Организация EleutherAI, создавшая набор данных YouTube Subtitles, не предоставила комментарии об обвинениях в неправомерном использовании видео. Их коллекция The Pile содержит не только субтитры из YouTube, но и материалы из других источников, включая Европарламент, Википедию и даже электронные письма сотрудников Enron.
Методология сбора данных
Сид Блэк, основатель EleutherAI, разработал инструмент для автоматизированной загрузки субтитров из YouTube, используя API платформы. Он применил около 500 поисковых запросов для сбора различных контентов, охватывающих темы от науки до кулинарии.
Этические и правовые вопросы
Несмотря на то, что правила пользования YouTube запрещают автоматизированный доступ к видео, тысячи пользователей GitHub одобрили код блока. Это поднимает вопрос об этичности и законности таких практик в сфере разработки ИИ.
Прозрачность в разработке ИИ
Компании, разрабатывающие ИИ, часто не предоставляют прозрачной информации о данных, используемых для обучения их моделей. Например, недавно Apple критиковали за непрозрачность источников данных для их разработки Apple Intelligence.
YouTube как ресурс для ИИ
YouTube, являясь крупнейшим в мире хранилищем видео, является чрезвычайно ценным ресурсом для обучения ИИ- моделей, предоставляя доступ к огромному количеству транскрипций, аудио, видео и изображений. Это делает платформу особенно привлекательной для разработчиков ИИ, но также поднимает вопрос об этичности и легальности использования этих данных.
Глоссарий
- Apple - американская технологическая компания, известная своими инновационными продуктами и услугами
- NVIDIA - ведущий разработчик графических процессоров и технологий искусственного интеллекта
- Anthropic - компания, специализирующаяся на разработке безопасного и нравственного ИИ
- YouTube - самая большая в мире платформа для обмена видео
- EleutherAI - организация, занимающаяся открытыми исследованиями в сфере ИИ
Ссылки
- Расследование Proof News
- Инструмент для загрузки субтитров на GitHub
- Критика Apple за непрозрачность
- Ответ OpenAI относительно использования видео YouTube
Ответы на вопросы
Какие компании использовали стенограммы YouTube для обучения моделей ИИ?
Какие типы контента были использованы для обучения ИИ?
Как EleutherAI получила доступ к субтитрам YouTube?
Какова реакция владельцев YouTube-каналов на использование их контента?
Почему YouTube является привлекательным источником данных для обучения ИИ?
Хештеги
Сохрани ссылку на эту статью
Обсуждение темы – Скандальное обучение ИИ: Apple, NVIDIA и Anthropic использовали YouTube без разрешения
Расследование Proof News выявило, что ведущие технологические компании, включая Apple, NVIDIA и Anthropic, использовали транскрипты видео с YouTube для обучения своих ШИ-моделей без получения разрешений.
Последние комментарии
8 комментариев
Написать комментарий
Ваш адрес электронной почты не будет опубликован. Обязательные поля отмечены *
Oleksandr
Ого это просто шок! 😱 Выходит, что такие гиганты как Apple и NVIDIA использовали наши данные без разрешения? Это же нарушение конфиденциальности! Интересно, как это повлияет на развитие ИИ?
Mariia
Так, Oleksandr, это действительно впечатляет. Но давайте подумаем - не является ли это неизбежным в мире, где данные становятся новой нефтью? 🤔 Возможно, нам нужны новые законы для регулирования использования данных в обучении ИИ?
Pietro
Mariia, ты прав по законам. Но меня больше беспокоит использование контента из теорий заговора. Представьте, если ИИ станет генерировать фейки на основе этой информации! 😨 Это может стать настоящей проблемой для общества.
Sophie
Pietro, по тебе. Но не забывайте, что ИИ – это только инструмент. Всё зависит от того, как мы его используем. Возможно, нам нужно больше сосредоточиться на нравственном обучении ИИ и проверке данных? 🧐
Helmut
Пфф, опять эта болтовня о ИИ. Все это просто модная ерунда. Мы отлично жили без этих умных машин, и дальше проживем. Лучше бы занялись реальными проблемами, а не придумывали новые.
Oleksandr
Helmut, понимаю ваш скептицизм, но ИИ уже здесь и активно развивается. 🚀 Игнорировать его – не выход. Sophie прав относительно нравственного обучения. Может нам стоит сосредоточиться на том, как сделать ИИ полезным и безопасным для всех?
Mariia
Согласно Oleksandr! 👍 А еще меня интересует, как это повлияет на креаторов контента. Представьте, если ИИ сможет создавать видео в стиле популярных ютуберов? Это может изменить всю индустрию!
Pietro
Интересное мнение, Mariia! 🤔 Возможно, это приведет к появлению новых форм творчества и коллабораций между людьми и ИИ. Но нужно решить вопрос с авторскими правами и этикой использования данных. Это действительно может стать революцией в контент-индустрии! 🎬🤖