По мере развития нейронных сетей сильно начал расти спрос на данные и различные датасеты, которые можно использовать для обучения ИИ. Многие компании не предавали особенного значения тому, как и где они берут данные, кому принадлежат права на них и нужно ли получить согласие правообладателя.
Это привело к большому количеству судов с крупными разработчиками LLM по поводу незаконного использования результатов интеллектуальной деятельности для обучения своих ИИ. В том числе разберем кейсы:
1. OpenAI vs гильдия авторов
2. OpenAI vc New York Times
3. Perplexity vs Медиа-холдинги
4. Suno и Udio vs Музыкальные лейблы
Но как тогда безопасно использовать данные для обучения?
Попытаемся разграничить, какие данные можно бесплатно использовать для обучения, а для каких нужно получать согласие автора.
Можно ли использовать чужую ИИ для обучения собственной, как например, это делал DeepSeek, используя ChatGPT и сэкономив миллиарды долларов на поиск, сбор и разметку данных?
А также сделаем краткий обзор тех датасетов и открытых лицензий, которые уже появились и можно относительно доступно использовать в разработке.