08:10, 10 января 2024

Можно ли обучить ИИ без кражи контента под авторским правом?

OpenAI, создатель ChatGPT и DALL-E, ведет крупную юридическую битву против The New York Times. Газета утверждает, что использование контента, созданного его авторами, в процессе обучения ИИ было “незаконно”.

Обвиняются OpenAI и один из ее ведущих инвесторов, Microsoft. OpenAI наносит ответный удар.

По отчету The Guardian, в заявлении для Комитета палаты лордов по коммуникациям и цифровым технологиям, OpenAI утверждает, что невозможно обучить модель ИИ без использования контента, защищенного авторским правом. Соответствующий отрывок приведен ниже:

Мы считаем, что инструменты искусственного интеллекта наилучшим образом показывают себя, когда включают и отражают все разнообразие и широту человеческого интеллекта и опыта. Для этого современные технологии искусственного интеллекта требуют большого объема обучающих данных и вычислений, поскольку модели просматривают, анализируют и изучают закономерности и концепции, возникающие из триллионов слов и изображений. Большие языковые модели OpenAI, включая модели, лежащие в основе ChatGPT, разрабатываются с использованием трех основных источников обучающих данных: (1) информация, общедоступная в Интернете, (2) информация, которую мы лицензируем у третьих лиц, и (3) информация, которую предоставляют наши пользователи или наши тренеры. Поскольку авторское право сегодня распространяется практически на все виды человеческого самовыражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать современные ведущие модели ИИ без использования материалов, защищенных авторским правом. Ограничение обучающих данных книгами и рисунками, являющимися общественным достоянием, созданными более века назад, могло бы стать интересным экспериментом, но не позволило бы создать системы искусственного интеллекта, отвечающие потребностям современных граждан.

OpenAI также опубликовала пост в своем блоге в ответ иск от The New York Times, утверждая, что иск «необоснован».

«Хотя мы не согласны с утверждениями в иске The New York Times, мы рассматриваем это как возможность прояснить наши намерения и то, как мы создаем нашу технологию»,

— объясняет компания.

Далее OpenAI поясняет, что его позиция сводится к четырем пунктам: он сотрудничает с новостными организациями и создает новые возможности, обучение модели ИИ является добросовестным использованием контента, но OpenAI предоставляет возможность отказа от участия. Там же они пишут, что «Нью-Йорк Таймс не рассказывает всей истории».

Что касается второго пункта OpenAI о том, что обучение ИИ является добросовестным использованием контента, компания объясняет: «Обучение моделей ИИ с использованием общедоступных интернет-материалов является добросовестным использованием, что подтверждается давними и широко признанными прецедентами. Мы считаем этот принцип справедливым по отношению к творцам, необходимым для новаторов и критически важным для конкурентоспособности США».

«При этом законные права менее важны для нас, чем быть хорошими гражданами. Мы возглавили индустрию искусственного интеллекта, предоставив издателям простой процесс отказа от участия (который The New York Times приняли в августе 2023 года), чтобы наши инструменты не могли получить доступ к их сайтам»,

— продолжает OpenAI.

Компания также отмечает, что в «других регионах и странах» действуют законы, позволяющие компаниям, занимающимся искусственным интеллектом, обучать модели с использованием контента, защищенного авторским правом, что OpenAI называет движущей силой инноваций и прогресса в области искусственного интеллекта.

Использование огромного количества защищенного авторским правом контента, доступного в Интернете, для обучения модели ИИ, очевидно, быстрее, дешевле и проще, чем платить за контент и использовать материалы, которые находятся в свободном доступе.

В своем документе, представленном Комитету Палаты лордов по коммуникациям и цифровым технологиям, OpenAI поясняет: «При обучении наших моделей соблюдены требования всех применимых законов, включая законы об авторском праве». Далее компания описывает свой относительно новый процесс отказа от участия на веб-сайтах.

Хотя OpenAI сейчас работает над «взаимовыгодными» соглашениями и партнерскими отношениями с крупными поставщиками контента, компания уже провела значительную работу по обучению своих моделей.

Это затрагивает важную проблему для многих, в том числе для группы авторов, состоящей из Джона Гришэма и Джорджа Р.Р. Мартина, которые вместе с 15 другими авторами подали в суд на OpenAI в сентябре прошлого года и обвинили компанию в «систематических кражах в массовом масштабе».

Как это часто случалось в других сферах, связанных с технологическим прогрессом, сфера искусственного интеллекта может закончиться так же, как и многие другие до нее. Компании, первыми “залетевшие” на поприще, окажутся в позиции, чтобы диктовать правила игры. Потенциальные новые игроки, вероятно, будут полностью скованы новыми правилами и государственными законами, которые на данном этапе кажутся неизбежными.

В текущей войне между издателями и компаниями, занимающимися ИИ, действительно важно будет определить ценность общедоступного контента, защищенного авторским правом, а также понять – действительно ли обучение модели ИИ на основе контента под авторским правом является нарушением этих самых прав?

OpenAI, утверждают, что, поскольку контент, защищенный авторским правом, не воссоздается полностью (по крайней мере, не часто), ничего противозаконного не происходит. The New York Times же утверждает, что OpenAI и другие подобные компании украли и незаконно использовали контент на «миллиарды долларов реального ущерба…».

«В результате несанкционированного использования товарных знаков газета понесла и продолжает терпеть ущерб, в том числе ущерб своей репутации в точности, оригинальности и качестве. Это причиняет и будет причинять ей ущерб и экономические потери»,

— утверждает “Times” в своем почти 70-страничном искe.

С документом можно ознакомиться по ссылке: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

«Мы считаем иск The New York Times безосновательным. Тем не менее, мы надеемся на конструктивное партнерство с The New York Times и уважаем ее долгую историю, которая включает в себя сообщение о первой работающей нейронной сети более 60 лет назад и защиту свобод, предусмотренных Первой поправкой»,

— отвечает OpenAI в своем новом сообщении в блоге.

Еще по теме