一项新研讨好像为 OpenAI 至少运用部分受版权维护内容来练习其人工智能模型的指控供给了依据。
OpenAI 正面对由作家、程序员以及其他版权持有者提起的诉讼,这些原告责备该公司在未经许可的情况下,运用他们的著作 —— 包括书本、代码库等,来开发其模型。虽然 OpenAI 一向宣称其享有合理运用的抗辩理由,但原告方则以为美国版权法中并无针对练习数据的豁免条款。
该研讨由华盛顿大学、哥本哈根大学和斯坦福大学的研讨人员一起编撰,提出了一种新办法,用于识别像 OpenAI 这样经过使用程序接口(API)供给服务的模型所“回忆”的练习数据。
AI 模型本质上是猜想引擎,经过很多数据练习,它们可以学习各种形式,然后生成文章、相片等。虽然大多数输出并非练习数据的逐字仿制,但由于模型的“学习”办法,部分内容不可避免地会被模型回忆下来。此前已有研讨之后发现,图画模型会重复生成其练习数据中电影的截图,而言语模型则被观察到存在剽窃新闻文章的行为。
该研讨的中心办法依赖于研讨人员提出的“高意外性”词汇,即在很多著作中显得不常见的词汇。例如,在语句“Jack and I sat perfectly still with the radar humming”中,“radar”(雷达)一词被以为是高意外性的,由于从统计学视点来看,它出现在“humming”(嗡嗡作响)之前的或许性比“engine”(引擎)或“radio”(收音机)等词要低。
一起作者对包括 GPT-4 和 GPT-3.5 在内的几种 OpenAI 模型进行了测验,经过从虚拟小说片段和《》文章中移除高意外性词汇,然后让模型测验“猜想”被屏蔽的词汇,来寻觅回忆痕迹。研讨人员以为,假如模型可以成功猜出这些词语,则很或许标明该模型在练习过程中回忆了这些片段。
依据测验成果,GPT-4 显示出记住了盛行小说书本的部分内容,包括一个包括受版权维护电子书样本的数据集 BookMIA 中的书本。成果还标明,该模型记住了《》文章的部分内容,虽然份额相对较低。
华盛顿大学的博士生、该研讨的一起作者阿比拉沙・拉维奇汉德(Abhilasha Ravichander)对 TechCrunch 表明,这些发现提醒了模型或许承受练习的“有争议的数据”。