这些案件可能会在未来几年内继续诉讼

pappu636 · Post by **pappu636** » Mon Jan 20, 2025 8:27 am

然而，我无法相信科技公司竟然如此傲慢，竟然认为包括盗版书籍的数据集不会导致针对他们的大规模诉讼。即使他们坚信他们所做的构成了合理使用，并且有理由这么认为，以这种方式让自己承担责任，在最好的情况下也显得鲁莽，在最坏的情况下也显得愚蠢。尤其是因为我相信遵守法律相对便宜，我稍后会讨论这一点。

采取法律行动是否可行？

许多书籍被收录在数据集中的作者可能正在考虑对侵犯版权的行为采取法律行动，因此他们应该咨询自己的律师，而不是阅读这篇博文。但有些人可能不想这样做，或者不确定下一步该怎么做。

分析这种情况时需要考虑很多因素。从表面上看，这似乎是一个非常简单的版权侵权案例：未经作者许可复制书籍，这些副本被用来训练大型语言模型。案子了结，就等着钱滚滚而来吧……但我认为情况并不完全简单，。

首先要考虑的是，谁首先复制了这些内容？可以肯定的是，EleutherAI 似乎是本案中最有可能侵犯版权的一方，他们明知故犯地使用了包含侵权书籍副本的数据集。但 EleutherAI 并不是诉讼的理想目标，它是一个松散的机器学习爱好者团体，最初是一个 Discord 聊天群，后来发展成为一个自称研究组织的组织。即使他们被发现侵权，获得任何金钱补偿的机会也微乎其微。最好的情况是获得一项禁令，下令停止任何侵权数据集的分发。当然，它也会通过其他非法手段提供，但至少官方分发会停止。

第二方，也是最有诱惑力的目标，就是 Meta 本身。我们确信他们在某些培训中使用了 Books3，所以他们侵犯了版权，对吗？在我看来，事情变得有点棘手。我一点也不认为这些公司的内部法律顾问会批准使用 Books3，即使你认为这是合理使用，而且这无论如何都是一场豪赌。所以在我看来，有两种选择：研究人员没有咨询他们的律师，因为他们认为 Books3 是合理使用的，或者他们可能不知道 Books3 包含侵权作品副本。我不知道，但在这些诉讼中，发现应该很有趣。

然而，即使 EleutherAI 的复制行为可能直接构成版权侵权，我认为其他公司随后的使用行为可能不那么具有可诉性。作者的专有权往往因司法管辖区的不同而有所不同，但在大多数地方，版权持有人有权复制、制作衍生品（改编）、出借、出版、展示、表演、向公众传播等。这意味着，为了执行任何这些操作，您需要获得所有者的许可。

我认为，第一道防线将在这里展开，这已经成为一些早期法国手机数据驳回动议的一部分，尽管我们只看到了一些蛛丝马迹。论点大致如下：这些书不是 Meta 复制的，他们采用了一个公开可用的数据集，并用它来内部训练大约 2.5% 的模型，这意味着这些书没有出版，也没有向公众提供，由此产生的模型不是这些书的衍生品。根据这一论点，被告将声称他们所做的相当于合理使用，因为由此产生的模型不包含作品的副本。此外，他们可能会辩称，由此产生的作品与数据集中的任何书籍都没有商业冲突，你不会使用 LLaMa 或 ChatGPT 来阅读整部《冰与火之歌》。Meta 在 Silverman 案的驳回动议中，在讨论衍生品问题时使用了这一论点：

“事实/表达二分法在 Authors Guild 案中得到进一步阐明，第二巡回法院驳回了一项论点，即 Google Books 项目（Google 未经许可制作了数百万本图书的数字副本，以创建一种允许互联网用户搜索其中某些单词或术语的工具）构成了侵权衍生作品。法院认为，原告没有“所谓的衍生权利来提供有关其图书的信息”，例如“词频、句法模式和主题标记”。法院发现，这种“统计信息”不构成“受版权保护的表达”，Google 对其的使用“不支持原告的衍生作品论点。