AI时代，内容平台如何防止原创被大规模剽窃

2024-05-09|小象 3920

知识共享是互联网文化的重要组成部分，它通过共享资源许可证允许人们访问内容并创建衍生作品。随着生成式AI和大型语言模型的出现，对在线内容的大规模收集正在威胁到知识共享的原则。

生成式AI和大型语言模型的兴起，网络爬虫正在对在线内容的大规模收集已经成为常态，已经威胁到知识共享的原则。被爬虫收集的这些数据被用于开发AI模型。但是这些内容往往并未经过创作者的充分授权，这引发了对知识共享原则的争议，这与知识共享的理念相悖。

生成式AI、大模型对数据提出了前所未有的要求。市场逐渐凝成这样的共识：得数据者得天下，数据是大模型竞争的关键。目前，AI训练数据主要有两种来源：自采集和爬取。自采集数据需要大量的人力、物力和时间，成本较高。而爬取数据则相对容易获取。

2023年全球网络爬虫采集的数据量将达到1900亿条，其中超过80%的数据来自非授权。网络爬虫通常会通过编程的方式自动访问网站，获取用户信息或数据。这类行为不仅侵犯了用户的隐私，也给企业造成了巨大的经济损失。预计2024年，网络爬虫非法采集数据的情况有增无减。

面对这一问题，技术界亟需采取行动。

首先，对于在线内容网站所有者来说，可以通过robots.txt文件来阻止爬虫的访问。当然，这种方法是一种君子协定，因为目标明确的网络爬虫完全绕过这些规则。

其次，可以考虑采取技术手段来对抗爬虫，使用反爬虫技术来检测和阻止爬虫的访问。例如顶象为企业提供了全流程的立体防控方案，能够有效防范网络爬虫的恶意盗取行为。尤其方案的顶象无感验证，基于AIGC技术，能够防止AI的暴力破解、自动化攻击和钓鱼攻击等威胁，有效防止未经授权的访问、拦截网络爬虫盗取。

最后，需要加强法律法规的制定和执行，以保护内容创作者的权益，确保他们的作品不会被未经授权地使用。

顶象