网站推广工具“秘塔与知网之争”——反不正当竞争和著作权视角下

配资动态

配资动态您的位置：主页 > 配资动态

2025-01-15 88 返回列表

前言

近日，上海米塔网络科技有限公司（以下简称“米塔”）发布声明称，收到《中国学术期刊（光盘版）》电子杂志有限公司（即中国知网（CNKI，以下简称“CNKI”）通知函。 CNKI认为，米塔未经许可向用户提供CNKI海量学术文献引用和汇总数据，构成严重侵权，要求米塔立即停止侵权行为并断开链接。 Tower表示，未来将不再收录CNKI数据，而是收录其他权威中英文知识库的数据。事实上， Tower与CNKI之间的纠纷只是大模型搜索合规性问题的冰山一角。结合自身服务大型企业客户的经验和检索相关信息，我们团队梳理了人工智能搜索的运营原则，从反不正当竞争入手。从著作权、版权角度进行人工智能搜索的合规风险识别，并提供相应的合规建议。

1、AI搜索工作原理及产品模型

(1) 人工智能搜索的工作原理

明确人工智能搜索的运行原理是识别人工智能搜索产品合规风险的前提。

人工智能搜索操作通常由两部分组成：用户界面和后台搜索过程。用户在用户界面上提出问题，这是整个AI搜索过程的起点。在后台搜索过程中，问题作为搜索语句（查询）输入到AI模型中，重写问题并输出增强的查询。关键词（）是通过自然语言处理（NLP，）分词得到的。以关键词作为索引目标，在索引数据源中进行索引，得到初始信息（）。之后，通过相关性排名（rank）和AI模型（）进一步排序或者直接使用AI模型进行排名（rank）。排序后的信息 ( )。排序后的信息作为搜索结果输入到AI模型中进行汇总，并将汇总后的答案和链接组合输出到用户界面。用户收到答案和链接后，一个完整的AI搜索流程就完成了，如图1所示：

图1：AI搜索工作原理示意图

（2）AI搜索产品模型

根据AI搜索原理和产品实际，目前AI搜索产品模式主要通过索引数据来源的不同来区分：调用传统搜索引擎索引数据库API作为索引数据源，使用爬虫通过索引获取数据。以传统搜索引擎的URL作为索引数据源，自建索引数据库作为索引数据源。

上述三种指标数据源可以单独使用，也可以组合使用。调用传统搜索引擎索引数据库API是最便捷的索引数据来源。不过，一般来说，传统搜索引擎需要付费购买索引数据库API接口。有些搜索引擎甚至不向外界提供API接口。因此，对于一些小型的AI搜索产品来说，调用API接口并不实际，因此可以选择使用爬虫通过传统搜索引擎的URL获取数据作为替代。传统搜索引擎背景的AI搜索产品采用自建索引数据库作为索引数据源，如360、Bing等推出的360人工智能搜索。也有一些AI搜索产品在一个索引库中使用三个索引数据源。全面的方式，如谷歌、米塔AI、天工AI等的推出。

1、调用传统搜索引擎索引数据库API作为索引数据源

AI搜索调用传统搜索引擎索引数据库API。首先，用户输入的搜索语句（query）被AI模型重写，得到增强查询，经过NLP分词处理后得到关键词（）。调用API的过程是将关键词输入到传统搜索引擎的索引数据库中进行索引，并获取输入结果作为初始信息（）。

图2：调用传统搜索引擎索引数据库API原理示意图

2、利用爬虫通过传统搜索引擎URL作为索引数据源获取数据

AI模型使用爬虫通过传统搜索引擎的URL获取数据。首先需要对增强查询进行NLP分词处理得到关键词（），然后通过URL定位到该关键词对应的传统搜索引擎的结果网页，然后使用HTTP库发送请求到获取网页的页面源代码（即网页的HTML文档），最后通过HTML解析库解析页面源代码，得到初始信息（）。

图3：利用爬虫通过传统搜索引擎的URL获取数据的原理示意图

3、创建自建索引数据库作为索引数据来源

人工智能搜索建立自己的索引数据库。主要利用爬虫遍历目标网页组，存储爬取的数据，并通过数据库技术处理构建本地化索引数据库。爬虫方法的技术实现首先以选定的URL为起点定位网页，通过HTTP库发送请求获取页面源代码（即网页的HTML文档），然后使用HTML解析库解析页面源代码，获取网页数据。并进行本地化存储，完成网页的抓取。最后，根据爬取目标网页群的特点，通过对URL设置递归重复次数，实现数据的自动爬取。

图4：通过爬虫自建索引数据库原理示意图

2、反不正当竞争视角下的人工智能搜索合规风险

（一）调用传统搜索引擎索引数据库API的合规风险

获取索引数据最便捷的方式是调用传统搜索引擎索引数据库的API接口，发送请求信息，接收返回的搜索结果。未经许可调用API接口，或者超出允许范围使用API接口，例如通过API接口获取后端数据、利用API接口搭建镜像网站或山寨网站等，都是“搭便车”商业利益”，构成不正当竞争。认定该行为合法性的法律依据包括《中华人民共和国反不正当竞争法》（以下简称《反不正当竞争法》）《互联网专条》第十二条的总括条款。）、《竞争法暂行规定》（以下简称《暂行规定》）第十九条、第二十六条、《反不正当竞争法》第二条关于一般不正当竞争条款。

《反不正当竞争法》第十二条《互联网特别条款》通过打字条款+封面条款的方式规制互联网不正当竞争行为。涉及的打字术语包括“强制跳转”、“选择一项”和“恶意不兼容”。未经许可调用API接口或超出允许范围使用API接口不属于打字条款之一，因此应归属于救助条款的调整。国家市场监督管理总局发布的《暂行规定》将于2024年9月1日起施行。《暂行规定》是对《互联网特别条款》中关于互联网不正当竞争行为的规定的细化和补充反不正当竞争法的规定。需要强调的是，由于《暂行规定》是法律效力较低的部门规章，部门规章在司法审判中的效力通常不被视为直接的法律依据杭州网站推广，而是被称为法律、行政法规的补充。法规。或解释。因此，如涉及相关司法纠纷，应以《反不正当竞争法》第十二条作为直接法律依据，并以《暂行规定》作为补充，以实现更有效的权益保护。《暂行规定》第十九条“非法获取、使用数据”条款包括以下内容： A.利用技术手段； B. 非法获取、使用其他运营者合法持有的数据； C.阻碍、破坏其他运营者合法提供的网络产品或者服务的正常运行； D、扰乱市场公平竞争秩序。结合以上要素，进行如下分析：

需求A：使用技术手段，包括通过API接口获取后台数据、通过爬虫机器人访问URL等。

要素B：非法获取、使用其他运营者合法持有的数据。 B元素的进一步细分：

一个。 “数据”是指以电子或其他方式记录的任何信息。

b. “合法占有”可以借鉴“数据资源所有权”的定义，是指其他运营者通过合法渠道获取数据，使数据处于自己的控制之下，同时可以将他人排除在外。侵犯控制状态。

c. “非法获取、使用”又可细分为“非法获取”和“非法使用”。其中，“非法获取”是指数据来源不合规。数据来源一般可分为三个渠道：公共数据开放或授权、系统生成、交易市场采购。每个渠道的数据源都有相应的数据合规计划。未能达到相应的数据源合规性可能会涉及“非法获取”。 “非法使用”可以参考“数据处理使用权”中“数据使用权”的定义。所谓“数据使用权”，是指数据需求者（权利人）基于数据共享、数据交易等，在法定或者合同约定范围内使用合法获得的数据资源或者数据产品的权利。使用是指超出法律或者合同约定的范围使用未经合法取得的数据资源或者数据产品。

要求C.阻碍、破坏其他运营者合法提供的网络产品或者服务的正常运行。关于该要求的判断，《暂行规定》第二十六条规定了判断因素，可以直接适用。

构成要件D、扰乱市场公平竞争秩序。竞争秩序的利益基础是“公共利益”，包括信息透明、企业创新等，从而促进整体利益的提高。在判断竞争秩序时，应采用函数视角，以竞争能否产生优胜劣汰的筛选函数作为判断竞争秩序是否良性的标准。

未经许可调用API接口或者超出允许范围使用API接口是否符合《暂行规定》第十九条规定的情形，重点关注C要素（依法阻碍、破坏网络产品或服务的正常运行）由其他运营商提供））标识。从《暂行规定》第二十六条的认定因素来看，涉案行为若属于C要素，需要对其他经营者造成一定程度的妨碍、损害，举证要求较高，认定很难，但并不代表代表未经许可调用API接口，或者超越许可范围使用API接口的行为当然合法，因为同样适用反不正当竞争法第二条的一般规定。 ——反不正当竞争法。

根据《反不正当竞争法》第二条规定，不正当竞争行为违反自愿、平等、公平、诚实信用原则，违反法律和商业道德，扰乱市场竞争秩序，损害其他经营者的合法权益。或消费者。维权行为。判断一种行为是否合法，关键在于商业道德的判定；对于商业道德的判断，需要采取平衡市场竞争秩序、其他经营者权益、消费者权益等多重利益的判断路径。至于其他运营商的权益，传统搜索引擎花费了大量的人力、物力、财力建设索引数据库：建设搜索引擎索引数据库需要爬取至少1000亿个网页网站推广宣传，成本至少2亿元至40亿元。预算。传统搜索引擎在花费巨额成本建立索引数据库后，除了开发自己的搜索产品外，还将出现收费提供API接口的商业模式。因此，第三方合规调用API接口是传统搜索引擎应该受到法律保护的业务。益处。未经许可调用API接口，或者超出允许范围使用API接口，属于“不劳而获”，严重侵犯其他运营商的合法权益。在消费者权益方面，虽然可以暂时丰富搜索市场供给，增加消费者选择，但从长远来看，未经许可调用API接口或超出允许范围使用API接口，将导致索引库建设真正费力。当建立和维护索引数据库的预期效益受到损害时，就会影响用户建立和维护索引数据库的努力。这将损害消费者收到的搜索服务的质量，而这对消费者来说很重要。消费者权益弊大于利。就市场竞争秩序而言，反不正当竞争法保护竞争。在判断竞争秩序时，应采用函数视角，以竞争能否产生优胜劣汰的筛选函数来判断竞争秩序是否良性。标准。在搜索产品的市场竞争中，人工智能搜索相对于传统搜索具有技术优势，而传统搜索则在数据、资金等方面具有优势。同时，传统搜索也在进行AI能力升级，技术优势的平衡将逐渐恢复平衡。，所以传统的搜索引擎在很多意义上都是“优秀的”。未经许可调用API接口，或者超出允许范围使用API接口，都会阻碍“优胜劣汰”，损害竞争秩序的健康发展。

（2）利用爬虫通过传统搜索引擎的URL获取数据的合规风险

利用爬虫向传统搜索引擎URL发送查询词并获取搜索结果，是AI搜索产品获取索引数据的另一个重要方式。从“技术中立”的角度来看，数据爬取本身并不违法。其中所蕴含的自由流通理念，不仅是互联网存在的基础，也是《中华人民共和国数据安全法》（以下简称《数据安全法》）规定的。《安全法》第七条明确规定：“依法保障数据有序、自由流动”。因此，所谓使用爬虫本身并不违法。关键在于是否突破了合法性的界限。当爬虫的行为突破合法界限时，就构成不正当竞争。抓取行为构成不正当竞争的法律依据包括《反不正当竞争法》《互联网特别条款》第十二条的掩盖条款、《暂行规定》第十九条、第二十六条以及《反不正当竞争法》第十九条、第二十六条的规定。反不正当竞争法”。竞争法第二条关于不正当竞争的一般规定。

利用爬虫突破合法性界限的常见行为可能包括： 1）违反协议或暴力突破技术壁垒，即“暴力爬虫”； 2) 访问量过多、过多，排挤被爬取网站的服务器访问； 3）爬取包括用户个人信息在内的后台数据信息。所谓协议，并不是法律意义上的协商一致达成的协议。本质上是网站单方面声明是否允许或禁止爬虫。并不形成法律意义上的权利义务关系，但却是业界的普遍共识。在司法实践中，协议违规作为行业惯例，确实是判断爬虫行为合法性的重要参考标准。对于爬虫行为合法性的法律争议，一般应以《反不正当竞争法》第十二条作为直接法律依据，并以《暂行规定》作为补充依据。根据《暂行规定》第十九条，如果爬虫的使用违反本条规定，关键难点在于C要素。阻碍、破坏其他运营者合法提供的网络产品或者服务正常运行的认定，《暂行规定》第一条第二十六条规定的判断因素的重点实际上是上述行为3）过度、过度访问占用被爬取网站的服务器路径。而由于爬虫通常会导致过度、过度的访问，因此第26条的判定因素的范围和标准非常广泛，几乎阻止了所有的暴力爬行行为。 3）行为可能涉及侵犯隐私，需要结合《中华人民共和国网络安全法》（以下简称《网络安全法》）、《数据安全法》和《中华人民共和国个人信息保护法》《中华人民共和国个人信息保护法》（以下简称《个人信息保护法》）。《信息保护法》）及相关规定，具体标识此处不再赘述。

爬虫行为妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行，且未达到《暂行规定》第二十六条规定的认定程度的，适用《反网络爬虫办法》第二条的规定。应当考虑《反不正当竞争法》。公平竞争受一般条款规范。对于一般条款的适用，涉及到商业道德的认定。由于不少法院都采用行业惯例、行业惯例等作为特定行业商业道德的认定标准，暴力爬虫方式极有可能因为违反行业惯例而被违法。直接认定为不正当竞争。对于商业道德认定过程中的多重利益平衡，可以参考上述《调用传统搜索引擎索引数据库API的合规风险》中的相关论点。

（三）自建指标库合规风险

通常，自建索引数据库作为索引数据来源的关键是爬虫行为的合规性。具体讨论可以参考上文《利用爬虫手段通过传统搜索引擎URL获取数据的合规风险》中关于爬虫行为合法性的讨论。

一些AI搜索产品是传统搜索引擎为适应AI搜索能力升级而推出的改进产品。此类产品与其他需要全新索引数据库的产品不同，大多是在原有索引数据库的基础上进行升级的。例如，360建立了百亿规模的多模态RAG索引库。这个新的索引库是专门为大规模人工智能模型设计的。它实现了AI原生索引架构，采用最新的RAG技术理念，重构了信息抽取的技术方案。传统搜索引擎的自建索引数据库除了利用爬虫技术外，还以流量推荐等网站推广作为考虑因素，吸引网站管理者主动上传链接和数据。这种获取网站链接和数据可以理解为传统搜索引擎获取网站的API接口访问权限。传统搜索引擎在计划升级AI能力时，在主动上传链接和数据时，需要告知网站管理者网站链接和数据用于AI搜索产品的目的和情况。如果未告知网站管理员该链接和数据将用于人工智能搜索产品，则可能超出允许范围使用API接口。根据《反不正当竞争法》第十二条和《暂行规定》第十九条、第二十六条以及《反不正当竞争法》第二条一般不正当竞争规定，具体合规风险识别可参见上述《调用传统搜索引擎的合规风险》中关于“未经许可调用API接口或超出允许范围使用API接口”合规风险识别的讨论。索引数据库 API”。

有些AI搜索产品是为内容服务提供商内置的AI搜索。对于此类产品网站推广工具“秘塔与知网之争”——反不正当竞争和著作权视角下AI搜索的原理与合规探索，其索引数据库的建立不依赖于爬虫。此类产品的主要搜索对象是内容服务提供商控制的数据内容。该数据内容的原始来源主要有两个：一是用户上传，二是通过版权许可获得。对于用户上传的内容，主要的合规风险是获得用户数据使用的同意。根据《个人信息保护法》第十三条规定，个人信息的使用需要取得个人同意或者符合相关同意豁免要求。对于通过版权许可获得的内容，主要合规风险在于版权许可的获取。有关获取版权许可的具体讨论，请参阅下面的“使用 AI 模型总结和生成答案的合规风险”。

3、版权视角下的人工智能搜索合规风险

（一）爬虫侵犯网页版权的合规风险

爬虫行为需要获取网页的页面源代码（即HTML文档）。这是否侵犯了网页的版权？从技术角度来看，HTML文档是网页的本体，用户看到的页面是浏览器运行HTML文档的结果。网站网页通常涉及文字、图像、音乐、动画、界面（格式设计、布局安排）和网页源程序等元素，具有很强的视觉艺术效果。由于电子数据载体和网页内容要素形式丰富多样，不能归入《中华人民共和国著作权法》（以下简称“著作权法”）第三条规定的具体类别的作品。法律”）。对于“计算机软件作品”、“编译作品”、“多媒体视听作品”等网页作品的属性有多种看法。然而，无论采用哪种属性视角，网页版权都保护网页元素的原始选择或排列。通过HTML文档获得的网页中的文本、图片、视频等数据，不属于网页版权的保护对象。因此，爬虫获取网页的页面源代码（即HTML文档）的行为并不侵犯网页的版权。但如果网页上的文字、图片、视频本身构成作品，并且是该作品的电子形式，复制、传播这些电子作品就可能构成著作权侵权。具体讨论见下文。

（2）利用AI模型总结生成答案的合规风险

1.答案可能侵犯转载权

一些人工智能搜索产品在其答案中大量复制了某个文献数据库中的作品文本内容。这种复制侵犯了复制文学作品的权利。上述作品通常由文献库平台转授权版权，文献库平台可以向人工智能厂商相应主张权利。

一些人工智能搜索产品直接在用户的回答中提供作品摘要，这也是对文学作品复制权的侵犯。根据最高人民法院在审理计算机软件侵权案件中关于“部分复制”的相关认定，一般情况下，文章摘要在整个作品中具有相对独立的功能，属于原创表达，应当予以保护。被视为文学作品的一部分。摘要的复制构成作品的部分复制。

2、答案可能侵犯作品完整性保护权

由于人工智能神经学习和黑盒处理具有一定的“自主性”网站推广的目的和意义，因此在处理输入内容并将其转换为输出内容时存在一定程度的不准确性。人工智能搜索产品提供的答案可能涉及对文学作品的误解和篡改，从而损害作品或作者的声誉，构成对保护作品完整性权的侵犯7。作品作者可以据此向AI厂商主张权利。

3、该答案可能侵犯信息网络传播权

有些人工智能搜索产品直接在答案中为用户提供某文献库中作品全文的PDF或word格式文件供用户浏览或下载，或者直接复制答案中上述作品的文字内容或者摘要内容可能侵犯文献数据库平台的信息网络传播权。作品的信息网络传播权由文献数据库平台通过分许可的方式获得。该权利的主要内容是“由数据库平台提供——由用户获得”。根据《信息网络传播权纠纷司法解释》第三条，人工智能厂商未经许可提供作品全文的，构成侵犯信息网络传播权。

一些人工智能搜索产品在用户的答案中提供了文献数据库作品的链接。这就需要分为普通链接和深度链接来分析。对于用于访问他人网站的链接来说网站推广的目的和意义，指向他人网站主页、能够引导浏览器跳转至主页、并完整显示其内容及其网络地址的链接称为“正常链接”或“浅层链接”。链接”。不指向网站主页，而是指向网站结构更深处的网页（“二级页面”）或媒体格式文件的链接称为“深层链接”或“深层链接”。普通链接仅向公众提供所链接网页或作品的网络地址信息。它们并不直接触发提供作品的行为，而是引导网络用户跳转至链接网站获取作品。其行为不构成对信息网络传播权的直接侵犯。，但仍可能涉及间接侵权责任或连带侵权责任。对于深度链接，关键要判断其是否构成提供作品的行为，从而侵犯文献数据平台的信息网络传播权。目前，司法实践中的主流是服务器标准网站推广，即被诉作品是否存储在AI厂商的服务器中。根据该标准seo网站推广，人工智能搜索产品如果不使用自建数据库作为索引数据来源，一般不构成直接侵权。只有当人工智能生产者知道或者应当知道链接作品的内容构成侵权时，才能认定为间接侵权。但如果人工智能搜索产品使用自建数据库作为索引数据来源，则可能构成直接侵权。

4.答案是否受版权保护？

对于人工智能搜索生成的答案是否可以受到版权保护，存在不同的看法。第一种观点是：根据著作权法第三条规定，受著作权法保护的作品需要同时满足以下三点：（一）具有原创性；（二）属于文学、艺术、科学领域的；（三）能够以一定形式表现的智力成果。当前人工智能产生的内容虽然具有人类智造的表象，但它是特定系统和算法运行后得到的产物，与人类智造有本质区别。其产生的内容难以构成著作权法意义上的内容。作品。北京法院裁定，计算机软件智能生成的案件中涉及的文章并不构成工作。原因是根据当前的法律规定，书面作品应由自然人创建。第二种观点是，人工智能产生的内容主要是设计师思想的表达，其作者是人工智能背后的自然人。该行业的第一个版权争议案件确定人工智能产生的内容构成了一项工作，这支持了这一观点。另一个观点是，人工智能产生的内容主要是用户思想的表达，而人工智能系统本身只是一种辅助工具。用户对工作做出了最大的贡献，因此生成的内容的版权应属于用户。

4。AI搜索合规建议

（1）与传统搜索引擎促进数据合作

索引数据是确保搜索服务质量的基础。传统的搜索引擎通过多年的优化投资积累了巨大的指数数据库。对于AI搜索，调用传统搜索引擎索引数据库的API接口是最有效，最方便的索引数据来源。使用传统搜索引擎促进数据合作，获得API接口呼叫权限并合理地使用它们是AI搜索的重要方法，以确保索引数据的数量和质量。

（2）严格遵守该协议并确保爬行者合规性

通过爬行者构建自我索引数据库是用于开发AI搜索的战略布局。自行索引数据库在AI搜索开发，垂直搜索和深入搜索中起着重要作用，以创建产品竞争优势。 AI搜索应严格遵守爬行网站的协议，避免使用暴力爬行者突破爬行网站设定的技术保护措施，并避免过度爬行者访问频率，从而导致爬行网站的服务器故障。

（3）为个人信息保护和数据安全合规奠定坚实的基础

AI搜索应通过调整用户协议，隐私政策等，建立并改善数据安全的技术和机构保证，并严格遵守网络安全法，数据安全法和个人信息保护法的法律依据。有关数据安全和个人信息保护的法规，认真履行数据安全和个人信息保护义务，并避免由于个人信息保护不足而影响产品运营，并且不符合数据安全性。

（4）优化答案预处理以避免版权侵权

AI搜索应优化答案预处理过程，避免复制和提供享有版权保护的其他人的作品，避免使用深层链接，确保遵守答案内容，避免禁止的内容，探索获得版权许可，并促进与合作的合作文献数据库平台合作。当怀疑侵犯版权时，应尽快采用删除内容，断开链接和发布公告等方法，以通过“安全港”规则获得免于侵权损害的豁免权。

引用：

[1]使用互联网从事生产和商业活动的“中华人民共和国反对竞争法”的第12条应遵守本法律的规定。

操作员不得使用技术手段来执行以下行为，以阻碍或破坏其他运营商合法提供的网络产品或服务的正常操作，从而影响用户选择或其他方式：

（1）插入链接或强迫目标跳跃到未经其他运营商同意的法律提供的网络产品或服务中；

（2）误导，欺骗或强迫用户修改，关闭或卸载网络产品或其他运营商合法提供的服务；

（3）恶意使其他运营商合法提供的不兼容的网络产品或服务；

结尾

鑫源网络科技网站制作推广：www.lgfg.cn

上一篇：厦门网络推广喜欢汉服，我们喜欢的到底是什么？ 下一篇：深圳网络推广电子商务网站推广策略：SEO优化与社交媒体营销助