防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技 2024-08-22 11:53:59新闻资讯
500

8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

百度百科.png

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

百度百科 谷歌 必应 搜索引擎
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

新站多久能被收录?各大搜索引擎网站收录时间盘点
不同搜索引擎对新站的收录周期存在显著差异,且受网站质量、内容策略、技术架构等多重因素影响。本文站长工具网基于权威来源信息,系统梳理Google、百度、Bing、Yahoo、Yande...
2025-09-15 站长之家
503

AMP是什么意思?谷歌AMP使用方法详细指南
AMP 是谷歌开源的一种网页框架,旨在帮助网页实现秒开加载,尤其适用于新闻资讯、博客、电商产品页等内容型网页。本文站长工具网将为你详细介绍 AMP 是什么、它的核心原理、如...
2025-08-29 站长之家
437

谷歌站长平台提示“网址没有任何增强选项”是怎么回事?
谷歌站长平台(Google Search Console)是网站优化与搜索引擎交互的核心工具,当用户发现平台提示“网址没有任何增强选项”时,往往意味着网站未充分利用结构化数据、AMP等高...
2025-08-28 站长之家
506

Nginx中禁止直接浏览器访问某文件但允许搜索引擎访问的配置方法
在网站运营中,部分文件需要限制直接通过浏览器访问,但允许搜索引擎爬虫(如Googlebot、Bingbot)抓取并展示在搜索结果中。Nginx作为高性能Web服务器,可通过灵活的配置实现...
2025-08-24 站长之家
733

站长如何避免网站被搜索引擎降权?实用建议来了
搜索引擎降权是指搜索引擎对违规或低质量网站采取的排名惩罚措施,表现为关键词排名下降、收录量锐减甚至完全消失。本文站长工具网将从技术优化、内容策略、用户体验和合规运...
2025-08-19 站长之家
559

核心 Web Vitals 是如何影响网站Google搜索排名的?
本文站长工具网将系统解析CWV的三大核心指标(LCP、INP、CLS)的技术原理、优化方法,及其如何通过用户行为数据、AI模型训练、搜索排名算法三个维度深度影响Google搜索结果。
2025-08-04 站长之家
449