防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技 2024-08-22 11:53:59新闻资讯
443

8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

百度百科.png

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

百度百科 谷歌 必应 搜索引擎
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Gen-CLI:基于DeepSeek的AI命令行编程工具,谷歌Gemini-CLI平替方案
Gen-CLI是一个开源的命令行编程工具,旨在为国内开发者提供类似于谷歌Gemini-CLI的AI辅助编程体验。该项目基于开源的Gemini-CLI进行改造,通过调用硅基流动(SiliconCloud)平台...
2025-07-09 新闻资讯
291

BlenderFusion:谷歌DeepMind开发的2D图像转换为可编辑3D场景框架
BlenderFusion 是由谷歌DeepMind团队开发的一项革命性技术,它能够将普通的2D照片转换成完全可编辑的3D场景。它能够精确控制图片中每个物体的位置、角度、大小,改变颜色材质...
2025-07-03 新闻资讯
275

新手站长常忽视的SEO优化技巧,掌握这3点让搜索引擎秒收录!
许多新手站长在SEO优化过程中,往往因忽视基础细节或过度依赖技术捷径,导致网站陷入“上线即沉寂”的困境。本文站长工具网将结合2025年最新SEO实践案例与搜索引擎算法规则,...
2025-07-02 站长之家
326

Gemini CLI:谷歌开源的命令行界面AI编程工具
Gemini CLI是谷歌开源的一款命令行界面AI编程工具,它将Google Gemini系列大模型的强大能力直接集成到开发者终端环境中。作为基于Gemini 2.5 Pro多模态模型的AI代理框架,Gem...
2025-06-27 新闻资讯
351

新站SEO入门指南:3步打造搜索引擎喜爱的网站结构
在算法不断迭代的今天,搜索引擎对网站结构的评估维度已从简单的页面关联性,升级为对用户体验、信息架构、技术规范的三维考核。对于新站而言,搭建符合搜索引擎抓取逻辑的网...
2025-06-24 站长之家
287

AI时代原创内容的标准变了?揭秘搜索引擎认可的4大创新维度
在AI技术席卷全球的今天,搜索引擎早已不是简单的“关键词匹配机器”。Google的BERT、MUM算法,百度的文心大模型,正在让搜索引擎具备“理解内容深层含义”的能力。本文站长工...
2025-06-21 站长之家
312