防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技 2024-08-22 11:53:59新闻资讯
329

8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

百度百科.png

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

百度百科 谷歌 必应 搜索引擎
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

谷歌联盟(Google Ads)广告投放避坑指南:这样放广告分分钟被封号!
作为一名个人站长,通过网站投放谷歌联盟(Google Ads)广告来盈利是一种常见的做法。然而,谷歌联盟广告投放存在着诸多风险和陷阱,一旦操作不当,不仅可能导致广告效果大打...
2025-03-10 站长之家
259

谷歌免费AI代码助手(Gemini Code Assist):每月提供18万次代码补全
当地时间2月25日,谷歌面向个人开发者推出了Gemini Code Assist for Individuals。这款免费的编程助手旨在使学生、编程爱好者、自由职业者以及初创公司能够更加便捷地获取具备...
2025-02-26 新闻资讯
214

​谷歌内部测试新搜索 “AI 模式”,基于Gemini 2.0 技术
谷歌搜索正在进行一项新功能的内部测试,该功能被称为 “AI 模式”,旨在为用户提供一个可以提出更开放式和探索性问题的 “持久性空间”。这一新体验基于谷歌的 Gemini2.0技术...
2025-02-06 新闻资讯
205

站长工具网:搜索引擎是如何判断网站内容质量的?
随着互联网的飞速发展,搜索引擎已经成为人们获取信息的主要工具之一。对于网站运营者来说,了解搜索引擎如何判断网站内容的质量至关重要。高质量的内容不仅能吸引更多的用户...
2025-01-20 站长之家
311

今日头条搜索排名怎么做?头条搜索引擎网站排名优化方法详解
随着互联网的快速发展,搜索引擎优化(SEO)已经成为企业获取流量和提升品牌影响力的重要手段。今日头条作为国内领先的资讯平台,其搜索功能也逐渐成为企业推广的重要渠道。本文...
2025-01-19 站长之家
351

InfAlign:谷歌DeepMind推出的提升语言模型推理对齐能力的机器学习框架
随着人工智能技术的不断发展,生成式语言模型在各个领域的应用日益广泛。然而,这些模型在从训练到实际应用的过程中面临着诸多挑战。其中,如何在推理阶段使模型达到最佳表现...
2025-01-03 新闻资讯
222