飞网设计:山西互联网营销策划推广中心 电话咨询 133-1343-5212 |
当前位置:建站知识 |
如何设置robots.txt不让搜索引擎抓取网站内容? |
时间:2022/12/12 20:51:25 浏览量:1191 |
robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立: 1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权; 2、网站有义务保护其使用者的个人信息和隐私不被侵犯。 robots.txt 禁止百度蜘蛛抓取,robots.txt内容如下: User-agent: Baiduspider Disallow: / 禁止所有搜索引擎访问网站的任何部分,robots.txt内容如下: User-agent: * Disallow: / |
公司地址:山西省太原市长风西街62号 |
QQ:94589848 电话:133-1343-5212 |
晋ICP备08001781号 |