robots协议是什么?
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被爬虫访问的部分,这样,该网站的部分或全部内容就可以不被收录了,或指定搜索引擎只收录指定的内容。
robots.txt(文件名必须小写)是一种存放于网站根目录下的文本文件,它通常告诉网络蜘),此网站中的哪些内容是不能被搜索引擎爬取的,哪些是可以爬取的。 由于一些系统中的URL是大小写敏感的,所以robots.txt的文件名为小写。
robots.txt文件放在哪里?
robots.txt文件应该放在网站根目录下。举例来说,当爬虫访问一个网站时,首先会爬取robots这个文件,如果找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。​那么robots该怎么写呢?
禁止收录网站的某些目录:
Disallow: /目录路径/
禁止收录根目录下面的所有内容
Disallow: /
允许所有搜索引擎抓取网站内容。
User-agent: *  *是一个通配符
Allow: /jzhouseo/ 这里定义是允许爬寻jzhouseo目录上面的目录  Allow是允许的意思
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL
当然也有一些工具能生成robots文件
以上就是荆州SEO培训分享给大家的一些经验