robots.txt怎么写?常见规则和在线生成方法
介绍robots.txt的作用、User-agent、Allow、Disallow、Sitemap规则和常见误区。
相关工具
robots.txt是什么
robots.txt是放在网站根目录下的爬虫访问规则文件,用来告诉搜索引擎哪些路径可以抓取,哪些路径不建议抓取。它通常位于https://example.com/robots.txt。搜索引擎蜘蛛访问网站时,会先查看这个文件,再决定如何抓取页面。
需要注意的是,robots.txt不是安全权限控制。它更像是给合规爬虫看的约定,不能阻止恶意扫描器访问。如果某个后台地址不能公开,应该用登录鉴权、IP限制或服务器规则保护,而不是只依赖robots.txt。
常见规则怎么写
User-agent表示规则适用于哪个爬虫,星号表示所有爬虫。Allow表示允许抓取,Disallow表示不允许抓取。最简单的开放规则是User-agent: * 加 Allow: /,表示允许所有合规搜索引擎抓取全站。
如果你不想让搜索引擎抓取管理后台,可以写Disallow: /admin/。如果有站点地图,建议在robots.txt里加入Sitemap: https://mytoolbang.com/sitemap.xml,帮助搜索引擎更快发现重要页面。
工具站应该怎么配置
对于工具站,核心目标是让首页、分类页、工具页、教程页都能被抓取。因此不要随意Disallow整个目录。像/_next/这类静态资源通常也不需要专门屏蔽,因为现代搜索引擎需要加载CSS和JS来理解页面渲染效果。
如果网站有搜索结果页、临时参数页、重复筛选页,可以考虑不把它们放进sitemap,并在必要时使用robots或noindex处理。对新站来说,最重要的是保证robots.txt可访问、语法简单、不要误封全站。
常见误区
很多人以为robots.txt写了Disallow,页面就不会出现在搜索结果中。实际上,如果外部有链接指向该页面,搜索引擎仍可能知道这个URL,只是不抓取内容。若你希望页面不要被索引,更合适的方式是使用noindex,但前提是搜索引擎能访问页面看到这个标签。
另一个误区是把robots写得过于复杂。对于中小站点,简单清晰比复杂更重要。上线后可以在站长平台检查robots是否可读,并观察抓取是否异常。
常见问题
robots.txt必须有吗?
不是必须,但建议有。它能明确站点抓取规则和sitemap地址。
robots.txt能防攻击吗?
不能。它只是爬虫协议,不是安全防护。
改完robots多久生效?
取决于搜索引擎重新抓取时间,通常需要等待一段时间。