做博客聚合少不了要用到爬虫,通过爬虫去获取博客网站的一些访问状态和基础信息,以及通过 RSS 地址抓取最新的文章数据。
这不是一个多么复杂的事情,但作为一个有情怀的产品,我希望它有一些自己的细节体现。
为此我效仿了各大搜索引擎的做法,定义了一个自己的爬虫标识:
Mozilla/5.0 (compatible; BlogFinderbot/1.0; +https://bf.zzxworld.com/bot)
为配合这个标识中最后的网址,我创建了一个介绍页面:
虽然这个 bot 字样的 User Agent 可能会导致一些博客站点不予通行,但我觉得这是对方应有的选择。