产品手记 继续完善细节,我定义了一个自己的 bot

zzxworld(自行) · 2021年06月24日 · 最后由 zzxworld 回复于 2021年06月25日 · 31 次阅读

做博客聚合少不了要用到爬虫,通过爬虫去获取博客网站的一些访问状态和基础信息,以及通过 RSS 地址抓取最新的文章数据。

这不是一个多么复杂的事情,但作为一个有情怀的产品,我希望它有一些自己的细节体现。

为此我效仿了各大搜索引擎的做法,定义了一个自己的爬虫标识:

Mozilla/5.0 (compatible; BlogFinderbot/1.0; +https://bf.zzxworld.com/bot)

为配合这个标识中最后的网址,我创建了一个介绍页面:

虽然这个 bot 字样的 User Agent 可能会导致一些博客站点不予通行,但我觉得这是对方应有的选择。

作者是个细心的人👍

zhennann 回复

对于功能体验的想法会想很细,不过写代码就是另外一个风格了。😀

需要 登录 后方可回复, 如果你还没有账号请 注册新账号