这款神器,堪称爬虫界的百宝箱!

大家好,我是小 G。

会写爬虫,已成为广大开发者必备核心技能之一。不过,也有不少人因为不懂这块的法律法规,因技术使用不当吃了牢饭。

因此,在技术圈内,有这么一句话广为流传:

爬虫玩得好,牢饭吃到饱

当然了,玩笑归玩笑,此前有细心的开发者在 GitHub 整理过一份文档,里面汇总记录了国内各类爬虫违法违规的案例,想搞爬虫之前,建议大家先把这个项目看一看:

这款神器,堪称爬虫界的百宝箱!

github.com/HiddenStrawb

不过,上面这份文档,不是咱们今天的主题。

当你善于手写代码来实现业务需求的同时,也别忘了,一个趁手的工具,能极大减轻你的工作量,提高生产力。这一论点放到爬虫技术上面,也同样适用。

今天,我想跟大家分享一个集众多数据源于一身的爬虫百宝箱,里面收集了包括 GitHub、QQ 邮箱、网易邮箱、京东、淘宝、支付宝、移动联通电信、知乎、B 站、网易云音乐、QQ 群以及各大技术论坛与社区的爬虫工具。

其覆盖面之广,由下面这张工具箱截图便可见一斑:

这款神器,堪称爬虫界的百宝箱!

除去上面提供的各类工具之外,该项目的代码也全部开源,并提供 GUI 图形界面,小白用户也能分分钟上手。

不过,爬虫只是一种手段,合法合规的拿到并用好数据才是关键。

因此,作者对项目结构进行了更为合理的设计,所有项目的数据源相互独立。这么做的好处是便于开发者后续维护和管理,也使得代码具有更高的可移植性。

在数据存储和展示方面,项目的友好度也颇佳,所有数据均使用 JSON 格式存储,并提供更为直观的数据可视化展示(仅部分工具支持)。

当然了,作者发布这款工具的本意,并不是让大家去爬取他人数据,而是通过合理手段,从各大平台拿回那些本属于自己的数据。

在聊到为什么要做这样一个项目时,作者说道:

个人数据蕴含巨大的价值,未来的世界核心就是数据,这是一个万亿级的市场。众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为生产数据的最终用户,却没能分享属于自己的数据收益。

个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合。很多优秀的创业公司,被极大限制。有算法、有创新,但缺乏合法且高效的途径访问数据。

所以,你知道管理好自己数据的重要性了吧。

关于这个工具箱的使用,作者写了一份很详细的文档,在此便不多做赘述了。

感兴趣的同学,可前往其项目页面查看详情:

GitHub 地址:

github.com/kangvcar/Inf

InfoSpider 使用文档:

infospider.vercel.app/

这里再安利一波我们的公众号: GitHub开源项目工具精选,目前坚持每天一篇原创文章,主要分享比较实用或有趣的开发工具与开源项目,偶尔也会聊聊技术圈内最近发生的新鲜事,感兴趣的小伙伴可以关注一下哈。

我还会在以下平台发布内容

GitHub 知乎