免费网站爬取工具软件汇总

 

在线爬取工具

在线扒站工具:https://bazhan.wang 或 https://bazhan.me 。只允许爬取单个页面。

Archivarix:https://archivarix.com/en/website-downloader-cms-converter/ 可以免费下载200个文件。

 

HTTrack类软件

对不懂编程的,推荐老牌的爬站工具HTTrack 。

HTTrack :https://www.httrack.com 支持Windows/Linux/OSX/Android。类似工具还有teleport ultra。

Cyotek WebCopy:https://www.cyotek.com/cyotek-webcopy

这些工具都只能处理静态页面内容,无法处理使用了Ajax动态数据展示的网站。

 

离线存档工具

定位于网站离线存档的工具,也可以作为爬取工具使用,功能更为强大,但需要一定技术基础。

ArchiveBox:https://archivebox.io

Kiwix:https://www.kiwix.org

Conifer:https://conifer.rhizome.org

这几个都支持Headless Chromium,因此可以爬取ajax动态数据的网站。

当然技术人员也可以基于万能的爬虫框架Scrapy 自己开发一个。

 

ArchiveBox的 Wiki 对各种 Web Archiving 工具及服务做了很好的总结,值得参考和挖掘:https://github.com/ArchiveBox/ArchiveBox/wiki/Web-Archiving-Community

文章版权归原作者所有或来自互联网,未经允许请勿转载。如有侵权请联系我删除,谢谢!
THE END
分享
二维码
打赏
< <上一篇
下一篇>>