当前位置: 海之晶网站设计> 建站知识> 常见问题>用Scrapy构建可伸缩的Web scraper的终极指南

用Scrapy构建可伸缩的Web scraper的终极指南

文章出处:网站建设-海之晶网络 | 网站编辑:网站设计 | 发表时间:2020/8/28 8:56:47
分享:

Web抓取是一种从网站抓取数据的方法,无需访问api或网站的数据库。您只需要访问站点的数据,只要您的浏览器可以访问数据,您就可以将其刮取。

实际上,大多数情况下,您只需手动浏览一个网站,然后使用复制和粘贴“手动”获取数据,但在很多情况下,这需要您花费许多小时的手动工作,这可能会让你付出比数据价值更多的代价,尤其是如果你雇了人来帮你完成这项任务。既然可以让一个程序每隔几秒钟自动执行一次查询,为什么还要雇人为每个查询工作1–2分钟?

例如,假设您希望编制一份奥斯卡最佳影片奖得主名单,以及他们的导演、主演、发行日期和运行时间。使用谷歌,你可以看到有几个网站会列出这些电影的名字,也许还有一些额外的信息,但是通常你必须通过链接来获取你想要的所有信息。

很明显,从1927年到今天,手工浏览每一个链接都是不切实际和耗时的试着通过每一页找到信息。使用web抓取,我们只需要找到一个包含所有这些信息的页面的网站,然后用正确的说明将我们的程序指向正确的方向

关键字:
南京市汉中路1号国际金融中心9楼
建站热线:13815417591
免责声明: 本站部分内容来源于互联网,如果本站部分内容侵犯您的权益,请您告知,站长会立即处理。