爬虫小器合集 | 不见面编程也能够爬数据

当下之主流爬虫手段是故Python编程,Python的精毋庸置疑,但新家学习Python还是待一两个月日之。有无发局部又简短的爬取数据方式呢?答案是有的,DataCastle为卿准备了之类小器,对于每个微器而偏偏需要花费十几分钟时间,跟着我之步调走相同普就是足以掌握它啦~

一、Microsoft Excel

首先使大家一个用Excel爬取多少的方式,这里用的Microsoft Excel
2013本,下面手把手开始教学~

(1)新建Excel,打开它,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里因全国实时空气质量网站否条例,点击转到,再导入

选料导入位置,确定

(4)结果一旦下图所展示,怎么样,是不是老大赞赏?

(5)如果如实时更新数据,可以于“数据”——“全部翻新”——“连接性”中展开设置,输入更新频率即可

二、Google Sheet

用Google
Sheet爬取多少前,要确保三沾:使用Chrome浏览器、拥有Google账号、电脑已翻墙。如果就三只极具备了的话,下面我们就是从头吧~

(1)打开Google
Sheet网站:

(2)在首页上点击“转至Google表格”,然后登录自己的账号,可以看看如下界面,再点击“+”创建新的表

新建的表如下:

(3)打开要爬取的靶子网站,一个全国实时空气质量网站
,目标网站上的表格结构使下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是若爬取数据的靶子网站,“查询”中输入“list”或“table”,这个在数量的具体组织类型,“索引”填阿拉伯数字,从1起,对许正在网站被定义的呀一样份报表或列表

于我们如果爬取的网站,我们以Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后便爬得数目啦

(5)将攀登取好的表存到地头

凡是匪是感到超级简单?

三、you-get

当时是一个程序员基于python
3开发之项目,已经于github上面开源,支持64独网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的君能够想到的网站都来!
还有一个伪科技之地方,即使是榜上尚无的网站,当您输入链接,程序吗会见怀疑你想如果生充斥什么,然后拉您下载。当然you-get要当python3环境下展开设置,用pip安装好后,在巅峰输入“you
get+你想生充斥资源的链接”就足以等在藏资源了。

此给一个you-get的汉语使用验证,按照说明上勾画的按照步骤操作就足以啦。

未完待续……以后DataCastle还会连续添部分粗略好用的爬虫小器的,记得支持一下啊~

相关文章