gooseeker(网络爬虫)特色介绍:
1.免编程抓取数据
2.模板资源套用
3.通用网络爬虫
4.不限深度和广度
5.爬虫排行看趋势
6.爬虫群,抓大数据
7.数据仓库云存储
8.保险箱隐身斗篷更安全
gooseeker(网络爬虫)使用说明:
一、打开DS打数机
有两种打开方法,如果您刚刚在MS谋数台上做好规则,请看第一种。如果是下载的规则请看第二种(第二种适用于所有情况),请注意:这两种方法打开的DS打数机的窗口颜色是不一样的,第二种方法打开的是全功能窗口,详情见DS打数机的窗口类型。
1)点击MS谋数台的“爬数据”按钮,就会自动弹出DS打数机并且开始采集数据,如下图。
2)火狐插件版请去火狐的工具菜单里打开DS打数机,如下图。如果看不到菜单栏,请参考文章如何显示火狐菜单栏。
3)独立软件版请点击右上角的DS打数机进行启动,如下图。
二、点击“单搜”或“集搜”采集数据
1)搜索主题名,如果忘了名字,可以输入*进行模糊查找,然后点击“单搜”,在弹出框中输入要抓取的线索数,即网址数,确定后DS打数机就会浏览网页,这就是在采集数据,如下图。
2)输入的线索数最好要<=等待抓取的线索数量,建议先统计一下规则有多少线索,操作:右击主题名,选择“统计线索”,查看等待抓取的线索有多少,如下图。
注意:如果提示“没有等待抓取的线索”,说明已经都采集完了所有等待抓取的线索,可通过会员中心添加线索或激活原有线索继续采集,并且,一个规则可以抓取结构相同的网页数据,例如,做了一个微博搜索关键词的规则,把各种关键词的微博搜索网址添加到该规则,采集时就会依次采集这些网页数据。
3)点击“集搜”并发采集数据
如果一个规则有大量等待抓取的线索,可以利用“集搜”增加一个DS窗口同时采集数据,如图4,方法是:点击“集搜”按钮,输入要抓取的线索数,就会弹出新的DS窗口来抓数据。集搜与单搜都是用来启动抓取任务,区别在于集搜能增加一个新的DS窗口,而单搜不能,详情见单搜与集搜的区别。
三、用爬虫群并发采数据
爬虫群支持在一台电脑并发运行多个爬虫。它整合了crontab爬虫调度程序、DS打数机主要功能、数据库存储三大功能块,让您可以高效采数据以及监控规则的运作情况。
版权声明:本站提的序列号、注册码、注册机、破解补丁等均来自互联网,仅供学习交流之用,请在下载后24小时内删除。
|