SysNucleus WebHarvy是一款网页数据抓取工具,软件可以提取网页里的文本及图片,输入网址即可打开,默认使用内部浏览器,支持扩展分析,可以自动获取类似链接的列表,软件界面直观操作简单,感兴趣的话赶快来本站下载使用吧。
用处说明
1、SysNucleus WebHarvy可以让您分析网页上的数据。
2、可以显示从一个HTML地址上分析连接数据。
3、可以延伸到下一个网页页面。
4、可以指定搜索数据的范围以及内容。
5、可以将扫描的图片下载保存。
6、支持在浏览器上复制链接搜索。
7、支持配置对应资源项目搜索。
8、可以使用项目名称以及资源名称查找。
9、SysNucleus WebHarvy可以轻松提取数据。
10、提供更高级的多词语搜索以及多页搜索。
核心功能详情
1、简易网页搜刮:WebHarvy的指向和点击界面使Web Scraping很容易。绝对不需要编写任何代码或脚本来刮取数据。您将使用WebHarvy的内置浏览器加载网站,并且可以通过单击鼠标来选择要提取的数据。就这么简单!(视频)
2、智能模式检测:自动识别网页中出现的数据模式。因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置。如果数据重复,WebHarvy将自动对其进行刮擦。 保存到文件或数据库
您可以用多种格式保存从网站提取的数据。当前版本的WebHarvy Web搜寻软件允许您将提取的数据另存为Excel,XML,CSV,JSON或TSV文件。您也可以将抓取的数据导出到SQL数据库。(了解更多)
3、抓取多页:网站通常会在多个页面中显示诸如产品列表或搜索结果之类的数据。WebHarvy可以自动爬网并从多个页面提取数据。只需指出“加载下一页的链接”,WebHarvy Web Scraper就会自动从所有页面抓取数据。(了解更多)
4、提交关键字:通过自动提交输入关键字列表以搜索表单来擦除数据。可以将任意数量的输入关键字提交到多个输入文本字段以执行搜索。可以从输入关键字所有组合的搜索结果中提取数据。(了解更多)(视频)
5、保护隐私:为了匿名抓取并防止Web抓取软件被Web服务器阻止,您可以选择通过代理服务器或VPN访问目标网站。可以使用单个代理服务器地址或代理服务器地址列表。(了解更多)
6、类别抓取:抓取工具使您可以从链接列表中抓取数据,这些链接会导致网站中出现类似的页面/列表。这使您可以使用单一配置在网站内抓取类别和子类别。(了解更多)(视频)
7、常用表达:允许您在网页的文本或HTML源上应用正则表达式(RegEx)并抓取匹配的部分。这项功能强大的技术可在您抓取数据时提供更大的灵活性。(了解更多) (RegEx教程)
8、JavaScript支持:提取数据之前,请在浏览器中运行您自己的JavaScript代码。它可用于与页面元素进行交互,修改DOM或调用已在目标页面中实现的JavaScript函数。(了解更多)
9、图像提取:可以下载图像或提取图像URL。WebHarvy可以自动提取显示在电子商务网站产品详细信息页面中的多个图像。(了解更多)
10、自动化浏览器任务:WebHarvy可以轻松配置为执行诸如单击链接,选择列表/下拉选项,向字段输入文本,滚动页面,打开弹出窗口等任务。
11、技术援助:购买WebHarvy后,您将在购买之日起的1年内获得我们的免费更新和免费支持。
独特亮点
一、直观化的操作界面
WebHarvy是一个可视化的网页提取工具。其实完全没有必要编写任何脚本或代码用来提取数据。使用webharvy的内置浏览器浏览网页。您可以选择用鼠标点击来提取数据。它是那么容易!
二、智能识别模式
WebHarvy自动识别网页中出现的数据模式。所以,如果你需要从一个网页刮项目(姓名,地址,电子邮件,价格等)的列表,你不需要做任何额外的配置。如果数据重复,WebHarvy会自动刮。
三、导出捕获的数据
可以保存从各种格式的网页中提取的数据。 WebHarvy网站刮板的当前版本允许你导出的刮数据作为XML,CSV,JSON或TSV文件。您还可以刮下数据导出到一个SQL数据库。
四、从多个页面提取
通常网页显示数据,如在多个页面中的产品目录。 WebHarvy可以自动抓取并从多个网页中提取数据。只是指出了“链接到下一页'和WebHarvy网站刮板将自动刮从所有页面的数据。
五、基于关键字的提取
基于关键字的提取可让您捕捉从搜索结果页面输入关键字的列表数据。您创建的配置将被自动重复所有给定输入关键字,而挖掘的数据。可以指定任意数量的输入关键字
六、提取分类
WebHarvy网站刮板允许您从一个链接列表,从而导致一个网站内的相似页面抽取数据。这使您可以使用一个单一的配置刮网站内的类别或小节。
七、使用正则表达式提取
WebHarvy可以应用正则表达式(正则表达式)在文本或网页的HTML源代码,并提取去匹配的部分。这种强大的技术为您提供了更多的灵活性,同时拼抢的数据。
软件优点之处
1、需要 Windows
WebHarvy 需要 Windows 操作系统才能运行。如果您想在 Mac 上运行 WebHarvy,您应该通过 BootCamp 安装 Windows 或通过 Parallels 运行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 构建
最新版本的 WebHarvy 是使用 Google 的开源 Chrome 浏览器项目构建的,这使得它更加安全、稳定和更快。
3、从云运行
WebHarvy 可以在 Amazon AWS EC2 Windows 实例中运行