WebHarvy是一款网页数据抓取工具,软件可以提取网页里的文本及图片,输入网址即可打开,默认使用内部浏览器,支持扩展分析,可以自动获取类似链接的列表,还可以提取电子邮件、网址等。软件界面直观操作简单,它可以让你从各种网站中提取数据,喜欢的话不妨来本站下载吧!
WebHarvy相关说明
1、SysNucleus WebHarvy可以让您分析网页上的数据
2、可以显示从一个HTML地址上分析连接数据
3、可以延伸到下一个网页页面
4、可以指定搜索数据的范围以及内容
5、可以将扫描的图片下载保存
6、支持在浏览器上复制链接搜索
7、支持配置对应资源项目搜索
8、可以使用项目名称以及资源名称查找
9、SysNucleus WebHarvy可以轻松提取数据
10、提供更高级的多词语搜索以及多页搜索
精品内容
1、简单的网页抓取
通过 WebHarvy 的点击界面,网页抓取变得非常简单。无需编写代码或脚本来抓取数据。您将使用 WebHarvy 的内置浏览器加载和导航网站,并且可以通过单击鼠标选择要抓取的数据。
2、智能模式检测
WebHarvy 自动识别网页中出现的数据模式。要从网页中抓取项目列表或表格(名称、地址、电子邮件、价格等),不需要额外的配置。如果数据重复,WebHarvy 会自动抓取它。
3、保存到文件或数据库
抓取的数据可以以多种格式保存。当前版本的 WebHarvy 网页抓取软件允许您将抓取的数据保存为 Excel、XML、CSV、JSON 或 TSV 文件。您还可以将数据导出到 SQL 数据库。
4、处理分页
网站通常会在多个页面中显示产品列表或搜索结果等数据。WebHarvy 可以自动从多个页面爬行和抓取数据。只需指出下一页的链接,WebHarvy 就会自动从所有页面中抓取数据。
5、提交关键词
通过自动向搜索表单提交输入关键字列表来抓取数据。可以将任意数量的输入关键字提交到多个输入文本字段来执行搜索。可以从输入关键字的所有组合的搜索结果中抓取数据。
6、保护隐私
为了匿名抓取数据并防止网络抓取软件被网络服务器阻止,您可以选择通过代理服务器或 VPN 访问目标网站。可以使用单个代理服务器或代理服务器列表。
7、类别抓取
WebHarvy 允许您从指向网站内类似页面/列表的链接列表中抓取数据。这允许您使用单一配置来抓取网站内的类别和子类别。
8、常用表达
正则表达式 (RegEx) 可以应用于网页的文本或 HTML 源来抓取匹配部分。这种强大的技术为您在抓取数据时提供了更大的灵活性和控制力。
9、JavaScript 支持
在抓取数据之前,在浏览器中运行您自己的 JavaScript 代码。这可用于与页面元素交互、修改 DOM 或调用目标页面中已实现的 JavaScript 函数。
10、图像抓取
可以下载图像或抓取图像 URL。WebHarvy 可以自动抓取电子商务网站产品详细信息页面中显示的多张图像。
11、自动执行浏览器任务
WebHarvy 可以轻松配置为执行诸如 单击链接、 选择列表/下拉选项、在字段中输入文本、 滚动页面、 打开弹出窗口等任务。
客户端优势有什么
1、需要 Windows
WebHarvy 需要 Windows 操作系统才能运行。如果您想在 Mac 上运行 WebHarvy,您应该通过 BootCamp 安装 Windows 或通过 Parallels 运行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 构建
最新版本的 WebHarvy 是使用 Google 的开源 Chrome 浏览器项目构建的,这使得它更加安全、稳定和更快。
3、从云运行
WebHarvy 可以在 Amazon AWS EC2 Windows 实例中运行
应用魅力
从多个页面捕获数据并使用自定义正则表达式
该应用程序带有一个现代,干净且用户友好的GUI,其中包含一个关于如何入门的小教程。不太可能类似的工具,该应用程序充当可视网络刮板,因此,您不需要编写特定的代码或脚本来获取所需的数据。
相反,您可以使用内置浏览器访问所需的网站并选择所需的内容。但是,如果您只想捕获HTML源的特定部分,则可以在HTML源上使用RegEx。此外,该工具还允许您在提取数据之前在浏览器中运行JavaScripts。
该程序能够同时从多个页面捕获信息,这使得例如在多个页面上显示产品的时间非常方便。您只需链接到下一页即可实现这一目标。
支持匿名抓取以及从链接列表中获取数据
该应用程序可以自动识别页面上显示的数据模式,因此您只需选择一次所需的信息类型,无需进一步配置。同时,该工具可以根据您提供的关键字以及导致类似页面的链接列表中的数据来捕获内容。
多功能实用程序
无论您是否需要从各种网站获取文本内容,图像,URL,电子邮件或其他信息,WebHarvy都会为您提供灵活且易于使用的环境