打开软件,看到如下界面

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

寻找一个要采集数据的网页,复制网址到软件文本框内,同时换行给新建的规则表起一个标志性名称,双击文本框,即可获取该网址内容,同时又新建一个规则表并保存

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

接下来就是要设置一些规则,以便获取想要得到的具体内容;
这里不需要具备任何编程的知识,只要记住一些规则即可轻松操作;
而这些设置都在弹出的菜单中,只要选中文字,再选择菜单项即可完成;

首先要知道要获取的内容是什么,下图是要最终获取的文字;

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

在文本框中找到要获取的文字,包含在<p>和</p>之间,此时就要设置|S|=数据(字符区间);首先选中<p>后离开文本框,右击鼠标弹出菜单,在菜单中选择[标记选项]->[数据标记(|S|)],再次选中</p>操作如前;

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

两次设置操作后如图,此时即可在右击弹出的菜单中选择[提取选项]->[提取数据]运行一下提取,获得初步想要的内容;

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

再次重复上面的设置操作,分别设置【】为->[数据标记(|S|)],并再次[提取数据],最新版已经不再需要[提取数据]这一步了,可以直接看到设置后自动提取的变化。

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

此时看到了一些不想要的字符,因此,再来设置删除规则,把不要的内容除尽,选中<和>分别设置为[删除标记(单|_|)],再次[提取数据]

软件功能介绍之(数据采集)1.1获取网页内容和设置获取内容规则

这样就获得了想要的纯净文字内容。

获得了想要的数据只是实现了第一步,可想而知,下一步是把获得的数据进行保存,下一篇介绍创建数据表。

 

 

相关文章:

  • 2022-12-23
  • 2021-09-12
  • 2022-12-23
  • 2021-05-26
  • 2022-12-23
  • 2022-12-23
  • 2021-12-03
猜你喜欢
  • 2021-09-20
  • 2022-02-07
  • 2022-02-09
  • 2021-08-08
相关资源
相似解决方案