打开软件,看到如下界面
寻找一个要采集数据的网页,复制网址到软件文本框内,同时换行给新建的规则表起一个标志性名称,双击文本框,即可获取该网址内容,同时又新建一个规则表并保存
接下来就是要设置一些规则,以便获取想要得到的具体内容;
这里不需要具备任何编程的知识,只要记住一些规则即可轻松操作;
而这些设置都在弹出的菜单中,只要选中文字,再选择菜单项即可完成;
首先要知道要获取的内容是什么,下图是要最终获取的文字;
在文本框中找到要获取的文字,包含在<p>和</p>之间,此时就要设置|S|=数据(字符区间);首先选中<p>后离开文本框,右击鼠标弹出菜单,在菜单中选择[标记选项]->[数据标记(|S|)],再次选中</p>操作如前;
两次设置操作后如图,此时即可在右击弹出的菜单中选择[提取选项]->[提取数据]运行一下提取,获得初步想要的内容;
再次重复上面的设置操作,分别设置【】为->[数据标记(|S|)],并再次[提取数据],最新版已经不再需要[提取数据]这一步了,可以直接看到设置后自动提取的变化。
此时看到了一些不想要的字符,因此,再来设置删除规则,把不要的内容除尽,选中<和>分别设置为[删除标记(单|_|)],再次[提取数据]
这样就获得了想要的纯净文字内容。
获得了想要的数据只是实现了第一步,可想而知,下一步是把获得的数据进行保存,下一篇介绍创建数据表。