【发布时间】:2019-09-08 05:51:43
【问题描述】:
我正在寻找一种在网页中查找行标题的方法。
使用 Puppeteer 在我知道 div 和类的名称的情况下,我可以找到行标题。 但如果我不这样做呢? 如果我想获取将出现的任何列表的所有标题怎么办?
不是在寻找完整的解决方案(如果是这样,那就更好了),甚至是想知道我可以使用什么技术(可能是某种人工智能)来获得这个输出。
例子:
输出:
- 只狼:影逝二度
- 真人快打11
- F1 2019
- 外荒
【问题讨论】:
-
可能类似于
h2,h3,h4,[class*=title] -
实际上你需要训练一些人工智能来理解什么是标题,什么不是。计算机不会自动知道我们期望哪个作为输出。 :D
标签: web-scraping artificial-intelligence puppeteer