【发布时间】:2017-06-15 10:54:45
【问题描述】:
我一直在努力从 HTML 中的域和页面标题中解析公司名称。假设我的域是:
http://thisismycompany.com
页面标题为:
This is an example page title | My Company
我的假设是,当我匹配其中最长的公共子字符串时,在小写并删除除字母数字之外的所有内容之后,这很可能是公司名称。
因此,最长的公共子字符串 (Link to python 3 code) 将返回 mycompany。我将如何将此子字符串匹配回原始页面标题,以便我可以检索空格和大写字符的正确位置。
【问题讨论】: