【发布时间】:2021-06-06 08:27:56
【问题描述】:
我从一个网站上抓取一些信息。因此,我创建了一个新的 DOM 文档并使用 loadHTMLFile 加载网站。
现在我遇到的问题是我正在抓取的网站使用撇号/法语口音。我读到loadHTMLFile 默认不使用 UTF-8 编码。
所以我尝试手动添加 UTF-8 编码,但它不起作用。撇号仍然无法正确显示。
例如,字母ì(带撇号)显示为%C3%AC。没有撇号的单词可以正确显示。
这是完整的代码:
header('Content-Type: text/html; charset=utf-8');
foreach (range(0, 50) as $number) {
$url = 'https://www.xxyyy.com/' . $number . '';
$dom = new DOMDocument('1.0', 'utf-8');
$dom->loadHTMLFile(mb_convert_encoding($url, 'HTML-ENTITIES', 'UTF-8'));
$dom->substituteEntities = true;
$xpath = new DOMXPath($dom);
$content = $xpath->query("//a[contains(@href,'character')]/@href");
foreach ($content as $node) {
echo $node->nodeValue
}
}
【问题讨论】: