【发布时间】:2015-10-16 04:09:40
【问题描述】:
我正在尝试从印地语的网络(在 url 中)抓取数据,但我得到了这样的响应
\u093f\u0938\
如何解码这个 unicode?请建议我在 PHP 中执行我的脚本。
这个脚本在英文文本下正常工作,所以英文发生了什么。我已经用这个脚本抓取了数据。我知道这个响应是 dev nagri unicode 但如何解码它。
我是 php 问题的新手,在此先感谢
$i= 1;
for($i; $i < 6; $i++)
{
$html file_get_contents("http://www.jagran.com/jokes/child/jokes-1262211".$i.".html");
libxml_use_internal_errors(true);
$dom = new DOMDocument();
$dom->loadHTML($html);
libxml_clear_errors();
$nodes = $dom->getElementsByTagName('p');
$item = array();
$articles = array();
foreach ($nodes as $node) {
$item['msg'] = (strlen($node->nodeValue) > 20 ? $node->nodeValue : '');
$item['cat_id'] = 1;
if($item['msg'] !="")
$articles[] = array_unique($item);
}
$articles = json_encode($articles);
print_r($articles);
}
【问题讨论】:
-
放在标题
-
那个响应是 not unicode,这正是你的问题。它被转义了,因为传输层或其他一些元素使用不同的编码。会不会是你自己的系统没有加载配置phps多字节扩展?
-
@arkascha 这是印地语单词的devnagri代码