【发布时间】:2012-01-25 01:13:07
【问题描述】:
我能够成功抓取网站并获得我不想要的内容,但对于其中大多数我得到的东西看起来像这样
但在 Fitgeek,这不仅仅是关于 Keh 或她的未婚夫兼商业伙伴 Wing Liang,而是关于建立一个跑步者和步行者社区。p>
和
“我想开一家商店,目的是帮助普通圈子里的人,”她说。
我该如何摆脱这些?
【问题讨论】:
-
问题是您使用错误的编码系统获取内容。
-
我该如何解决这个问题?信息在
<p>标签内 -
如果不向我们展示您的代码,您的代码就不那么容易提供帮助了。
-
简而言之:找出网站使用的字符编码,然后使用相同的编码或将其转换为您正在使用的任何编码。这是您需要的信息:joelonsoftware.com/articles/Unicode.html
-
我从许多不同的网站中提取。我可以给你看我的代码,但是这对你有什么帮助/你需要看哪一部分?
标签: php mysql parsing scraper storing-information