【问题标题】:Weird symbols after website scrape网站抓取后的奇怪符号
【发布时间】:2012-01-25 01:13:07
【问题描述】:

我能够成功抓取网站并获得我不想要的内容,但对于其中大多数我得到的东西看起来像这样

但在 Fitgeek,这不仅仅是关于 Keh 或她的未婚夫兼商业伙伴 Wing Liang,而是关于建立一个跑步者和步行者社区。​​p>

“我想开一家商店,目的是帮助普通圈子里的人,”她说。

我该如何摆脱这些?

【问题讨论】:

  • 问题是您使用错误的编码系统获取内容。
  • 我该如何解决这个问题?信息在<p>标签内
  • 如果不向我们展示您的代码,您的代码就不那么容易提供帮助了。
  • 简而言之:找出网站使用的字符编码,然后使用相同的编码或将其转换为您正在使用的任何编码。这是您需要的信息:joelonsoftware.com/articles/Unicode.html
  • 我从许多不同的网站中提取。我可以给你看我的代码,但是这对你有什么帮助/你需要看哪一部分?

标签: php mysql parsing scraper storing-information


【解决方案1】:

我不确定,但我认为您可以在“元”标签中更改文档的字符编码。尝试将“charset”值更改为 utf-8 或其他内容

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-05-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多