【问题标题】:ignore some strings with MATLAB用 MATLAB 忽略一些字符串
【发布时间】:2012-06-07 14:38:02
【问题描述】:

我想提取一些包含在 HTML 标签中的文本。例如:

<html><body>this is a warning message. wrongs values</body></html>

结果应该通过忽略所有 HTML 标记来获取消息。

有人有什么建议吗?

【问题讨论】:

标签: html string parsing matlab


【解决方案1】:

您可以使用正则表达式strip HTML tags

str = '<html><body>this is a warning message. wrongs values</body></html>';
str2 = regexprep(str, '<[^>]*>', '')

【讨论】:

  • Amro,能否请您指出一些有关如何使用 matlab 创建正则表达式的文档?
  • @lola:在上面的表达式中,我们查找字符&lt;,后跟零个或多个出现的*,除了右尖括号[^&gt;],然后是实际的右括号@ 987654329@。结果是我们将&lt;....&gt; 与两者之间的任何内容相匹配,只需将其替换为空字符串即可将其删除。网上有很多resources,你可以玩this工具
  • 感谢 Amro 的解释,我已经尝试过该工具但我不知道如何使用它?
  • @lola:也许你应该从阅读introductory tutorial开始
【解决方案2】:

你想要这样的东西:

 a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-07-30
    • 1970-01-01
    • 2016-11-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多