用 MATLAB 忽略一些字符串答案

【问题标题】：ignore some strings with MATLAB用 MATLAB 忽略一些字符串
【发布时间】：2012-06-07 14:38:02
【问题描述】：

我想提取一些包含在 HTML 标签中的文本。例如：

<html><body>this is a warning message. wrongs values</body></html>

结果应该通过忽略所有 HTML 标记来获取消息。

有人有什么建议吗？

【问题讨论】：

@Iola：这个问题的措辞非常糟糕，以至于我什至无法猜测您的意思。请编辑它，也许提供一些示例输入和输出，向我们展示您目前编写的代码。
@Junuxx 他的意思是标记符号。 HTML balise = 法语的 HTML 标记 (fr.wikipedia.org/wiki/Langage_de_balisage)
顺便说一句：stackoverflow.com/questions/6582250/…的可能重复
您只需要处理这些吗？还是需要处理其他复杂的 html 结构？
找到了更接近的副本：regexp for html tags with Matlab

【解决方案1】：

您可以使用正则表达式strip HTML tags：

str = '<html><body>this is a warning message. wrongs values</body></html>';
str2 = regexprep(str, '<[^>]*>', '')

【讨论】：

Amro，能否请您指出一些有关如何使用 matlab 创建正则表达式的文档？
@lola：在上面的表达式中，我们查找字符<，后跟零个或多个出现的*，除了右尖括号[^>]，然后是实际的右括号@ 987654329@。结果是我们将<....> 与两者之间的任何内容相匹配，只需将其替换为空字符串即可将其删除。网上有很多resources，你可以玩this工具
感谢 Amro 的解释，我已经尝试过该工具但我不知道如何使用它？
@lola：也许你应该从阅读introductory tutorial开始

【解决方案2】：

你想要这样的东西：

 a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')

【讨论】：