【发布时间】:2014-04-26 15:00:11
【问题描述】:
当给定 html 文件并消除所有标签 时,如何仅在网页中获取文本, 在这里我只能从html文件中获取标签,,如何反过来工作(获取文本)。
tag_only = regexp(CharData, '<.*?>', 'match');
例如:
"<p><span class="dingus">►</span> put returns between paragraphs</p>StackExchange.ready(function () {
StackExchange.using("postValidation", function () {
StackExchange.postValidation.initOnBlurAndSubmit($('#post-form'), 2, 'answer');
});
"
输出:在段落之间放置返回
【问题讨论】:
-
为什么要使用 Matlab 解析 html 页面?这确实是错误的语言。无论如何,你的问题毫无意义。你是什么意思获取网页的文本?一些文本可能是由 javascript 动态生成的。或者 html 上的某些文本可能被 javascript 隐藏,因此实际上不会显示。
-
我必须使用 matlab,因为 html 解析器只是我的功能之一。所以,你的意思是其他语言这样做更有好处,是python吗?
-
如果是python,那么你有什么想法吗,我迫切需要那个。
-
python 或 perl 只是最常见的两种,它们都有许多 html 解析器。谷歌搜索 html parser perl 或 python 肯定会返回很多命中。并且仅仅因为你的程序的其余部分需要使用 Matlab,并不意味着你不能用另一种语言编写这部分。程序之间可以相互通信。
-
是的,我以前没有用过python,所以,你有这个程序,这样我就不需要自己写了。我用python浏览了这些prob,有很多,你有什么建议或者直接可以使用程序来介绍,因为我的时间不多了
标签: matlab matlab-figure