Jmeter中的Jtidy StringIndexOutOfBoundsException答案

【问题标题】：Jtidy StringIndexOutOfBoundsException in JmeterJmeter中的Jtidy StringIndexOutOfBoundsException
【发布时间】：2016-12-30 04:37:23
【问题描述】：

我想使用 JMeter 从网页中检索内容。
我要查找的数据位于 javascript 块中：

(...)
<map id="id1">
  <script type="text/javascript">
    var name="Lionel Richie";
    var song="Hello";
    var lyrics="Is it me you're looking for ?";
  </script>
(...)
  <script type="text/javascript">
    var name="Waldo";
  </script>
</map>
(...)

假设我想要地图 id=id1 中脚本块内的 name 变量的值，
还有一个song 变量。

我使用 XPath 提取器来获取脚本内容（CSS/Jquery 不会获取 javascript 内容，因为它不是纯 HTML）：

.//map[@id='id1']/script[contains(.,'song')]

XPath 找不到数据，因为我的 HTML 很脏（一些缺少标签结尾的野东西等等......）所以我需要使用 Jtidy 来清理它（使用 "Tidy（容错解析器） " 选项）

备注：
- 我不拥有我正在处理的网页。我必须处理这个可怕的 HTML。
- 网页中有许多maps 元素，每个元素都有一个带有song 变量的脚本：我不能直接使用正则表达式（据我所知）

问题：

问题是：我的 HTML 包含奇怪的国际字符 wé hà bêêêê...（是的，法语，对此感到抱歉）并且 Jtidy 不能正确处理这种特殊情况：bug #205 StringIndexOutOfBoundsException while lexing script content

因此，Xpath 提取器失败，我的整个测试计划都被卡住了。

我设计了一个自定义解决方案，但我发现它有点复杂。也许我可以更好地处理这个问题。

我的解决方案：

我使用 tagsoup java 库清理 HTML 输出并将其存储在 JMeter 变量中，然后通过 Xpath 处理（勾选“应用到”中的“JMeter 变量”选项），最后我使用正则表达式来获取我的 Lionel Richie 的东西工作...

JMeter |->HTTP Request |->BeanShell PostProcessor->tagsoup > var RESPONSE |->Xpath Extractor, Apply to var RESPONSE > var XPATH_OUTPUT |->Regular Expression Extractor, Apply to var XPATH_OUTPUT

要让 tagoup 与 JMeter 一起工作，只需将 jar 放在 lib 目录中，然后使用 BeanShell PostProcessor。

使用的 BeanShell 代码：

import org.xml.sax.*;
import org.ccil.cowan.tagsoup.*;

// getting response data of previous sampler
String rep=prev.getResponseDataAsString();

XMLReader r = new Parser();
HTMLSchema theSchema = new HTMLSchema();
r.setProperty(Parser.schemaProperty, theSchema);
ByteArrayOutputStream outStream = new ByteArrayOutputStream();

Writer w = new OutputStreamWriter(outStream);

XMLWriter x = new XMLWriter(w);
x.setPrefix(theSchema.getURI(), "");

r.setContentHandler(x);

r.parse(new InputSource(new StringReader(rep)) );

String encodedRep=outStream.toString("UTF-8");

vars.put("RESPONSE", encodedRep);

【问题讨论】：

您可以尝试使用正则表达式吗？

标签： java xpath jmeter jtidy tag-soup

【解决方案1】：

将Regular Expression Extractor 与以下正则表达式一起使用：

(?s)var name="([^"]+?)";.+?var song=

它使用单行模式：

http://jmeter.apache.org/usermanual/regular_expressions.html#line_mode

见：

【讨论】：

谢谢，这样简单多了。