【问题标题】:Get regular expression to parse data in xml format of a table column获取正则表达式以解析表格列的xml格式数据
【发布时间】:2016-11-08 20:13:07
【问题描述】:

我有一个表,其中包含一个包含 xml 格式数据的列。 我想要做的是解析该列中的一些数据。 表格如下所示:

SalesID | SalesDetail 
--------|------------------ 
403958  | <SalesCode>4</SalesCode><SalesMessage>Same day shipping to customer in TX<SalesMessage>
453324  | <SalesCode>4</SalesCode><SalesMessage>Customer complained issues at check-out <SalesMessage>

有人可以指点使用 Impala 或 Hive 来解析 SalesCode 和 SalesMessage 的数据吗?

我尝试了多个正则表达式,但没有达到我想要的效果。任何帮助,将不胜感激!

【问题讨论】:

  • 你能举一个你想要的预期结果的例子吗?

标签: sql regex xml hive impala


【解决方案1】:

您可以使用xpath_stringxpath_int

SELECT xpath_int (SalesDetail, 'SalesCode') as SalesCode,
       xpath_string (SalesDetail, 'SalesMessage') as SalesMessage FROM src;

【讨论】:

  • 感谢 Alex 提供的重新格式化和解决方案提示!
  • @alibov 我重新尝试了你的建议,这绝对有帮助,但我现在遇到了另一个问题——SalesCode 返回的值都是 0,而 SalesMessage 返回空字符串。有什么想法吗?谢谢!
  • 您拥有的确切数据是什么?我刚刚测试了一些查询,似乎需要一个封装元素。在这种情况下,它必须出现在 xpath 中:elem/SalesCode
猜你喜欢
  • 1970-01-01
  • 2016-09-24
  • 2021-01-16
  • 1970-01-01
  • 2020-03-14
  • 1970-01-01
  • 2012-01-25
  • 1970-01-01
  • 2015-04-29
相关资源
最近更新 更多