【发布时间】:2012-06-14 18:31:12
【问题描述】:
我需要将分层数据(AVRO 数据,归结为 JSON)转换为表格数据 (csv)。由于 AVRO 有严格的模式,我基本上知道 JSON 将采用什么形式,但我必须为许多不同的模式执行此操作,所以我正在寻找一种一致的、声明性的方式来表达我需要进行的转换。例如,如果我的传入数据看起来像这样……
{
"customers": [
{
"addresses": [
{
"city": "Los Angeles",
"country": "USA",
"county": null,
"postalCode": "90064",
"stateOrProvince": "California",
"street1": "11832 W. Pico Blvd.",
"street2": "",
"street3": "",
"street4": "",
"tags": [
"BILLING"
]
}
],
"company": "",
"dateCreated": "2009-04-24T11:42:31+00:00",
"dateOfBirth": null,
"doNotCall": null,
"email": {
"emailAddress": "general@magentocommerce.com"
},
"emailOptOut": null,
"fullName": {
"firstName": "Test",
"lastName": "General",
"middleName": "",
"prefix": "",
"suffix": ""
},
"gender": null,
"id": {
"Id": "2",
"namespace": "1000020016"
},
"lastModified": "2009-05-08T23:33:06+00:00",
"primaryPhone": {
"number": "866.4.VARIEN",
"type": "UNKNOWN"
},
"sourceIds": null
}
],
"totalItemsFound": 3
}
…我可能需要为每个客户输出一行,如下所示:
MERCHANT ID|NUM CUSTOMERS|ID|FIRST NAME|LAST NAME|EMAIL|PHONE|STREET|CITY|STATE|ZIP|COUNTRY|EMAIL PREFERENCE
some.merch|3|1000020016-2|Test|General|general@magentocommerce.com|866.4.VARIEN|11832 W. Pico Blvd.|Los Angeles|California|90064|USA|N
我需要能够表达以下内容:
- 从给定键中获取所有值作为数组:所有出生日期
- 在每一行重复一个值:totalItemsFound,在每一行重复
- 在来自我已经知道的静态数据的每一行中重复一个静态值商家渠道永远不会改变
- 还有一个棘手的问题:任意操纵传入的数据以产生所需的输出:
- 将客户的 id 转换为 namespace-id
- 将 null/boolean 值反转并更改为 y/n,如 emailOptOut 到 EMAIL PREFERENCE 中一样
- (重新)格式化日期或货币
- 等
我从jsonpath 开始,但这只能解决上面的#1。我一直在慢慢地在 jsonpath 周围添加一种语言来服务 2 和 3,但我真的对 4 没有一个好的答案(除了 eval。,我真的很讨厌这样做)。我查看了JSON/T,但找不到它的python 库。我什至认真考虑过编写一个将 JSON 转换为 XML 的中间件,以便我可以使用 XSLT,但我希望 S/O 的某个人在我绝望之前有更好的解决方案。
【问题讨论】: