【发布时间】:2021-08-02 14:35:13
【问题描述】:
我正在尝试对我的网站进行分类,但它们的 uri 结构并不总是相同,因此我想在一列中提取年份,在第二列中提取月份。
结果应该是单独的列/字段中的年份和月份:
| url | year | months |
|---|---|---|
| /www.site.com/path1/resort/2021/02/sitename | 2021 | 02 |
| /www.site.com/path1/2021/02 | 2021 | 02 |
| /www.site.com/path1/2020/11-12 | 2020 | 11-12 |
| /www.site.com/path1/2020/07-08 | 2020 | 07-08 |
| /www.site.com/path1/resort/ | null | null |
工作年份的以下正则表达式:
REGEXP_EXTRACT(url,'([0-9]{4})') >> result: 2020, null etc.
但是当月的正则表达式并没有只提取月份:
REGEXP_EXTRACT(url,'((?:[0-9]{4}/)[0-9]+.?[0-9]*/)') >> result: 2020/11-12/,2021/02/, null etc.
提前感谢您的帮助。
【问题讨论】:
标签: regex google-data-studio re2