【发布时间】:2016-01-15 05:02:57
【问题描述】:
我正在处理相当混乱的数据:具有以下形式的关税表:
import pandas as pd
import numpy as np
data1 = np.array([u'Free (A, B, KR, FR), 5% (JP)', u'Free (A, B, FR), 5% (JP, KR))'])
data2 = np.array(['10101010', '10101020'])
data = {'hscode': data2, 'tariff' : data1}
df = pd.DataFrame(data, columns=['hscode', 'tariff'])
第一行显示国家(A、B、KR、FR)的关税为零,日本的关税为 5%,第二行显示 A、B、FR 的关税为零,而日本和日本的关税为 5%韩国。
我想为每一行找到国家'KR'的关税税率,这样我就可以得到下表:
'hscode' '关税'
10101010 0%
10101020 5%
所以,我想在每个单元格中找到县代码“KR”的关税税率。
【问题讨论】:
-
你能否更清楚地解释一下data2与data1的关系以及与KR和(A,B,KR,FR)的关系?
-
您好 Anzel,data2 是“统一关税代码”,data1 显示每个国家/地区的实际关税税率。 (A、B、KR、FR、JP)都表示国家,我想找到特定国家 KR 的关税税率。谢谢。
-
我刚刚发布了一个不使用正则表达式的答案。正则表达式是强制性的吗?因为您只需在标题中说明它们。
-
谢谢,法比安。我正在努力研究re,因为我经常遇到这种乱七八糟的文本数据。
标签: python regex pandas filter