【发布时间】:2018-03-01 08:17:52
【问题描述】:
str = 'FW201703002082017MF0164EXESTBOPF01163500116000 0001201700258000580000116000.WALTERS BAY BOGAWANTALAWA 1M'
上面的表达式是需要拆分和提取的字符串,如下所示:
Borkername = FW
Sale year = 2017
Saleno = 0300
sale_dte = 20.08.2017 # date need to be format
Factoryno = MF0164
Catalogu code= EXEST
Grade =BOPF
Gross weight =01163.50 #decimal point needed
Net Weight = 01163.50 #decimal point needed
Lot_No = 0001
invoice_year = 2017
invoice_no = 00258
price = 000580.00 #decimal point needed
Netweight = 01160.00 #decimal point needed
Buyer = 'WALTERS BAY BOGAWANTALAWA'
Buyer_code = '1M'
这是没有任何分母的单行。所以,请帮我写一个正则表达式来将每个字段分隔到python中的熊猫列。
例如:
(\A[A-Z]{2})
这会给我前 2 个字符。我怎样才能得到接下来的 4 位数作为年份?
【问题讨论】:
-
我在文本文件中有超过 10,000 条类似记录。
-
您首先在键盘上输入...
-
这不是 SO 的工作方式。您应该自己尝试一下,如果不起作用,您可以在这里寻求帮助。
-
我知道要提取的每一列的确切位置,你能帮我根据字符串的长度来提取它们吗?
-
(\A[A-Z]{2}) 会给我前 2 个字符。如何获得接下来的 4 位数作为年份。
标签: python regex data-extraction