【发布时间】:2020-08-17 01:30:59
【问题描述】:
我有一个带有文本列表的 CSV 文件(带有行的列),我想从每一行中提取患者的年龄,我不能用“是数字”做,因为还有一些其他数字在文本中。我怎么能做这样的事情?谢谢你
额外:我也想提取性别 - 患者有时被称为男性/女性,有时被称为男性/女性,有时被称为绅士/女士。
如果文本是 17 岁,是否有编写 findall 的方法,如果后面是 -year-old,则打印我的数字
re.findall("[\d].", '-year-old')
文本中的行示例:
This 23-year-old white female presents with...
...pleasant gentleman who is 42 years old...
...The patient is a 10-1/2-year-old born with...
...A 79-year-old Filipino woman...
Patient, 37,...
我如何获得年龄/性别列表
即:
Age:
['23','42','79','37'...]
Gender:
['female','male','male','female','male'...]
【问题讨论】:
-
看看使用正则表达式。
-
您的问题已经得到解答。检查here
标签: python pandas nlp data-science re