【发布时间】:2011-05-09 15:33:57
【问题描述】:
我在一个文件中有一堆这样的字符串:
M.S., Arizona University, Tucson, Az., 1957
B.A., American International College, Springfield, Mass., 1978
B.A., American University, Washington, D.C., 1985
我想提取塔夫茨大学、美国国际学院、美国大学、马萨诸塞大学等,但不提取高中(可以安全地假设,如果它包含“学院”或“高中”这是一所高中)。有什么想法吗?
【问题讨论】:
标签: regex web-scraping