【发布时间】:2023-03-03 02:25:01
【问题描述】:
我有一个长字符串文本,我想将其转换为数据框进行分析。请参阅下面的数据示例。我希望这些列是“设施”、“街道”、“城市”、“电话”和“商店营业时间”。
string = AlaskaUSCG Base Ketchikan 1300 Stedman Street Ketchikan, AK (907) 228-0250 Mon-Fri 7:30am-5pm | Sat 10am-4pm | Closed Sunday USCG Base Kodiak Albatros Avenue, Building 26 (2nd Floor) Kodiak, AK (907) 487-5773 USCG Base Kodiak Albatros Avenue, Building 26 (1st Floor) Kodiak, AK (907) 487-5773 Mon-Fri: 7am-9pm | Sat: 9am-9pm |
我使用 StringIO 将其转换为数据帧,但它会将其转换为具有 0 行和 1000 列的数据帧。相反,我想要上面提到的列和每个商店的行。
我希望它看起来像这样,数据填充为行:
Facility Street City Phone
Alaska USCG Base Ketchikan 1300 Stedman Street Ketchikan, AK (907) 228 0250
【问题讨论】:
-
好了,网站比原始字符串更能满足您的需求。阅读
BeautifulSoup 以及如何解析 XML 文件(在本例中为 HTML)。您想提取p标签之间的值(即value
)并清理这些值。首先使用一些库来获取 .HTML 文件(如urllib或requests库)并尝试阅读一些基本示例,了解如何使用bs4解析来自这些库的响应。 -
@rafaelc 感谢您的帮助。实际上,我最初尝试使用
BeautifulSoup来抓取信息,但我在让它正常工作时遇到问题,所以我转而尝试一些字符串操作。
标签: python string pandas dataframe data-manipulation