【发布时间】:2017-01-20 09:07:38
【问题描述】:
我有一个大的 excel 文件,其中包含需要转换为 HTML 的几张数据。我很高兴尝试 Pandas 来帮助简化转换,避免将 Excel 工作表保存为 HTML,然后花一整天时间删除所有可怕的 MS 标签。
我能够读取 Excel 文件 + 工作表,然后将它们作为数据框加载。唯一的问题是它将所有超链接从单元格中剥离出来。我已经查看了所有内容,但找不到保留超链接的答案。这是我第一次使用 Pandas,所以可能只是缺乏经验。下面是我的代码和输出的屏幕截图。感谢您的帮助。
In [2]: import pandas as pd
In [3]: xls_file = pd.ExcelFile('Desktop/cfec-temp/blackbook/blackbook.xlsx')
In [4]: xls_file
Out[4]: <pandas.io.excel.ExcelFile at 0x1132ce4e0>
In [5]: xls_file.sheet_names
Out[5]: ['Sheet1', 'Sheet2', 'Sheet3', 'Sheet4', 'Sheet5', 'Sheet6', 'Sheet7']
In [6]: df = xls_file.parse('Sheet1')
In [7]: df
【问题讨论】:
-
几乎所有数据对象(数据库表、pandas dfs、r dfs、sas 数据集等)主要处理文本或数字数据类型。在 pandas 中,没有用于 Excel 的超链接、图像和任何其他特殊二进制对象的 dtype。要保留链接,您应该将 converts the hyperlink address 列添加到新列中。
-
如果 Pandas 能够处理它会很棒,但这是一个合适且不复杂的折衷方案。谢谢。
标签: python python-3.x pandas