【发布时间】:2017-03-29 05:56:11
【问题描述】:
我在存储 pdf、zip 和 docx 文件的数据库中有一个列 FileContent(数据类型 image)。
FileContent 列在数据库中具有以下值:0x2550444...
我使用 python 将 SQL 表读入 DF,FileContent 列中的值包含奇怪的文本而不是 0x2550444...:
%PDF-1.7\n\n4 0 obj\n(Identity)\nendobj\n5 0 obj(Adobe)endobj8 0 obj> 流 xœì½x\ÅÕ7>sïÝÞ«¶hµ»ZíJòªKV³,Õb['eK²eKVqaÝmlÜ0Íу~NB Á $ÙÆ¢›¼¦...'~4JpH€ " éæÎcxóþŸïý¾G#Ÿ=¿™;3wæÌ™3gæÞ]#Œ²Ã‡€:Ê›fWÕþ°ã 'ý~+Bž£¥åó_{óÒÕ¿™€õ®ŠÒº²‹ U3¯ý!E¤ª¼¢rÁ«|^{w!.......................
有没有办法使用python检索文件或将上面的文本转换成文件(例如PDF)?
非常感谢您的意见。谢谢。
我的最终目标是:
- 从FileContent 列中检索文件,稍后提取文件中的文本。
代码:
import pymssql
conn = pymssql.connect(server="",user="",password="",database="")
stmt = "SELECT FileContent FROM [tablename]"
df = pd.read_sql(stmt,conn)
df.head()
print(df)
【问题讨论】:
-
请告诉我们您使用的是什么数据库 ORM。
-
@meyer9 你好,我现在正在使用模块:pymssql 来连接 MSSQL 数据库。
-
然后请发布一些代码。你能从数据库中检索文本吗?
-
嗨@meyer9 是的,我设法在python 中检索到上面显示在黄色框中的文本。已经发布了我的代码。
标签: python python-2.7 pandas pdf dataframe