【发布时间】:2017-11-30 15:46:35
【问题描述】:
您好,我在 python 中使用 split 函数时遇到问题,但没有成功。我使用爬虫收集了一些推文,我需要将每条推文的某些部分拆分为不同的 .json 文件,特别是 ID 和 #(hashtag)。我一直在使用拆分功能但没有成功我做错了什么?我想将“id”和“text”之后的内容保存到不同的 .json 文件
文本如下所示:
{"created_at":"Fri Oct 20 16:35:36 +0000 2017","id":921414607302025216,"id_str":"921414607302025216","text":"@IdrisAhmed16 loooooool 谁说我在间接给你??
def on_data(self, data):
try:
#print data
with open('Bologna_streams.json', 'r') as f:
for line in f:
tweet = data.spit(',"text":"')[1].split('",""source"')[0]
print (tweet)
saveThis = str(time.time()) + '::' +tweet
saveFile = open('Bologna_text_preprocessing.json', 'w')
json.dump(data)
saveFile.write(saveThis)
saveFile.write(tweet)
saveFile.write('\n')
saveFile.close()
f.close()
return True
except BaseException as e:
print("Error on_data: %s" % str(e))
time.sleep(5)
def on_error(self, status):
print (status)
【问题讨论】:
-
你能举一个你试图分割的文本的例子
-
@NickChapman 的意思是:you 可以用您尝试拆分的文本示例更新您的 question 吗?
-
当然。谢谢
-
您在处理 json 文件时应该使用
json模块。它不会直接解析 JSON 文本,而是会为您将其转换为dict,然后您无需自己解析即可访问字段。 -
@c0lon 在编程方面,我实际上是一个菜鸟:p 你能帮我写一个例子来理解你的意思吗?谢谢
标签: python json function twitter split