【发布时间】:2011-01-13 11:45:39
【问题描述】:
问候,所以
我是 python 和 Perl 的新手。我一直在尝试解决一个简单的问题,并与语法结下了不解之缘。我希望有人有时间和耐心提供帮助。 我有一个“.txt”格式的 25mb 文件,其中包含可追溯到 1970 年的新闻通讯文章。每个新闻故事都连接到下一个新闻故事,只有“版权”声明要分隔。每个新闻报道都以“XXX DOCUMENTS 中的第 XX 项”开头。某些元数据自始至终重复,我稍后将使用这些元数据进行标记。
我希望将这个 25mb 的文件拆分为单独的 .txt 文件,每个文件包含一个新闻报道(即“DOCUMENTS”和“Copyright”之间的文本,用不同的名称保存每个文件(显然)。
我正在尝试 1) 打开文件... 2) 遍历文件中的行检查 eof 分隔符,如果不存在,则将该行写入列表 3) 将该列表写入一个单独的小文件。
我在使用计数器更改文件名时遇到了很大的问题,如何让 Python 从我离开的地方开始,“seek”函数是否合适?
到目前为止,我一直在尝试这种方法,完全没有成功:
myfile = open ("myfile.txt", 'r')
filenumber = 0
for line in myfile.readline():
filenumber += 1
w=0
while myfile.readline() != '\s+DOCUMENTS\s*\n'
### read my line into a list
mysmallfile()['w'] = [myfile.readline()]
w += 1
output = open('C:\\Users\\dunner7\\Documents\###how do I change the filename each iteration???', 'w')
output.writelines(mysmallfile)
###go back to start.
感谢您的时间和耐心。
研发
这是文本文件的示例:
1 of 575 DOCUMENTS
The Washington Daybook
January 28, 2011
卫生与公众服务部 (HHS);食品和药物管理局 (FDA) (F.R. Page 72832) 召开了 医疗器械咨询委员会讨论并提出建议 指示用于电痉挛的设备的可能重新分类 治疗,1 月 27 日至 28 日。
时间:上午 8 点
位置:华盛顿特区北/盖瑟斯堡希尔顿酒店,宴会厅,620 Perry Parkway, 马里兰州盖瑟斯堡
联系人:James Engles,800-741-8138 [注意:使用代码:3014512513,当 要求提供信息。]
加载日期:2010 年 11 月 28 日
语言:英语
类型:会议
Copyright 2011 Federal Information and News Dispatch, Inc.
2 of 575 DOCUMENTS
The Washington Daybook
January 27, 2011
卫生与公众服务部 (HHS);食品和药物管理局 (FDA) (F.R. Page 72832) 召开了 医疗器械咨询委员会讨论并提出建议 指示用于电痉挛的设备的可能重新分类 治疗,1 月 27 日至 28 日。
时间:上午 8 点
位置:华盛顿特区北/盖瑟斯堡希尔顿酒店,宴会厅,620 Perry Parkway, 马里兰州盖瑟斯堡
联系人:James Engles,800-741-8138 [注意:使用代码:3014512513,当 要求提供信息。]
加载日期:2010 年 11 月 28 日
语言:英语
类型:会议
Copyright 2011 Federal Information and News Dispatch, Inc.
3 of 575 DOCUMENTS
FNS DAYBOOK
January 12, 2011 Wednesday
FUTURE EVENTS
活动:会议 - 卫生与公众服务部 (HHS);食品和药品 行政 (FDA) (F.R. PAGE 72832); 地点:希尔顿华盛顿特区北/盖瑟斯堡,宴会厅,620 Perry Parkway, 马里兰州盖瑟斯堡——2011 年 1 月 27 日上午 8:00
部分:联邦机构和部门 - 期货
长度:72 字
主题:卫生与公众服务部 (HHS);食品药品 管理局 (FDA) (F.R. Page 72832) 召开神经病学会议 医疗器械咨询委员会器械小组讨论并制定 关于可能的器械重新分类的建议 用于电休克疗法,1 月 27-28 日。
联系人:James Engles,800-741-8138 [注意:使用代码:3014512513,当 要求提供信息。]
加载日期:2011 年 1 月 10 日
语言:英语
PUBLICATION-TYPE:活动时间表
Copyright 2011 Federal News Service
All Rights Reserved
【问题讨论】:
-
你能提供文件的sn-p吗?