【发布时间】:2010-10-17 22:15:33
【问题描述】:
我有大量文本文件(1000 多个),每个文件都包含来自学术期刊的文章。不幸的是,每篇文章的文件还包含上一篇文章结尾(开头)和下一篇文章开头(结尾)的“存根”。
我需要删除这些存根以准备对文章进行频率分析,因为存根构成重复数据。
在所有情况下都没有简单的字段来标记每篇文章的开头和结尾。但是,在这两种情况下,重复文本的格式似乎相同且位于同一行。
将每个文件与下一个文件进行比较然后删除重复文本的 1 个副本的脚本将是完美的。这似乎是编程时非常常见的问题,所以我很惊讶我找不到任何可以做到这一点的东西。
文件名按顺序排序,因此将每个文件依次与下一个文件进行比较的脚本应该可以工作。例如
bul_9_5_181.txt bul_9_5_186.txt是两篇文章,一篇从第 181 页开始,另一篇从第 186 页开始。这两篇文章都包含在下面。
有两卷测试数据位于 [http://drop.io/fdsayre][1]
注意:我是一名学者,正在为心理学史上的一个项目对旧期刊文章进行内容分析。我不是程序员,但我确实有 10 年以上的 linux 经验,并且通常可以在我进行的过程中解决问题。
感谢您的帮助
文件名:bul_9_5_181.txt
通感
ISI
表示黑色物体或与黑色有关的想法的大多数葡萄牙语单词。诚然,这种关联并不是真正的联觉,但作者认为,这些逻辑和自发的关联与真实的有色试镜案例之间只是程度问题。 参考文献
DOWNEY, JUNE E. 一个有色味觉的案例。阿米尔。 J. of Psycho!., 1911, 22, S28-539MEDEIROS-E-ALBUQUERQUE。 Sur un phenomene de synopsie presente par des Millions de sujets。 / 。德心理。规范等路径,1911, 8, 147-151。 MYERS, C. S. 通感症案例。英国人。 J. of Psychol., 1911, 4, 228-238.
情感现象——实验 约翰·F·谢泼德教授 密歇根大学
在这一年里,莱比锡实验室发表了三篇文章。 Drozynski (2) 反对使用味觉和嗅觉刺激来研究有感觉的器质反应,因为可能涉及呼吸障碍。他使用有节奏的听觉刺激,并发现当以不同的速率和不同的分组给予时,它们伴随着每个受试者的特征感受。他用脉搏计和水体积描记器记录胸部呼吸和曲线。每个实验都以正常记录开始,然后给予刺激,然后是对比刺激;最后,取了另一个正常值。测量呼吸的长度和深度(没有记录时间线),并确定吸气长度与呼气长度的关系。还测量了脉搏的长度和高度。表格总结了作者在每种感觉的反应期间发现每个数量增加或减少的次数。伴随给定节奏的感觉状态总是复杂的,但结果是指那个似乎占主导地位的维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低
182
约翰·F·谢泼德
呼吸、吸气-呼气比、脉率和大小。手臂体积显示出随着呼吸波增加的趋势。随和的表现
【问题讨论】:
-
每个文件中实际文章的开头和结尾是否没有以某种方式标记?
-
没有。最接近的是每篇文章的标题和作者姓名。它们具有以下格式: NAME OF ARTICLE BY FIRSTNAME LASTNAME 但还有其他全大写片段(运行头),尽管不是连续行上的标题和作者姓名的组合。
-
@fdsayre — 我做了一些小的格式更改,以便您的示例(希望)能更好地脱颖而出。希望你不要介意。 :-)
-
@ben-blank 看起来确实更好,谢谢。
-
@fdsayre -- 添加文件名保留。
标签: text scripting nlp duplicate-data