【发布时间】:2010-12-13 07:25:05
【问题描述】:
寻求帮助:
我有一个目录,其中包含以数字 ID 命名的文本文件。每个文本文件都包含新闻文章的正文。一些新闻文章被分隔在不同的部分,因此它们位于不同的文本文件中。
名字是这样的
1001_1.txt、1001_2.txt(这些文件包含同一篇文章的两个不同部分) 1002_1.txt, 1003_1.txt, 1004_1.txt, 1004_2.txt, 1004_3.txt, 1004_4.txt(这些文件包含同一篇文章的四个不同部分,这些部分最多只能达到 4 个)。等等等等。
基本上,我需要一个简单的脚本(PHP、Perl、RUBY 或其他) 列中文本文件的名称(下划线之前),以及 另一列中文本文件的内容,如果有任何数字 在下划线之后,也将其放在一列中。
所以你会有一个如下所示的表结构:
1001 | 1 | content of the text file
1001 | 2 | content of the text file
1002 | 1 | content of the text file
1003 | 1 | content of the text file
任何关于如何完成此任务的帮助将不胜感激。
大约有7000个文本文件需要读取和导入 供将来在数据库中使用的表。
如果 _1 和 _2 文件的内容可以是更好的 分隔在不同的列中,例如:
1001 | 1 | content | 2 | content | 3 | content | 4 | content
1002 | 1 | content
1003 | 1 | content
(就像我说的,文件名最多可达_4
所以你可以有1001_1、1001_2、1001_3、1001_4.txt或只有1002_1
和1003_1.txt)
【问题讨论】:
-
你想如何解析输出,格式对我来说似乎很奇怪没有换行符?
-
如果您让我们知道您的尝试,Amit 会很好,我们不是来做您的工作的...
-
我对歪曲 OP 的意图表示不认罪。帖子的原始格式在这里:stackoverflow.com/revisions/…
-
我想知道一个人在这里花多少时间回答问题?下面的代码至少需要 10 分钟来编写。那么,人们会花 10 分钟来回答问题吗?
-
大家好,我是第一次来这里,mobrule,感谢您格式化我的帖子。 RageZ,老实说,除了 PHP 和一点 C 语言之外,我没有任何其他语言的经验,尽管我是一个快速学习者,并且当指向正确的方向时,我可以弄明白。哦,Mob,你没有误解我的意图,即使你的格式保持不变。