【发布时间】:2016-12-24 13:42:35
【问题描述】:
我想在具有多个文件 (f2,f3,....fn) 的文件 (f1) 的第三列中查找重复记录,并针对每一行(在新列中)打印结果,格式为:文件名/第一列
f1
1. 11:10 *Jane> login
2. 11:15 *Bob> login
11:16 *Bob> logout
3. 11:45 *Jane> login
4. 01:20 *John> login
5. 02:30 *Deborah logout
f2
1. 12:10 *Jane> login
2. 13:00 *Dorothy logout
3. 13:15 *Bob> login
14:16 *Bob> logout
4. 15:45 *Jane> login
5. 06:20 *John> login
f3
1. 15:10 *Jane> login
2. 15:50 *Mark> login
3. 16:10 *Dorothy logout
4. 17:18 *Bob> login
18:16 *Bob> logout
5. 19:45 *Jane> login
6. 20:21 *John> login
输出到 f1-dup
f1-dup
1. 11:10 *Jane> login f1/1,3_f2/1,4_f3/1,5
2. 11:15 *Bob> login f1/2_f2/3_f3/4
11:16 *Bob> logout
3. 11:45 *Jane> login f1/1,3_f2/1,4_f3/1,5
4. 01:20 *John> login f1/4_f2/5_f3/6
5. 02:30 *Deborah logout
我尝试了几种方法,但没有一个适合我。
【问题讨论】:
-
行首有时出现有时不出现的数字是什么?它们是数据文件的一部分,还是您的演示文稿的一部分?数字不存在有什么意义?第三列是哪个?出现这种情况的部分原因是数字不稳定——您是否只查看登录和注销的值?你似乎也关心这些名字。 “Jane Login”的条目之间似乎也有系统的 1 小时和 4 小时的间隔。为什么你想要简登录的 11:10 值,而不是 12:10 等?
f1/1,3_f2/1,4_f3/1,5符号是什么? -
请将该信息添加到问题中。这极大地使处理复杂化。获取“它们”以停止与输出格式不一致。它使生活变得地狱。我想知道制作这种布局付出了多少努力?并且“值”似乎意味着类似名称的列,因为时间和操作都不一定相同。你对格式有什么意见吗?
-
“我尝试了几种方法,但没有一种方法适合我。”糟糕,您忘记发布代码了。 StackOverflow 旨在帮助人们修复他们的代码。这不是免费的编码服务。任何代码都比没有代码好。祝你好运;-/
-
请编辑问题!!!为什么
*Dorothy和*Mark>不出现在输出中?包含或排除人员的标准是什么?如果无关紧要,为什么输出包含“操作”信息?输出中应该包含哪个操作?为什么输出包含时间值?应该包括哪个时间价值?为什么输出有时包含序列号,有时不包含?处理它是痛苦的。为什么*Bob>和*Jane>在输出中出现多次?这样做有什么好处? -
显然@JonathanLeffler 对
Please add that information to the question和后来的Please EDIT THE QUESTION!!!的建议并不清楚。请问好看吗?假设您需要帮助 - 没有人愿意通过一堆 cmet 试图拼凑信息和要求,因此如果您将所有信息和要求放在一个地方并听取 cmet 的意见,您就有更好的机会获得帮助。
标签: file awk compare text-processing