【发布时间】:2012-02-09 19:07:23
【问题描述】:
原问题改写:
我非常了解 PHP、Js、CSS、OOP,最近通过使用 vim 编辑器的 netrw 和 elinks 插件来下载一系列经过解析和准备好的网页(大约一百万行),从而磨练了我的正则表达式技能上传到我的网站。我在一个 linux/ubuntu 系统上工作,一个 localhost 设置,这个特定的项目正在实现 Concrete5 cms——它是用 PHP 编写的。
看到抓取和解析信息的好处,我想让我的网站动态地执行此功能,尽管规模要小得多;例如,使我的新用户能够将他们的个人信息从另一个网站转移到我的网站上——这通常是在安全连接(尽管并非总是如此)和密码下。
问题:什么是最好的工具(脚本语言)用于此?我不知道 Perl 或 Ruby,但我相信其中任何一个都是不错的选择。我也听说过 AWK 和 SED。我敢肯定,一旦我开始学习这门语言,我就能弄清楚该怎么做。我真的很感激一些有经验的意见,关于哪种语言最适合开始投入我的时间来学习它。
感谢您的帮助。
【问题讨论】:
-
描述太模糊了,很难理解你到底想实现什么,涉及到谁的系统以及数据从哪里到哪里。您忽略了解释 Netra 和 netrw。 – 无需编辑器就可以自动进行站点抓取/解析,实际上 Perl 和 Ruby 擅长这项任务。 Stack Overflow is meant for specific questions,把你的问题分解成小块。
-
你为什么使用 vim 而不是一些脚本语言?还是直接使用
elinks,然后用sed解析输出?虽然使用 vim 可能是可能的,但有更好的工具来做这样的事情。 -
您在标签中说“perl”。为什么不使用 LWP 和 HTML::Parser?
-
@daxim 我从其他人那里得到的 cmets 有助于缩小我对自己需求的理解——因此首先是这个问题。 Netrw 和 elinks 是 vim 编辑器的插件。
-
@DavidBrown 我使用 vim 解析了一百万行代码,使用它教会了我正则表达式模式以及如何执行这样的步骤。在考虑根据 OP 实现动态抓取/解析内容的想法时,我认为会有更好的方法 - 例如 Perl 或 Ruby。我对这两种语言都没有经验,但我可能会很快掌握我在 vim 中所做的 PHP 和正则表达式工作的知识(我理解这在其他语言中略有不同,但差别不大)。您能否建议哪些工具最适合完成 OP?
标签: ruby regex perl vim scripting