【发布时间】:2020-02-16 22:47:53
【问题描述】:
这是我第一次使用 Spark/Scala,我迷路了。
我想写一个程序,接收一个 URL 并输出图像的数量和图像文件的名称。
所以我能够获得图像计数。我在命令提示符下完成了这一切,这使得在不重新输入整个内容的情况下返回并编辑我的 def 变得非常困难。有没有更好的选择。我花了很长时间才让 Spark/Scala 正常工作(我想使用 PySpark 但无法让它们进行通信)
scala> def URLcount(url : String) : String = {
| var html = scala.io.Source.fromURL(url).mkString
| var list = html.split("\n").filter(_ != "")
| val rdds = sc.parallelize(list)
| val count = rdds.filter(_.contains("img")).count()
| return("There are " + count + " images at the " + url + " site.")
| }
URLcount: (url: String)String
scala> URLcount("https://www.yahoo.com/")
res14: String = https://www.yahoo.com/ 网站上有 9 张图片。
所以我假设在我并行化列表之后我应该应用过滤器并创建包含“img src”的所有字符串的列表 如何创建这样的列表,然后逐行打印以显示图像 url?
【问题讨论】:
-
“有没有更好的选择” - 您可以在任何 IDE、Jupyter 或 Zeppelin 中编写 Spark 程序
标签: image scala apache-spark url