【问题标题】:Text analysis in python [closed]python中的文本分析[关闭]
【发布时间】:2015-11-28 22:55:39
【问题描述】:

您是否看过一些很好的 Python 文本分析教程或仅作为理论教程?我的意思是确定文本的主题、分析单词等。

【问题讨论】:

  • 自然语言处理和其他文本挖掘技术有很多很好的例子 - 搜索它们,然后在遇到问题时提出您的具体问题。就目前而言,这个问题过于基于意见。
  • 要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题对于 Stack Overflow 来说是题外话,因为它们往往会吸引固执己见答案和垃圾邮件。相反,describe the problem 以及迄今为止为解决它所做的工作。

标签: python text


【解决方案1】:

您可以使用Apache Spark,它带有四种支持的语言(Java、Scala、Python 和 R),它与ipythonjupyter 兼容,但有一些棘手的modifications

有些课程您可以旁听:

这是一个铺垫主题的小pdf。

这里我展示了一个word-count 使用Apache-Spark 的小例子,但不限于这个主题(它有PCASVD 和一个大的等等)

documentRDD = sc.parallelize(["Hello", "world", "from", "the", "python", "world"])
tokensTupleRDD = documentRDD.map(lambda word: (word, 1))
tokensCountRDD = tokensTupleRDD.reduceByKey(lambda a, b: a + b)
print(tokensCountRDD.collect()) 
# ("Hello", 1), ("world", 2),...

另一种选择是使用Scikit-learn,它非常好用,简单,也涵盖了这个领域,唯一不好的是算法不能在集群中运行并且不能很好地扩展。

他们甚至在他们的网站上有一个非常简单的教程:

所以如果你想学习我建议scikit-learn,但如果你想在你的工作中申请Bid Data,我可能建议你同时学习并使用Apache Spark

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-05
    • 2011-01-19
    • 1970-01-01
    • 1970-01-01
    • 2010-10-09
    • 2016-05-26
    相关资源
    最近更新 更多