【问题标题】:Yahoo pipes: Unique first word in title only雅虎管道:仅标题中唯一的第一个单词
【发布时间】:2015-01-12 23:30:17
【问题描述】:

我正在制作一个大型 yahoo 管道项目,该项目从各种来源获取 DJ 集,对其进行过滤,以便输出仅包含我过滤的艺术家的 dj 集,并将它们呈现在 RSS 提要中。

由于多个集合同时发布在多个网站上,但标题略有不同,因此尽管使用了独特的过滤器,但我的提要经常有重复的项目。

我注意到大多数这些集合都以 dj 名称开头。只有最后的字符串有所不同(有时会添加国家名称,或者日期以不同的格式显示)

我想要做的是,唯一的过滤器仅基于第一个单词。因此,如果添加这 2 个集合:

Dave Clarke - White Noise #471 - 2014 年最佳(电子版) - 2015 年 1 月 11 日

Dave Clarke – White Noise 471(2014 年最佳电子)– 2015 年 1 月 12 日

独特的过滤器会根据前 2 个词过滤掉其中一个词。

如果我只根据前 2 个名字进行过滤,这意味着唯一的过滤器会屏蔽掉这个 dj 课程的所有未来集合。为了避免这种情况发生,我想添加某种公式,以确保发布日期也被考虑在内。假设我每周每个 dj 只想要 1 件商品。

我知道这很复杂,但有可能吗?

谢谢!

【问题讨论】:

    标签: string date rss unique yahoo-pipes


    【解决方案1】:

    我相信你可以得到相当不错的结果而不考虑这些词,但ngrams。基本上,与其考虑单词,不如考虑 n 个字符的序列(3 可能是一个不错的数字,但值得测试)。

    因此,“Dave Clarke – White Noise #471 – Best of 2014 (Electro Edition) – 11-Jan-2015”将变成这样的列表:

    ["Dav", "ave", "ve ", "v C", " Cl", "Cla", ... "-20", "201" ,"015"]

    和“Dave Clarke - White Noise 471(2014 年最佳电子) - 2015 年 1 月 12 日”会给出如下内容:

    ["Dav", "ave", "ve ", "v C", " Cl", "Cla", ..., "-20", "201" ,"015"]

    每个标题都有 ngram 后,您可以轻松比较它们有多少共同点......并且越大,它们就越有可能是同一个标题。

    【讨论】:

      【解决方案2】:

      有没有办法在管道中自动执行此操作?我有越来越多的超过 1000 个关键字的列表要处理,并且越来越多的 500 个提要列表作为输入。

      Ngrams 看起来很不错,但是如果有某种工具可以让我将链接的标题分解成这些 ngrams 以便我可以比较它们,那就太棒了:)

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2015-02-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-03-26
        • 2015-05-12
        相关资源
        最近更新 更多