【问题标题】:Improving search performance on websites database提高网站数据库的搜索性能
【发布时间】:2012-08-26 13:46:44
【问题描述】:

有什么办法可以改进这个查询,我对返回的结果很满意,但是性能真的很差,这种情况下的联合会导致往返吗?通过使用存储过程来获得性能,这样的事情是可能的吗?是否可以在结果上执行诸如 self join 之类的操作,它会提高性能吗?

        List<string> words = Util.Search.SplitByWhiteSpace(q);

        using (WebsitesDataContext context = new WebsitesDataContext())
        {
            IQueryable<WebsitesRanked> query = Enumerable.Empty<WebsitesRanked>().AsQueryable();
            query = query.Union(context.Websites.Where(x => x.Title.Contains(q)).Select(x => new WebsitesRanked { Webiste = x, Rank = 100 }));
            query = query.Union(context.Websites.Where(x => x.Description.Contains(q)).Select(x => new WebsitesRanked { Webiste = x, Rank = 100 }));
            query = query.Union(context.Websites.Where(x => x.Keywords.Contains(q)).Select(x => new WebsitesRanked { Webiste = x, Rank = 100 }));
            query = query.Union(context.Websites.Where(x => x.Url.Contains(q)).Select(x => new WebsitesRanked { Webiste = x, Rank = 100 }));

            foreach (var word in words)
            {
                string keyword = word;
                query = query.Union(context.Websites.Where(x => x.Title.Contains(word)).Select(x => new WebsitesRanked { Webiste = x, Rank = 20 }));
                query = query.Union(context.Websites.Where(x => x.Description.Contains(word)).Select(x => new WebsitesRanked { Webiste = x, Rank = 20 }));
                query = query.Union(context.Websites.Where(x => x.Keywords.Contains(word)).Select(x => new WebsitesRanked { Webiste = x, Rank = 20 }));
                query = query.Union(context.Websites.Where(x => x.Url.Contains(word)).Select(x => new WebsitesRanked { Webiste = x, Rank = 20 }));
            }

           var results = query.GroupBy(x => x.Webiste).Select(x => new WebsitesRanked { Webiste = x.First().Webiste, Rank =  x.Sum(s => s.Rank) }).OrderByDescending(x => x.Rank).Select(x => x.Webiste);
        }

【问题讨论】:

  • 使用Lucene.Net或Sql Server的full text search
  • @L.B 我查看了 Linq to Lucene 的文档,就我而言,我看到它要求创建一个长字符串中的所有字段的新字段。所以我不知道在哪一列中找到了匹配项,对吗?通过这种方式,我可以使用垃圾关键字过滤过度优化的网站。
  • 不要使用 Linq2Lucene 它是一个包装器,只需使用纯 Lucene.Net。您可以在单个“文档”中定义多个具有不同内容的“字段”。
  • @L.B languages supported by lucene.net 根据这个问题,我认为这不是一个好主意,因为我有 30 多种语言,每种语言都需要分析器?
  • 您可以使用 AsciiFoldingFilter 删除变音符号并通过单个分析器轻松索引所有语言。也就是说,我看到您正在尝试寻找不使用它的理由。好的。别。它当然有一个学习曲线。但我敢打赌,你会对它的速度感到惊讶。

标签: c# sql asp.net-mvc linq-to-sql


【解决方案1】:

您可以创建字典表: 一个表按字母分区(以“a”开头的单词的表分区,另一个“b”...) 此表将包含这些列:

column 1:Word (each word in your table will be setted here using a nightly schedule task or Background schedule task)
column 2:Website 
column 3:Rank (each time a word is found, increment this rank)

只需查询一张表并使用分区来提高性能,您将获得良好的性能,因为工作将按计划任务为您完成

【讨论】:

  • 我现在有 30 多种语言,还会增加更多,但只有一种语言的好主意。
猜你喜欢
  • 1970-01-01
  • 2012-05-05
  • 2011-01-30
  • 2014-07-01
  • 1970-01-01
  • 2017-05-23
  • 1970-01-01
  • 2018-12-10
相关资源
最近更新 更多