【问题标题】:Which free database system is best to store, and compute/analyze large text comparisons out of which the database would make usable statistics? [closed]哪个免费数据库系统最适合存储和计算/分析大型文本比较,数据库可以从中得出可用的统计数据? [关闭]
【发布时间】:2008-10-14 20:43:44
【问题描述】:

我必须创建可以比较数千个大文本(彼此)的脚本。我想知道 MySQL 是否是最好的解决方案。有没有其他免费的数据库系统可以用来做简单但耗时的计算?

请把我扔进你的知识池中!

编辑:文档的性质 - 500-7000 个字符的文档,-> 如果文本与其他文档匹配(抄袭)和统计数据,则比较文档 -> 找到的任何句子的匹配百分比与我想设置的类似设置另一个字符串可能有多少个不同的字符仍被视为匹配..

技术应该是基于服务器的,我对 DB 更感兴趣,然后我会选择合适的语言来编写脚本。

更多规范:DB的大小必须是无限的。

【问题讨论】:

    标签: database performance system


    【解决方案1】:

    您应该考虑使用 Lucene。它允许您存储大量文本并快速查询它们。具有良好的相关性匹配。

    【讨论】:

      【解决方案2】:

      您没有提及您将使用的技术;文本条目的大小或比较的性质。但是,我创建了 h2 database 来表现出色。它是原生 java,可用作内存数据库,使设置变得简单。

      【讨论】:

        【解决方案3】:

        PostgreSql 是一个免费的数据库引擎,除了 MySQL 之外,它具有良好的可扩展性和广泛使用。

        【讨论】:

          【解决方案4】:

          Sql Server Express

          【讨论】:

          • 4GB 最大大小太低。 =(抱歉我之前没提过
          【解决方案5】:

          我会推荐 MySQL。它有很多内置的字符串处理函数。

          【讨论】:

            【解决方案6】:

            因为你不指定,为什么不SQL Server 2008 Express Edition

            与老大哥 SQL Server 2008 的所有搜索功能,唯一的问题是不能超过 4Gb 的数据库。

            【讨论】:

              猜你喜欢
              • 2013-07-21
              • 1970-01-01
              • 1970-01-01
              • 2012-02-12
              • 2019-02-09
              • 2017-05-08
              • 1970-01-01
              • 2023-03-22
              • 1970-01-01
              相关资源
              最近更新 更多