【问题标题】:Cryptography. English "normal text"?密码学。英文“普通文本”?
【发布时间】:2010-10-16 03:09:39
【问题描述】:

我被要求制作一个软件,该软件将根据字母 frequencies 加密和解密“普通英语”文本。

问题是我在哪里可以找到一些与官方频率匹配的文本样本?

到目前为止,我已经尝试过"War and Peace" by Lev Tolstoy,但效果不佳..

LE:我不仅需要一个单词列表,我还需要一个文本样本来进行一些处理。
LE2:目标是在 2000 个字符的长文本中从 26 中猜测 20。

【问题讨论】:

  • 为了将来参考,这个词是加密。
  • 距离《战争与和平》还有多远?
  • IN、SHR、CUMW 错误,即使在 2.6MB .txt 文件中也是如此……我希望文本的较小部分出现错误的频率……但不是整本书。
  • 如果我将文件剪切到 ~100KB,我可以匹配大约 6-10 个字母,仅此而已。
  • 目标是在 2000 个字符的长文本中从 26 中猜测 20。

标签: cryptography frequency-analysis frequency-distribution


【解决方案1】:

您正在搜索English text corpora,例如http://faculty.washington.edu/ebender/corpora/corpora.html#modern。在那列出的内容中,我知道古腾堡计划是免费的。许多其他人可能不是。

我不确定你所说的官方频率是什么意思——频率的重点是与你在野外找到的频率相匹配,如果不匹配,那就是频率表的问题。

【讨论】:

  • 谢谢,找到了一些文本样本,现在去测试频率。
【解决方案2】:

查看infochimps;他们有一堆可能有用的免费数据集。

【讨论】:

    【解决方案3】:

    试试这个英语单词列表:

    http://www.openbsd.org/cgi-bin/cvsweb/src/share/dict/

    【讨论】:

      猜你喜欢
      • 2016-09-15
      • 1970-01-01
      • 2018-01-05
      • 1970-01-01
      • 1970-01-01
      • 2019-01-01
      • 2017-07-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多