【问题标题】:ANN: Language detectionANN:语言检测
【发布时间】:2013-06-29 16:27:54
【问题描述】:

我正在尝试重新创建 google 的 "Hello Prediction" 算法来测试我的网络。我从同一个地方得到了我的训练样本。


由于我不希望您遵循上述链接,因此简而言之“Hello Prediction”: 它是 Google Prediction API 的“hello world”示例,基本上是一个训练示例 ANN 具有一个由西班牙语、英语和法语文本字符串组成的大型训练集。 在这个练习结束时,网络应该能够检测到这 3 种语言中的每一种。


现在我面临着将数据输入网络。

如何操作可变长度的文本字符串以输入固定大小的网络输入?

我见过两种考虑词序的解决方案:

  1. 使网络输入足够大以适应整个句子。这是最现实但最浪费的方法。我相信谷歌已经想出了更好的方法。

  2. 将句子分成固定大小 (n) 字符的子字符串,如下所示: 如果 n = 2,"abcde" 变为 ["ab", "bc", "cd", de"]。

有人成功解决了这个问题吗? #2 比 #1 好吗?有第三种解决方案吗?

谢谢。

【问题讨论】:

  • 我对“Hello Prediction”一无所知,所以很难理解这里发生的事情(我们不应该去阅读它,帖子应该尽量自我包含),但是,据我所见,#1 将不起作用,因为获得足够的数据来获得足够好的训练是非常不切实际的。 #2 听起来像n-grams,在实践中很常用。
  • @Dukeling 我更新了我的问题,以反映您的评论,谢谢。

标签: algorithm artificial-intelligence neural-network


【解决方案1】:

为什么不尝试一些特征提取? tf_idf 在 NLP 中很常用,我想你可以找到一些其他有用的数值特征。

【讨论】:

    猜你喜欢
    • 2011-12-30
    • 1970-01-01
    • 2021-08-27
    • 2020-07-25
    • 2011-03-12
    • 2014-05-20
    • 1970-01-01
    • 2019-07-08
    • 2012-08-27
    相关资源
    最近更新 更多