【问题标题】:Converting textual datasets to numerical datasets将文本数据集转换为数字数据集
【发布时间】:2015-08-16 12:30:23
【问题描述】:

我能问你关于转换数据集的问题吗?我有 2 个数据集,一个用于训练,另一个用于测试。两者都包含关于句子中单词的文本和数字的混合特征。例如(索引、标签、位置、..等)。

这是其中一个数据集(.csv 格式)中的实例示例:

1,point,6,1279,1284,point,NN,confluence,NN,would,MD,maps::NNS the::DT confluence::NN,NNS_DT DT_NN NNS_DT_NN,would::MD有::VB to::TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE

我想做的是在 Matlab 中使用神经网络训练这些数据集并从中提取深层特征。问题是 Matlab 只处理数值数据集。另外,我在 java 中使用了一些分类器,它们只处理数字而不是文本。

任何人有一个建议,请问如何训练这样的数据集?或者如何将其转换为关于其中数字特征的数字格式??

提前致谢,

【问题讨论】:

    标签: matlab nlp classification


    【解决方案1】:

    通过使用函数double() 转换变量,您将获得一个包含所有字母和相应代码的数组。

    例如double('MA1LAB')会输出

    ans =
    
    77    65    49    76    65    66
    

    然后,你可以用对应的代码来处理每个字母。

    请注意,每个字母都有一个代码,因此 1279 将被视为 4 个字符。

    【讨论】:

    • 我不是在寻找这种类型的转换。通过使用这种方法,我将失去文本的所有语义。例如"go" 和 "run" 都是动作动词,但是通过强制转换,它们会相距很远。
    猜你喜欢
    • 2015-11-28
    • 2015-04-14
    • 1970-01-01
    • 2013-07-23
    • 1970-01-01
    • 2019-07-20
    • 2019-08-07
    • 2012-01-13
    • 2014-05-15
    相关资源
    最近更新 更多