【发布时间】:2021-08-09 05:04:35
【问题描述】:
我对文本数据集的特征提取有疑问。使用来自的预处理数据集:
预处理后的数据是每个文档一行,每一行的格式为:
feature:<count> .... feature:<count> #label#:<label>
假设我们有两行:
<line 1> alpha: 3 beta:2 gamma: 1 delta: 0 echo:0 #label:1
<line 2> alpha: 0 foxtrot:0 mike: 0 beta: 1 delta:1 #label:0
所以我想提取我得到的特征:
到目前为止,我已经编写了这段代码,但无法继续进行:
import pandas as pd
dict={}
total=pd.DataFrame()
with open ('amazon_book.review', 'r') as data:
for i in range(3):
line=data.readline()
for word in line.split():
key,value=word.split(sep=":")
dict[key]=value
【问题讨论】:
-
首先:
dict是一个默认类,不要用它来命名变量。第二:我无法理解您的要求。我试图运行你的代码,它工作正常,除了在alpha、delta等功能中:后面有一个空格...... -
我想将文件的唯一单词作为列和不同的行作为行,这样 df[line 1][word]={word count in that line}。主要目标是在这个文本数据集上执行 k-means 聚类。
标签: python pandas nlp text-processing multilabel-classification