如何从python中的文本数据中提取特征？答案

【问题标题】：How to extract features from text data in python?如何从python中的文本数据中提取特征？
【发布时间】：2019-07-09 06:12:53
【问题描述】：

我正在尝试构建一种机器学习算法，以根据大脑的脑电图信号预测一个人正在思考的数字。我发现的数据集以文本格式提供，并被描述为- "数据以非常简单的文本格式存储，包括：

[id]：数字，仅供参考。

[event] id，一个整数，用于区分在不同大脑位置捕获的相同事件，仅用于多通道设备（除了MW）。

[device]：2 个字符的字符串，用于标识用于捕获信号的设备，“MW”代表 MindWave，“EP”代表 Emotive Epoc，“MU”代表 Interaxon Muse，“IN”代表 Emotiv Insight。

[channel]：一个字符串，用于识别信号的10/20大脑位置，可能的值：

思维波“FP1” EPOC“AF3”、“F7”、“F3”、“FC5”、“T7”、“P7”、“O1”、“O2”、“P8”、“T8”、“FC6”、“F4”、“F8” ”、“AF4” 缪斯“TP9”、“FP1”、“FP2”、“TP10” 洞察 "AF3,"AF4","T7","T8","PZ"

[code]：一个整数，用于标识被认为/看到的数字，可能值为 0,1,2,3,4,5,6,7,8,9 或 -1 用于不相关的随机捕获信号到任何数字。

[size]：一个整数，用于标识在此信号的 2 秒内捕获的值的大小，因为每个设备的 Hz 不同，在“理论上”该值接近 MW 的 512Hz，128Hz 的EP，MU 为 220Hz，IN 为 128Hz，每 2 秒。

[数据]：一组逗号分隔的数字，具有信号的时间序列幅度，每个设备使用不同的精度来识别从大脑捕获的电势：在 MW & MU 或实数的情况下为整数EP 和 IN 的数字。

文件中没有标题，每一行都是一个信号，字段之间用制表符分隔" 如何处理这些数据（绘制数据，在其上训练不同的模型）？我应该将其转换为另一种格式吗？如果是，那么如何？ 数据集的链接-http://www.mindbigdata.com/opendb/MindBigData-MW-v1.0.zip

我已经为一个类似的 ml 项目使用了一个 csv 文件，但不知道如何使用这个文件，因为在每个信号的数据之前都有一个单独的标题我如何提取这些信号

【问题讨论】：

【解决方案1】：

这些字段是制表符分隔的，您只需要 [code]（数字）或第 5 个字段，和 [data] 第 7 个字段（一旦提取，就分开）

【讨论】：