一、获取数据

1.数据下载

数据下载地址:
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html
下载后会得到一个压缩包,训练集和测试集数据均在里面.

二.处理过程

1.读取

直接读取内存爆炸了,本文只选取了其中的一些复制到excel中,。

import numpy as np
import pandas as pd 
df = pd.read_excel("tr.xlsx")
print(df.shape)
print(df.columns)

达观杯文本处理(一)
达观杯文本处理(一)

2.分离特征和类别

x = df.drop('class', axis=1) #去掉一列
y=df["class"]
print(x[:10])
print(y[:10])

达观杯文本处理(一)
达观杯文本处理(一)

3.将数据shuffle一下。随机一下。

from sklearn.model_selection import train_test_split
# x:所要划分的样本特征集
# y:所要划分的样本结果
# test_size:样本占比,如果是整数的话就是样本的数量
# random_state:是随机数的种子
x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size=0.3, random_state=100)  #7:3
print(x_train.shape)
print(x_valid.shape)
print(y_train.shape)
print(y_valid.shape)

达观杯文本处理(一)

三.最终改造后的版本

1.读取数据


达观杯文本处理(一)

2.将特征与类别分离

达观杯文本处理(一)

3.保存数据和处理一些乱码问题

达观杯文本处理(一)

4.清除无用数据并将数据shuffle一下

达观杯文本处理(一)

相关文章:

  • 2021-05-09
  • 2022-01-02
  • 2021-07-20
  • 2021-06-11
  • 2021-04-25
  • 2021-05-16
猜你喜欢
  • 2021-08-01
  • 2021-08-29
  • 2021-04-29
  • 2021-08-05
  • 2021-11-30
相关资源
相似解决方案