Python中数据预处理（代码）(2)-木庄网络博客

当前第2页返回上一页

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train（训练集的字变量）,X_test（测试集的字变量）,y_train（训练集的因变量）,y_test（训练集的因变量）
#训练集所占的比重0.2~0.25，某些情况也可分配1/3的数据给训练集；train_size训练集所占的比重
#random_state决定随机数生成的方式，随机的将数据分配给训练集和测试集；random_state相同时会得到相同的训练集和测试集

6、特征缩放

#特征缩放（两种方式：一：Standardisation(标准化）；二：Normalisation（正常化））
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了，所以对X_test进行缩放时，直接转换X_test

7、数据预处理模板

（1）导入标准库
（2）导入数据集
（3）缺失和分类很少遇到
（4）将数据集分割为训练集和测试集
（5）特征缩放，大部分情况下不需要，但是某些情况需要特征缩放

以上就是Python中数据预处理（代码）的详细内容，更多文章请关注木庄网络博客！！

返回前面的内容

相关阅读 >>

如何让Python运行在android上

Python函数基础入门

疑难杂症：Python [] 与 list() 哪个快？为什么快？快多少呢？

Python中关于import与reload以及 __import__的区别详解

一分钟了解Python中“*”的作用

Python中命名空间的三种方式介绍（附示例）

Python列表如何统计元素的出现频率？（代码示例）