如何用Python在10分钟内建立一个预测模型

2024-04-30 01:02

1. 如何用Python在10分钟内建立一个预测模型

  预测模型的分解过程
  我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:
  你有足够的时间投入并且你是无经验的(这是有影响的)
  你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)
  在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。
  这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:
  数据描述性分析——50%的时间
  数据预处理(缺失值和异常值修复)——40%的时间
  数据建模——4%的时间
  性能预测——6%的时间
  让我们一步一步完成每个过程(每一步投入预测的时间):
  阶段1:描述性分析/数据探索
  在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。
  这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。
  我的第一个模型执行的操作:
  确定ID,输入特征和目标特征
  确定分类和数值特征
  识别缺失值所在列
  阶段2:数据预处理(缺失值处理)
  有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。
  为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。
  用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。
  填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。
  由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。
  阶段3:数据建模
  根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。
  阶段4:性能预测
  有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。
  本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。
  让我们开始付诸行动
  首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:
  步骤1:导入所需的库,读取测试和训练数据集。
  #导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数
  import pandas as pd
  import numpy as np
  fromsklearn.preprocessing import LabelEncoder
  import random
  fromsklearn.ensemble import RandomForestClassifier
  from sklearn.ensembleimport GradientBoostingClassifier
  #读取训练、测试数据集
  train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')
  test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')
  #创建训练、测试数据集标志
  train='Train'
  test='Test'
  fullData =pd.concat(,axis=0) #联合训练、测试数据集
  步骤2:该框架的第二步并不需要用到python,继续下一步。
  步骤3:查看数据集的列名或概要
  fullData.columns # 显示所有的列名称
  fullData.head(10) #显示数据框的前10条记录
  fullData.describe() #你可以使用describe()函数查看数值域的概要
  步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。
  ID_col =
  target_col =
  cat_cols =
  num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))
  other_col= #为训练、测试数据集设置标识符
  步骤5:识别缺失值变量并创建标志
  fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反
  num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量
  #为有缺失值的变量创建一个新的变量
  # 对缺失值标志为1,否则为0
  for var in num_cat_cols:
  if fullData.isnull().any()=True:
  fullData=fullData.isnull()*1
  步骤6:填补缺失值
  #用均值填补数值缺失值
  fullData = fullData.fillna(fullData.mean(),inplace=True)
  #用-9999填补分类变量缺失值
  fullData = fullData.fillna(value = -9999)
  步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。
  #创建分类特征的标签编码器
  for var in cat_cols:
  number = LabelEncoder()
  fullData = number.fit_transform(fullData.astype('str'))
  #目标变量也是分类变量,所以也用标签编码器转换
  fullData = number.fit_transform(fullData.astype('str'))
  train=fullData='Train']
  test=fullData='Test']
  train = np.random.uniform(0, 1, len(train)) <= .75
  Train, Validate = train=True], train=False]
  步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。
  features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))
  x_train = Train.values
  y_train = Train.values
  x_validate = Validate.values
  y_validate = Validate.values
  x_test=test.values
  random.seed(100)
  rf = RandomForestClassifier(n_estimators=1000)
  rf.fit(x_train, y_train)
  步骤9:检查性能做出预测
  status = rf.predict_proba(x_validate)
  fpr, tpr, _ = roc_curve(y_validate, status)
  roc_auc = auc(fpr, tpr)
  print roc_auc
  final_status = rf.predict_proba(x_test)
  test=final_status
  test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)
  现在可以提交了!

如何用Python在10分钟内建立一个预测模型

2. 如何用Python在10分钟内建立一个预测模型

  有各种各样的方法可以验证你模型性能,建议你将训练数据集划分为训练集和验证集(理想的比例是7030并且在70%训练数据集上建模。现在使用30%验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要12分钟执行和记录结果。
  本文的目的不是赢得竞赛,而是建立我自己的基准。让我用python代码来执行上面的方法,建立你第一个有较高影响的模型。

3. 如何用Python+django 10分钟內作出一个blog

Python的设计目标之一是让代码具备高度的可阅读性。
它设计时尽量使用其它语言经常使用的标点符号和英文单字,让代码看起来整洁美观。
它不像其他的静态语言如C、Pascal那样需要重复书写声明语句,也不像它们的语法那样经常有特殊情况和惊喜。

如何用Python+django 10分钟內作出一个blog

4. 如何用朴素贝叶斯模型对数据进行预测

朴素:特征条件独立
贝叶斯:基于贝叶斯定理
根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 

p(y|x)=p(x|y)p(y)p(x)
在这里,x是一个特征向量,将设x维度为M。

5. python怎么构建二类分类模型

向量空间模型(Vector Space Model,简称VSM)表示通过向量的方式来表征文本。一个文档(Document)被描述为一系列关键词(Term)的向量。
简言之,判断一篇文章是否是你喜欢的文章,即将文章抽象成一个向量,该向量由n个词Term组成,每个词都有一个权重(Term Weight),不同的词根据自己在文档中的权重来影响文档相关性的重要程度。
Document = { term1, term2, …… , termN }
Document Vector = { weight1, weight2, …… , weightN }

python怎么构建二类分类模型

6. python 时间序列数据 怎么预测

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同
时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。

7. 如何用python作空间自回归模型

基本形式
线性模型(linear model)就是试图通过属性的线性组合来进行预测的函数,基本形式如下: 
f(x)=wTx+b 
许多非线性模型可在线性模型的基础上通过引入层结构或者高维映射(比如核方法)来解决。线性模型有很好的解释性。
线性回归
线性回归要求均方误差最小: 
(w∗,b∗)=argmin∑i=1m(f(xi)−yi)2 
均方误差有很好的几何意义,它对应了常用的欧式距离(Euclidean distance)。基于均方误差最小化来进行模型求解称为最小二乘法(least square method),线性回归中,最小二乘发就是试图找到一条直线,使得所有样本到直线的欧式距离之和最小。
我们把上式写成矩阵的形式: 
w∗=argmin(y−Xw)T(y−Xw) 
这里我们把b融合到w中,X中最后再加一列1。为了求最小值,我们对w求导并令其为0: 
2XT(Xw−y)=0 
当XTX为满秩矩阵(full-rank matrix)时是可逆的。此时: 
w=(XTX)−1XTy 
令xi=(xi,1),可以得到线性回归模型: 
f(xi)=xTi(XTX)−1XTy

如何用python作空间自回归模型

8. 如何利用python已有的机器学习预测分析核心算法预测数据

所谓预测模型我理解是机器学习的监督式算法。
常用的有 K 近邻, 决策树, 朴素贝叶斯等。
举例:
使用k近邻算法预测一个女的是不是美女:
我们抽取特征值: 身高,体重,三围等。
你先设置一些经验数据,例如:
A:  165CM 50KG, 23 32,31  美
B    150    60KG   23 23 23  丑

现在输入
C   163 45 25 30 30 

 选择K =3, 算法会找经验数据中和这个数据最接近的三个 值,判断这三个对象是 美 还是丑。
如果2,3个美,则预测为美。否则为丑。

对应的python代码在网上都有,估计20-30 行吧。
自己找找。
最新文章
热门文章
推荐阅读