机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

  • A+
所属分类:机器学习
摘要

本文对梯度上升算法和改进的随机梯度上升算法进行了对比,总结了各自的优缺点,并对sklearn.linear_model.LogisticRegression进行了详细介绍。

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

一、前言

本文对梯度上升算法和改进的随机梯度上升算法进行了对比,总结了各自的优缺点,并对sklearn.linear_model.LogisticRegression进行了详细介绍。

二、改进的随机梯度上升算法

梯度上升算法在每次更新回归系数(最优参数)时,都需要遍历整个数据集。可以看一下我们之前写的梯度上升算法:

假设,我们使用的数据集一共有100个样本。那么,dataMatrix就是一个100*3的矩阵。每次计算h的时候,都要计算dataMatrix*weights这个矩阵乘法运算,要进行100*3次乘法运算和100*2次加法运算。同理,更新回归系数(最优参数)weights时,也需要用到整个数据集,要进行矩阵乘法运算。总而言之,该方法处理100个左右的数据集时尚可,但如果有数十亿样本和成千上万的特征,那么该方法的计算复杂度就太高了。因此,需要对算法进行改进,我们每次更新回归系数(最优参数)的时候,能不能不用所有样本呢?一次只用一个样本点去更新回归系数(最优参数)?这样就可以有效减少计算量了,这种方法就叫做随机梯度上升算法

1、随机梯度上升算法

让我们直接看代码:

该算法第一个改进之处在于,alpha在每次迭代的时候都会调整,并且,虽然alpha会随着迭代次数不断减小,但永远不会减小到0,因为这里还存在一个常数项。必须这样做的原因是为了保证在多次迭代之后新数据仍然具有一定的影响。如果需要处理的问题是动态变化的,那么可以适当加大上述常数项,来确保新的值获得更大的回归系数。另一点值得注意的是,在降低alpha的函数中,alpha每次减少1/(j+i),其中j是迭代次数,i是样本点的下标。第二个改进的地方在于更新回归系数(最优参数)时,只使用一个样本点,并且选择的样本点是随机的,每次迭代不使用已经用过的样本点。这样的方法,就有效地减少了计算量,并保证了回归效果。

编写代码如下,看下改进的随机梯度上升算法分类效果如何:

代码运行结果:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

2、回归系数与迭代次数的关系

可以看到分类效果也是不错的。不过,从这个分类结果中,我们不好看出迭代次数和回归系数的关系,也就不能直观的看到每个回归方法的收敛情况。因此,我们编写程序,绘制出回归系数和迭代次数的关系曲线:

运行结果如下:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

由于改进的随机梯度上升算法,随机选取样本点,所以每次的运行结果是不同的。但是大体趋势是一样的。我们改进的随机梯度上升算法收敛效果更好。为什么这么说呢?让我们分析一下。我们一共有100个样本点,改进的随机梯度上升算法迭代次数为150。而上图显示15000次迭代次数的原因是,使用一次样本就更新一下回归系数。因此,迭代150次,相当于更新回归系数150*100=15000次。简而言之,迭代150次,更新1.5万次回归参数。从上图左侧的改进随机梯度上升算法回归效果中可以看出,其实在更新2000次回归系数的时候,已经收敛了。相当于遍历整个数据集20次的时候,回归系数已收敛。训练已完成。

再让我们看看上图右侧的梯度上升算法回归效果,梯度上升算法每次更新回归系数都要遍历整个数据集。从图中可以看出,当迭代次数为300多次的时候,回归系数才收敛。凑个整,就当它在遍历整个数据集300次的时候已经收敛好了。

没有对比就没有伤害,改进的随机梯度上升算法,在遍历数据集的第20次开始收敛。而梯度上升算法,在遍历数据集的第300次才开始收敛。想像一下,大量数据的情况下,谁更牛逼?

三、从疝气病症状预测病马的死亡率

1、实战背景

本次实战内容,将使用Logistic回归来预测患疝气病的马的存活问题。原始数据集下载地址:

这里的数据包含了368个样本和28个特征。这种病不一定源自马的肠胃问题,其他问题也可能引发马疝病。该数据集中包含了医院检测马疝病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。另外需要说明的是,除了部分指标主观和难以测量外,该数据还存在一个问题,数据集中有30%的值是缺失的。下面将首先介绍如何处理数据集中的数据缺失问题,然后再利用Logistic回归和随机梯度上升算法来预测病马的生死。

2、准备数据

数据中的缺失值是一个非常棘手的问题,很多文献都致力于解决这个问题。那么,数据缺失究竟带来了什么问题?假设有100个样本和20个特征,这些数据都是机器收集回来的。若机器上的某个传感器损坏导致一个特征无效时该怎么办?它们是否还可用?答案是肯定的。因为有时候数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。下面给出了一些可选的做法:

  • 使用可用特征的均值来填补缺失值;
  • 使用特殊值来填补缺失值,如-1;
  • 忽略有缺失值的样本;
  • 使用相似样本的均值添补缺失值;
  • 使用另外的机器学习算法预测缺失值。

预处理数据做两件事:

  • 如果测试集中一条数据的特征值已经确实,那么我们选择实数0来替换所有缺失值,因为本文使用Logistic回归。因此这样做不会影响回归系数的值。sigmoid(0)=0.5,即它对结果的预测不具有任何倾向性。
  • 如果测试集中一条数据的类别标签已经缺失,那么我们将该类别数据丢弃,因为类别标签与特征不同,很难确定采用某个合适的值来替换。

原始的数据集经过处理,保存为两个文件:horseColicTest.txt和horseColicTraining.txt。已经处理好的“干净”可用的数据集下载地址:

有了这些数据集,我们只需要一个Logistic分类器,就可以利用该分类器来预测病马的生死问题了。

3、使用Python构建Logistic回归分类器

在使用Sklearn构建Logistic回归分类器之前,我们先用自己写的改进的随机梯度上升算法进行预测,先热热身。使用Logistic回归方法进行分类并不需要做很多工作,所需做的只是把测试集上每个特征向量乘以最优化方法得来的回归系数,再将乘积结果求和,最后输入到Sigmoid函数中即可。如果对应的Sigmoid值大于0.5就预测类别标签为1,否则为0。

运行结果如下:机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

错误率还是蛮高的,而且耗时1.9s,并且每次运行的错误率也是不同的,错误率高的时候可能达到40%多。为啥这样?首先,因为数据集本身有30%的数据缺失,这个是不能避免的。另一个主要原因是,我们使用的是改进的随机梯度上升算法,因为数据集本身就很小,就几百的数据量。用改进的随机梯度上升算法显然不合适。让我们再试试梯度上升算法,看看它的效果如何?

运行结果如下:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

可以看到算法耗时减少了,错误率稳定且较低。很显然,使用随机梯度上升算法,反而得不偿失了。所以可以得到如下结论:

  • 当数据集较小时,我们使用梯度上升算法
  • 当数据集较大时,我们使用改进的随机梯度上升算法

对应的,在Sklearn中,我们就可以根据数据情况选择优化算法,比如数据较小的时候,我们使用liblinear,数据较大时,我们使用sag和saga。

四、使用Sklearn构建Logistic回归分类器

开始新一轮的征程,让我们看下Sklearn的Logistic回归分类器!

官方英文文档地址:

sklearn.linear_model模块提供了很多模型供我们使用,比如Logistic回归、Lasso回归、贝叶斯脊回归等,可见需要学习的东西还有很多很多。本篇文章,我们使用LogisticRegressioin。

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

1、LogisticRegression

让我们先看下LogisticRegression这个函数,一共有14个参数:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

参数说明如下:

  • penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是加了约束就会好,这个没有人能回答,只能说,加约束的情况下,理论上应该可以获得泛化能力更强的结果。
  • dual:对偶或原始方法,bool类型,默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候,dual通常设置为False。
  • tol:停止求解的标准,float类型,默认为1e-4。就是求解到多少的时候,停止,认为已经求出最优解。
  • c:正则化系数λ的倒数,float类型,默认为1.0。必须是正浮点型数。像SVM一样,越小的数值表示越强的正则化。
  • fit_intercept:是否存在截距或偏差,bool类型,默认为True。
  • intercept_scaling:仅在正则化项为"liblinear",且fit_intercept设置为True时有用。float类型,默认为1。
  • class_weight:用于标示分类模型中各种类型的权重,可以是一个字典或者'balanced'字符串,默认为不输入,也就是不考虑权重,即为None。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者自己输入各个类型的权重。举个例子,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。当class_weight为balanced时,类权重计算方法如下:n_samples / (n_classes * np.bincount(y))。n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。
    • 那么class_weight有什么作用呢?
      • 在分类模型中,我们经常会遇到两类问题:
      • 1.第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。
      • 2. 第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。
  • random_state:随机数种子,int类型,可选参数,默认为无,仅在正则化优化算法为sag,liblinear时有用。
  • solver:优化算法选择参数,只有五个可选参数,即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
    • liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
    • lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
    • newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
    • sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。
    • saga:线性收敛的随机优化算法的的变重。
    • 总结:
      • liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
      • 对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。一次类推,遍历所有类别,进行分类。
      • newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
      • 同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
      • 从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
  • max_iter:算法收敛最大迭代次数,int类型,默认为10。仅在正则化优化算法为newton-cg, sag和lbfgs才有用,算法收敛的最大迭代次数。
  • multi_class:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。
    • OvR和MvM有什么不同?
      • OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
      • 而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
      • 可以看出OvR相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下OvR可能更好)。而MvM分类相对精确,但是分类速度没有OvR快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
  • verbose:日志冗长度,int类型。默认为0。就是不输出训练过程,1的时候偶尔输出结果,大于1,对于每个子模型都输出。
  • warm_start:热启动参数,bool类型。默认为False。如果为True,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)。
  • n_jobs:并行数。int类型,默认为1。1的时候,用CPU的一个内核运行程序,2的时候,用CPU的2个内核运行程序。为-1的时候,用所有CPU的内核运行程序。

累死我了....终于写完所有参数了。

除此之外,LogisticRegression也有一些方法供我们使用:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

有一些方法和MultinomialNB的方法都是类似的,因此不再累述。

对于每个函数的具体使用,可以看下官方文档:

同时,如果对于过拟合、正则化、L1范数、L2范数不了解的,可以看这位大牛的博客:

2、编写代码

了解到这些,我们就可以编写Sklearn分类器的代码了。代码非常短:

运行结果如下:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

可以看到,正确率又高一些了。更改solver参数,比如设置为sag,使用随机平均梯度下降算法,看一看效果。你会发现,有警告了。机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

显而易见,警告是因为算法还没有收敛。更改max_iter=5000,再运行代码:

机器学习实战教程(七):Logistic回归实战篇之预测病马死亡率

可以看到,对于我们这样的小数据集,sag算法需要迭代上千次才收敛,而liblinear只需要不到10次。

还是那句话,我们需要根据数据集情况,选择最优化算法。

五、总结

1、Logistic回归的优缺点

优点:

  • 实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低。

缺点:

  • 容易欠拟合,分类精度可能不高。

2、其他

  • Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法完成。
  • 改进的一些最优化算法,比如sag。它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批量处理。
  • 机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案,取决于实际应用中的需求。现有一些解决方案,每种方案都各有优缺点。
  • 我们需要根据数据的情况,这是Sklearn的参数,以期达到更好的分类效果。
  • 下篇文章将讲解支持向量机SVM。
  • 如有问题,请留言。如有错误,还望指正,谢谢!

PS: 如果觉得本篇本章对您有所帮助,欢迎关注、评论、赞!

本文出现的所有代码和数据集,均可在我的github上下载,欢迎Follow、Star:点击查看

参考文献:

  • 《机器学习实战》的第五章内容。
Jack Cui

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:41   其中:访客  22   博主  19

    • avatar 蜗牛 来自天朝的朋友 谷歌浏览器 Windows 7 中国 移动 3

      #绘制w2与迭代次数的关系
      axs[2][0].plot(x1,weights_array1[:,2])
      axs2_xlabel_text = axs[2][0].set_xlabel(u’迭代次数’,FontProperties=font)
      axs2_ylabel_text = axs[2][0].set_ylabel(u’W1′,FontProperties=font)
      这个地方,标签是不是写‘W2’,即axs2_ylabel_text = axs[2][0].set_ylabel(u’W2′,FontProperties=font)?

        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 辽宁省沈阳市 东北大学

          @蜗牛 对的,没错,这里我写错了。我更改下。

            • avatar 蜗牛 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 移动 3

              @Jack Cui 嗯嗯,在运行中出现了RuntimeWarning: overflow encountered in exp
              return longfloat(1.0 / (1 + exp(-inX)))这个警告,请问怎么解决溢出?

                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学七舍

                  @蜗牛 为什么要强制转换为long float? 感觉是你哪里代码也错了,检查下代码。

                    • avatar 蜗牛 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 移动 3

                      @Jack Cui 哦哦,那个是看的别人的解决方案,加上后并不好使。去了后还是这样,RuntimeWarning: overflow encountered in exp
                      return 1.0 / (1 + exp(-inX))

                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学七舍

                  @蜗牛 直接复制我的代码,看下还有这个错误没有,我感觉是哪里写错了。

                    • avatar 蜗牛 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 移动 3

                      @Jack Cui 还是有这个警告,华哥可以百度下,我看别人也有这个警告。可能是我用python 2 ,华哥用的python3,华哥没出现这个警告哈

                        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 辽宁省沈阳市 东北大学

                          @蜗牛 哦哦,这样啊~这个还真不晓得。

                          • avatar 天天搞科研 来自天朝的朋友 谷歌浏览器 Windows 10 广东省广州市 电信 3

                            @蜗牛 np.exp是嗎

                            • avatar beliefyue 来自天朝的朋友 谷歌浏览器 Mac OS X 10_12_6 广东省广州市 电信 2

                              @蜗牛 把sigmid函数改一下,return 0.5 * (1 + np.tanh(0.5 * in_x)) ,这个和 return 1.0 / (1 + np.exp(-in_x)) 是等价的,以下是复制stack overflow的
                              You should compute the logistic function using either scipy.special.expit, which in recent enough SciPy is more stable than your solution (although earlier versions got it wrong), or by reducing it to tanh:

                              def logistic_function(x):
                              return .5 * (1 + np.tanh(.5 * x))
                              This version of the function is stable, fast, and fairly accurate.

                        • avatar 18629649185 来自天朝的朋友 谷歌浏览器 Linux 广东省深圳市 联通 1

                          你好 “由于改进的随机梯度上升算法,随机选取样本点,所以每次的运行结果是不同的。但是大体趋势是一样的。我们改进的随机梯度上升算法收敛效果更好。”请问有没有什么数学原理或者证明可以说明支持这样的结论啊,我也知道他好,但是没法理论上证明

                            • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器  Android 7.0 MI 5 Build/NRD90M 辽宁省沈阳市 联通GSM/WCDMA/LTE共用出口

                              @18629649185 每次随机选取样本点,根据随机选取的样本点计算的结果略不相同。但最终结果会趋于一个结果。这还能怎么证明?统计学的问题了吧,比如抛掷硬币,正反面的概率都是0.5,你做实验,只做10次,每次都是正面,你能说正面的概率是百分之百吗?当然得做更多组,最终做的结果趋于0.5。 这个也是如此,随着迭代次数的增加,也会趋于一个结果。

                              • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器  Android 7.0 MI 5 Build/NRD90M 辽宁省沈阳市 联通GSM/WCDMA/LTE共用出口

                                @18629649185 这个例子感觉不是特别准确,就是随机到,用到大量的可以正确分类的样本点后,分类结果会优一些。

                              • avatar skldecsdn 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省武汉市 电信 4

                                博主,请问下有没有对于这个疝气病马数据集预处理的代码和过程呢?就是拿到手的是原始数据然后对这个数据集进行预处理的过程成了你所上传的处理好的数据集呢?谢谢

                                  • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 辽宁省沈阳市 联通

                                    @skldecsdn 没有,如果你想处理,可以直接下载原始数据集,其实就是对一些省缺值进行填充或者删除。文中有链接的。

                                      • avatar skldecsdn 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省武汉市 华中师范大学 4

                                        @Jack Cui 恩恩,原始数据我有,博主有没有看过哪些关于数据预处理的书籍还不错的。可否推荐一下

                                          • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学四舍(女生)

                                            @skldecsdn 书没有看过,不过这个博文你可以研究研究:http://www.cnblogs.com/jasonfreak/p/5448385.html

                                              • avatar skldecsdn 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省武汉市 华中师范大学 4

                                                @Jack Cui 好的,谢谢,感觉自己对于数据的处理很欠缺

                                              • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学四舍(女生)

                                                @skldecsdn 这个是需要积累的,多实验。

                                          • avatar susy 来自天朝的朋友 谷歌浏览器 Windows 10 江苏省南京市 联通 2

                                            stocGradAscent1函数里h = sigmoid(sum(dataMatrix[randIndex] * weights))确定不是h = sigmoid(dataMatrix[dataIndex[randIndex]] * weights))吗

                                              • avatar Jack Cui Admin 这家伙可能用了美佬的代理 谷歌浏览器 Windows 10 美国 弗吉尼亚州

                                                @susy 我这个是跟书上一致的。

                                                  • avatar susy 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 世纪互联微软云Windows Azure数据中心 2

                                                    @Jack Cui 嗯嗯,是的,书上也是这样,分析下来,感觉是书上也错了。

                                                • avatar susy 来自天朝的朋友 谷歌浏览器 Windows 10 江苏省南京市 联通 2

                                                  请问评论框的键入爆破效果是怎么实现的呢?是code-blast.js吗

                                                    • avatar Jack Cui Admin 这家伙可能用了美佬的代理 谷歌浏览器 Windows 10 美国 弗吉尼亚州

                                                      @susy 建站教程里有说明。

                                                    • avatar qianbaidu 来自天朝的朋友 谷歌浏览器 Windows 10 北京市海淀区 联通 1

                                                      博主,能写一篇XGBOOST的帖子吗

                                                        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 北京市 百度网讯科技联通节点

                                                          @qianbaidu 后面有机会,会补充的。

                                                        • avatar tilo 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 移动 2

                                                          博主,咨询一个问题。无论是线性回归还是逻辑回归,加入特征的二次方或者三次方项这些操作的依据是什么呢?例如逻辑回归中:sigmoid(w1*x1+w2*x2+…+w3*(x1)^2+w4*(x2)^2) 类似这种形式,这种是为了更好的拟合吧?那么增加这些项的原则又是什么呢?
                                                          谢谢!(原谅我公式只能这么表示,凑合看,,)

                                                            • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 北京市 百度网讯科技联通节点

                                                              @tilo 需要用曲线适应数据啊,光直线不够。

                                                            • avatar twpsuperman 来自天朝的朋友 谷歌浏览器 Windows 7 重庆市 电信 4

                                                              请问博主在上边的测试中为什么随机梯度用的时间比梯度上升法时间还多呢?按理说是因为时间应该更少啊?
                                                              是因为随机梯度上升法遍历数据集次数numIter*m=150×100,而
                                                              梯度上升法只是遍历了 maxCycles=500次吗?

                                                                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                  @twpsuperman 我的demo中不是梯度上升算法,是批量梯度上升算法。按照一定的batchsize进行。

                                                                    • avatar twpsuperman 来自天朝的朋友 QQ浏览器 Windows 7 重庆市 电信 4

                                                                      @Jack Cui 你上面写的就是梯度上升算法啊,因为数据很少,你这里的梯度上升算法就是批量梯度算法吧?跟前边完全没有变啊。
                                                                      它和随机梯度下降法用的时间多少还是不懂,还请博主能详细解释下,谢谢。

                                                                        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                          @twpsuperman 随机梯度是每次随机选取一个样本点训练,批量梯度是每次随机选择一批样本点进行训练。速度上,一定是随机梯度快的。

                                                                          • avatar feiyuhuahuo 来自天朝的朋友 谷歌浏览器 Windows 10 江苏省常州市 电信 1

                                                                            @twpsuperman 实际上,哪个速度更快要看矩阵运算的次数,博主这里未改进的算法迭代了500次,但每次都使用所有样本,矩阵形状为(100,3),而改进的算法总共迭代了150*100=15000次,只不过每次参与计算的矩阵形状为(1,3),即每次使用一个样本作为训练数据来更新W。图中W的收敛步数和计算耗时又有什么关系呢,改进的算法收敛快主要是因为学习率alpha变大了,在同样的学习率下,随机梯度上升肯定是没有批量梯度上升收敛来的快的,因为训练数据变得不稳定了。

                                                                              • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                                @feiyuhuahuo 哦,他是这个意思啊,收敛速度的话,相同学习率下,批量梯度上升收敛的快。我以为说的是计算每一步的耗时,如果是单条数据计算的话,应该会比矩阵计算快一丢丢吧?

                                                                        • avatar twpsuperman 来自天朝的朋友 QQ浏览器 Windows 7 重庆市 电信 4

                                                                          博主,我觉得这里有问题啊,你帮我看看:
                                                                          del(dataIndex[randIndex]) 程序中是想要删除已经使用的样本,但是我觉得并没有删除啊,它这里只是删除的dataIndex列表的一个数吧?对程序这里【randIndex = int(random.uniform(0,len(dataIndex))) #随机选取样本】确实有影响,但是它真的删除了样本吗?
                                                                          我是改成这样的:
                                                                          np.delete(dataMatrix,dataIndex[randIndex],axis=0)
                                                                          del(dataIndex[randIndex])
                                                                          你帮我看看有什么问题吗?

                                                                          还有一个重要的问题是每次随机选取一个样本迭代后到底要不要删除掉?我看有的地方删除有的没有删除啊

                                                                            • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                              @twpsuperman 用过的样本点就不用了,删除。迭代完一个循环后,再重新用。del就是删除了,看有没有删除,你每次打印一下就知道了。

                                                                            • avatar RayZhou 来自天朝的朋友 谷歌浏览器 Mac OS X 10_13_2 北京市 联通 1

                                                                              博主你好,问下,随机梯度算法我把以下3句注释掉,变成遍历,效果应该是一样的吧?另外这个“随机”还有必要吗?
                                                                              def stocGradAscent2(dataMatrix, classLabels, numIter=150):#dataMatrix是二维数组,classLabels是一维数组
                                                                              m,n = shape(dataMatrix)
                                                                              weights = ones(n)
                                                                              for j in range(numIter):
                                                                              #dataIndex = range(m)
                                                                              for i in range(m):
                                                                              alpha = 4/(1.0+j+i)+0.01
                                                                              #randIndex = int(random.uniform(0,len(dataIndex)))
                                                                              h = sigmoid(sum(dataMatrix[i]*weights))
                                                                              error = classLabels[i] – h
                                                                              weights = weights + alpha * error * dataMatrix[i]
                                                                              #del(dataIndex[randIndex])
                                                                              return weights

                                                                                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                                  @RayZhou 不是随机梯度,就是使用所有数据集,才更新一次参数。使用随机梯度,就是随机选一个数据,然后更新一次参数。

                                                                                    • avatar RayZhou 来自天朝的朋友 谷歌浏览器 Mac OS X 10_13_2 北京市 联通 1

                                                                                      @Jack Cui 那我改成遍历的时候更新参数应该也是可以的吧?就是我上面发出来的那个代码。我理解的随机是指随机取样本,取完就不取了,等下次迭代再取。改成从第一个样本一直遍历到最后一个样本应该也行。。。不知道我想的对不对

                                                                                        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 7 辽宁省沈阳市 东北大学三舍南(研究生)

                                                                                          @RayZhou 要随机选取样本啊,随机抽样的思想,如果一直按照一个顺序,样本特征有规律,不利于训练。

                                                                                            • avatar RayZhou 来自天朝的朋友 谷歌浏览器 Mac OS X 10_13_2 北京市 联通 1

                                                                                              @Jack Cui 原来是这样。。。感谢博主解答!你的文章很有水平,准备把其他的继续学习一下。感谢!