winterhouse

对logistics regression 和linear regression来说，选择一个足够复杂能够有很高预测精度的function就意味着要构建很多的feature，假如要构建一个二次方程形式的hθ，如果有100个attribute，就意味着要构建5000个feature，而且即使这样很多时候二次方程也不能很好的拟合数据。

在图像处理上，如果图像的像素很大，linear hypothesis要构建的feature就很多，运算量也会变的很大。

Machine Learning06:regularization

May 20, 2015

overfitting

当从训练集中提取过多的属性用来建立hypothesis时，可能导致过度适应数据，选取某些很复杂的方程可以很完美的贴合训练集数据，但是对要预测的用例可能并不会有很好的表现

为了解决这一点，实际上就要剔除掉模型中那些实际上导致overfitting的属性

如上图所示就是overfitting的情况，在做机器学习的时候，很多时候我们刚开始的时候并不知道选取哪些属性，只能尽可能多的选取属性来构建hypothesis拟合训练集中的数据，很容易导致overfitting的情况，但是我们又不能主观的减少选取的属性，为了解决overfitting问题必须提出一个新的cost function，而解决overfitting的过程称为regularization

Machine Learning05:cost function&gradient descent&multi class

May 20, 2015

cost function:

用以下两个式子来做cost function

cost function:-log(hθ(x)) 当y =1
cost function:-log(1-hθ(x)) 当y = 0

可以看到当y为1时，如果hθ(x)得到的是1，那么cost function为0，如果hθ(x)得到的是0，那么cost function趋向于正无穷，当y为0时，如果hθ(x)得到的是1，那么cost function趋向于正无穷，得到的为0，cost function为0。

cost function是用来评价hypothesis对训练集的贴合度的，对于分类的情况，这样的cost function完美的表现了这一点，真是数学的魅力。

梯度函数

Machine Learning04:classification & representation

May 19, 2015

对于linear regression来说，我们可以选用不同的函数形式来拟合不同分布表现的数据，但我们仍然会得到一条linear function形态的hypothesis，因为我们选用不同的函数形式，实际上是对feature的重新利用而不是真正选用了新的函数形式。

如果我们要对离散的数据进行拟合，即classification，那么就需要用到logistic regression，而logistic regression是真正的改变了函数形式。

在linear regression中，hypothesis的形式为h(x) = θ*x

Machine Learning03:linear regression with Multiple Features

May 17, 2015

1:Feature scaling

当含有多个feature的时候，每个feature的取值范围可能不同，但对于gradient descent算法来说，递减的幅度是由α来控制的。

如果有的feature取值范围是1~100,有的是1000~100000000000，在梯度递减时可能有的feature一步会迈的很大，而有的feature会迈的很小。

所以要对feature进行scaling，使所有feature的取值范围都大致处在-1<=x<=1中。

Machine Learning02:Gradient Descent Algorithm

May 13, 2015

Gradient Descent Algorithm

从生活中的例子我们可以发现，房价和房屋面积是近似成正比的，城市面积和人口是近似成正比的，在很多情况下，我们都可以用linear function来拟合现实中的情况，而有的时候，比如我们知道房屋的长和宽以及价格，如果长、宽做feature来预测价格的话，显然很难预测，这时我们就可以把长宽相乘得到新的feature即房屋面积，用面积做feature来预测，这样又可以用linear fucntion来拟合数据。

而很多时候我们又会发现数据的分布不是线性相关的，可能更接近 y = x^3，或者 y = x^-1等等函数图像，这时仍然是一个计算新feature的问题，我们把x^3,x^-1等等作为新的feature，就又将问题转换为寻找最合适的linear function的问题了。

我们已经讨论过了hypothesis是linear function的情况，gradient descent就是一个用来寻找最符合输入数据分布的linear function 的方法，也就是一个linear regression方法。

目的：求出局部最优的hypothesis:H(x)(使cost function J(θ1,θ2,…) 局部最优)
定义:
cost function：J(θ1,θ2,…)
J(θ1,θ2,…)的梯度(即导数):d(J)/d(θ), 如d(J)(θ1,θ2,…)/d(θ1)即J在(θ1,θ2,…)处关于θ1的导数
步骤
(1):选取一个起点:Point:(a1,b1,…)，J(a1,b1,…)
(2) θ1 := θ1 - α * d(J)/d(θ1)(a1,b1,…)，不断替换θ1,θ2,… ，直到最终收敛(convergence)。

Machine Learning01:Models and cost function

May 13, 2015

Problems and Models:

machine learning是指通过对一系列含有n个feature，已知具有某种attribute的变量（训练集）进行分析，找到一个hypothesis(或者叫function，model，pattern，就是找到一个模型或者假设)，这个hypothesis接受到一个变量的n个feature后能够分析出这个变量该attribute的值。

比如输入一系列面积为x，价格为y的房屋信息，找出一个hypothesis，向这个hypothesis输入一个X，这个hypothesis就会预测x=X时，y应该是多少。

input: feature:x1,x2,x3 = 200,300,150,…
attribute:y1,y2,y3 = 10000,20000,15000,…
hypothesis: h(x):h(X)=Y,h(400) = 25000,…

这里输入数据只含有一个feature:x,我们要预测的就是y。

我们最终的目的是让h(x)预测的结果和实际的y值相差最小,也就是 minimize(h(x)-y)

machinelearning

TextAnalytics

Text Mining and Analytics

TextAnalytics

Text Mining and Analytics

Machine Learning08:Neural Networks Ⅱ

cost function

Machine Learning07:Neural Networks

why non-linear hypothesis

Machine Learning06:regularization

overfitting

Machine Learning05:cost function&gradient descent&multi class

cost function:

Machine Learning04:classification & representation

Machine Learning03:linear regression with Multiple Features

1:Feature scaling

Machine Learning02:Gradient Descent Algorithm

Gradient Descent Algorithm

Machine Learning01:Models and cost function

Problems and Models:

Search

博文类别

最近发布

标签

个人博客 Winterhouse