摘要:本文主要向大家介绍了【云计算】机器学习Classification-ProbabilisticGenerativeModel之分类-概率生成模型,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
本文主要向大家介绍了【云计算】机器学习Classification-ProbabilisticGenerativeModel之分类-概率生成模型,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。
目录
分类问题 分类问题中的线性回归 分类问题算法 贝叶斯 贝叶斯公式 极大似然估计参数 朴素贝叶斯
分类问题
分类问题中的线性回归
我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。
分类问题算法
现在按照机器学习简介中机器学习建模步骤,
Model:输入
x
" role="presentation">
x
,
f(x)
" role="presentation">
f(x)
定义为:当
g(x)>0
" role="presentation">
g(x)>0
时,输出class=1,否则输出calss=2 Loss function:
L(f)=∑nδ(f(xn)≠y^n)
" role="presentation">
L(f)=∑nδ(f(xn)≠y^n)
寻找最优函数
贝叶斯
贝叶斯公式
有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。
现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布fu1,Σ1=1(2π)D/21|Σ1|1/2exp{−12(x−u1)TΣ1−1(x−u1)},fu2,Σ2=1(2π)D/21|Σ2|1/2exp{−12(x−u2)TΣ2−1(x−u2)}" role="presentation">fu1,Σ1=1(2π)D/21|Σ1|1/2exp{12(xu1)TΣ11(xu1)},fu2,Σ2=1(2π)D/21|Σ2|1/2exp{12(xu2)TΣ12(xu2)}fu1,Σ1=1(2π)D/21|Σ1|1/2exp{12(xu1)TΣ11(xu1)},fu2,Σ2=1(2π)D/21|Σ2|1/2exp{12(xu2)TΣ21(xu2)}。
极大似然估计参数
u1∗,Σ1∗=argmaxu1,Σ1L(u1,Σ1)=argmaxu1,Σ1fu1,Σ1(x1)fu1,Σ1(x2)…fu1,Σ1(x79)" role="presentation">u1,Σ1=argmaxu1,Σ1L(u1,Σ1)=argmaxu1,Σ1fu1,Σ1(x1)fu1,Σ1(x2)…fu1,Σ1(x79)u1,Σ1=argmaxu1,Σ1L(u1,Σ1)=argmaxu1,Σ1fu1,Σ1(x1)fu1,Σ1(x2)…fu1,Σ1(x79)
u2∗,Σ2∗=argmaxu2,Σ2L(u2,Σ2)=argmaxu2,Σ2fu2,Σ2(x1)fu2,Σ2(x2)…fu2,Σ2(x79)" role="presentation">u2,Σ2=argmaxu2,Σ2L(u2,Σ2)=argmaxu2,Σ2fu2,Σ2(x1)fu2,Σ2(x2)…fu2,Σ2(x79)u2,Σ2=argmaxu2,Σ2L(u2,Σ2)=argmaxu2,Σ2fu2,Σ2(x1)fu2,Σ2(x2)…fu2,Σ2(x79)
解得,u1∗=179∑n=179xn,Σ1∗=179∑n=179(xn−u1∗)(xn−u1∗)T" role="presentation">u1=179∑79n=1xn,Σ1=179∑79n=1(xnu1)(xnu1)Tu1=179∑n=179xn,Σ1=179∑n=179(xnu1)(xnu1)T
u2∗=161∑n=80140xn,Σ2∗=161∑n=80140(xn−u2∗)(xn−u2∗)T" role="presentation">u2=161∑140n=80xn,Σ2=161∑140n=80(xnu2)(xnu2)Tu2=161∑n=80140xn,Σ2=161∑n=80140(xnu2)(xnu2)T
考虑引入更多的特征进一步建模,并且假设两类的高斯分布Σ" role="presentation">ΣΣ相同以避免参数过多带来过拟合问题,同样使用极大似然估计估计参数:
u1,u2,Σ=argmaxu1,u2,ΣL(u1,u2,Σ)=argmaxu1,u2,Σ∏n=179fu1,Σ(xn)∏n=80140fu2,Σ(xn)" role="presentation">u1,u2,Σ=argmaxu1,u2,ΣL(u1,u2,Σ)=argmaxu1,u2,Σ∏n=179fu1,Σ(xn)∏n=80140fu2,Σ(xn)u1,u2,Σ=argmaxu1,u2,ΣL(u1,u2,Σ)=argmaxu1,u2,Σ∏n=179fu1,Σ(xn)∏n=80140fu2,Σ(xn)
求解得到:u1∗=179∑n=179xn,u2∗=161∑n=80140xn,Σ∗=7979+61Σ1+6179+61Σ2" role="presentation">u1=179∑79n=1xn,u2=161∑140n=80xn,Σ=7979+61Σ1+6179+61Σ2u1=179∑n=179xn,u2=161∑n=80140xn,Σ=7979+61Σ1+6179+61Σ2,结合机器学习的三步骤,此时得到的分类函数是线性的。
朴素贝叶斯
现在假设每一个类中的每一个变量的分布是独立的,P(x1,x2…xn|C1)=∏i=1nP(xi|C1)" role="presentation">P(x1,x2…xn|C1)=∏ni=1P(xi|C1)P(x1,x2…xn|C1)=∏i=1nP(xi|C1),此时只要估计每一个一维高斯分布的参数。
P(C1|x)=P(x|C1)P(C1)P(x|C2)P(C2)+P(x|C2)P(C2)=11+P(x|C2)P(C2)P(x|C1)P(C1)=11+exp(−z)" role="presentation">P(C1|x)=P(x|C1)P(C1)P(x|C2)P(C2)+P(x|C2)P(C2)=11+P(x|C2)P(C2)P(x|C1)P(C1)=11+exp(z)P(C1|x)=P(x|C1)P(C1)P(x|C2)P(C2)+P(x|C2)P(C2)=11+P(x|C2)P(C2)P(x|C1)P(C1)=11+exp(z),其中z=lnP(x|C2)P(C2)P(x|C1)P(C1)" role="presentation">z=lnP(x|C2)P(C2)P(x|C1)P(C1)z=lnP(x|C2)P(C2)P(x|C1)P(C1)
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号