摘要:本文主要向大家介绍了【云计算】分类算法:朴素贝叶斯(NBC)详解,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
本文主要向大家介绍了【云计算】分类算法:朴素贝叶斯(NBC)详解,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。
朴素贝叶斯是基于贝叶斯定义与独立同分布假设的分类算法
朴素贝叶斯公式:
推到过程:
1、条件概率:
2、联合概率:
3,、P(X,Y)的联合概率等于P(Y,X)的联合概率,即:
4、P(Y,X)的联合概率:
参数含义:
yi:指的是具体的某一个类别
Y:指的是类别的集合,例如Y={军事、财经、体育}
X:某一篇文章
xi:文章中的具体某一个词
概率含义:
P(yi"X):给定一篇文章属于某一个类别的概率值
P(yi):先验概率
举个列子说明一下:
假设有篇文章,其中篇50是军事、30篇是财经、20篇是体育
P(y=军事) = 50 / 100
P(y=财经) = 30 / 100
P(y=体育) = 20 / 100
P(X):某篇文章的概率,这个概率是一个固定值,可以忽略的
例如:100篇文章,其中某一篇文章的概率值就是1/100
P(X|yi):对于y指定的类别中,出现X的概率
P(xi|yi):对于y指定类别中出现x这个分词的概率
举个例子:
y=军事,x=军舰
P(x=军舰|y=军事) = 军舰在所有军事文章出出现的次数/军事文章的总词数
举例说明一下P(X|yi)与P(xi|yi)的关系:
注意:假设独立同分布
X={军舰、大炮、航母}
y=军事
P(X|y=军事) = P(x=军舰|y=军事)*P(x=军大炮|y=军事)*P(x=航母|y=军事)
这个公式推导成立必须假设独立同分布
那么P(yi|X)就可化简成:
P(yi|X)≈P(yi)*P(X|yi)
P(X)是一个常数可以忽略
所以现在只需求P(yi)和P(X|yi),其中P(X|yi)我们就可以通过P(xi|yi)来计算
我们采取最大似然估计来计算P(yi)和P(X|yi)
1、P(yi)似然估计:
举例说明:
总共训练数据1000篇,其中据军事类300篇,科技类240篇,生活类240篇,生活类140篇,。。。。
P(军事)=0.3,P(科技)=0.24,P(生活)=0.14,。。。。
2、P(xi|yi)似然估计:
Count(yi):是指类对应类别yi的文章有多少篇
Count(xj,yi):出现xi这个词的yi类别文章有多少篇
例如:
总共训练数据1000篇,其中据军事类300篇,科技类240篇,生活类240篇,生活类140篇,。。。。
军事类新闻中,谷歌出现15篇,投资出现9篇,上涨出现36篇
P(谷歌"军事)=0.05,P(投资|军事)=0.03,P(上涨|军事)=0.12
到这一步我们就可以求得朴素贝叶斯公式需要的两类参数:
1、先验概率P(yi)
2、条件概率P(X|yi)
计算出这两类参数,我们就可以建立模型,做预测了
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号