HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

抖音号交易出售资讯企业级的分类流程需要经过数据准备

2019-04-02

在实际应用过程中,A一般是我们想要预测的概率,A包含的情况我们是清楚地,比如:预测游戏中预测是否有辱骂别人(有 或 无),B即是某一个辱骂词汇的出现的概率,假如给我们一定的语料,我们就可以得出在某名玩家打出某个词汇的时候,他被判定为辱骂的概率,如果我们设定一个阈值,我们就可以对其发出辱骂警告了。

通常我们进行一个企业级的分类流程需要经过数据准备、分类器训练、分类器评估、分类识别。

  1. 数据准备:一般是语料库或者其他原材料的准备,这个阶段主要需要人工对语料进行分类,分类的清楚,合理对分类器的质量至关重要。
  2. 分类器训练:这个阶段有计算机完成,主要是计算各个属性(事件包含的集),结果的概率,以及最终该属性下某个结果的概率。
  3. 分类器评估:我们一般留出语料库中20%的数据量做分类器的评估,常用的评估指标包括正确率、精准度、召回率、错误率,通过人工去验证判断是否准确,并进行调整。
  4. 分类识别:以上的过程完成后,这个分类器就可以开展实际的工作了。

二、基于adaboost的数据分类

adaboost是一种组合型算法,它会先产生一定数量的弱分类,然后将弱分类按权重组合成强分类,即最终的分类算法。adaboost算法可以用来处理分类问题,回归问题等,分类方法比较精确的算法,是监督学习的一种。

它的基本原理是:先对初始数据进行训练,找到阈值,生成模型(弱分类器),然后对分类对的降低其权重,分类错误的提升其权重。然后再次训练模型,选定权重相加最小的,直到达到预定值。

adaboost在人脸识别、表情识别等场景中有较高的分析准确性,其过程较为复杂,这里不展开讲,有想进一步了解的可以网上查阅资料。

三、基于K邻近算法的分类器

k邻近算法也叫KNN(k-Nearest Neighbor)是一种在互联网领域常用到的,比较简答的一种算法,在我们常看到的内容推荐、歌单推荐、购物推荐中多数都用到了该算法。

它的核心思想是:将每一名用户(其具有大量的信息:身高、体重、兴趣、爱好、购物习惯等,每个信息都有值)作为一个样本点(多维空间的一个点),计算用户两两之间的距离,并根据距离的远近设定权值,然后评估距离某名用户最近的(人工设置阈值)几名用户的行为(购买某件商品、听了某首歌、看了某个电影、叫了某个外卖)并结合权重,向该名用户推荐他有可能想要的产品或服务。

其中用户与用户距离的计算我们一般用欧式记录或者余弦相似性测算,同时KNN也存在两个问题,一个是由于要计算任意两个样本点之间的距离,技术算比较大,每新增一个样本点都会带来一轮计算。

另外一个是当一个没有数据的样本加入时,无法很短的时间内分析出其可能的属性。

相关推荐