irpas技术客

机器是如何学习的?(非监督式学习)_青Cheng序员石头

大大的周 5843


theme: orange

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第21天,点击查看活动详情。

众所周知,机器学习增强了人类的能力,让以前人脑不可能的事情变成了可能。机器学习目前广泛应用于金融、产品销售、新媒体、医疗、社会科学、游戏娱乐、工业制造等众多领域,它无处不在,并且在蓬勃发展!但接下来的问题是,应用场景虽然不同,但其原理都是相同的,那么机器是如何学习的?

非监督式学习

另一方面,非监督式学习算法在没有标记的数据上工作。即在训练时,没有标签供模型进行修正。从机器学习术语来说,就是只有特征变量,没有结果变量。

虽然没有标签,但是也并不意味着非监督式学习会漫无目的地学习。实际上,这些算法会寻找数据中的潜在模式或连接,并使用这些点来帮助理解/分析数据。

那么为什么不总是采用标记的数据呢?原因可能有:

有时候得到标记的数据无法来使用标记的数据的成本很高数据量非常巨大,无法再合理的时间内添加标签

但无法通过标记的数据进行学习也不完全是坏事,因为当我们不知道自己到底寻找学习什么时,用非监督式学习算法可能更加有效。

分类

非监督式学习主要分为数据聚类与分群(Clustering)与数据降维(Dimension Reduction)。

数据聚类与分群

聚类是利用算法在数据点中找到相似之处,并将相似的数据分组在一起进行聚类和分群,这种典型案例有新闻聚类分群模型。聚类的依据可以是以下几点:

Distance(K-Means)Density(DBSCAN)

数据降维

通常,数据包含了太多的特征,而且并不是所有的特征都对模型的预测能力有同样的贡献。可以使用数据降维帮助去除数据集中多余的特征。这种典型案例有人脸特征数据降维。

模型

从机器学习模型的角度,可以将非监督式学习分成不用的算法模型,包括但不限于:

PCA(主成分分析)聚类和分群模型协同过滤算法模型Apriori关联分析模型 例子

借助于书籍《Python 大数据分析与机器学习商业案例实战》,讲解一个实际例子。

非监督式学习(训练数据中无目标变量)如下图所示,它的训练数据中只有特征变量,而没有目标变量(品种),所以它的学习目的不是预测品种。以第13章的聚类模型为例,非监督式学习可以根据这些特征将训练数据中的狗进行归类,如A类狗、B类狗、C类狗,那么对于一个新样本便可以根据它的特征来判别它属于哪一个分类。

提醒

监督式学习最适合于预测、分类、性能比较、预测分析、定价和风险评估等任务;至于非监督式学习,它在性能监测、销售功能、搜索意图以及潜在的更多方面都有一席之地。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #机器是如何学习的非监督式学习 #theme #4