无监督学习

无监督学习包含算法

我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为无监督，是因为这是从无标签的数据开始学习的。

K-means算法

我们先来看一下一个K-means的聚类效果图

效果图

K-means聚类步骤:

效果图

sklearn.cluster.KMeans(n_clusters=8,init='k-means++)
- k-means聚类
- n_clusters:开始的聚类中心数量
- init::初始化方法，默认为’k-means++'
- labels_:默认标记的类型，可以和真实值比较（不是值比较）

$$ s c_{i}=\frac{b_{i-} a_{i}}{\max \left(b_{i}, a_{i}\right)} $$

注：对于每个点为已聚类数据中的样本，b1为到其它族群的所有样本的距离最小值，a为ⅰ到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值

效果图

分析过程（我们以一个蓝1点为例）:

如果 $b_i»a_i$: 趋近于1效果越好，$b_i«a_i$:趋近于-1，效果不好。轮廓系数的值是介于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。

sklearn.metrics.silhouette_score(X,labels)
- 计算所有样本的平均轮廓系数
- X:特征值
- labels:被聚类标记的目标值