在谱聚类实际运用当中,极为令人苦恼的问题里,其中一个便是对聚类数目K加以确定。这一参数直接决定着算法最终会将数据划为几群,倘若选得不正确,即便有着极为精妙的数学推导,也很难得出具备实际意义的结果。K值的选择不存在绝对标准,然而存在一些经过实践验证的方法,能够助力我们做出更为可靠的决策。
如何确定谱聚类K值
观察拉普拉斯矩阵特征值,是确定谱聚类K值最经典的方法,计算拉普拉斯矩阵特征值并从小到大排序后,特征值间间隙往往暗示合适聚类数目,通俗来讲比如假如前k个特征值都较小,从第k+1个特征值起突然变大,那么这个跳跃点对应的k就是理想聚类数,这种方法叫特征值差分法或间隙统计法,它直观有效,在学术研究与工业应用中都常见。
基于业务场景调优K值
业务需求,也应当成为确定K值的重要依据,除了数学方法。有时,从纯数学角度看,某个K值是最优的,然而放在实际业务场景里,却是不合理的。比如,做用户分群时,数学上或许显示分成8类是最好的,可是运营团队仅具备针对3 – 4类用户设计不同运营策略的能力,此时,就需要结合实际操作性,对K值进行适当调整。谱聚类的优势在于,它能够发现非凸形状的簇,这一点在客户细分、图像分割等领域,是特别有用的。
使用评估指标辅助选择
运用一些聚类评估指标来辅助确定K值,这是可行的。轮廓系数、-指数皆属常用之选。具体的做法是,尝试不一样的K值,计算与之相对应的评估指标,挑选指标表现最优的K。此方法的益处在于具备量化标准,客观性颇为突出。需要留意的是,谱聚类在完成特征分解后,最后一步往往会采用K-Means开展最终聚类,所以K值的选择也会对K-Means阶段的聚类效果产生影响,两者必须统筹考量。
结合最新研究趋势
有关K值选择方面的研究,一直处于推进状态。近期,有学者提出,在函数型数据分析里,能够先针对数据开展降维和标准化处理,接着结合变点图以及特征值差分法来确定K值,阈值建议取在0.05到0.08之间。此外,有研究者尝试借助构建新评价指标来搜索最优K,让确定聚类数的方法变得更加自动化以及智能化。这些新思路为解决K值难题给予了更多可能性。
在实际项目里确定K值之际,请你告诉我,你是会更加倾向于尊崇数学指标所呈现的结果,还是会率先着重考量业务具备的可解释性?欢迎于评论区之中分享你自身拥有的经验以及看法,点个赞好使更多朋友能够瞧见这篇颇具实用价值的技巧。




发表回复