数据分析之聚类分析

2024-05-10 21:14

1. 数据分析之聚类分析

RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及相关背景属性,通过使用特定的方法,发现隐藏在这些信息背后的特征,将其分成几个类别,每一类具有一定的共性,进而做出进一步的探索研究。这个分类的过程就是聚类分析。
                                          
 聚类分析,就是按照个体的特征将它们分类,目的在于让同一个类别内的个体之间具有较高的相似度,而不同类别之间具有较大的差异性。这样,就能够根据不同类别的特征有的放矢地进行分析,并制定出适用于不同类别的解决方案。
  
 聚类可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。
  
 为了合理的聚类,需要采用适当的指标来衡量研究对象之间的联系紧密程度,常用的指标有“距离”和“相似系数”,相似系数一般指的是相关系数。假设将研究对象采用点表示,聚类分析时,将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。
  
 聚类分析具有如下特点:
  
 1.对于聚类结果是未知的,不同的聚类分析方法可能得到不同的分类结果,或者相同的聚类分析方法但是所分析的变量不同,也会得到不同的聚类结果;
  
 2.对于聚类结果的合理性判断比较主观,只要类别内相似性和类别间差异性都能得到合理的解释和判断,就认为聚类结果是可行的。
  
 聚类分析可以应用于以下场景:
                                          
 聚类分析的步骤:
  
 (1)确定需要参与聚类分析的变量;
  
 (2)对数据进行标准化处理;
  
 因为各个变量间的变量值的数量级别差异较大或者单位不一致,例如一个变量的单位是元,另一个变量的单位是百分比,数量级别差异较大,而且单位也不一致,无法直接进行比较或者计算“距离”和“相似系数”等指标。
  
 (3)选择聚类方法和类别个数;
  
 (4)聚类分析结果解读;
  
 常用的聚类方法包括:
  
 1.快速聚类:也称K均值聚类,它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。
  
 2.系统聚类:也称层次聚类,首先将参与聚类的个案(或变量)各视为一类,然后根据两个类别之间的聚类或者相似性逐步合并,直到所有个案(或变量)合并为一个大类为止。实际上,系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后,要制作交叉表通过每一个类别的均值来了解每一类别的特征。
  
 3.二阶聚类:也称两步聚类,它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤,第一个步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;第二个步骤是正式聚类,就是对第一步得到的初步归类进行再聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。
  
 (1)系统聚类分析不仅支持输入单个分类数量,还支持输入分类数量的范围。这对于暂时无法确定类别数,或者想进行多类别数的结果比较时,非常方便。
  
 (2)系统聚类分析支持生成聚类结果图,从而更加直观地查看聚类过程。系统聚类分析支持两种图形:
  
 谱系图(树状图):它以树状的形式展现个案被分类的过程;
  
 冰柱图:它以“X”的形式显示全部类别或指定类别数的分类过程。
  
 (3)系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。
  
 其中,测量方法(度量标准):
  
 (i)区间:适用于连续变量,虽然SPSS提供了8种测量方法,但是通常选用默认的【平方欧式距离】即可。
  
 (ii)计数:适用于连续或分类变量,SPSS提供了2种测量方法,通常选用【卡式测量】即可。
  
 (iii)二元:适用于0/1分类变量,SPSS提供多达27种测量方法,通常选用【平方欧式距离】即可。
  
 通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量,所以,【测量】应选择【区间】项,方法为默认的【平方欧式距离】,标准化可以选择【Z得分】,选择按【变量项】,用以每个变量单独进行标准化。
  
 二阶聚类分析能够对连续变量和分类变量同时进行处理,无需提前指定聚类的数目,二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则(BIC)帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小,同时,“BIC变化量”的绝对值和“距离测量比率”数值越大,则说明聚类效果越好。
  
 聚类分析属于探索性数据分析方法,它没有一个所谓的标准流程和答案,不同的数据有不同的适用方法,即使相同的数据,应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

数据分析之聚类分析

2. 聚类算法解析

我们学习了决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于"有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。我们曾经学过的PCA降维算法就是无监督学习中的一种,聚类算法,也是无监督学习的代表算法之一。
  
 聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动,最有名的客户价值判断模型RFM,就常常和聚类分析共同使用。再比如,聚类可以用于降维和矢量量化(vector
  
 quantization),可以将高维特征压缩到一列当中,常常用于图像,声音,视频等非结构化数据,可以大幅度压缩数据量。
                                          
 在KMeans算法中,簇的个数K是一个超参数,需要我们人为输入来确定。KMeans的核心任务就是根据我们设定好的K,找出K个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去。
   那什么情况下,质心的位置会不再变化呢?当我们找到一个质心,在每次迭代中被分配到这个质心上的样本都是一致的,即每次新生成的簇都是一致的,所有的样本点都不会再从一个簇转移到另一个簇,质心就不会变化了。
  
 这个过程在可以由下图来显示,我们规定,将数据分为4簇(K=4),其中白色X代表质心的位置:
                                          
 我们追求“组内差异小,组间差异大”。聚类算法也是同样的目的,我们追求“簇内差异小,簇外差异大”。而这个“差异”,由样本点到其所在簇的质心的距离来衡量。

3. 聚类算法

1. 概述 
  
 K-means聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到 紧凑且独立的簇作为最终目标。 
  
  2. 算法核心思想 
  
 K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
  
  3. 算法实现步骤 
  
 1、首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。
  
 2、从数据集中随机选择k个数据点作为质心。
  
 3、对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到那个质心所属的集合。
  
 4、把所有数据归好集合后,一共有k个集合。然后重新计算每个集合的质心。
  
 5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。
  
 6、如果新质心和原质心距离变化很大,需要迭代3~5步骤。
  
  4. 算法步骤图解 
                                          
 上图a表达了初始的数据集,假设k=2。在图b中,我们随机选择了两个k类所对应的类别质心,即图中的红色质心和蓝色质心,然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为和该样本距离最小的质心的类别,如图c所示,经过计算样本和红色质心和蓝色质心的距离,我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心,如图d所示,新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程,即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。
  
  K-means术语: 
  
 簇:所有数据的点集合,簇中的对象是相似的。
  
 质心:簇中所有点的中心(计算所有点的中心而来)
  
  5. K-means算法优缺点 
  
  优点: 
  
 1、原理比较简单,实现也是很容易,收敛速度快。
  
 2、当结果簇是密集的,而簇与簇之间区别明显时, 它的效果较好。
  
 3、主要需要调参的参数仅仅是簇数k。
  
  缺点: 
  
 1、K值需要预先给定,很多情况下K值的估计是非常困难的。
  
 2、K-Means算法对初始选取的质心点是敏感的,不同的随机种子点得到的聚类结果完全不同 ,对结果影响很大。
  
 3、对噪音和异常点比较的敏感。用来检测异常值。
  
 4、采用迭代方法,可能只能得到局部的最优解,而无法得到全局的最优解。

聚类算法

4. 数据挖掘 聚类算法概述

文 | 宿痕 
来源 | 知乎 
本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。 
1.聚类 VS 分类 
分类是“监督学习”,事先知道有哪些类别可以分。 
  
 
  
聚类是“无监督学习”,事先不知道将要分成哪些类。 
  
 
  
举个例子,比如苹果、香蕉、猕猴桃、手机、电话机。 
根据特征的不同,我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类,和【手机、电话机】为数码产品的一类。 
而分类的话,就是我们在判断“草莓”的时候,把它归为“水果”一类。 
所以通俗的解释就是:分类是从训练集学习对数据的判断能力,再去做未知数据的分类判断;而聚类就是把相似的东西分为一类,它不需要训练数据进行学习。 
学术解释:分类是指分析数据库中的一组对象,找出其共同属性。然后根据分类模型,把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型,然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。 
聚类是指数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。 
2.聚类的常见应用 
我们在实际情况的中的应用会有: 
marketing:客户分群 
insurance:寻找汽车保险高索赔客户群 
urban planning:寻找相同类型的房产 
比如你做买家分析、卖家分析时,一定会听到客户分群的概念,用标准分为高价值客户、一般价值客户和潜在用户等,对于不同价值的客户提供不同的营销方案; 
  
 
  
还有像在保险公司,那些高索赔的客户是保险公司最care的问题,这个就是影响到保险公司的盈利问题; 
还有在做房产的时候,根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。 
  
3.k-means 
(1)假定K个clusters(2)目标:寻找紧致的聚类 
a.随机初始化clusters 
  
 
  
b.分配数据到最近的cluster 
  
 
  
c.重复计算clusters 
  
d.repeat直到收敛 
  
 
优点:局部最优 
缺点:对于非凸的cluster有问题 
其中K=? 
K<=sample size 
取决于数据的分布和期望的resolution 
AIC,DIC 
层次聚类避免了这个问题 
4.评估聚类 
鲁棒性? 
聚类如何,是否过度聚合? 
很多时候是取决于聚合后要干什么。 
5.case案例 
case 1:卖家分群云图 
  
 
  
作者:宿痕 授权转载 
原文链接:http://zhuanlan.zhihu.com/dataman/20397891

5. 聚类分析聚类算法中包含哪些数据类型

聚类分析聚类算法中包含哪些数据类型
许多基于内存的聚类算法采用以下两种数据结构:
(1)数据矩阵(Data Matrix,或称对象一变盘结构):用p个变量来表示n个对象,例如使用年龄、身高、性别、体重等属性变量来表示对象人,也叫二模矩阵,行与列代表不同实体:
 
(2)相异度矩阵(Dissimilarity Matrix,又称为对象一对象结构):存储所有成对的n个对象两两之间的近似性(邻近度),也叫单模矩阵,行和列代表相同的实体。其中d(ij)是对象i和对象j之间的测量差或相异度。d(i,f)是一个非负的数值,d(ij)越大,两个对象越不同;d (i,j)越接近于0,则两者之间越相似(相近)。
 
许多聚类算法都是以相异度矩阵为基础的,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。
相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量,二元变量,标称型、序数型和比例标度型变量,混合类型的变量。

聚类分析聚类算法中包含哪些数据类型

6. 16种常用的数据分析方法-聚类分析

 
                                           
   聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。
     
     
     
      
      
      
      
     
     
     
   聚类分析定义
      
     
      
      
      
      
      
     
   聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。
     
   聚类效果的好坏依赖于两个因素:1.衡量距离的方法(distance measurement) 2.聚类算法(algorithm)
      
       
     
         
     
     
     
     
      
      
      
      
     
     
     
   聚类分析常见算法
      
     
      
      
      
      
      
     
   K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。
     
   K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。
     
   也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会非常慢。
    
       
     
         
     
     
     
     
      
      
      
      
     
     
     
   案例
      
     
      
      
      
      
      
     
   有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。
     
   
                                           
    
    问题一:选择那些变量进行聚类?——采用“R  型聚类” 
    
   现在我们有4个变量用来对啤酒分类,是否有必要将4个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本。
     
   所以,有必要对4个变量进行降维处理,这里采用spss R型聚类(变量聚类),对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。
     
   
                                           
     
   4个分类变量各自不同,这一次我们先用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。
     
   
                                           
     
   只输出“树状图”就可以了,从proximity matrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。
     
   至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒精含量,钠含量,价格。
           
   
                                           
     
   
    问题二:20  中啤酒能分为几类?——  采用“Q  型聚类” 
    
   现在开始对20中啤酒进行聚类。开始不确定应该分为几类,暂时用一个3-5类范围来试探。Q型聚类要求量纲相同,所以我们需要对数据标准化,这一回用欧式距离平方进行测度。
     
   
                                           
     
   主要通过树状图和冰柱图来理解类别。最终是分为4类还是3类,这是个复杂的过程,需要专业知识和最初的目的来识别。
     
   这里试着确定分为4类。选择“保存”,则在数据区域内会自动生成聚类结果。
     
   
                                           
     
     
    问题三:用于聚类的变量对聚类过程、结果又贡献么,有用么?——采用“单因素方差分析” 
    
   聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分类变量到底对聚类有没有作用有没有贡献,如果有个别变量对分类没有作用的话,应该剔除。
     
   这个过程一般用单因素方差分析来判断。注意此时,因子变量选择聚为4类的结果,而将三个聚类变量作为因变量处理。方差分析结果显示,三个聚类变量sig值均极显著,我们用于分类的3个变量对分类有作用,可以使用,作为聚类变量是比较合理的。
     
   
                                           
     
     
      
    问题四:聚类结果的解释?——采用”均值比较描述统计“ 
       
   聚类分析最后一步,也是最为困难的就是对分出的各类进行定义解释,描述各类的特征,即各类别特征描述。这需要专业知识作为基础并结合分析目的才能得出。
     
   我们可以采用spss的means均值比较过程,或者excel的透视表功能对各类的各个指标进行描述。其中,report报表用于描述聚类结果。对各类指标的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。
     
   
                                           
     
   以上过程涉及到spss层次聚类中的Q型聚类和R型聚类,单因素方差分析,means过程等,是一个很不错的多种分析方法联合使用的案例。
    
       
     
         
     
     
     
     
      
      
      
      
     
     
     
    聚类分析的应用 
      
     
      
      
      
      
     
     
   聚类分析是细分市场的有效工具,被用来发现不同的客户群,并且它通过对不同的客户群的特征的刻画,被用于研究消费者行为,寻找新的潜在市场。
    
     
     
   聚类分析被用来对动植物和基因进行分类,以获取对种群固有结构的认识。
    
       
     
   聚类分析可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。
    
     
     
   聚类分析被用来在网上进行文档归类。
    
     
     
   聚类分析通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,从而帮助电子商务企业了解自己的客户,向客户提供更合适的服务。
    
     

7. 聚类分析

  层次聚类也叫系统聚类,适合于小量数据的分类,由于需要计算两两数据之间的距离,如果数据多的话分类,分类速度慢,分类质量下降,这种方法能够根据聚合系数判断最佳的分类数目;K-均值聚类也叫快速聚类,适合于大量数据的分类,快速聚类作为一种简洁高效的聚类方法很受欢迎,但他最大的缺点是自身不能确定分类的数目,必须人为设置分成多少类,需要个人经验判断;两步聚类法是一种比较新的聚类方法,它弥补了前两种方法的缺陷,既能够很好的对大量数据进行聚类,也能自动判别分类数目,个人认为这种方法最好。
  如果你想看每种方法的具体原理,可以看看的何晓群的多元统计分析,或吕振通的SPSS 统计分析与应用。

聚类分析

8. 聚类分析

化探工作中常常要研究元素和样品分类问题。聚类分析则提供了一些数量化的衡量元素或样品相似程度的指示,利用这些指标可将元素样品按其相似程度的大小划分为不同的类,从而揭示元素或样品之间的本质联系,这有助于研究元素共生组合关系和对岩体异常等的分类评价。
根据分类对象不同,聚类分析分为R型聚类分析(对元素进行分类),Q型聚类分析(对样品进行分类)。聚类分析一般采用逐次联结法,具体做法如下。
1.转换对数
常将实测数据先转换为对数,因为微量元素多属对数正态分布,而且数据过于离散。
2.数据均匀化
数据均匀化化的目的是将大小悬殊的数据化为同一度量的水平上。均匀化的方法常用的有:
(1)标准化
用于R型聚类分析,计算公式:

地球化学找矿

式中:zij为标准化数据;xij为原始数据(对数值);xi为 i个变量的平均值(对数平均值),  为i个变量的标准离差,σi=  ;i为变量数(i=1,2,3,…,m);j为样品数(j=1,2,3,…,n)。
(2)正规化
用于Q型聚类分析,计算公式:

地球化学找矿

式中:wij为正规化数据;xij为原始数据(对数值);xi(max)为i个变量的最大值(对数值);xi(min)为i个变量的最小值(对数值);i 为变量数(i =1,2,3,…,m);j 为样品数(j=1,2,3,…,n)。
(3)计算相似性统计量
1)相关系数r
用于R型聚分析,计算公式(任何两元素):

地球化学找矿

数据标准化后:

地球化学找矿

-1≤r≤1,|r|愈大,元素愈相似。
2)相似性系数
用于Q型聚类分析,计算公式(任何二样品):

地球化学找矿

-1≤cosθ≤1,|cosθ|愈大,元素愈相似。
3)距离系数
用于Q型聚类分析,计算公式(对于任何两样品)

地球化学找矿

对于正规化数据0≤d≤1,d值越小样品越相似。将计算出的相似性统计量排列成矩阵。
(4)根据相似性统计量进行分类
1)选出相似程度最大(即相关系数、相似性系数最大,距离系数最小)的一对元素或样品联结成一类,填入分类表(表6-4),联结后的元素或样品组成一个新变量(新样品)替换序号较小的变量(样品),去掉序号较大的变量(样品)。
2)将联结成一类的元素或样品均匀化数据加权平均,替换序号较小的一行作为新变量(新样品)的数据,去掉序号较大的一行数据,其余各行不变。得到比原来少一个变量或样品的均匀化数据表。

表6-4 分类统计表

加权平均计算公式:
如第一、二两个元素联结后新变量的标准化数据为,则:

地球化学找矿

N1和N2分别为权,未组合的数据权为1,组合一次权增加1。
3)根据新变量(新样品)的数据,计算新变量(新样品)与其余变量(样品)间的相似性统计量,其余不变,列出新的矩阵。
4)重复上述1),2),3)各步骤,即挑选相似程度最大的变量(或样品)联结归类;加权平均合并数据;计算新变量(新样品)与其他变量(样品)间的相似性统计量,刷新原矩阵,直至全部联结完毕为止。
5)制作谱系图,见图6-3。

图6-3 谱系图(示意)

3.计算实例
某地一批超基性岩样品,经分析 Ni,Co,Cu,Cr,S,As含量如表6-5。

表6-5 某地超基性样品Ni,Co,Cu,Cr,S,As 含量

(1)用R型聚类分析对元素进行分类
1)将原始数据转换为对数,并计算各元素对数值的平均值和标准离差,其结果见表6-6。
2)将各样品中各元素含量对数值进行标准化。
3)按照数据标准化公式:

地球化学找矿


地球化学找矿

于是可得标准化数据表6-7。

表6-7 标准化数据

4)计算相关系数,列出相关系数矩阵R(0),按照相关系数计算公式:

地球化学找矿

于是得相关矩阵R(0):

地球化学找矿

5)将R(0)中相关系数最大的Co,Cu联结成一类,记为Co′填入分类统计表中,并计算Co′的数据。
按照加权平均计算公式:

地球化学找矿

于是得表6-8。

表6-8 由R(0)得到的Co′值

6)计算新变量Co′与剩余的变量的相关系数,列出新相关矩阵R(1)。
相关系数计算公式同前(以下同),于是得:

地球化学找矿

7)将R(1)中相关系数最大的Ni,Co′联结成一类,记为Ni′填入分类统计表中,并计算Ni′的数据。
Ni′的数据仍按前加权平均的公式计算(以下同),于是得表6-9。

表6-9 由Co′重新计算的Ni′值

8)计算新变量Ni′与剩余的变量的相关系数,列出新相关矩阵R(2)。
于是得:

地球化学找矿

9)将R(2)中相关系数最大的S,As联结成一类,记为填入分类统计表中,并计算S′的数据(表6-10)。

表6-10 S′计算结果

10)计算新变量S′与剩余变量的相关系数,列出刷新的相关矩阵R(3):

地球化学找矿

11)将R(3)中相关系数最大的 Ni′与 S′联结成一类,记为 Ni″,填入分类统计表中(表6-11)。

表6-11 Ni″计算结果

12)计算新变量Ni″与剩余变量的相关系数,列出刷新的相关矩R(4)。
13)最后将Ni″与Cr联结起来,记入分类统计表6-12。

表6-12 分类统计表

14)制作谱系图(图6-4)。

图6-4 谱系图

从上述谱系图可见,在相关系数0.2~0.5的相似水平上,可将述六个元素分为两类:一类是 Cr(亲氧元素);另一类是 Co,Cu,Ni,As(亲硫元素)。在相关系数0.6 左右可将亲硫元素分为两组,一组是S,As(阴离子);一组是Co,Cu,Ni(阳离子),且Co,Cu相关关系更密切。这样R型聚类分析清楚地显示出这些元素在超基性岩石的相互关系。
(2)用Q型聚类分析对样品进行分类
仍以上述超基岩样品分析结果为例。
对样品分类常用距离系数。由于距离系数是对直角坐标系而言,即要求变量要互不相关。故可先用R型聚类分析(式R型因子分析)选出互相独立的变量(在用R型聚类分析时,通常取相关系数绝对值小的变量),然后以距离系数对样品进行分类。
上例R型聚类分析结果,在R=0.6 水平左右可将变量分为三组,即Ni′(Ni,Co,Cu);S′(S,As);Cr,现以这三组为变量对样品进行分类。
1)将变量数据(对数值)进行合并,得出新的数据表。合并的办法是取该组变量的平均值,于是得表6-13。

表6-13 对变量数据合并后的新的数据

2)将数据正规化。按正规化的公式:

地球化学找矿

于是得表6-14。

表6-14 正规化后的数据表

3)计算距离系数djk,列出初始距离系数矩阵D(0)。
按距离系数公式:

地球化学找矿

于是得:

地球化学找矿

4)将D(0)中距离系数值最小的(5),(6)样品联结成一类,记为(5′)填入分类统计表中,并计算(5′)的数据。
按照加权平均计算公式:

地球化学找矿

于是得表6-15。

表6-15 (5′)的数据表

5)计算(5′)与样品的距离系数,列出刷新距离系数矩阵D(1),于是得:

地球化学找矿

6)将D(1)中距离系数最大的(2),(5′)联结成一类,记为(2′),填入分类统计表中,并计算(2′)的数据。于是得表6-16。

表6-16 (2′)的数据表

7)计算(2′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(2),于是得:

地球化学找矿

8)将D(2)中距离系数最小的(1),(4)联结成一类,记为(1′),填入分类统计表中,并计算(1′)的数据。于是得表6-17。

表6-17 (1′)的数据表

9)计算(1′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(3),于是得:

地球化学找矿

10)将D(3)中距离系数最小的(1′),(2′),联结成一类,记为(1″),填入分类统计表中,并计算(1″)的数据。于是得表6-18。

表6-18 (1″)的数据表

11)计算(1″)与剩余样品的距离系数,列出新的距离系数矩阵D(4),于是得:

地球化学找矿

12)最后将(1″),(3)联结成一类,填入分类统计表6-19。

表6-19 分类统计表

13)制作谱系图(图6-5)。

图6-5 谱系图

从谱系图上可得:在距离系数0.35~0.5水平上,可将数个样品分成三类;一类是矿化的蛇纹岩(1)及(4);另一类是无矿化的蛇纹岩(2)及滑镁岩(5),(6);样品(3)为单独一类,它是无矿化的蛇纹岩。因此,通过Q型聚类分析很好地将该地含矿岩体和不含矿岩体区分开来。至于样品(3)单独开,还可进一步研究它与其他无矿岩体的差异。
这里需要特别指出的是,运用回归分析、判别分析、聚类分析都是在特定的地质条件下得出的统计规律,因此,在利用这些规律对未知进行判断时,一定要注意地质条件的相似性,切不可把某一地质条件下导出的规律,生搬硬套地用于解决不同地质条件下的问题。
最新文章
热门文章
推荐阅读