张文军,冯永军,古德祥
聚类分析方法应用广泛,但过程及结果缺乏可靠的统计学检验,数学上不严格.另外,用于聚类分析的数据分布类型复杂多样,往往无法确定,而经典统计检验方法设定了各种统计前提和假设,应用依据不足.鉴于此,本研究用随机化方法对分类进行统计显著性检验,建立了具有统计显著性标记的聚类分析算法,用于对若干个样品进行有显著性标记的聚类分析. 该算法包括数据加权与规范化,计算距离测度,系统聚类,及随机化统计检验等过程.在该算法中,有14种距离测度、5种系统聚类方法、3种数据规范化方法及指标加权与否可供选择.随机化检验不需统计前提和假设,适用于各种统计问题.算法用Java语言网络化实现, 包含6个类和一个HTML文件.可通过网络在多种Java兼容的浏览器上实现算法共享. 以水稻田无脊椎动物多样性的调查数据,对该算法进行了对比分析,给出了选择距离测度的一些原则.