对称的二元变量和不对称的二元变量之间的区别是什么?

      如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0或 1 没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。对恒定的相似度来说,评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数,其定义如下:
d(I,j) = (r+s) / (q+r+s+t)                   (8.9   p342 ?)
      如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。
 D(I,j) = (r+s) / (q+r+s)         (8.10)
 当对称的和非对称的二元变量出现在同一个数据集中,在 8.2.4 节中描述的混合变量方法可以
被应用。

原文地址:https://www.cnblogs.com/end/p/3330466.html