[BigData] 比较数据相似度

博客首页 » BigData 比较数据相似度

发布于 08 Jun 2015 00:26
标签 blog
http://zhidao.baidu.com/question/561613311.html?qbl=relate_question_4&word=%C1%AC%D0%F8%B1%E4%C1%BF%20%C8%B1%CA%A7%D6%B5%20%B8%DF%CE%AC%BF%D5%BC%E4

问题:两组数据,分别都有十几个属性;两个数据组有属性重叠,如何用数据挖掘方法计算两组数据的相似度

回答:看起来这个问题比较复杂,不是简单地分类、聚类就可以求解。
这个问题是否可以理解为比较两组数据的相似度?主要是比较对于决策变量D(“心脏病”)=Y/N的相似度?就是说两组不同的指标分别对于D的差异?
如果你能在两组数据中分别包含D(“心脏病”)的取值Yes、No,直接比较对于Yes的准确率,不就是两组数据的相似度了吗?
如果你是要做论文,可以将问题搞得复杂些,使其更加学术化;如果只是实际应用,不可以过分拘泥于漂亮的数学模型和复杂的求解过程,只要能够解决实际问题就可以了

相同有两种:第一是对决策属性D取值相同;第二是各个条件属性C的取值相同。答案无非有三种:
第一:相同,如果D的取值相同,两组数据条件属性C交集(共同拥有的条件属性)取值也相同,两组数据中的记录相等;
第二:不同,如果两组数据条件属性C交集(共同拥有的条件属性)取值相同,但决策属性D的取值却不同,这就是C交集外对决策属性D的影响造成的;
如果仅比较两组数据的相似性,仅计算第二种情况下的不同记录站百分比就是相似性;
如果要找出两组数据中的相似记录,可就麻烦了,要看你设定的阀值了,然后算出相似度两组数据中各个记录之间的相似度,找出满足阀值的记录为相似记录。设一组数据有m条记录,另一组数据有n条记录,那可就是m x n条记录。
还可以用聚类:
步骤1:取两组数据条件属性C交集(共同拥有的条件属性)、加决策属性D为聚类属性A,找出两组数据中包含C交集的记录为数据集S;
步骤2:用聚类算法看S重那些记录被划分在一组,如果不同两组原始数据的记录被划分在相同组。这些记录就是相似记录;


本页面的文字允许在知识共享 署名-相同方式共享 3.0协议和GNU自由文档许可证下修改和再使用,仅有一个特殊要求,请用链接方式注明文章引用出处及作者。请协助维护作者合法权益。


系列文章

文章列表

  • BigData 比较数据相似度

这篇文章对你有帮助吗,投个票吧?

rating: 0+x

留下你的评论

Add a New Comment