现在想到的方法是如下
--方法 1--
A 列表:['aa', 'bb', 'cc']
B 列表:['bb', 'cc', 'ff', 'kk']
因为'bb'和'cc'相同所以有
A:2/3
B:2/4
所以 AB 相似度等于:(2/3 + 2/4) / 2 = 0.583
假如有 C 列表:['bb']
同样与 B 列表比较,同理 BC 相似度等于:(1/4+1/1) / 2 = 0.625
然而 AB 相似度<BC 相似度却不太理想
--方法 2--
另外一个方法就是分母用元素的合计数
AB 相似度等于:(2/(3+4) + 2/(3+4)) / 2 = 0.286
BC 相似度等于:(1/(4+1)+1/(4+1)) / 2 = 0.2
结果:AB 相似度>BC 相似度
所以正确的方案应该用数学上的那些手段来实现呢?
