Project1

标题: Vantage Point Tree / VP树 [打印本页]

作者: veal    时间: 2009-8-7 02:41
标题: Vantage Point Tree / VP树
本帖最后由 veal 于 2009-8-7 04:14 编辑

VP树是由Peter N. Yianilos 在1993年的论文Data Structures and Algorithms for Nearest Neighbor Search in General Metric Spaces 中提出的一种搜索度量空间(Metric Space)的二叉搜索树。

用途:
最邻近搜索。任何在度量空间的数据都可以生成VP树进行搜索。
度量空间定义(来自http://zh.wikipedia.org/wiki/%E5%BA%A6%E9%87%8F%E7%A9%BA%E9%97%B4):
   1. d(x, y) ≥ 0 (非负性)
   2. d(x, y) = 0 当且仅当 x = y (不可区分者的同一性)
   3. d(x, y) = d(y, x) (对称性)
   4. d(x, z) ≤ d(x, y) + d(y, z) (三角不等式)。
在RM中可能的应用:
1. 坐标系就是度量空间,可用于给出一个点,寻找一定半径内的所有点(测试工程的测试就是这个)
2. 拼写纠错,词汇之间的编辑距离也是度量距离

优点:
搜索复杂度:O(log(N)),当然随着搜索半径的增加,复杂度会增加。例如你有一本10万字的词典,给你一个词,搜索所有只差一个字母的词,全部词遍历一次的话要访问10万个词,用VP树最优化的情况下只需要访问(log(100000)/log(2)约等于17)个词。

缺点:
由于VP树是静态的,无法在其身上实现插入和删除操作。
大量距离查询操作,所以最好能缓存距离查询。
更先进的最邻近搜索算法请参考下面的链接或Google。

扩展阅读:
http://en.wikipedia.org/wiki/Nearest_neighbor_search

下面是VP树的实现代码,不保证优化,仅供参考:
  1. #==============================================================================
  2. # ■ VPTree
  3. #------------------------------------------------------------------------------
  4. #   用于metric space的搜索树  
  5. #==============================================================================

  6. class VPTreeNode
  7.   #--------------------------------------------------------------------------
  8.   # ● 实例变量
  9.   #--------------------------------------------------------------------------
  10.   attr_accessor :parent, :left, :right, :data, :threshold, :dist_proc
  11.   #--------------------------------------------------------------------------
  12.   # ● 初始化
  13.   #--------------------------------------------------------------------------
  14.   def initialize(args, &block)
  15.     # 如果传递了块
  16.     if block != nil
  17.       @dist_proc = block
  18.     # 没有传递块的话就用distance(other)
  19.     else
  20.       @dist_proc = Proc.new{|a, b|
  21.         a.distance(b)
  22.       }
  23.     end
  24.     # 大于两个数据的话,随机取一个数据为这个节点的data(这里取中间一个)
  25.     # 用其他数据到这个数据的距离的中位数作为threshold,
  26.     # 小于等于threshold加入左子树,大于threshold加入右子树
  27.     if args.size > 2
  28.       median = args.size / 2
  29.       @data = args.delete_at(median)
  30.       args.sort!{|a, b| @dist_proc.call(@data, a) <=>  @dist_proc.call(@data, b)}
  31.       @threshold =  @dist_proc.call(@data, args[median - 1])
  32.       @left = VPTreeNode.new(args[0, median], &@dist_proc)
  33.       @left.parent = self
  34.       @right = VPTreeNode.new(args[median, args.size - median], &@dist_proc)
  35.       @right.parent = self
  36.     # 如果只剩2个数据的话
  37.     elsif args.size == 2
  38.       @data = args[0]
  39.       @threshold =  @dist_proc.call(@data, args[1])
  40.       @left =  VPTreeNode.new(args[1, 1], &@dist_proc)
  41.       @left.parent = self
  42.     # 只剩一个数据的话
  43.     elsif args.size == 1
  44.       @data = args[0]
  45.     end
  46.   end
  47.   #--------------------------------------------------------------------------
  48.   # ● 是否叶节点
  49.   #--------------------------------------------------------------------------
  50.   def leaf?
  51.     return (@left == nil && @right == nil)
  52.   end
  53.   #--------------------------------------------------------------------------
  54.   # ● 输出
  55.   #--------------------------------------------------------------------------
  56.   def inspect
  57.     return "<Node: #{@data.inspect}, @threshold = #{@threshold}>"
  58.   end
  59.   #--------------------------------------------------------------------------
  60.   # ● 检查节点有效性
  61.   #--------------------------------------------------------------------------
  62.   def node_valid?
  63.     if @left != nil
  64.       @left.each{|child_data|
  65.         if @dist_proc.call(@data, child_data) > @threshold
  66.           return false
  67.         end
  68.       }
  69.     end
  70.     if @right != nil
  71.       @right.each{|child_data|
  72.       if @dist_proc.call(@data, child_data) <= @threshold
  73.         return false
  74.       end
  75.       }
  76.     end
  77.     return true
  78.   end
  79.   #--------------------------------------------------------------------------
  80.   # ● 检查树有效性
  81.   #--------------------------------------------------------------------------
  82.   def valid?
  83.     each{return false if !node_valid?}
  84.     return true
  85.   end
  86.   #--------------------------------------------------------------------------
  87.   # ● 迭代小于等于dist的所有data
  88.   #--------------------------------------------------------------------------
  89.   def each_within(sample, dist, &block)
  90.     # 获得sample到data的距离
  91.     sample_dist = @dist_proc.call(@data, sample)
  92.     # 如果这个距离小于dist,就迭代data
  93.     if sample_dist <= dist
  94.       yield(@data)
  95.     end
  96.    
  97.     # 需要迭代左子树的情况
  98.     if @left != nil && @threshold + dist >= sample_dist
  99.       @left.each_within(sample, dist, &block)
  100.     end
  101.     # 需要迭代右子树的情况
  102.     if @right != nil && sample_dist + dist  > @threshold
  103.       @right.each_within(sample, dist, &block)
  104.     end
  105.   end
  106.   #--------------------------------------------------------------------------
  107.   # ● 迭代
  108.   #--------------------------------------------------------------------------
  109.   def each(&block)
  110.     yield(@data)
  111.     @left.each(&block) if @left != nil
  112.     @right.each(&block) if @right != nil
  113.   end
  114. end
复制代码
测试工程下载:
VPTree.rar (729.91 KB, 下载次数: 123)
作者: dbshy    时间: 2009-8-7 11:52
时间复杂度确实很低,不过在下觉得RM有点用不上比较NB的数据结构
因为本身RM的数据范围很小
作者: veal    时间: 2009-8-7 13:57
就是因为Ruby令人发指的速度才需要优化的数据结构=v=
当然一般的游戏是用不上这个的。例子那里已经说了:坐标查询和拼写检查。
作者: 瓦沙尔    时间: 2009-12-17 05:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: DeathKing    时间: 2009-12-23 23:09
在考虑受到启发写华容道的最优路径算法(虽然有一大群人比我还挨球早就有研究{:nm_7:})




欢迎光临 Project1 (https://rpg.blue/) Powered by Discuz! X3.1