设为首页收藏本站|繁體中文

Project1

 找回密码
 注册会员
搜索
查看: 3875|回复: 4
打印 上一主题 下一主题

[原创发布] Vantage Point Tree / VP树

 关闭 [复制链接]

Lv1.梦旅人

v

梦石
0
星屑
50
在线时间
55 小时
注册时间
2007-12-19
帖子
99
跳转到指定楼层
1
发表于 2009-8-7 02:41:13 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

加入我们,或者,欢迎回来。

您需要 登录 才可以下载或查看,没有帐号?注册会员

x
本帖最后由 veal 于 2009-8-7 04:14 编辑

VP树是由Peter N. Yianilos 在1993年的论文Data Structures and Algorithms for Nearest Neighbor Search in General Metric Spaces 中提出的一种搜索度量空间(Metric Space)的二叉搜索树。

用途:
最邻近搜索。任何在度量空间的数据都可以生成VP树进行搜索。
度量空间定义(来自http://zh.wikipedia.org/wiki/%E5%BA%A6%E9%87%8F%E7%A9%BA%E9%97%B4):
   1. d(x, y) ≥ 0 (非负性)
   2. d(x, y) = 0 当且仅当 x = y (不可区分者的同一性)
   3. d(x, y) = d(y, x) (对称性)
   4. d(x, z) ≤ d(x, y) + d(y, z) (三角不等式)。
在RM中可能的应用:
1. 坐标系就是度量空间,可用于给出一个点,寻找一定半径内的所有点(测试工程的测试就是这个)
2. 拼写纠错,词汇之间的编辑距离也是度量距离

优点:
搜索复杂度:O(log(N)),当然随着搜索半径的增加,复杂度会增加。例如你有一本10万字的词典,给你一个词,搜索所有只差一个字母的词,全部词遍历一次的话要访问10万个词,用VP树最优化的情况下只需要访问(log(100000)/log(2)约等于17)个词。

缺点:
由于VP树是静态的,无法在其身上实现插入和删除操作。
大量距离查询操作,所以最好能缓存距离查询。
更先进的最邻近搜索算法请参考下面的链接或Google。

扩展阅读:
http://en.wikipedia.org/wiki/Nearest_neighbor_search

下面是VP树的实现代码,不保证优化,仅供参考:
  1. #==============================================================================
  2. # ■ VPTree
  3. #------------------------------------------------------------------------------
  4. #   用于metric space的搜索树  
  5. #==============================================================================

  6. class VPTreeNode
  7.   #--------------------------------------------------------------------------
  8.   # ● 实例变量
  9.   #--------------------------------------------------------------------------
  10.   attr_accessor :parent, :left, :right, :data, :threshold, :dist_proc
  11.   #--------------------------------------------------------------------------
  12.   # ● 初始化
  13.   #--------------------------------------------------------------------------
  14.   def initialize(args, &block)
  15.     # 如果传递了块
  16.     if block != nil
  17.       @dist_proc = block
  18.     # 没有传递块的话就用distance(other)
  19.     else
  20.       @dist_proc = Proc.new{|a, b|
  21.         a.distance(b)
  22.       }
  23.     end
  24.     # 大于两个数据的话,随机取一个数据为这个节点的data(这里取中间一个)
  25.     # 用其他数据到这个数据的距离的中位数作为threshold,
  26.     # 小于等于threshold加入左子树,大于threshold加入右子树
  27.     if args.size > 2
  28.       median = args.size / 2
  29.       @data = args.delete_at(median)
  30.       args.sort!{|a, b| @dist_proc.call(@data, a) <=>  @dist_proc.call(@data, b)}
  31.       @threshold =  @dist_proc.call(@data, args[median - 1])
  32.       @left = VPTreeNode.new(args[0, median], &@dist_proc)
  33.       @left.parent = self
  34.       @right = VPTreeNode.new(args[median, args.size - median], &@dist_proc)
  35.       @right.parent = self
  36.     # 如果只剩2个数据的话
  37.     elsif args.size == 2
  38.       @data = args[0]
  39.       @threshold =  @dist_proc.call(@data, args[1])
  40.       @left =  VPTreeNode.new(args[1, 1], &@dist_proc)
  41.       @left.parent = self
  42.     # 只剩一个数据的话
  43.     elsif args.size == 1
  44.       @data = args[0]
  45.     end
  46.   end
  47.   #--------------------------------------------------------------------------
  48.   # ● 是否叶节点
  49.   #--------------------------------------------------------------------------
  50.   def leaf?
  51.     return (@left == nil && @right == nil)
  52.   end
  53.   #--------------------------------------------------------------------------
  54.   # ● 输出
  55.   #--------------------------------------------------------------------------
  56.   def inspect
  57.     return "<Node: #{@data.inspect}, @threshold = #{@threshold}>"
  58.   end
  59.   #--------------------------------------------------------------------------
  60.   # ● 检查节点有效性
  61.   #--------------------------------------------------------------------------
  62.   def node_valid?
  63.     if @left != nil
  64.       @left.each{|child_data|
  65.         if @dist_proc.call(@data, child_data) > @threshold
  66.           return false
  67.         end
  68.       }
  69.     end
  70.     if @right != nil
  71.       @right.each{|child_data|
  72.       if @dist_proc.call(@data, child_data) <= @threshold
  73.         return false
  74.       end
  75.       }
  76.     end
  77.     return true
  78.   end
  79.   #--------------------------------------------------------------------------
  80.   # ● 检查树有效性
  81.   #--------------------------------------------------------------------------
  82.   def valid?
  83.     each{return false if !node_valid?}
  84.     return true
  85.   end
  86.   #--------------------------------------------------------------------------
  87.   # ● 迭代小于等于dist的所有data
  88.   #--------------------------------------------------------------------------
  89.   def each_within(sample, dist, &block)
  90.     # 获得sample到data的距离
  91.     sample_dist = @dist_proc.call(@data, sample)
  92.     # 如果这个距离小于dist,就迭代data
  93.     if sample_dist <= dist
  94.       yield(@data)
  95.     end
  96.    
  97.     # 需要迭代左子树的情况
  98.     if @left != nil && @threshold + dist >= sample_dist
  99.       @left.each_within(sample, dist, &block)
  100.     end
  101.     # 需要迭代右子树的情况
  102.     if @right != nil && sample_dist + dist  > @threshold
  103.       @right.each_within(sample, dist, &block)
  104.     end
  105.   end
  106.   #--------------------------------------------------------------------------
  107.   # ● 迭代
  108.   #--------------------------------------------------------------------------
  109.   def each(&block)
  110.     yield(@data)
  111.     @left.each(&block) if @left != nil
  112.     @right.each(&block) if @right != nil
  113.   end
  114. end
复制代码
测试工程下载:
VPTree.rar (729.91 KB, 下载次数: 123)

评分

参与人数 1星屑 +20 收起 理由
叶子 + 20

查看全部评分

Lv1.梦旅人

辉瑞中国首席研究员<

梦石
0
星屑
50
在线时间
142 小时
注册时间
2008-1-18
帖子
2129
2
发表于 2009-8-7 11:52:13 | 只看该作者
时间复杂度确实很低,不过在下觉得RM有点用不上比较NB的数据结构
因为本身RM的数据范围很小
来6r就是等某位仁兄的巨坑

褴褛着身行无端,囊中羞涩空心酸。
平生几无得意事,倒塔泡面宅寝室。
惟羡隔壁高帅富,雨露春风月夜声。
青丝无处觅其踪,只有硬盘苍井空。
莫云男儿空悲愁,鸿鹄岂不天际游。
坐断天下执鹿首,千百金帛万兜鍪。
夜深忽梦某年月,再见女神欲语迟。
吊丝终有逆袭日,木耳再无回粉时。
回复 支持 反对

使用道具 举报

Lv1.梦旅人

v

梦石
0
星屑
50
在线时间
55 小时
注册时间
2007-12-19
帖子
99
3
 楼主| 发表于 2009-8-7 13:57:19 | 只看该作者
就是因为Ruby令人发指的速度才需要优化的数据结构=v=
当然一般的游戏是用不上这个的。例子那里已经说了:坐标查询和拼写检查。
回复 支持 反对

使用道具 举报

头像被屏蔽

Lv1.梦旅人 (禁止发言)

梦石
0
星屑
50
在线时间
0 小时
注册时间
2009-8-15
帖子
98
4
发表于 2009-12-17 05:45:03 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

Lv3.寻梦者

梦石
0
星屑
1055
在线时间
1564 小时
注册时间
2008-7-30
帖子
4418

贵宾

5
发表于 2009-12-23 23:09:33 | 只看该作者
在考虑受到启发写华容道的最优路径算法(虽然有一大群人比我还挨球早就有研究{:nm_7:})

See FScript Here:https://github.com/DeathKing/fscript
潜心编写URG3中。
所有对URG3的疑问和勘误或者建议,请移步至发布页面。
欢迎萌妹纸催更
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

拿上你的纸笔,建造一个属于你的梦想世界,加入吧。
 注册会员
找回密码

站长信箱:[email protected]|手机版|小黑屋|无图版|Project1游戏制作

GMT+8, 2024-5-15 22:23

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表