用于进行对象检索的分布式计算机数据库系统和方法

文档序号:6418730阅读:221来源:国知局

专利名称::用于进行对象检索的分布式计算机数据库系统和方法
技术领域
:本发明涉及计算机数据库系统,更具体来说涉及分布式计算机数据库系统。本领域中一般都认识到,在过去十几年中,信息处理的性质的两个重大变化是,从以字母数字文本处理为主到多媒体处理的转变,从前是分离的计算机由网络连接起来,而网络又由内部网和因特网连接起来。第一种变化导致计算机上的计算机图像变得与文本一样普通。第二种变化导致大量的文本和多媒体信息能为人们所用。信息向人们开放程度的这种提高,是以查找相关信息的难度的增加为代价的。a)基于单词的搜索引擎人们已经开发了辅助信息检索的搜索引擎,但是它们主要还是基于将查询中的单词与文本文档中的单词匹配。实际上,这意味着它们一般不能有效地检索图像和其它种类的多媒体的特征。基于单词的系统和基于非单词的系统目前采用独立和截然不同的方法来抽取相关信息。一种从基于单词的数据库抽取信息的方法是提交查询形式的信息请求。根据查询,计算机能从数据库抽取与查询所规定信息相关的信息。抽取的信息可用于确定查询与数据库中对象之间的“相似”或“相关”程度。人们已经开发了各种计算机实现的相似性测量(similaritymeasure),用于在查询和数据库信息是自然语言的文档时,比较查询与数据库中的对象。余弦测量(cosinemeasure)是一种常用的相似性测量。余弦测量的表达公式是COS(v,w),其中向量v表示查询,向量w表示文档。这些向量所在的空间中,每个可能的单词(或同义词集)代表空间的一维。要了解关于余弦测量的进一步信息,可参考G.Salton的《自动文本处理》(AutomaticTextProcessing,Addison-Wesley,Reading,MA,1989),G.Salton、J.Allen和C.Buckley的《大型文本文件的自动构造和检索》(Automaticstructuringandretrievaloflargetextfiles,Comm.ACM,3797-108,1994)。b)基于非单词的搜索引擎如上所述,基于非单词的的技术采用的抽取相关信息的方法与基于单词的系统所使用的截然不同。基于非单词的信息检索技术用于例如医学中从人体图象抽取诊断信息时是有益的。肺癌是最难治疗的癌症之一。早期发现对于提高生还率来说是重要的。胸部CT扫描比传统的X光胸透技术更有效,但是CT扫描产生的需要检查的图象更多,这就必然要用计算机辅助执行大规模的筛选程序。CT图象的计算机辅助诊断,要求抽取大量的特征,诸如肺区、血管、气泡和肿瘤。这些特征的检测要用计算机实现的阀值算法并作剔除CT扫描仪的制造物的修匀。这些特征又具有涉及诸如它们的形状、面积、厚度和在肺中的位置等属性的复杂结构。在计算机上实现检查这类特征的这类算法时,采用对象数据库是有用的。对象数据库是一批按照某种数据模型组织并存储在计算机存储介质上的数据或信息对象。每个信息对象以及数据对象都有一个类型,诸如图象、声音或视频流,例如文本文件或结构化文档。每个信息都由一个对象标识符(OID)唯一地标识。OID可以是因特网统一资源定位器(URL)或某种其它形式的标识符,诸如本机对象标识符(localobjectidentifier)。含有图象、声音和/或视频流的数据库不但能包括信息对象本身,也能包括特征和元数据(metadata)。用于这种数据库的数据模型能支持许多抽象层次上的信息的表示,这些层次包括1.数据表示层,它含有信息对象的实际数据。2.数据对象层,它存储从信息对象抽取的数据对象(诸如线和区域)。这个层上的对象没有域解释(domaininterpretation)。3.域对象层,它将一个域对象与数据对象层的每个对象关联4.域事件层,它将域对象互相关联,提供空间或时间关系的语义表示。数据对象层(即上述的层2)的特征可以表示为一组独立于域的数据,诸如线和区域。域层(即上述的层3和4)的特征可以表示为一组按域关系彼此相关的域对象。考察另一个医学例子。乳房X光术是早期检查乳腺癌的一种最有效的方法。乳腺癌是妇女患癌的一个主要原因。人工阅读乳房X光片耗费人力,所以计算机辅助是必不可少的。乳房X光片中有非常多已经判明是对正确诊断有重要意义的特征,诸如凝结的微钙化体(clusteredmicrocalcifications)、星形损伤(stellatelesions)和肿瘤。这些每个都能表示为一组具有复杂结构的医学域对象。例如,星形损伤具有由spincules环绕的中央体(centralmass)构成的复杂结构。而spincules又有复杂的星形结构。抽取这些复杂的域对象以及它们互相之间的关系,对于乳腺癌的有效检查是重要的。图象、声音和视频流的特征可以在计算机中表示为一组存储在数据库中的数据结构。特征可以划分为以下类型·不能直接从信息对象抽取的、通常描述的是关于信息对象的其它数据的特征,诸如摄影者姓名或拍摄日期。这种特征称为元数据。·能在插入数据库时直接从信息对象抽取的特征。·不到需要时不作计算的特征。特征可以简单到是一个诸如图象亮度的属性的值,但是许多特征更为复杂,因此是用复杂的数据结构表示的。这种复杂特征的一个例子是,乳房X光片中星形损伤的结构的表示。一般来说,可以通过分析文档从结构化文档中抽取特征,以产生数据结构;可以通过使用已经为在计算机上的实现而开发的许多特征抽取算法中的一个算法从非结构化文档中抽取特征。如结构化文档的情况一样,从非结构化文档中抽取特征也产生数据结构。人们已经为诸如图象、声音和视频流的多媒体开发了大量的各种特征抽取算法。要探讨这类算法,应当参考由编辑A.DelBimbo编辑的《第9届图象分析与处理国际研讨会会刊》(标题原文TheNinthInternationalConferenceonImageAnalysisandProcessing,卷1311,Springer,1997年9月)。例如,医学图象一般用边沿检查算法(edgedetectionalgorithms)来抽取数据对象,而用特定于域的知识将数据对象分类为有医学意义的对象,诸如血管、损伤和肿瘤。傅立叶和弱波变换以及许多过滤算法也用于特征抽取。例如,弱波分析已经被用来特征化区域的纹理和确定形状(诸如字母)而不管该形状在图象内的位置或方向。表示特征的数据结构一般符合数据库的某个数据模型,数据模型决定了所允许的分量(component)种类和属性值。每个特征可以具有一个或多个与表示该特征的数据结构的分量关联的值。在最简单的情况中,数据结构可以有一个单一的、具有一个关联值的分量,特征可以由对象的一个属性来表示。更复杂的特征可以由若干互相关联的、每个都有属性值的分量来表示。处于域层的数据模型经常被称为主体(ontology)。主体为诸如医学的特定域内的知识建立模型。主体可包括概念网络(conceptnetwork)、专业词汇、语法形式和推理规则。特别地,主体定义对象可拥有的特征以及如何从对象抽取特征。对象的每个特征都有一个关联的权重(weight)来代表该特征的“强度”或者说对象具有该特征的程度。当前用于从信息对象抽取特征的系统使用的主体非常简单,此外,主体在系统的设计中是隐式的,不是系统的一个单独成分。结果,当前的系统不能在因其而设计系统的单一本体以外使用。如果不彻底重新设计系统,要使用不同的本体、甚而向本体添加新功能一般是都不可能的。这类系统不适合现代应用领域的典型的那些大型、复杂、演变的本体。当信息对象不是用自然语言编写的文档时,信息检索系统就不能用上述的余弦测量来测量信息的相关性,因此人们开发了其它测量(下文作讨论),用于在这些系统中从图象或其它多媒体抽取特征。这种区别进一步说明了基于单词的与基于非单词的信息检索系统之间的差异—正如本领域的熟练人员所认识到的那样。要帮助在代表图象特征之类的数据库中查找信息,要采用称为索引(indexes)的特殊数据结构。就解决相似性索引(similarityindexing)的问题而言,当前的索引技术是非常有限的。许多搜索引擎局限于索引附属于信息对象的元数据,而不索引信息对象的内容。其它能直接索引信息对象的内容的搜索引擎使用的索引技术,功能随着规模的增加而急剧衰减,这些搜索引擎一般只是选择一些信息对象,而不排定它们的次序。当前的技术一般要求每个属性或特征有单独的索引。这种技术中即使最复杂的索引也局限于非常少量的属性。由于每个索引可以大至数据库本身,这种技术在有成百上千的属性的情况下就不能正常发挥作用,正如常见的要直接索引诸如图象、声音和视频流的对象时的情形一样。此外,维护每个索引结构的关联开销也很可观。这就限制了能索引的属性的数量。当前系统不能扩展到能支持有许多-包括图象、声音和视频流-对象类型、数百万个特征、同时涉及许多对象类型和特征的查询、不断添加的新对象类型和特征的数据库。当前技术的另一个特点是,它在检索时将各信息对象作为单独的单元对待,即要么将信息对象作为一个整体来检索,要么就根本不检索。例如,万维网浏览器按单元检索每个文档,只有整个文档都被下载并格式化后才提交文档。对象内的个别数据项甚至段落都不个别作索引。有些搜索引擎在这方面甚至更加极端,即它们仅仅把Web站点进行归类。当前的搜索引擎通常都包括陈旧的索引项,就是说,自打文档被索引以后,产生索引项的文档被更新过或已经被删除。保留陈旧索引项是有必要的,因为要不断地监视这么多的文档,成本极其高。对于许多文档来说,保留陈旧索引项是可以接受的,但是对某些时间敏感型文档—诸如含有商品价格的文档—来说,保持索引的最新状态是重要的。有关上述思想的其它信息可参阅下列文献1.L.Aiello、J.Doyle和S.Shapiro编辑的《第五届知识表示和推理原理国际大会》(FifthIntern.Conf.onPrinciplesofKnowledgeRepresentationandReasoning,MorganKaufman出版社,SanMateo,CA,1996)2.K.Baclawski的《分布式计算机数据库系统与方法》(Distributedcomputerdatabasesystemandmethod,1997年12月,美国专利申请号5,694,593,受让人-西北大学(位于美国麻省波士顿))3.N.FridmanNoy的《试验科学中智能信息检索的知识表示》(KnowledgeRepresentationforIntelligentInformationRetrievalinExperimentalScience,博士论文,西北大学计算机学院(位于美国麻省波士顿),1997)4.P.Hayes和J.Carbonnel.Scout的《自动化的查询相关文档总结》(automatedquery-relevantdocumentsummarization,TechnicalReport1997ProjectSummary,Carnegie(卡内基)集团(美国宾州匹兹堡),1997)5.Y.Ohta的《户外自然彩色景观的基于知识的解释》(Knowledge-BasedInterpretationofOutdoorNaturalColorScences.Pitma(美国麻省波士顿),1985)6.M.Zloof的《举例查询表和表单的调用和定义》(Query-by-exampletheinvocationanddefinitionoftablesandforms,InProc.Conf.OnVeryLargeDatabases,1-24页,1975)在以上发明背景介绍中引用的文献,本文引以参考。期望提供这样一种信息检索系统,它能用单一的索引系统从基于单词和非单词的信息的统一数据库检索信息-信息包括文档、图象和其它形式的多媒体,另外还能克服当前系统的许多性能和其它问题及局限。这种信息检索系统最好是高度可伸缩的、多用途的、坚固的和经济的。本发明归属于在信息检索装置中处理查询,进行基于单词和基于非单词的数据库信息的检索,方法是从查询中抽取一些特征,将每个特征分割成特征片断(featurefragments),将每个特征片断散列(hashing)成散列特征片断(hashedfeaturefragments)。可以利用散列特征片断来访问散列表(hashtable),以从中获得可用于获得与查询相关的数据库信息的对象标识符。另一个方面,本发明归属于一种为方便数据库检索而索引信息的信息索引系统,方法是从信息中抽取一些特征,将每个特征分割成特征片断,将每个特征片断散列成散列特征片断。用散列特征片断来访问散列表,以存储指定散列特征片断所决定的、应当将信息存储在该处的位置的对象标识符。信息检索装置可以在分布式计算机数据库系统中实现。一般来说,如本文所用的术语“特征”,系指与某信息对象关联的或者从该信息对象的内容派生的、在适用的域内有意义并且与适用的主体相符的任何信息或知识-不管该信息对象代表的是文档、图象还是其它多媒体。所以,例如如果信息对象代表-例如要参加摄影比赛的-一张人脸摄影图象,则图象的特征包括眼睛、鼻子和嘴,这是因为它们是评委们在浏览图象时能看到的。如果将同一张图象用于皮肤病诊断,域和主体就变化了,特征甚至能包括肉眼不能观察到的表面缺陷。更具体来说,按照本发明一个方面的分布式计算机数据库系统可包括一个或多个前端计算机和一个或多个由网络互连起来、成为一个检索包括例如图象、声音和视频流以及普通和结构化文档的数据库对象的搜索引擎的计算机节点。将最好与要检索的数据库对象的格式相同的查询或查询对象,从用户发送到一个前端计算机,后者将查询转发到搜索引擎的称为内部节点的一个计算机节点。内部节点从查询抽取特征,由特征生成片断,然后散列这些特征片断。每个散列特征片段被传递到网络的一个节点。网络上每个接收到散列特征片断的节点用散列特征片断在其各自的数据库分区上进行检索。本地数据库的检索结果由内部节点收集。如果用户请求,就由内部节点第二次重复这个过程,来改进查询的结果。以上分布式计算机数据库系统可以实现得具有许多有用的功能。例如,系统可以被实现得支持对诸如图象、声音和视频流以及普通和结构化文档的信息对象的索引和检索。信息对象本身的内容以及附属于对象的任何元数据,二者都能被索引。最好要根据本体来检索与查询相关的对象,本体被视为系统的独立成分,可能是大型、复杂和演变的。信息对象本身不必存储在数据库系统本身中-只要能在数据库系统中得到信息对象的位置,例如只要数据库存储指向存储在远程位置的信息对象的指针。例如,数据库可以存储在与因特网或内部网相连的远程服务器存储的文档的URL(统一资源定位器)。此外,系统能根据信息对象是时间敏感的的指示,仅在(不是直到)对象与查询相关时才下载对象作处理,由此消除了数据库中的陈旧数据。本发明的分布式计算机数据库系统也能支持索引下述全部三种特征元数据、在对象被索引时计算出的特征和在查询处理期间计算出的特征。特征可以是复杂的数据结构,可以用任何适合的计算机实现的相似性测量-诸如特征对比模型(FeatureContrastModel),将查询与信息对象作比较。在同一个查询或信息对象内可以使用一个或一个以上的相似性测量。数据库中的对象可以将相似性函数(similarityfunctions)与它们要与其一起被采用的特征类型相关联,甚至指定这些相似性函数。分布式计算机数据库系统能用一种能扩展支持高性能分布式索引方法来支持索引很大数量的对象类型-包括图象、声音和视频流,数百万计的特征,同时涉及许多对象类型和特征的查询,以及不断添加到系统的新对象类型和特征。这就避免了当前系统的诸多限制。该索引方法例如允许索引和检索单一信息对象-而不是如许多当前系统中那样只能是整个文档-内的个别数据项。为了向用户显示,分布式计算机数据库系统从一些相关源收集数据库项,并且例如将它们组织成一个供向用户表示的单一表格。此外,用户还可以规定所请求的信息是时间敏感的,在这种情况下,本发明将下载信息对象的当前状态并处理它,以抽取相关信息。这就避免了当前搜索引擎的含有大量陈旧索引项的缺陷。在本发明的另一个方面,包括一个或多个前端计算机和一个或多个由网络互连的计算机节点的分布式计算机数据库系统按搜索引擎来运行。希望查询数据库的用户,将查询传输到一个前端计算机,后者接着将查询传递到网络的一个计算机节点。接收查询的节点被称作搜索引擎的内部节点,内部节点用本体中指定的特征抽取算法抽取所接收查询的特征。将特征分割成大小有界的片断。用许多现成的散列算法(hashingalgorithms)中的一个算法散列这些片断。每个散列片断的一部分被内部节点用作寻址索引(addressingindex),内部节点通过它将散列查询特征(hashedqueryfeature)传输给网络上的节点。网络上每个接收散列查询特征的节点,用散列查询特征在其各自的数据库分区上进行检索。找到散列查询特征的对应数据的节点返回例如处理这个片断的对象的OIDs。可以调用计算机实现的-例如特定于该片断类型的-匹配函数(matchingfunction)被激活以选择例如要被返回的一个OIDs子集。内部节点收集所抽取的信息对象,然后根据与查询以及在查询中但不在返回的对象中的片断一致的片断,计算计算机实现的相似性函数或算法。相似性函数被用来例如根据计算出的匹配程度-即相似或相关程度-来排定对象的次序。用于各片断的函数可以是例如特定于该片断的类型的。结果例如是一个排定次序的对象标识符的列表,或者一个以与对象关联的或是从对象抽取的数据为内容的表格。内部节点也能在一个以上文档中含有相同信息时减少冗余。特别是,例如可以按照上文引用的Hayes和Carbonell的最大边际相关(MaximumMarginalRelevance)(MMR)尺度来排列所抽取的信息。结果无论是列表还是表格,都被传输到前端节点,后者格式化对用户的应答。例如,如果前端节点是万维网服务器,则前端节点就构造一个HTML格式的页面,页面内含有一个URL列表或一个每项都有被抽取的部分相关文档以及一个对该文档的URL的引用的表格。以上的分布式计算机数据库系统可以以与处理查询的方式相同的方式处理要被索引的信息对象-除非查询节点只将数据存储在它们各自的数据库中,并且没有信息被返回给内部节点。在本发明的另一个方面,分布式计算机数据库系统也能应用户的请求,提供更高层次的服务,例如如上所述的1级服务以及2和3级服务。对于2或3级服务,要用每个OID的一部分作为寻址索引,把在上述基本服务中获得的OIDs传输到网络上的其它节点。此外,如果请求了3级服务,就把每个对象与查询共有的特征与OIDs一起传输到网络上的相同节点。网络上每个接收OID的节点用该OID在其各自的数据库上检索相应的对象信息。在2级服务中,要检索辅助信息并将其传输到前端节点。辅助信息可以包括例如对象的URL或者对象小结或二者。对于3级服务,要根据对象拥有但查询却不拥有的片断来计算一个不相似性值。将不相似性值以及对象的有关辅助信息传输给内部节点。不相似性值可以使用特定于片断类型的函数。内部节点收集不相似性值,用它们来修改在第一级处理中获得的对象的相似性值。用修改了的值来排定对象的次序。将OIDs和具有最大相似性值的对象的任何有关辅助信息传输给前端节点。3级服务另外还能下载和处理原始信息对象-如果这是指定的。指定的方式有多种例如1.本体可以指定某类型的片断是时间敏感的。2.信息对象自己可以指定它是时间敏感的。3.查询可以指定有些或全部片断是时间敏感的。在上述的各种情况下,为了避免陈旧数据,要在有请求并且最近的下载超过规定时间长度时下载信息对象。时间长度可由用户规定,可以是个系统参数,或者是例如根据信息对象的类型动态计算出来的。无论所请求的是哪一级服务,前端节点都例如根据OIDs和内部节点传输的任何辅助信息来格式化对用户的应答。例如,如果前端节点是万维网服务器,则前端节点可以为每个对象构造一个HTML格式的、含有对URL的引用和辅助信息的页面。所以,本发明能提供这样一种信息检索系统,它能用单一的索引系统从基于单词和非单词的信息的统一数据库检索包括文档、图象和其它形式的多媒体的信息,另外还能克服当前系统的许多性能和其它问题及局限。本发明也能提供一种方便信息检索、与检索系统协作的信息索引系统。这种信息索引和检索系统可以在分布式模型的基础上建立,因此是高度可伸缩的、多用途的、坚固的和经济的。参考下面结合以下各附图的说明可以更好地理解本发明的以上和其它优点图1是按照本发明的分布式计算机数据库系统的实施例的框图;图2是图1的分布式计算机数据库系统的流程图形式的框图,该图显示了一种按照本发明实施例处理不同服务层次的查询并返回结果-包括从外部服务器下载时间敏感的对象信息-的方法;图3是图1的分布式计算机数据库系统的流程图形式的框图,该图显示了一种按照本发明实施例索引信息对象的方法;图4A-4F的框图分别表示可以与图2和3的实施例一起使用的查询消息、查询响应消息、对象消息、对象响应消息、插入消息、插入对象消息的格式;图5是按照本发明实施例的图1、2和3中的内部节点的一个代表性内部节点的框图;图6是按照本发明实施例的图1、2和3中的查询节点的一个代表性查询节点的框图;图7是按照本发明实施例的图1、2和3中的对象节点的一个代表性对象节点的框图;图8是按照用户计算机、前端计算机、内部节点、查询节点、对象节点以及外部服务器的每个的示例性实施例的计算机系统的框图。参看图1,概括地说,按照本发明的分布式计算机数据库系统100的一个实施例包括用户计算机102,它在例如通信链路103、104-例如网络-上与许多前端计算机105之一通信。前端计算机105(在其它实施例中也可以是用户计算机)本身又与一个包括一个或多个由局域网108互连的计算机节点106、109、110的搜索引擎通信。各个计算机节点106、109、110可以包括为搜索引擎提供数据的本机磁盘,或者,可以代之以或额外地通过网络从磁盘服务器或其它外部服务器111获得数据。搜索引擎的每个计算机节点106、109、110都可以是若干种类中的任何一种,包括内部节点106、查询节点109和对象节点110。搜索引擎的节点106、109、110未必代表截然不同的计算机。在一个示例性实施例中,搜索引擎由单一的计算机组成,它承担所有内部节点106、查询节点109和对象节点110的角色。在另一个示例性实施例中,搜索引擎由用作各个内部节点106、查询节点109和对象节点110的分立的计算机组成。本领域的熟练人员知道,可能的变化有很多,但仍然不偏离最佳实施例的范围和精神。在操作期间,用户计算机102将查询在链路103上传输到一个前端计算机105。前端计算机105提供搜索引擎的用户界面,调用由搜索引擎进行的数据检索,以处理查询,生成应答,然后-至少在一个实施例中-将应答返回给用户计算机102。参照图2首先考察对查询的处理,在一个实施例中,当用户从用户计算机102通过连接或链路211传输(步骤201)查询时,前端计算机213接收该查询。前端计算机213负责建立与用户计算机212的连接211,使用户能传输查询,能接收适当格式的应答。前端计算机213也负责任何验证和管理功能。例如,前端计算机213可以是一个用HTTP协议与用户计算机212通信的万维网服务器。在验证了查询可以接受之后,前端计算机213进行为使查询与搜索引擎的要求一致所必需的任何重新格式化。要求在数据库中检索对象的查询的格式,最好与数据库中对象的格式相同。每个查询可以包括一个或多个表示所要检索的数据项的标记或变量。这个技术可用于对对象数据库的模糊查询。术语“模糊查询”指的是一种查询,它指定按照可能仅仅满足到该查询所规定的某个程度的一组条件检索出的信息。例如,某个寻找有关高个子的信息的模糊查询可能规定高于7英尺(213cm)的为高(100%),低于5英尺(152cm)的为不高(0%),身高在5至7英尺之间的人为身高程度在0%至100%之间。最好用与从信息对象抽取特征时所用的本体相同的本体来抽取查询的特征。前端计算机213然后将查询传输到搜索引擎的一个内部节点215(步骤202),该内部节点于是被定义为负责该查询的搜索引擎内部节点。内部节点215按照本体从查询抽取特征。从结构化查询或文档抽取特征,方法是分析查询或文档,生成一个数据结构,然后将该数据结构划分成(有可能是重叠的)称作片断的子结构。查询的子结构被用来在数据库中寻找匹配的片断,因此它们也被称作探针(probes)。从结构化查询或文档抽取特征,方法是使用例如以可由内部节点215执行的计算机程序实现的特征抽取算法。特征抽取产生一个由一批互相相关的域对象组成的数据结构。该数据结构被划分成(可能是重叠的)子结构-如结构化文档的情形一样,这些结构是非结构化文档的片断。已经为诸如声音、图象和视频流的媒体开发了大量不同的特征抽取算法,例如用于图象的边沿检测(edgedetection)、分割和分类算法。也用傅立叶和弱波变换以及许多过滤算法来从图象和声音抽取特征。视频流包含一系列图象和一个同步声道。除了从个别图象和声道抽取特征外,还可以将视频流组织成场景(scences);可以将连续图象中的域对象互相表示,可以将声道中的域对象与对应场景中的域对象关联。从视频流抽取的域对象也可以包括这些域对象。每个特征可以具有一个或多个与代表该特征的数据结构的分量相关联的值。在最简单的情形中,数据结构的构成是有一个关联值的一个单一分量。在这种情况下,特征代表对象的一个属性。更复杂的特征将含有数个互相关联的、每个都可以有属性值的分量。代表特征的数据结构与本体规定的数据模型一致。数据模型确定所允许的分量和属性值的种类。每个特征的每个片断都有一个代表特征强度的关联权重。如果某片断在数据库中的存在是非常普遍的,那么它可能无助于搜索引擎的目的-即识别那些与特定查询相似的对象。例如图像的亮度。这种片断的可能值将被划分成一批范围连续而不重叠的值。当某个查询的片断被抽取时,也可以将代表接近但不包括查询中该片断的值的值范围的片断包括进来,作为该查询的片断,但它们的权重小于代表一个包括该查询的片断的值的值范围的片断。特定片断的值范围既可以在本体中明确规定,也可以在搜索引擎索引对象时动态地建立。当查询片断中出现标记(marker)时,标记代表一个要检索的数据项。将标记用文档中的任意项替换,使得修改后的片断按照本体是一个合法的片断。例如,一个请求房屋颜色的片断会检索对象数据库中存在的房屋的所有颜色,所以要用例如白色、褐色或其它颜色来替换该标记。内部节点通过使用预先定义的散列函数(hashingfunction)来编码查询的每个片断。在生成各种查询节点上用于在本机数据库中本地存储数据的存储位置的索引时,最好也使用相同的散列函数。用相同的散列函数为数据存储生成索引和为查询生成散列探针(hashedprobes),保证了在数据的存储期间,数据是均匀地分布在搜索引擎的各查询节点上的,保证了在查询的处理期间,探针是均匀地散布在各查询节点上的。用散列函数得出的散列值有一个第一部分,其作用是标识数据为了存储而要被发送到的查询节点,或者要被作为探针发送的查询片断。散列值也有一个第二部分,它被用来标识数据要被存储的或要从其提取数据的查询节点中的位置。所以,就查询来说,散列查询片断(hashedqueryfragments)被分布(步骤203)在连接或链路216、217上,作为指向-如散列值的第一部分所标识的-搜索引擎的某些查询节点216、221的探针。在第1或基本服务层,探针符合数据最初在查询节点上存储所用的索引片断的查询节点219、221响应查询,例如将符合所请求信息的索引字的OIDs在连接或链路218、214上传输(步骤204)给内部节点224。这样,散列探针与索引字的本机散列表之间的所有匹配,都被返回或收集到最初散列查询片断的内部节点224。之后,内部节点224确定在查询中返回的每个对象的相关性。相关性确定是由内部节点224通过比较查询和被返回OIDs的对象的相似程度而作出的。查询与对象间的相似测量可以是例如余弦测量,由COS(v,w)表示,其中向量v表示查询,向量w表示对象。这些向量位于由每个片段表示空间的一维的空间。如果信息对象不是用自然语言编写的文档,信息检索系统就不能采用上述的余弦测量来测量信息的相关性。另一个适合其它信息类型的两个对象之间的相似性测量是在上文提及的用于余弦测量的同一个空间中的距离函数;然而,有令人信服的证据表明,人类对相似性的感知,并不满足距离函数的公理。要讨论这一点,应参考《目视光学系统中以内容为中心的计算》(原文标题Content-CentricComputinginVisualSystem,见TheNinthInternationalConferenceonImageAnalysisandProcessing,卷二,1-13页,1997年7月),这里采用其内容作为参考。相应地,似乎是当前最成功的方法的理想模型是“特征对比模型”,其说明可见《相似性的特征》一文(原文标题FeaturesofSimilarity,刊于PsychologicalReview,84(4)327-352,1977年7月)。在这个模型中,查询与对象之间的相似性是由三项条件确定的1.查询与对象的共同特征。2.不是对象的特征的查询的特征。3.不是查询的特征的对象的特征。第1个条件对相似性值贡献正数,而第2个和第3个条件有负贡献。此外,第2个和第3个条件还要乘以预先定义的常数,使得第2个和第3个集合中的特征比第1个集合中的特征对相似性影响更小。在一个运用该模型的实现中,查询与对象之间相似性测量,是由三个预先定义的、用来与特征对比模型中出现的三个条件相乘的常数确定的。在这个实施例中,如果规定服务的层次要么是1级(基本的)或2级,则只用对比模型的前两个条件来计算相似性测量,或者将第3个条件的预定常数设置为0-这样的效果是等同的。因为第3个条件是最次要的,它对被检索的对象的排序只有很少影响。如果所有三个条件都要使用,则可以请求3级服务。然后,该实现就能根据相似性测量,返回数量为预定的N个相似性最高的对象,或者,返回所有生成大于预定值的相似性值的对象-它们被视为与查询足够相似,可以作为相关信息返回给用户。一旦确定了相似性,内部节点224按照相似性程度来对OIDs排序,然后返回一系列最相关的OIDs。这里,不同的实施例也能采取不同的可选方法。例如,可以将这一系列最相关的OIDs传输(步骤205)到前端计算机213,后者将应答适当地格式化,将应答传送给用户。另外,也可以将一系列最相关的OIDs通过网络108直接传输到用户计算机,无需前端计算机的介入。在另一个可选方案中,对于更高的服务层次(2级和3级),内部节点224将最相关的OIDs传输(步骤206)给对象节点225、228,后者持有与这些OIDs所标识的对象相关联的信息。与每个对象相关联的信息例如是对象的URL,对象本身,或者那些具有关联值的特征的对象特征与特征值列表。为了方便访问信息,OIDs可有一个第一部分,其作用是标识存储对象信息所在的对象节点225、228。OIDs还可有一个第二部分,它是用来标识对象信息在对象节点225、228中一个本机表(localtable)中的存储位置的本机索引值(localindexvalue)。对于2级服务来说,对象节点225、228返回最相关对象的对象信息。对象节点225、228可以遵照时间敏感性规定,从外部服务器231、235下载对象,对对象节点中保留的对象信息进行更新。完成下载的手段是,与负责该对象的外部服务器231、235建立通信,在连接或链路226上请求对象更新,在连接或链路232、236上提取对象,然后抽取对象的特征(步骤206)。时间敏感性规定可以在查询中、在查询的每个片断中和/或在对象中规定。然后,可以将最相关对象的对象信息传输(步骤207)到前端计算机213,由前端计算机适当地格式化该应答后将该应答传送给用户计算机212,或者通过网络108直接传输到用户计算机212,无需前端计算机的介入。对于3级服务来说,对象节点225、228将相关对象的对象信息传输(步骤207)到内部节点233。内部节点233用相关对象的对象信息来重新计算查询与对象之间的相似性测量。这可能导致对象被以不同的次序排列,也可能导致返回一个不同的对象列表。为了这个任务,内部节点233可以使用特征对比模型,3个条件全部可以有非零的预定常数。在这个实施例中,对象信息含有一个对象特征列表,使得不是查询特征的对象特征可以在相似性测量中被包括。然后,内部节点233返回最相关对象的对象信息,将对象信息传输到前端计算机213(步骤208),由前端计算机适当地格式化该应答后将该应答传送给用户计算机239(步骤209)。在另一个实施例中,内部节点233用抽取的相关对象的信息来建立一个或多个信息表。在另一个实施例中,将相关对象的对象信息或信息表通过网络108直接传输到用户计算机239,无需前端计算机的介入。应当注意的是,在以上对图2的讨论中,提及同一个节点时使用了不同的标注号,这是为了方便对系统及其操作的描述。所以,例如尽管用215、224和233来标注内部节点,它却可以是同一个节点,而不是不同的成分。类似地,前端计算机213、238可以是同一个节点,用户计算机212、239也如此。下面参照图3考察对象的索引,在一个实施例中,当用户从用户计算机306传输(步骤301)一个对象时,前端计算机307接收该对象。前端计算机307负责建立与用户计算机306的连接,使用户能传输对象。在另一个实施例中,前端计算机303不与用户交互,而是自动检查其环境中的对象,供搜索引擎索引。前端计算机307选择一个内部节点309,在连接或链路308上将对象传输给所选择的内部节点(步骤302)。在一个实施例中,对内部节点的选择是随机进行的,为的是使工作负荷在各内部节点上均匀分布。内部节点309赋予对象一个独有的OID,然后像以上讨论的查询的情形一样地处理对象,不过,在连接或链路310、311、312发送的与对象关联的数据(即散列片断)被存储在查询节点313、314和对象节点315中。下面参照图4a考察最佳实施例中使用的消息格式,查询消息是由散列模块(hashingmodule)512(见图5)生成并从内部节点传输给查询节点的。查询消息有4个字段首部402、查询标识符(QID)403、散列查询片断(HQF)404和值405。首部字段402规定该消息是个查询消息,也规定目的地查询节点。目的地查询节点是由散列查询片断的第一部分确定的。QID字段403含有一个查询类型说明符和一个查询标识符。HQF字段403含有一个片断类型说明符和由散列模块512生成的散列查询片断的第二部分。值字段405含有一个可选的与片断关联的值。片断类型说明符确定查询消息是否含有值字段,如果查询消息含有值字段,则片断类型说明符确定值字段的大小。图4b表示查询应答消息的示例性格式。查询应答消息是由相似性比较器514(见图5)生成并从查询节点传输给内部节点的。每个查询应答消息都是一个查询消息的结果。查询应答消息含有4个字段首部406、QID407、对象标识符(OID)408和权重409。首部字段406规定该消息是个查询应答消息,也规定目的地内部节点。目的地内部节点是从其接受到对应查询消息的内部节点。QID字段407含有一个查询类型说明符和一个查询标识符。OID字段408含有一个对象类型说明符和一个对象标识符。权重字段409含有一个可选的与对象关联的值。对象类型说明符确定查询应答消息是否含有权重字段409,如果查询应答消息含有权重字段,则对象类型说明符确定该字段的大小。图4c表示对象消息的示例性格式。对象消息是由相似性比较器生成并从内部节点传输给对象节点的。对象消息含有4个字段首部410、QID411、OID412和时间敏感性(TS)TS。首部字段410规定该消息是个对象消息,也规定目的地对象节点。目的地对象节点由对象标识符的第一部分确定。QID字段411含有一个查询类型说明符和一个查询标识符。OID字段412含有一个对象类型说明符和对象标识符的第二部分。TS字段413含有一个可选的时间敏感性说明符。对象类型说明符确定对象消息是否含有TS字段,如果对象消息含有TS字段,则对象类型说明符确定TS字段的大小。图4d表示对象应答消息的示例性格式。对象应答消息是由对象表或由特征抽取器(featureextractor)生成、并从对象节点传输给内部节点的。对象应答消息有3个部分标识符部分、特征部分和辅助部分。标识符部分含有4个字段首部414、QID415、OID416和位置417。首部字段414规定该消息是个对象应答消息,也规定目的地内部节点。目的地内部节点是从其接受到对应对象消息的内部节点。QID字段415含有一个查询类型说明符和一个查询标识符。OID字段416含有一个对象类型说明符和一个对象标识符。位置字段417含有一个可选的位置标识符,诸如URL。对象类型说明符确定对象应答消息是否含有位置字段,如果对象应答消息含有位置字段,则对象类型说明符确定位置字段的大小。特征部分含有一个说明对象的一些关联特征的字段418。辅助部分含有一个说明对象的辅助信息的字段419。对象类型说明符确定对象应答消息是否含有辅助部分,如果对象应答消息含有辅助部分,则对象类型说明符确定辅助部分的大小和结构。图4e表示插入消息的示例性格式。插入消息是由散列模块生成、并从内部节点传输给查询节点的。插入消息有4个字段首部420、OID421、HQF4422和值423。首部字段420规定该消息是个插入消息,也规定目的地查询节点。目的地查询节点由散列查询片断的第一部分确定。OID字段421含有一个对象类型说明符和一个对象标识符。HQF字段422含有一个片断类型说明符和由散列模块生成的散列查询片断的第二部分。值字段423含有一个可选的与片断关联的值。片断类型说明符确定插入消息是否含有值字段,如果插入消息含有值字段,则片断类型说明符确定值字段的大小。图4f表示插入对象消息的示例性格式。插入对象消息是由特征抽取器生成、并从查询节点传输给内部节点的。插入对象消息有3个部分标识符部分、特征部分和辅助部分。标识符部分含有4个字段首部424、OID425、TS426和位置427。首部字段424规定该消息是个插入对象消息,也规定目的地对象节点。目的地对象节点由对象标识符的第一部分确定。OID字段425含有一个对象类型说明符和一个对象标识符。TS字段426含有一个可选的时间敏感性说明符。对象类型说明符确定插入对象消息是否含有TS字段,如果插入对象消息含有TS字段,则对象类型说明符确定TS字段的大小。位置字段427含有一个可选的位置标识符,诸如URL。对象类型说明符确定插入对象消息是否含有位置字段,如果插入对象消息含有位置字段,则对象类型说明符确定位置字段的大小。特征部分含有一个说明对象的一些关联特征的字段428。辅助部分含有一个说明对象的辅助信息的字段429。对象类型说明符确定插入对象消息是否含有辅助部分,如果插入对象消息含有辅助部分,则对象类型说明符确定辅助部分的大小和结构。分布式计算机数据库系统的每个节点包括一个通信模块(如图5、6、和7中所示,下文将作讨论),它负责在节点之间发送和接受消息。发送消息时要求(1)在通信介质上发送之前将消息排队,(2)在通信介质上实际发送,(3)当由消息类型确定的模块接收到消息时,将处理该消息的任务排队。消息类型确定向接收模块发出的命令。该命令确定该模块处理该消息的手段。要发送的消息的目的地节点是在各消息的首部字段中规定的。当从另一个节点接收到一个消息时,消息类型确定了节点中的哪个模块将处理该消息。消息类型也在各消息的首部字段中说明。内部节点的通信模块也负责与前端节点通信。前端节点向内部节点发送查询和对象,内部节点向前端节点发送结果,诸如格式化的信息表。下面参照图5考察上述节点的示例性实施例,内部节点500可以有一个从查询或对象抽取特征的特征抽取器502。对图象进行特征抽取的方法步骤是检测边沿,标识图象对象,将图象对象分类为域对象,确定域对象之间的关系。在另一个实施例中,对图象的特征抽取是通过傅立叶或弱波变换进行的。每个傅立叶或弱波变换构成一个抽取特征。抽取特征被传送到分段器(fragmenter)504。此外,当从对象抽取了特征时,这些特征被以插入对象消息的形式传送到通信模块506。分段器504计算各个特征中含有的片断。每个片断由特征中的一组有限的关联分量组成。在一个实施例中,数据结构中定义特征的各个属性和各个关系都构成一个不同的片断。片断被传送到散列模块512。散列模块512计算片断的散列函数。在一个实施例中,散列函数是MD4消息摘要(MD4MessageDigest)算法(该算法登载在1990年10月由NetworkWorkingGroupoftheInternetEngineeringTaskForce发表的意见征询(RequestforComment(RFC)1186)说明中,可从因特网上获得,或向MIT计算机科学实验室(位于美国麻省剑桥)的R.Rivest索取)。散列模块512要么将查询消息、要么将插入消息传送给通信模块,具体要视片断是查询片断还是对象片断而定。相似性比较器514接收查询应答消息并生成对象消息,对象消息被传送给通信模块。相似性比较器514收集所有对查询的查询应答。对于应答中的每个对象,相似性比较器514确定检索中所返回的每个对象的相关性。相关性的确定是由内部节点通过比较查询与返回了对象标识符的对象之间的相似程度而作出的。在一个实施例中,查询与对象之间的相似性测量是一个余弦测量,表达公式是COS(v,w),其中向量v表示查询,向量w表示对象。这些向量处于一个其中每个片断代表空间的一维的空间中。最相关的对象标识符被用对象消息传送给通信模块506。表构造器516接收对象应答消息,通过收集QID字段相同的所有对象应答消息来格式化存储器中存储的表517。在一个实施例中,每个对象应答消息都在格式化的表517中产生一行。该行中的条目是由对象应答消息的特征部分的每个特征确定的。此外,该行中有一个条目规定位置字段。表517内各行的排列是由对象应答消息的辅助部分决定的。该格式化的应答被发送到从其接收查询的前端计算机。参看图6,查询节点600可以有一个从通信模块603接收查询消息和插入消息的片断表模块602。就查询消息来说,片断表模块602用HQF字段中的散列值检索存储器中存储的本机散列表603中的一个条目。HQF字段中的类型说明符和本机散列表603中的该条目然后被传送到片断比较器604。就插入消息来说,片断表模块602通过将插入消息的OID和值字段插到本机散列表603中的条目来修改本机散列表603中的一个条目。片断比较接收器来自片断表602的条目。由从片断表602传送过来的HQF类型说明符来确定一个比较函数。用该比较函数来确定从片断表602传送过来的条目中的OID和值字段的相关性。在一个实施例中,该比较函数一个相似性权重,具有最高相似性权重的对象标识符被认为是相关的。用一个查询应答消息将这些相关的对象标识符和它们的相似性权重传送到通信模块603。参看图7,对象节点600可以由一个从通信模块704接收对象消息和插入对象消息的对象表模块702。就对象消息而言,对象表模块702用对象消息的OID字段中的对象标识符提取存储器中的本机表703中的一个条目。将对象消息和所提取的条目传送到下载确定器(DownloadDeterminer)。就插入对象消息而言,对象表模块702在本机表703中插入一个新条目。如果指定对象标识符的对应条目已经存在,则替换掉现有的条目。新的或替换条目含有插入对象消息中的信息。下载确定器706从对象表接收对象消息和条目。它用TS字段来确定是否应当用下载器下载对象。在一个实施例中,TS字段是1位的,它的值有两个对应下载还是不下载这两种可能的状态。在另一个实施例中,TS字段是一个到期时间。如果已经达到了到期时间,就下载对象。否则就不下载对象。如果下载确定器706确定不应当下载对象,则对象消息和从对象表模块706接收的对象条目使用对象响应消息被传送到通信模块。如果下载确定器706确定应当下载对象,则将从对象表模块702接收的对象消息传送给下载器708。下载器708从加载确定器接收对象消息。下载器708用对象消息的位置字段来加载对象。在一个实施例中,下载器708用超文本传输协议来下载一个由统一资源定位器(URL)指定的网页。下载的对象被传输到特征抽取器710。特征抽取器710从从下载器708接收的对象抽取特征。对图象进行特征抽取的方法步骤是检测边沿,标识图象对象,将图象对象分类为域对象,确定域对象之间的关系。在另一个实施例中,对图象的特征抽取是通过傅立叶或弱波变换进行的。每个傅立叶或弱波变换构成一个抽取特征。用插入对象消息将所抽取的特征传送到对象表模块702,使本机对象表中的一个条目被替换掉。也用对象应答消息将所抽取的特征传送到通信模块704。图8表示示例性计算机系统800的传统系统体系结构。每个用户计算机、前端计算机和包括内部节点、查询节点、对象节点的计算机节点,都能以计算机系统800的一个实例来实现。对图8的示例性计算机系统的讨论,仅具有说明性的意义,但是不应当认为是对本发明的限制。尽管下文的描述可能涉及到描述特定计算机系统时的常用术语,所说明的概念同样适用于其它计算机系统,包括体系结构与图8所示的不相似的系统。计算机系统800包括一个中央处理单元(CPU)805,CPU可以包括常规的微处理器、用于暂时存储信息的随机存取存储器(RAM)810、用于永久存储信息的只读存储器(ROM)815。配备一个存储器控制器825来控制系统RAM810。总线控制器836用于接收和处理来自其它系统组件的各种中断信号。可以用软盘842、CD-ROM847或硬盘852提供海量存储。可以通过诸如软盘842、CD-ROM847的可卸式介质与客户机计算机800进行数据交换。软盘842可以插入软盘驱动器841,后者由控制器840连接到总线830。类似地,CD-ROM847可以插入CD-ROM驱动器846,后者由控制器845连接到总线830。硬盘852是硬盘驱动器851的一部分,由控制器850连接到总线830。向计算机系统800的用户输入可以由许多设备提供。例如,可以将键盘856和鼠标857通过键盘和鼠标控制器855连接到总线830。将能同时作为麦克风和扬声器的音频转接器896通过音频控制器897连接到总线830。对本领域的熟练人员来说,显然也可以通过总线830和适当的控制器将诸如光笔和/或输入板以及语音输入用的麦克风等其它输入设备连接到客户机计算机800。配备DMA控制器860来执行对RAM810的直接存储器访问。用控制视频显示器870的视频控制器865来生成可视显示。计算机系统800也包括一个能使客户机计算机800经总线891互连到网络895的网络适配器890。网络895可以是局域网(LAN)、宽域网(WAN)或因特网,可以使用能互连多个网络设备的通用通信线路。计算机系统800一般是由操作系统软件来控制和协调的。在其它计算机系统控制功能中,操作系统控制系统资源的分配,执行诸如进程调度、内存管理、连网和I/O服务的任务。上述实施例的组件的软件实现所包含的计算机指令和例程,既可以固定在有形介质(诸如计算机可读介质-例如图8的软盘842、CD-ROM847、ROM815或硬盘852)上,也可以通过调制解调器或其它接口设备(诸如在介质891上与网络895相连的通信适配器890)传输。介质891既可以是有形介质-包括但不限于光学或硬电缆通信线路,也可以用无线技术(包括但不限于微波、红外或其它传输技术)实现。它也可以是因特网。在这样传输时,软件组件可以采用载波中体现的数字信号的形式。一系列的计算机指令体现了本文在前面针对本发明所述的全部或部分功能。本领域的熟练人员会明白,这种计算机指令能用一些适合用于许多计算机体系结构或操作系统的程序设计语言来编写。此外,这种指令可以采用现在或将来的任何存储技术(包括但不限于半导体、磁性、光学或其它存储器件)来存储,或者采用现在或将来的任何通信技术(包括但不限于光学、红外、微波或其它传输技术)来传输。预计这种计算机程序产品可以按附带印刷或电子文件的可卸式介质来发布-例如跟计算机系统在例如系统ROM或硬盘上预装的压缩包装软件(shrinkwrappedsoftware),或者在网络(例如因特网或万维网)上从服务器或电子公告板发布。尽管已经披露了本发明的示例性实施例,对于本领域的熟练人员来说,显然,在不偏离本发明的精神和范围的条件下,可以作出各种将实现本发明的某些优点的修改和改进。其它执行相同功能的组件可以适当地替代,这对本领域有合理熟练程度的人员来说是显而易见的。此外,本发明的方法既可以用适当的处理器指令以全部软件实现来实现,也可以以使用硬件逻辑与软件逻辑的组合的混合实现来实现相同的结果。此外,诸如存储器大小、实现特定功能所用的逻辑和/或指令的具体配置、以及对本发明思想的其它改进等方面,都被认为由后附的权利要求所包括。所以,本发明应当解释为只受权利要求所指出的限制。权利要求1.一种在具有由网络连接的多个内部节点和多个查询节点的分布式计算机数据库系统中用模糊查询进行信息检索的方法,该方法包含的步骤为A)选择所述多个内部节点的一个第一内部节点;B)由所述被选择的内部节点从用户给出的查询中抽取多个特征;C)由所述被选择的内部节点将所述多个抽取特征的每个抽取特征分割成多个查询片断;D)由所述被选择的内部节点散列所述多个查询片断的每个所述查询片断,散列查询片断有一个第一部分和一个第二部分;E)由所述被选择的内部节点将所述多个散列查询片断的每个所述散列查询片断传输到由各散列查询片断的所述第一部分指示的多个查询节点中的相应查询节点;F)由所述查询节点运用相应散列查询片断的所述第二部分按照位于所述查询节点上的本地散列表来访问数据;G)由各个根据所述各自的散列查询片断访问数据的所述查询节点将对应于所述被访问数据的多个对象标识符返回给所述被选择的内部节点。2.权利要求1的方法,进一步包含的步骤为,在将所述多个对象标识符的所述部分返回给所述被选择的内部节点的步骤之前,对所述被访问数据应用一个匹配函数来选择多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。3.权利要求1的方法,进一步包含的步骤为,在从所述查询抽取特征的步骤之前,在所述内部节点接收来自所述用户的所述查询。4.权利要求3的方法,进一步包含的步骤为A)由所述内部节点确定被访问数据与查询之间的一个相似性测量;B)在返回所述多个对象标识符的步骤之后,由所述内部节点向所述用户返回具有预定的相似程度的被访问数据。5.权利要求4的方法,其中相似性测量是由相似性函数根据以下确定的A)由所述被访问数据和所述查询二者均拥有的特征;B)仅由所述查询所拥有的特征。6.权利要求5的方法,其中对于所述多个特征的每个特征,所述相似性函数采用一个所述特征类型特定的函数。7.权利要求1的方法,其中的运用步骤包括,由所述查询节点运用所述相应散列查询片断的所述第二部分按照位于所述查询节点上的本地散列表来访问多个对象标识符,每个所述对象标识符有一个第一部分和一个第二部分;所述方法进一步包含A)由所述被选择的内部节点将所述多个对象标识符的每个所述对象标识符发送到由每个所述对象标识符的所述第一部分指示的多个对象节点中相应的对象节点;B)由所述对象节点运用相应对象节点的所述第二部分按照所述对象节点上的一个本地对象表来访问数据。C)由按照所述相应对象标识符访问数据的每个所述对象节点将包含对象位置和对象特征的对象信息返回给所述被选择的内部节点。8.权利要求7的方法,进一步包含的步骤为,在将所述多个对象标识符的所述部分返回给所述被选择的内部节点的步骤之前,对所述被访问数据应用一个匹配函数来选择所述多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。9.权利要求7的方法,进一步包含的步骤为A)由所述对象节点从由被访问数据定位的外部服务器下载由所述相应对象标识符标识的对象;B)在将包含对象位置和对象特征的对象信息返回给所述被选择的内部节点的步骤之前,由所述对象节点按照所述查询从对象抽取数据。10.权利要求7的方法,进一步包含的步骤为在从所述查询抽取特征的步骤之前,在所述内部节点接收来自用户的查询。11.权利要求7的方法,其中,来自所述用户的所述查询含有一个对时间敏感性要求的规定。12.权利要求7的方法,进一步包含的步骤为A)由所述内部节点确定所述被访问数据与所述查询之间的一个相似性测量;B)在返回所述对象信息的步骤之后,由所述内部节点向所述用户返回具有预定的相似程度的被访问数据。13.权利要求7的方法,进一步包含的步骤为由所述被选择的内部节点建立一个表,所述表含有对应多个对象的每个对象的所述对象位置和所述多个对象特征。14.权利要求7的方法,其中相似性测量是由相似性函数根据以下确定的A)由所述被访问数据和所述查询二者均拥有的特征;B)仅由所述查询所拥有的特征。C)仅由所述被访问数据所拥有的特征。15.权利要求7的方法,其中对于所述多个特征的每个特征,相似性函数采用一个所述特征类型特定的函数。16.一种以有助于在具有由网络连接的多个内部节点和多个查询节点的分布式计算机数据库系统中用模糊查询进行信息检索的方式存储对象和对象的位置的方法,所述方法包含的步骤为A)选择所述多个内部节点的一个第一内部节点;B)由所述被选择的内部节点从用户提交的查询中抽取多个特征;C)由所述被选择的内部节点将所述多个抽取特征的每个所述抽取特征分割成多个对象片断;D)由所述被选择的内部节点散列所述多个对象片断的每个所述对象片断,所述散列对象片断有一个第一部分和一个第二部分;E)由所述被选择的内部节点将所述多个散列对象片断的每个所述散列对象片断传输到由每个所述散列对象片断的所述第一部分指示的所述多个查询节点中的相应查询节点;F)由所述查询节点运用所述相应散列对象片断的所述第二部分按照位于所述查询节点上的本地散列表来存储数据;17.权利要求16的方法,进一步包含的步骤为,在从所述对象抽取特征的步骤之前,在所述内部节点接收来自所述用户的所述对象。18.权利要求16的方法,其中的分布式计算机数据库系统包括多个对象节点,所述方法进一步包含A)由所述被选择的内部节点为用户选择的对象选择一个唯一的对象标识符,所述对象标识符有一个第一部分和一个第二部分;B)用所述对象标识符的第一部分来选择所述多个对象节点的一个对象节点;C)由所述被选择的内部节点将所述对象的位置,所述对象的所述多个对象特征发送给由每个对象标识符的所述第一部分指示的多个对象节点的相应对象节点;D)由所述对象节点运用所述对象标识符的所述第二部分按照位于所述对象节点上的一个本地对象表来存储数据。18.一种具有处理来自用户的查询的信息检索工具的分布式计算机数据库系统,包含A)多个内部节点;B)多个查询节点;C)由网络连接的所述多个内部节点和所述多个查询节点;D)其中每个所述内部节点在收到来自用户的查询时,从所述查询中抽取多个特征,将所述多个查询特征的每个所述查询特征分割成多个查询片断,将所述多个查询特征的每个所述查询特征散列成一个具有一个第一部分和一个第二部分的散列查询片断,并将每个散列查询片断发送到由散列查询片断的所述第一部分指示的所述多个查询节点的相应查询节点,E)另外,其中每个所述查询节点运用所述散列查询片断的所述第二部分按照所述查询节点上的一个本地散列表访问数据并将对应于被访问数据的多个对象标识符返回给所述内部节点。19.权利要求17的分布式计算机数据库系统,其中,查询节点对所述被访问数据应用一个匹配函数来选择所述多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。20.权利要求17的分布式计算机数据库系统,其中,所述内部节点确定所述被访问数据与所述查询之间的一个相似性测量并向所述用户返回具有预定的相似程度的被访问数据。21.权利要求17的分布式计算机数据库系统,其中,所述内部节点用由以下确定的相似性函数来测量相似性A)由所述被访问数据和所述查询二者均拥有的特征;和B)仅由所述查询所拥有的特征。22.权利要求17的分布式计算机数据库系统,其中,对于所述多个特征的每个特征来说,所述相似性函数使用一个特定于所述特征类型的函数。23.一种用于存储和查询信息对象或信息对象的位置的分布式计算机数据库系统,包含A)多个内部节点;B)多个查询节点;C)由网络连接的所述多个内部节点和所述多个查询节点;D)其中每个所述内部节点在收到来自用户的对象时,从所述对象中抽取多个特征,将所述多个对象特征的每个所述对象特征分割成多个对象片断,将所述多个对象特征的每个所述对象特征散列成一个具有一个第一部分和一个第二部分的散列对象片断,并将每个所述散列对象片断发送到由所述散列对象片断的第一部分指示的所述多个查询节点的相应查询节点,并且,其中每个所述查询节点运用所述散列对象片断的所述第二部分按照所述查询节点上的一个本地散列表来存储对象或对象的位置。24.一种用于处理基于单词和基于非单词的数据库信息检索的查询的信息检索装置,包含A)一个从查询抽取一些特征的机构;B)一个与抽取机构相连的、用于将每个特征分割成特征片断的机构;C)一个与分割机构相连的、用于将每个特征片断散列成散列特征片断的机构-其中散列特征片断用于访问散列表,从中获得用以从数据库获得与查询相关的信息的对象标识符。25.一种用于处理基于单词和基于非单词的数据库信息检索的查询的计算机程序产品,计算机程序产品包含一个在计算机可读介质上体现的计算机可读程序,计算机可读程序包含A)一个第一代码部分,用于从查询抽取一些特征;B)一个第二代码部分,用于将每个特征分割成特征片断;C)一个第三代码部分,用于将每个特征片断散列成散列特征片断-其中散列特征片断用于访问散列表,从中获得用以从数据库获得与查询相关的信息的对象标识符。26.一种用于为方便数据库检索而索引信息的信息索引系统,系统包含A)一个从信息抽取一些特征的机构;B)一个用于将每个特征分割成特征片断的机构;C)一个用于将每个特征片断散列成散列特征片断的机构-其中散列特征片断用于访问散列表,以在其中的由散列特征片断确定的位置存储指示信息的对象标识符。27.一种用于为方便数据库检索而索引信息的计算机程序产品,计算机程序产品包含一个在计算机可读介质上体现的计算机可读程序,计算机可读程序包含A)一个第一代码部分,用于从信息抽取一些特征;B)一个第二代码部分,用于将每个特征分割成特征片断;C)一个第三代码部分,用于将每个特征片断散列成散列特征片断-其中散列特征片断用于访问散列表,以在其中的由散列特征片断确定的位置存储指示信息的对象标识符。全文摘要分布式计算机数据库系统包括一个或多个前端计算机和由网络互连起来、成为一个检索包括图象、声音和视频流以及普通和结构化文档的对象的搜索引擎的一个或多个计算机节点。查询是一个与要检索的对象格式相同的对象。将来自用户的查询发送到一个前端计算机,后者将查询传递到搜索引擎的称为内部节点的一个计算机节点。内部节点从查询抽取特征,然后散列这些特征。将每个散列特征发送到网络上的一个节点。网络上每个接收到散列特征的节点,用散列特征在其各自的数据库分区上进行检索。各本地数据库的检索结果由内部节点收集。文档编号G06F17/30GK1514976SQ99801676公开日2004年7月21日申请日期1999年7月23日优先权日1998年7月24日发明者K·P·巴克劳斯基,KP巴克劳斯基申请人:贾格有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1