通过电路仿真对网页进行评级的方法

文档序号:6455228阅读:293来源:国知局

专利名称::通过电路仿真对网页进行评级的方法通过电路仿真对网页进行评级的方法
背景技术
:01环球网(web)或因特网上的站点(网站)数量已经增长到数以十亿计。对于用户来说,用于在网上找到有用的站点和信息的有效方法变得越来越重要。包括Google、Ask.comTM,Yahoo!tm和MSNtm的互連网搜索引擎采用不同的方法来有效地搜索站点。站点搜索已经成为互连网用户日常生活的重要部分,其在带给人们信息方面具有重要的价值。02目前各种算法的站点搜索技术仍然存在许多缺点。Google技术公司在它的搜索引擎中采用PageRank(网页评级)和Hilltop方法。该方法根据站点间的超链接对站点评级。它采用"乘幂法,,(powermethod)来查找所谓远传矩阵(teleportationmatrix)的特征向量。该特征向量给出站点的等级。为了确保会聚,采用等于0.85的远传参数。已经得到的报告是,当采用不同的远传参数时,PageRank方法会给出不同的结果。另一种算法的搜索方法(即Ask.comTM采用的ExpertRank(专家评级)方法)也解决了特征值和特征向量问题。该方法不仅仅识别具有与某一主题相关的信息的页面,其被称作"权威(authorities)";还寻找那些包含许多到具有关于该主题的有用信息的页面的链接的页面,其称为"网络中心"。这是基于以下假设关于给定主题的最权威的页面是那些最频繁地被其它页面所指向的页面。03现有算法易受垃圾链接的影响,其中垃圾站点通过创建大量指向它们的站点的链接来提高它们的级别。另外,一些现有算法不利于具有大量互连站点的大网域。04期望找到具有大量内容的站点和具有多个加权的入站链接的站点。而且还期望有利于网站管理员维护他们的网站并移除垃圾链接。
发明内容5广义上讲,本发明通过提供一种用于经电路仿真对站点评定等级的方法来满足这些需要。6应当理解到,本发明可以以多种方式实施,包括过程、设备、7系统、装置或方法等。下面描述了本发明的多个有创造性的实施例。7在本发明的一个实施例中,提供了一种用于对站点评定等级的方法。所述方法包括生成具有表示每个站点的节点的网电路模型。仿真该模型以识别每个节点的电势。随后根据这些站点对应节点的电势可以对该站点评定等级。该网电路模型具有被配置为传输能量到该网电路的能量源。该能量源通过具有选定电阻的源连接器被连接到每个节点。另外,每个节点使用漏极连接被连接到能量漏极,该漏极连接具有与对应于节点的站点的内容分数以及入站链接的数量相关的电阻,还具有提供链接的相应网页的电压电平。对于连接诸站点中的第一站点到其中的第二站点的每个超链接,类二极管装置被添加到诸节点中的第一节点和第二节点之间的网电路中,第一节点对应于第一站点,第二节点对应于第二站点,该类二极管装置使电流从第一节点到第二节点的流动比从第二节点流到第一节点更容易。8在另一个实施例中,提供了一种采用计算机系统执行网搜索(websearch)的方法。在该方法中,识别网络上的站点。对于每个站点,基于站点的内容给出内容分数。生成站点的索引,所述索引是通过从这些站点中找到的词语进行索引的计算机可搜索数据库。生成网电路模型,所述网电路模型包括表示每个站点的节点、能量源极、和对应于每个节点的源极连接端。每个源极连接端将能量源极连接到诸节点其中一个节点,每个漏极连接端将每个节点接地。所述源极连接端具有一选定电阻,该漏极连接端具有与该同节点相关联的站点的内容分数以及入站链接的数量相关的电阻和提供链接的相应网页的电压电平。连接两个站点的每个超链接在网电路中被表示为类二极管装置,该类二极管装置在对应于超链接方向的方向上具有低电阻,而在对应于超链接方向的相反方向上具有高电阻。采用计算机来仿真该网电路以确定每个节点的电势。根据相应节点的相应电压来对站点进行评级和分类。随后生成站点的子集列表,所述子集包括与查询相关的多个站点。9通过以下结合附图对本发明原理性的实例方式进行详细描述,本发明的优点将变得非常清楚。10通过以下结合附图对本发明的详细描述,本发明将可以得到充分理解。其中相同的参考标号代表相同的结构部件。11图l通过实例的方式,示出表示多个站点的网电路。12图2通过实例的方式示出图1的网电路中两个节点间的电流与电势差关系的示意图。13图3A和3B通过实例的方式示出为深度分级站点进行增强评级的网电if各变换。14图4示出以实例方式表示用于利用被评级的站点执行网站搜索的程序流程图。15图5示出以实例方式表示用于利用被评级在线百科全书网页发送广告的程序流程图。16图6示出以实例方式表示用于集成网站目录和网站搜索以提高搜索相关性的过程的流程图。具体实施例方式17在以下描述中,阐述了很多具体细节以提供对本发明的全面理解。但是,^艮显然对于本领域技术人员来说,在如果省略一个或多个具体细节的情况下,本发明也是可以实施的。在其它一些实例中,为了避免不必要地淡化本发明的特征,一些公知的处理操作和实现细节并未被详细描述。如此处所采用的,术语"网页,,("webpage,,)表示具有单独网址的文档。术语"站点"("website")表示相关网页的集合,例如具有相同根网址的网上文档。短语"网,,("web")表示通过因特网可访问的所有可索引的站点和网页。18网建模19此处所描述的方法本质上是用于网页评级的非线性方法。经由"非线性",意味着用于评级目的而描述网页的方程的系统是非线性的。通过在系统中非线性方程的采用,允许人们对网建模,以根据相关性更准确地对网页进行评级。在一个实施例中,网被模拟为集成电路,在此称之为"网电路"("webcircuit")。在网电路中,能够釆用电路设计技术,来设计复杂的控制方案,用以对付垃圾站点。网电路模型也允许或者本地或者全局的对模型进行灵活的修改或调整以获取期望的结果。因为此处所描述的网电路模型是物理的,它总是具有物理解决方案。如下面将进一步详细描述的,此评级方法也能够考虑历史并确保评级变化中的平滑性。920图1通过实例的方式示出表示多个网页的网电路100。每个网页4皮表示为网电路100中的一个节点102a-102d。网用户被模拟为一个电压节点104。电压节点104为网电路100提供能量源。在一个实施例中,电压节点104具有固定的电压,其电势可以被认为表示用户浏览网的意愿。在另一个实施例中,能量源具有固定电流。在不影响^^莫型的可用性的情况下,可以设想使用其它的能量源。电阻器106a-106d连接用户与其想要访问的每个站点。如以下将要参考图4详细描述的,在一个实施例中,从由网索引的搜索中所获得的网页的列表中,检索表示为一种节点的每个网页。电阻器106a-106d的电阻可被认为用于代表用户访问该站点的困难度。电阻器106a-106d的电阻可以是固定的,亦即,对于一般搜索而言是一致的。对于依赖主题的搜索,如下面将更详细描述的,电阻可以是依赖主题的。例如一个工程师用户能够与所有工程界或资源网页具有紧密连接,这可由到代表那些网页的节点的较低电阻来表示。因此,可通过改变用户和用户感兴趣的网页之间的电阻来设计复杂且个性化的模型。21例如,在用户和可信任的索引目录站点(诸如Yahoo.com)之间可配置小电阻。因此,这些站点的电势非常才妄近于源;f及电势。索引目录站点一般是具有权威性的站点,其提供到与某些特定主题的信息相关的其它高质量站点的链接。典型地,用户非常了解这些站点且经常访问这些站点以找到其它站点。在实践中,网页的电势(例如电压)可以是固定的,对于多个大索引可以是某个接近于源极电势的近似值。因此本质上,在仿真期间该节点能够被视为能量源极。该近似值能够通过减少电路的复杂性来节约仿真的成本。因为索引目录站点是权威性的,信任这些索引目录不会损害评级的质量。在一个实施例中,索引目录站点的质量是被主观确定的。22在网电路模型中,线性电压可控电阻器108a-108d将每个节点102a-102d接地。线性电压可控电阻器108a-108d的电阻值可以与控制函数、出站超链接的总数量、内容分数(垃圾站点是低分数)以及从其它网页到该网页的加权入站链接成比例。加权入站链接只是利用基于多个不同因素配置给它的某个倍增因素的一种链接。例如,诸如从网页A到网页B的两个网页之间的超链接,可以通过在转化为电阻值中的几个因素而被力口权1.控制电压v(A,0)的线性函数,其中v(A,O)是节点A和地之间的电压差值;2.如果A不是索引目录站点的一部分网页,网页A的出站链接的总数的倒数;3.如果A是索引目录站点,与索引目录站点的质量成比例的数值,其可以通过整个服务中的链接总数来进行测量,4.网页A的域中链接每个网页的平均数值的倒数,5.网页A的内容分数,和6.与该链接相关的内容相关性分数(广告链接的内容相关性低)。这给出了基于超链接网页B的内容与给出该链接的网页A的内容的相关性的分数。在一个实施例中,通过4叟索网页B中与网页A中相同的字词来确定该相关性。23内容分数可被用于降低基于内容的垃圾站点在网上和衰减网页上的影响力。所设计的网页仅为实现提高这些和某些相关页面的级别,而没有增进对于阅读者的效用,被称为"网上垃圾"("webspam,,)。衰减网页是指包含旧的和中断的超链接的网页,即,这些超链接不再指向现存的网页。中断的超链接表明网页很少被维护。24一个普通类型的网上垃圾通过从字典中抽取流行的词汇来被自动的生成。通过与那些普通的网页进行比较,一些启发式(heuristic)方法可#1用于4企查下述统计以识别它们网页上的词汇^:和词汇的平均长度、锚索文本的数量、可视内容的片段、网页的可压缩性、从全局公共词汇中抽取的页面片段、全局公共词汇的片段、独立的n元似然性(n-gramlikelihoods),和条件n元似然性。已有的方法学可用于内容分析。例如,在此引用作为参考的文献包括由AlexandrasNtoulas等人的论文《通过内容分斗斤4企测垃;及网页》("DetectingSpamWebPagesthroughContentAnalysis,")。垃圾网页和衰减网页(decayingwebpage)二者都具有低内容分。25在实践中,上述第三项的数值被设置为接近1以用于诸如Yahoo等良好的索引目录站点,而如果A有多个出站的链接的话,上述第二项的数值则比1小很多。代表网页的节点和地之间的电导率值(其是电阻值的倒数),可被认为代表用户感觉无趣然后停止网上冲浪的可能性。因此,接地端可表示网上沖浪的终点。用于线性电压可控电阻器108a-108d的电阻值的相对量值是重要的。其通过对所有网页统一地考虑上述因素来精心计算。26大量的加权入站链接和一个网页的出色内容分数被解释为该节点和地之间的大电阻值。大电阻值的小电导率反应了用户的能量或"电势的"趋势在节点处保持高的事实。另一方面,少量加权入站链接和网页的不足内容分数,被解释为节点和地之间的小电阻。小电阻值的高电导率使节点"接近"于地。在一个实施例中,如果具有太多的出站链接,则将通过降低电阻来阻碍非索引目录的站点。在实践中,可以通过人工手动检测网页是否是索引目录站点的一部分。27为模拟诸如两个网页间的超链接的连接,在电路中,类二极管装置110a-110c被用于连接两个网页节点。类二极管装置110a-110c允许两个节点间的能量反馈和前馈,其与两节点间的电势差值成比例。集成电路中的真正的二极管具有允许前向电流并限制反向电流的性质。在一个实施例中,类二极管装置110a-110c是类似的。28可以注意到,网电路100是无源的,仅无源装置被用于代表超链接。因此,网电路100是稳定的。相反,由Google技术公司使用的PageRank⑧系统需要远传数值c,0<c<1(实践中是0.85),从而使其会聚。这样,在PageRank系统中,超链接将被模拟为电压可控电流源。29图2通过实例的方式示出了两个节点P和N间的电流相对电势差的图150。链接是从P到N。如果节点P的电势高于节点N的电势,该装置的电导率相对大。如果节点P的电势低于节点N的电势,该装置的电导率相对小。这确保具有较低级别的网页不会通过创建到其的链接影响高级别网页的级别。而且,如果具有高级别的网页A创建了到低级别的网页B的链接,具有低级别的网页B的级别将显著提高。另外,级别上接近的两个网页的级别将会变得更接近。应当注意到,B的加权入站链接的数量通过从A到B的链4妄而增长。但是,该影响仅与A的级别以及其它一些预定因素有关,而与A的级别和B的级别的差值无关。30在一个实施例中,网电路模型限制可能试图通过创建许多指向它们网页的链接来提高它们级别的垃圾网页。为实现此目标,可通过分析链接的内容来调谐类二极管装置110a-110c。例如,可以给相同页面上的大量链接以及广告链接以较小重要性。同样地,给带有相关内容的链接以较大重要性。31网电路100的类二^l管装置以非线性方式限制反向和前向电流。如图2中所示,在一个实施例中,类二极管装置是4区分段的。此分段的线性对计算的效率是有用的。在I区,从节点N到节点P没有电导率且在从N到P方向的电流被固定于一个预设电流值。在II区,在从节点N到节点P的方向存在较小的电导率。在III区,在从节点P到节点N的方向提供较大的电导率。在IV区,在P和N之间提供相对大的电导率,仅比III区的略小。32既可本地地在网的部分中也可以全局地对这个复杂的非线性电导率模型进行调谐,以生成期望的仿真结果。例如,非线性类二极管装置11Oa-11Oc可被调谐以在网域内对付垃圾站点。特别的,对于相同网域内的超链接,所增加的级别分享是可以被允许的。这是通过提高表示单个域内网页的节点之间在分段线性区域I-IV区的电导率来实现。这对于内部超链接是合理的。33所设计的网模型的行为34网电路模型被配置为具有下述行为特征1.如果网页具有高内容分数和大量加权入站链接,给该网页以高级别。因为网电路模型中的反向能量流受限,所以入站链接是来自低级别网页还是高级別网页是无关紧要的。2.如果网页具有高内容分数、多个入站链接和多个出站链接,该网页级别将被它链接指向的网页的级别所影响。如果它链接到低级别网页,将分享它自己的级别并稍微减低它的级别。此特征将给网络管理员以印象,使其适当地维护它的链接。3.给被识别为垃圾页面的网页以低内容分数。即使该网页具有多个出站链接,它自己的级别保持低且它不会影响其它网页的评级。4.如果网页具有良好的内容分数但没有多个入站或出站链接,该网页可具有平均甚至高于平均的级别。5.如果网页具有多个中断链接,则降低该网页级别。6.与之前的方法不同,其阻碍具有大量内部链接的网页的大网域,本方法不具有这种不期望的性质。35因此,该网电路模型能够找到具有大量内容的网页和具有多个加权入站链接的网页。另外,该网电路模型支持网站管理员维护他们的站点并移除垃圾链接。36与仿真或评级的稳定性无关,基于在代表网页的一个节点和地之间配置电导率的灵活性,可采用分等级的网搜索方案。更具体地,可采用深度层级来分离一个站点的根网页。具有深层级的站点是指例如www.microsoft.com这样的站点,其具有源于一个根网页的多个页面,相对于这个才艮,以具有多个级别(例如,多于一个或两个级别)的层级而—皮编址。此类网页可被分离为两个拷贝主拷贝和次拷贝。主拷贝继承该网页在网上的位置,并给出到次拷贝的链接(其仅链接到次拷贝)。根据关键字可以索引主拷贝,该关键字与根网页的整个层级(即根网页和所有子页面)极度相关。关键字可通过分析层级中的所有子页面来确定。例如,可以执行内容分析以识别子网页中的关键字。如果存在关键字的话,则可从次拷贝中移除这些关键字。37在仿真期间,对于每个拷贝创建各自的节点,如图3A和3B中以实例方式所示出。图3A以网电路的节点形式示出网的部分的初始表示120。为此说明目的,省略了能量源极和来自节点的能量漏极连接。每个箭头可表示从一个网页到另一个网页的超链接,或在网电路的上下文中的如上参考图1所述的连接两个节点的类二极管装置。具有深层级的站点122包括一个才艮网页124和多个其它网页。才艮网页124包括入站链接127和出站链接128。其它输入链接和输出链接(未示出)可连接到站点122中的其它网页。进而,根据一个实施例,如图3B的修改型表示120,所示,根网页124被分离为主拷贝125和次拷贝126。主拷贝125被连接到入站127和出站链4矣128,其在网上^f立于与网页124在初始表示120中类似、的位置,使得代表主拷贝125的节点继承该初始位置。在所示的修改型表示120,中,一个单链接或类二极管装置130被从主拷贝125添加到次网页126中。38使用此设计,当搜索相关关键字中的任何字时,可以容易地找到具有高评级的主拷贝125,由于多个入站链接127它将出现在搜索结果的顶端中。因为具有有用信息的子网页的低级别,以前的搜索方法难以在深层级中找到有用信息。另一方面,如果搜索关键字而不是相关联的关键字,将找到具有较低级别的次拷贝,但是因为级别较低,它将不是在搜索结果的顶端中。这种方案使得搜索具有深层级的站点更可行且更有用,并将倾向于引导用户到具有深层级的相关站点的根网页。包括相关子网页的14搜索结果可被压缩至根网页的搜索结果条目中以增加有用性,允许用户点击按钮以展开并查看所有子网页。在一个实施例中,用户可以选择执行此类型的搜索,或基于如图3A所示的初始表示进行搜索。39实例40表l表示用于描述具有15个节点的网电路的示意性网表<table>tableseeoriginaldocumentpage15</column></row><table>d105510dmodd115212dmod*仅为描述的简单性,采用接地的电阻而不是可控电阻,即控制函数为常数。rr20201rr30301rr40401*来自加权入站链接的电阻rr50508,5rr60601rr70701rr80801rr90901*来自加权入站链接的电阻rr脂1002*已调谐的电阻rrllO1103*来自加权入站链接的电阻rrl201201.5*电阻是1,无入站链接。rrl301301*分析.optionsnumthread=2.tranIns6ns.end41表2示出解决用于每个节点的电压的网表之后的结果:表2<table>tableseeoriginaldocumentpage16</column></row><table>22.532.542.554.4731862.572.582.592.5103.33371113.75123134.57318e-142如表2所示,节点5具有最高分凄史,4.47318,因为相应的网页具有多个入站链接。节点2、3、4、5、6、7、8、9和13具有相对低的分数,因为它们没有入站链接和只拥有平庸的内容分数。这对于它们链接到节点5没有帮助。因为接地的电阻的调谐,节点11具有第二高的电压。节点10具有第三高的分数,是因为它的内容良好且其具有来自节点5的入站链接。节点12具有第四的分数,是因为它具有来自节点2的入站链接。因为节点2的电压低于节点5的电压,所以节点12的电压低于节点IO的电压。在用户和节点13表示的网页之间不存在链接。因此,节点13具有最低的级别。这是一种个人化的网搜索并且将在后面加以解释。43此处描述的非线性网电路模型具有较大的用于复杂的网评级系统设计的空间。用于分析集成电路(很多集成电路具有数百万节点)的现有技术可被用来采用本发明的网电路模型进行页面分级。为有效解决大的非线性系统,在此引入2006年12月18日提交的共同未决美国第11/612,335号专利申请作为参考。44集成的网索引目录和网搜索45与仿真或评级的稳定性无关,基于处理索引目录的灵活性,可提供集成的网搜索和索引目录服务。在一个实施例中,人工创建索引目录以引导网搜索,同时网搜索结果被用于帮助扩展索引目录。在索引目录和网搜索之间的正反馈能帮助其互相提高。因此,无需对网搜索用户接口做17任何改变或依赖用户经验,网索引目录和网搜索之间的集成就可被自然地构建到该搜索过程中。46在一个实施例中,人工创建并模拟初始的索引目录作为部分因特网空间的网电路。在网电路模型中,提升出站链接的权重。当模拟该网电路模型时,出站链接的权重会导致对搜索结果具有重大影响的网索引目录。用户仍然执行相同类型的搜索,但由于引导我们的后台评级的网索引目录得到改进和调整,搜索结果将变得更加相关。47图6示出表示将索引目录集成到网搜索之中的示意性过程的流程图300。如开始框302所示该过程起始,并流到创建初始网索引目录的操作304。可以人工地生成初始网索引目录或者可以使用现有的网索引目录。例如,初始网索引目录可以包括提供与金融、新闻、旅行等相关的站点的链接的大量网页。48一旦在操作304中创建初始网索引目录,过程将流到操作306,其中,索引目录中的链接在评级过程中被给予更大的权重。这与现有网评级算法不同;在现有算法中采用的是每个向外链接的权重除以出站链接的总数。由于不执行这种除法运算,该链接被授予大的权重以在结果评级中提供较大提升。49随后在操作308中,如上参考图1的所述的构建一个网电路模型,包括网索引目录,并使其链接加权以增加它们的级别。在操作310中,仿真该网电路模型,并根据如上所述的仿真结果评级该网页。50在操作312,仿真的结果被用于改进网索引目录,其依次将提升用于用户的搜索结果。在一个实施例中,操作312是一个手动和自动结合的过程。例如,不包括在索引目录中的顶端搜索结果可被验证且如果获得授权将被添加到索引目录。这进一步增强网索引目录以用于未来的搜索。51在操作312后,该过程返回到才乘作306。因此,操作306-312以迭代方式可被重复任意次以持续改进集成的索引目录和搜索结果。52查询敏感(Query-Sensitive)网搜索53网电路模型允许查询敏感网评级。这对于企业搜索尤其有用。术语"企业搜索,,指在企业内部互联网或企业网站域名内的搜索。企业搜索内的网页数量比因特网上的要小得多。对于用户查询的相关网页的数量甚至更加有限。结果是,在每次查询后可以计算实时的网页评级。1854在一个实施例中,可以增加在电压节点104和表示与查询无关的网页的节点之间的电阻器106a-106d的电阻。另外,可以减小在地和表示与查询无关的网页的节点之间的电阻器110a-llOd的电阻。增加和/或减小的量可根据它们相关或不相关的程度进行调整。可采用关键字分析方法和其它公知的文档分析方法来确定相关度。因此这将降低不相关网页的级别。55可选地,可通过修改内容分数将每个网页与查询的相关度加入到模型中。与查询更相关的网页可使它们的内容分数陡增,同时与查询相关度较小的网页使它们的内容分数陡降。此改变的结果将基于相关度修改代表网页的每个节点和地之间的电阻值。对于高相关度的网页,通过增大该节点和地之间的电阻值,可提高该网页的级别。56对于查询敏感网页评级,具有来自其它与查询相关网页的多个入站链接的查询相关网页将被给予高评级。对于企业查询,可允许用户或企业控制这种调整。这将允许各种企业基于此处所述的网电路模型,利用搜索引擎获得他们各自所需的结果。57为了提高查询敏感网电路仿真中的效率和响应时间,可釆用2006年12月18日提交的题目为《parallelMulti-RateCircuitSimulation(并联多率电路仿真)》的美国第11/612,335号专利申请中所述的多速率电路仿真方案。不相关的网页快速收敛为低分数并变为隐藏的。这些隐藏网页然后得以从仿真之中排除,从而简化该方案。58在非企业环境中,例如,在全球因特网搜索中,预设数量的顶端预评级网页可被才莫拟到一个网电路之中,以定制顶端预评级站点的级别。例如,可以根据查询,对从普通索引搜索返回的前1000000个网页自定义建模,以生成自定义的基于查询的评级。59主题敏感网搜索60网电路^f莫型也允许主题敏感的网搜索。在主题敏感网搜索中,识别与用户感兴趣的特定主题相关的索引目录服务。给这些索引目录服务的出站链接以较高的权重。在一个实施例中,调谐用于这些索引目录站点和索引目录内的站点之间的超链接的类二极管非线性电阻器模型,以允许更高的反向电导率。这将对在仿真中自动拣出良好的索引目录服务起作用。为实现此目的,也可根据网索引目录中的出站链接的数量标准化模型中的电导率。基于该设置,网电路仿真将拣出良好的特定主题索引目录以及良好的特定主题站点。61对于许多预先的标准主题,可执行主题敏感网搜索。可根据用户配置文件计算特定主题评级的加权平均,其可在查询时间完成。用户配置文件由对应于不同主题的不同兴趣程度来定义,而用于平均的加权则与兴趣程度成比例。不同主题中的用户兴趣程度可由用户直接设定或从用户过去网搜索的历史计算出来。62交互式和自适应网搜索63在交互式的网评级模型中,用户可查询某些关键字并获得第一份网搜索结果。然后,允许用户从顶级结果中去除一些结果并请求另一次搜索。在下一个搜索中,执行修改的网电路仿真。在修改型网电路中,在被用户去除的网页和地之间设置电阻值非常低的电阻器。此修改型网电路仿真将更准确并且更具可能回到用户真正所需的结果。64为了提高用于修改型网电路仿真的效率和响应时间,精选步骤可被限制在前1000000个条目。可以假定,在普通用户环境中,是没有人会浏览超过1000000个条目的。当然,根据应用可以选择其它数目的条目。65另外,在实践应用中可采用网电路模型进行统计。在搜索之后具有多次点击的网页可被提升。该提升可通过增加网页节点和地之间的电阻来容易地完成。66由于因特网上的站点数量和信息总量激增,交互式和自适应网搜索将更有可能找到有用的结果。67评级变化中的平滑68特定网页的评级中的突发变化可能是不希望的。这样的变化可由去往或来自网页的链接的变化而引起,或由某一网虫的多次访问之间网页内容的变化所导致。采用此处描述的复杂网电路仿真方法,可以使突发的级别变化问题最小化。特别地,可使用动态模型以使级别变化更平滑。在动态评级模型中,每个节点都连接接地电容且及时执行网电路的瞬变过程仿真。接地的电容为节点电势的变化带来平滑性。图1中的类二极管装置110a-110c也可被分配以一定的电容值。69另外,渐变也可应用到新站点。新站点和网上其余站点之间的连接可通过改变类二极管装置中的电导率及其接地电阻来控制。可在类二极管装置中使用小电导,在接地电阻中使用大电导,其限制新站点的评级,并因此限制对其它站点级别产生影响。一段时间之后,电导率和电阻可爬升到正常值。70硬件仿真加速71网电路仿真模型可由硬件加速器辅助。现场可编程门阵列(FPGA)可被用于设计诸如稀疏矩阵求解器的专用系统。该专用FPGA系统或专用集成电路芯片将提高电路仿真的速度。72网搜索工具的示意性应用73图4示出了以实例方式示出用已评级的网页执行网搜索的过程的流程图200。如开始框202所示该过程起始,进而执行操作204。在此操作中,因特网被初始地(或连续地)访问以识别网页以及网页间的超链接。然后,在操作206中,采用内容分析识别初步内容分数。更具体地,在操作204中识别的每个网页根据其内容被给定一个初步内容分数。初步内容分数可以如上参考图1所述地加以确定。74在为操作204中所识别的网页建立初步内容分数后,该过程执行操作208,在此生成索引。该索引包括由网页中发现的词语索引的网页息,例如出站超链接和来自其它网页的加权入站超链接的总凄t,如上参考图1所述。在一个实施例中,可基于因特网作为没有首先接收到查询的整体来建立评级。75根据评级是否为查询敏感模式可选地执行操作210。在查询敏感的情况下,在操作212建立网电路之前获得查询。为获得查询,用户输入查询字符串,例如一个或多个与用户正在查找的信息相关的字词或短语。当以网页的方式^:实现时,用户将查询输入到网页浏览器窗口中的文本框。查询字符串与索引中的网页进行匹配以获得与查询字符串相关的网页的列表。76在操作212,建立网电路。如上参考图l所述的电路那样,该网电路模拟该索引,或者该索引的子集。如果评级是查询敏感的,如上所述,根据通过搜索检索的每个网页与该查询的相关度来修改该电路。在一个实施例中,根据通过先执行操作212-218的查询敏感的评级来对网页进行预评级,如下面将进行详细描述的那样。因而,在操作212的网电路中仅仅找回和模拟与用户查询相关的顶端的被预评级的网页,例如根据预评级的顶端1000000个网页。这允许索引中的每个网页的实时查询敏感评级,而不管该索引值有多大。77在操作214,如上所述可以调整从索引目录服务出站的类二极管装置以提供依据主题敏感的网搜索,该索引目录服务系与由用户或用户配置文件指示的某个主题相关的。78接下来,在操作216中仿真该网电路以确定诸如每个节点的电势(例如电压)。可采用公知的电路仿真软件执行该电路仿真。可选择地,可执行高性能并联多速率电路仿真方法,如2006年12月18日提交的相关美国第11/612,335号专利申请中所述。79仿真该网电路后,过程执行操作218,其中根据网页相应的节点处的电势来分类网页。如上参考图1所述,每个网页在网电路中被分配一个相应的节点。该仿真将识别每个节点处的电势。具有较高电势的节点将对应于较高质量的网页或更可能包括用户所寻找的信息的网页。随后较高质量的网页被设置为较高级别。80如果在操作210中没有获得用户查询,随后可以执行操作220来获取用户查询。例如,如果该网搜索以非查询敏感模式而被实施,则在模拟因特网之后在操作220中可获得该查询,以获得普通评级。普通评级是不受查询内容影响的评级。一旦获得该查询,仅那些与查询相关的网页从操作218中获得的网页的分类列表中被取出。81在操作222,生成与用户的查询相关的网页的分类列表,并呈现给用户。如果用户正在通过因特网浏览器访问搜索工具,则将输出格式化为HTML的格式并传输到用户的浏览器。82如果采用自适应的搜索,则用户在操作224中能够通过除去不期望的结果及返回操作212以建立并随后仿真如上所述的减小范围的修改型网电路来修改搜索结果。否则,如完成框226所示,该过程结束。83广告系统的实现84在网搜索期间递送广告的情况下,为了递送相关广告,找到其意义与查询字词相关的字词是重要的。通过将如上所述的仿真方法应用到诸如維基百科(Wikipedia)等在线百科全书,可以找到这些相关的字词。85图5示出表示用于实施网页评级系统以识别与查询相关的字词和短语的示意性过程的流程图250。如开始框252所示,该过程开始,并且执行操作254,其中获得一个查询。该查询可以是字词或短语。86在操作258,识别与该查询相关的在线百科全书的页面。在一个实施例中,解析该查询以识别所确认的字词或短语。所确iL的字词语或短语可包括在线百科全书中具有专用页面的字词和短语。如果找到这样的专用页面,则其成为所确认的网页。如果没有被查询的字词或短语得到确认,则可以识别最接近的匹配,例如包含可能被识别的查询的字词或短语的百科全书的页面。87在操作260中,生成在线百科全书的网电路模型。该网电路模型将包括代表百科全书每个页面的节点,如上所述将该节点与类二极管装置相连接,每个类二极管装置代表连接百科全书的其中一个页面到百科全书的另一个页面的超链接。此外,通过能量漏极连接将每个节点与地相连。由于该电路模型的所有节点来自一个已知源极,即在线百科全书,在一个实施例中,所有的能量漏极连接具有一个共同的电阻,其能够被调谐以获得该电路最佳结果。代表所识别的网页的节点被连接到能量源极,例如固定电压源。88在操作260中,采用计算机系统来仿真该网电路模型,以计算每个节点处的所期望的电压。该仿真如上所述可被充分地实现,或者采用现有电路仿真软件或者采用如2006年12月18日提交的相关的美国第11/612,335号专利申请中所述的高性能并联多速率电路仿真方法。89在操作262中,根据相应节点的电压来对网页进行评级,最高级别的网页对应于最高电压的节点。通过仿真代表百科全书的网电路,可找到与特定查询字词具有相对高的相关度的字词或短语。90在操作264中,从多个广告中选择与具有高相关度的字词或短的关键字,例如由支付广告费用的人选择的字词,其可以被称为"关键字"。91在操作266中,生成包含广告的文档。网电路模型中的节点的高电压将指示具有高相关性的词语或短语。包含或与这些相关字词或短语(如通过关4建词)相关的广告可纟皮传递给用户。在生成并传递该文档后,如完成框268所示该过程结束。92可以理解,虽然示出了因特网网页和电子集成电路之间的模拟,但也可以应用其它具有同等效果的模拟。因此术语"网电路"("webcircuit")并不限于电子电路,还包括任何类似的系统。例如,可以使用泵浦和循环水的流水线系统(pipingsystem)进行等同的类比,用阀门代替可变的电阻,用类似单向阀装置代替类二极管装置,且用液压代替电压电势,即势能的另一个形式。因此,虽然该类比有助于理解此处描述方程的23非线性系统的概念和数学,用于为评级网页目的而对因特网建模,但是可以跳过生成表示网电路的电子电路的网络表的步骤,而且可以如上所述从网页、它们的内容分数和(诸如加权入站和出站链接的)其它信息直接地生成这些方程式。因此,"网电路"可从概念上被理解为相关节点的系统,每个节点代表一个网页。93已知上述实施例,应该理解本发明可采用包括存储在计算机系统内的数据等各种计算机实现的运算。这些运算是那些需要物理量的物理操作。通常,虽然不是必须的,但这些量采用能够被存储、传送、组合、比较和其它操作的电子的或^兹的信号的形式。而且,这些被执行的操作术语上通常是指例如生成、识别、确定或比较。94此处所述构成本发明一部分的任何操作是有用的机械操作。本发明也涉及用于执行这些操作的装置或设备。该设备能被专门构造以用于所需的目的,或者该装置可以是由存储在计算机中的计算机程序有选择性地激活或配置的用于通用目的的计算机。特别地,可以采用各种用于通用目的的机器,而根据此处的教导写入计算机程序,或者构建更专门的设备以执行所需的操作可为更方便。95本发明也可以具体化为计算机可读介质上的计算机可读代码来实现。该计算机可读介质是任何能够存储数据的数据存储装置,之后其可被计算机系统读取。计算机可读介质的实例包括硬盘驱动器、网络附属存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带和其它光学的和非光学的数据存储装置。该计算机可读介质也可被分布到整个网络耦合计算机系统上以存储该计算机可读代码并以分布的方式执行该代码。另外,可在包含计算机代码的电磁载波中编码本发明。96本发明的实施例可在单个计算机、或采用多个计算机或相互连接的计算机组件上执行。此处所采用的计算机可包括具有其自己的处理器、它自己的内存和它自己的存储器的单独的计算^L系统,或提供计算机资源给网络终端的分布式计算系统。在一些分布式计算系统中,计算机系统的用户实际上可访问在大量用户之间共享的组件部分。因此,用户可访问网络上的虚拟计算机,其对于该用户将作为对单个用户常规且专用的单个计算机而出现。97虽然为清楚理解本发明之目的起见,前面已经详细描述,但显然在附加的权利要求的范围内可实施某些变化和修改。因此,本发明的实施例可裙J人为是iJL明性的而非限制性的,本发明并不限于此处给出的细节,而可在附加的权利要求的范围内及等价的范围内做出修改。2权利要求1.一种用于对网页评定等级的计算机实施方法,包括生成包括多个节点的网电路模型,每个所述节点对应于一个网页;增加能量源极到所述网电路模型;用源极连接将所述能量源极连接到每个节点,所述源极连接具有选定的电阻;用漏极连接将每个所述节点连接到能量漏极,所述漏极连接具有与对应于所述节点的网页的内容分数相关的电阻;对于每个连接所述网页中的第一网页到所述网页中的第二网页的超链接,将类二极管装置加入到所述节点的第一节点和所述节点的第二节点之间的所述网电路,所述节点中的所述第一节点对应于所述网页中的所述第一网页且所述节点中的所述第二节点对应于所述网页中的所述第二网页,所述类二极管装置使得能量从所述第一节点流动到所述第二节点比从所述第二节点到所述第一节点的流动更容易;仿真所述网电路模型以求解每个所述节点处的电势,所述仿真包括将所述网电路模型输入到计算机中,并在所述网电路模型中执行计算以确定每个所述节点处的电势;根据所述网页对应的节点的电势,对所述网页评定等级。2.权利要求l的方法,其中,所述能量源极被设置为固定电势。3.权利要求l的方法,进一步包括根据索引目录网页调整对于每个所述节点的漏极连接的电阻,所述电阻为表示所述索引目录网页质量的值的函数。4.权利要求3的方法,其中,所述质量是主观地确定。5.权利要求1的方法,其中,根据由所述类二极管装置表示的超链接的上下文调谐所述类二极管装置。6.权利要求5的方法,其中,当对应于所述类二极管装置的超链接位于具有大量超链接的网页上时,减小所述类二极管装置的电导率。7.权利要求5的方法,其中,当对应于所述类二极管装置的超链接被指引到与所述超链接相同的域内的网页时,增大所述类二极管装置的电导率。8.权利要求1的方法,其中所述类二极管装置具有分段线性电势-电流曲线。9.权利要求1的方法,其中所述源极连接器的选定电阻是固定的,以使所有的源极连接器具有相同的电阻。10.权利要求1的方法,进一步包括下述步骤之一对于与用户提交的查询相关的多个网页减小源极连接器的电阻,或者对于与用户提交的查询无关的多个网页增加源极连接器的电阻。11.权利要求1的方法,进一步包括识别与一主题相关的索引目录网页;为来自所述索引目录网页的出站超链接分配高权重;增大对应于来自所述索引目录网页的出站超链接的类二极管装置的反向电导率,所述反向电导率与能量从代表超链接目标的节点流经类二极管装置到代表包含所述超链接的网页的节点的容易程度相关。12.权利要求l的方法,进一步包括创建网索引目录,所述网索引目录包括多个出站超链接;为所述出站超链接分配高权重;将所述网索引目录集成到所述网电路模型之中;执行仿真所述网电路模型;采用所述仿真的结果改进所述网索引目录;和将所述网索引目录集成到所述网电路模型之中以用于未来的搜索。13.权利要求12的方法,其中所述分配、集成、执行和改进被重复地执行多次,以进一步增强并改进所述网索引目录和未来搜索的评级。14.权利要求l的方法,进一步包括从用户接收某些网页为不被希望出现在结果列表中的指示;和在执行所述仿真之前,设置对应于所述某些网页的漏极连接的电阻为低值。15.权利要求1的方法,进一步包括增加接地电容到每个节点;所述仿真包括执行所述网电路模型的瞬变过程仿真。16.—种采用计算机系统执行网搜索的方法,所述方法包括在网络上识别网页;对于每个所述网页,基于所述每个网页的内容确定内容分数;3生成所述网页的索引,所述索引是通过在所述网页中找到的字词进行索引的计算机可搜索数据库;生成网电路模型,所述网电路模型包括代表每个网页的节点、能量源极、和对应于每个节点的源极连接,每个所述源极连接将能量源极连接到所述节点中的一个节点,还包括将每个节点连接到地的漏极连接,所述源极连接具有选定的电阻,每个漏极连接具有与同所述每个漏极连接相关联的网页的内容分数相关的电阻,每个超链接连接在所述网电路中被表示为类二极管装置的两个所述网页;所述类二极管装置在与超链接的方向相对应的方向上具有低电阻,而在对应于超链接的方向的相反方向上具有高电阻;采用计算机来仿真所述网电路以确定每个节点的电势;根据相应节点的相应电压对网页进行评级;根据所述评级对所述网页进行分类;和生成所述网页子集的列表,所述子集包括与某一查询相关的多个网页。17.权利要求16的方法,其中所述生成列表的步骤包括将所述列表格式化为HTML文档;和将所述列表传输给网浏览器。18.权利要求16的方法,进一步包括从用户接收所述查询;从与查询字符串相关的索引中获得网页列表;修改所述源极连接,以使每个源极连接具有随所述网页中对应的一个网页与所述查询字符串之间的相关度数量而变化的电阻。19.权利要求16的方法,进一步包括识别用户感兴趣的主题;识别网页中那些与所述主题相关的索引目录网页;为来自所述索引目录网页的出站超链接设置高权重;允许对应于来自所述索引目录网页的出站超链接的类二极管装置有更大的反向电导率。20.权利要求16的方法,进一步包括接收对所述网页列表中的不期望网页的识别;修改所述网电路模型以使给予对应于不期望网页的所述漏极连接以{氐电阻;和仿真所述修改的网电路模型,和在所述修改的网电路模型的仿真结果上执行评级的分类和生成。21.权利要求16的方法,其中,所述网电路模型的生成进一步包括为每个节点添加接地电容器。22.权利要求16的方法,进一步包括识别具有深层级的站点;将具有深层级的站点的根网页分离成主拷贝和次拷贝;索引所述主拷贝,使得所述索引包括与所述主拷贝相关的关键字,所述关键字与具有深层级的站点的整个层级极度地相关;从所述索引中移除来自与次拷贝相关联的字词列表中那些与整个层级极度地相关的关4建词;和配置所述网电路模型,使得用类二极管装置来表示连接到具有深层级的站点的根网页的入站和出站链接,所述类二极管装置连接到代表主拷贝的节点,所述类二极管装置将所述代表主拷贝的节点连接到表示次拷贝的节点;并且站点中的子网页由被类二极管装置连接到主拷贝的节点来代表。23.权利要求22的方法,其中网页的子集列表包括到根网页的链接和邻近的链接,所述邻近的链接造成到子网页的链接的被压缩列表以在根网页的链接下扩展,所述子网页在所述根网页的层级中。24.权利要求16的方法,进一步包括创建网索引目录,所述网索引目录包括多个出站超链接;为所述出站超链接设置高权重;将所述网索引目录集成到所述网电路模型之中;执行仿真所述网电路模型;采用所述仿真的结果改进所述网索引目录;和将所述网索引目录集成到所述网电路模型,用于未来的搜索。25.—种用于从多个广告中识别相关广告的计算机实施方法,所述方法包括获得查询;识别具有多个页面的在线百科全书的初始页面,所述初始页面与所述查询相关;生成包括多个节点的网电路模型,所述节点的每一个对应于所述在线百科全书的一个页面,所述网电路模型包括连接到所述节点的类二极管装置,每个类二极管装置代表一个连接百科全书的一个页面到百科全书的另一个页面的超链接,所述每个类二极管装置连接对应的节点,所述类二极管装置在与超链接方向相应的方向上具有第一电阻并在与超链接方向相反的方向上具有第二电阻,所述第二电阻低于所述第一电阻,所述网电路模型具有多个能量漏极连接和一个能量源极,所述能量漏极连接将除了对应于起始页面的节点以外的所述每个节点连接到地,而能量源极与对应于起始页面的所述节点相连接;仿真所述网电路模型以计算每个节点的电势;根据每个节点的电势,评级所述在线百科全书的所述页面;识别与页面中的顶级页面相关的相关广告,所述识别包括识别多个广告中与对应于所述顶级网页的字词或短语相关的那些广告;和生成包括所述相关广告的文档。26.权利要求25的方法,其中所述在线百科全书的起始页面与包括在所述查询中的字词或短语相关。27.权利要求25的方法,其中每个能量漏极连接具有共同电阻。28.权利要求25的方法,其中所述仿真包括运行仿真所述网电路模型的计算机程序,仿佛其作为一种集成电路设计一样。29.权利要求25的方法,其中所述相关广告的识别包括将广告的关键字与顶级网页的字词或短语相比较,所述顶级网页的字词或短语是顶级网页的标题中的字词或短语。全文摘要本发明涉及一种通过利用等效电子电路的仿真评级站点的方法。本方法开始于仿真搜索因特网以找到站点间的超链接(204),利用内容分析确定站点的初步内容分数(206),接收用户查询并获得对应于查询的站点列表(210),建立网电路以表示站点列表,其中每个站点由电子电路中的节点来表示且节点间的电流由类二极管装置控制(212),随后仿真站点并计算节点电压值(216),随后基于节点电压分类站点并给站点分配级别(218),随后接收用户查询且从所评级的站点列表产生对应于查询的站点列表(220),如此产生的站点列表随后被输出给用户。文档编号G06F9/455GK101473304SQ200780022679公开日2009年7月1日申请日期2007年4月17日优先权日2006年4月18日发明者杨宝林申请人:双子星设计技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1