专利名称:数据分析系统及方法
技术领域:
本发明涉及进行使用并列分散信息处理环境的大规模数据分析及其可视化的装 置以及方法。
背景技术:
一般,通过准备高速且廉价的计算处理环境,来进行与业务作业的高效化或设备 的最佳化相关的分析。在这些处理中,需要从大规模的日志数据中发现、提取出模式来形成 虚拟模型的发现过程。这样的从日志数据进行的大规模数据分析,现在未完全自动化,尤其是在初期的 数据关系性的摸索(数据的相互间关系)阶段,在与数据的相关性或时间的反复相关的模 式的发现中,很多情况下需要人的参与。此时,为了发现分析的切入口的着眼点,需要可视 化地提示通过各种方法处理后的数据,促进人的直觉的理解,来将人的反馈作业取入计算 过程的分析环境。在这样的环境中,重要的是同时实现可以不对人造成负担地由计算机侧 进行支持的操作性、和高效的计算资源的利用。这种数据解析作为数据挖掘而已知,例如已 知特开2008-204282号公报(专利文献1)或「並列尹一夕7 4 二 >夕‘7 — *歹夕f \松 本和宏( 办電子情報通信学会技術研究報告.IEICE technicalr印ort. Data Engineering Vol. 97,No. 417 (19971202) pp. 33-38社団法人電子情報通信学会」(非专利文献1)。
发明内容
但是,在上述现有例中,在数据模式的初期分析中,在大规模的数据成为对象的分 析中,当原始数据的大小增大时,在数据提取过程和分析处理的过程中都花费大量计算负 荷和时间,因此妨碍了用于尝试的交互性,在模式的发现中也花费大量时间。当重复这样的数据处理时,若干不同的数据处理过程,有时在相同条件或类似条 件下重复执行分析处理过程的一部分。此时,通过保持各要素过程的中间输出结果来再利用,有时可以使第二次及以后 的处理过程高速化。但是,虽然数据的再利用削减了计算处理,但当过多地保持了中间处理的结果时, 会消耗大量的外部存储区域,在使用存储装置时的性价比方面,效率变差。另外,在用于分析的原始数据中,多数情况下仅使用根据某特有条件从数据库中 找出的子集。在这种情况下,要考虑的中间数据的组合剧增,难以判断保持什么条件下的中 间数据。出于这些理由,在进行设想了再利用的中间数据的管理并进行最优化中,存在很 多性价比方面的问题。
4
因此,鉴于上述问题而提出本发明,其目的在于高效率地保存在分析处理的中间 阶段生成的数据来再利用中间数据。本发明作为一种在具备处理器和存储装置的计算机中分析原始数据,输出分析结 果的数据分析系统,具备存储所述原始数据的原始数据存储部;读入所述原始数据来进 行分析,在该分析的过程中生成中间数据,然后输出分析结果的分析部;存储由所述分析部 生成的中间数据的中间数据存储部;以及接收针对由所述分析部输出的分析结果的评价值 的评价接收部,所述分析部在所述分析时,参照所述中间数据存储部的中间数据中可以利 用的中间数据,所述评价接收部对与所述评价值对应的所述中间数据分配所述评价值,当 所述分配的评价值满足预定的条件时,删除与该评价值对应的所述中间数据。因此,根据本发明可以实现利用了中间数据的高速的分析处理。通过下面结合附图进行的描述,本发明的上述以及其它特征、目标以及优点更加 明了。
图1是表示本发明的第一实施方式的分析系统的一例的框图。图2是表示本发明的第一实施方式的信息处理装置的结构的框图。图3是表示本发明的第一实施方式的数据分析处理步骤的示意图。图4是表示本发明的第一实施方式的分析课题的输入·可视化·评价的流程的整 体流程图。图5是表示用于描述本发明的第一实施方式的分析流程的脚本的数据结构的示 意图。图6是表示本发明的第一实施方式的分析服务器PC的分析调度程序的处理的一 例的流程图。图7表示管理本发明的第一实施方式的输入数据的表信息的数据结构。图8是表示本发明的第一实施方式的分析服务器PC执行的分析流程的全等性 类 似性的检查的一例的流程图。图9是表示本发明的第一实施方式的子分析服务器PC中进行的分析处理的一例 的流程图。图10表示本发明的第二实施方式,是表示DB保持的时空间信息的一例的说明图。图11表示本发明的第二实施方式,是管理空间信息的树型结构的示意图。图12是表示本发明的第一实施方式的分析服务器PC中运行的调度程序的中间数 据的评价值的再计算和数据管理的一例的流程图。图13表示本发明的第一实施方式,是表示图12的步骤1304中分析服务器PC21 进行中间数据的评价值的再计算的处理的流程图。图14是表示本发明的第二实施方式的分析服务器PC中进行的、制作生成中间数 据的脚本的处理的一例的流程图。图15是表示本发明的第二实施方式的分析服务器PC中进行的中间数据的评价值 的再计算和数据管理的一例的流程图。图16是表示本发明的第一实施方式的再利用中间数据的脚本的生成处理的一例的流程图。图17A是表示本发明的第一实施方式的再利用中间数据时的数据的树型结构的 示意图。图17B是表示本发明的第一实施方式的再利用中间数据时的数据的树型结构的 示意图。图18是表示本发明的第三实施方式的分析服务器PC执行的分析流程的全等 性·类似性的检查的一例的流程图。图19是表示本发明的第一实施方式的各信息处理装置中执行的程序的关系的框 图。图20表示本发明的第二实施方式,是表示各信息处理装置中执行的程序的关系 的框图。图21表示本发明的第五实施方式,是表示分析系统的一例的框图。图22表示本发明的第五实施方式,是分析结果的画面图像。图23是本发明的第一实施方式的返回分析流程的全等性.类似性的数据结构的 示意图。图24是表示本发明的第一实施方式的高速缓冲存储DB执行的分析流程的全等 性·类似性的检查的一例的流程图。图25是表示将本发明的第一实施方式的分析结果可视化的画面的一例的画面图像。图26A是表示本发明的第一实施方式的可视化模块(分析服务器PC)的一例的框 图。图26B是表示本发明的第一实施方式的可视化模块(客户机PC)的一例的框图。图27表示用于管理为了合并本发明的第三实施方式的数据分析处理而需要的信 息的数据结构。
具体实施例方式以下,列举用于实现本发明的最佳实施方式,根据附图进行说明。<整体结构>图1是表示本发明的第一实施方式的分析系统的一例的框图。客户机PC201作为利用者200的用户接口来工作,是用于接受来自利用者200的 输入,在画面上输出处理结果的信息处理设备。该客户机PC201具有对由取得来自利用者200的输入的键盘或鼠标构成的接口设 备202、对利用者输出结果的图像或字符串的显示设备203、和对利用者200的表情或行动 进行摄像的照相机设备204的输入输出单元。分析服务器PC210是用于处理经由网络205从客户机PC201发送来的分析处理过 程的消息,提取出分析内容对应的数据的范围,把对提取出的数据进行信息处理后的结果 再次通知给客户机PC201的信息处理设备。子分析服务器PC221 223是用于从分析服务器PC210进行的信息处理内容中经 由网络220取得部分问题(信息处理的一部分)来进行处理的信息处理设备。在图1中,
6作为子分析服务器,描述了 3台子分析服务器PC221 223,但通过增加该子分析服务器的 台数可以使计算处理能力提高。数据库(以下称为DB) 231 233,是经由网络230与子分析服务器PC221 223 连接,把成为分析对象的大量原始数据保持在存储系统内,根据包含后述制约条件的请求, 提取出所保持的数据的一部分来发送的信息处理设备。另外,高速缓冲存储DB241,是经由 网络220与分析服务器PC210和子分析服务器PC221 223连接,实现临时保管通过分析服 务器PC和子分析服务器PC221 223进行分析处理后的数据的功能的信息处理设备。此 外,原始数据是为了进行分析而预先收集的数据。<信息处理设备的结构>使用标准的信息处理装置来安装客户机PC201、分析服务器PC210、子分析服务器 PC221 223、DB231 233、高速缓冲存储DB241的各要素。图2是表示用于实现这样的标准的信息处理装置300的机构的例子的框图。信息 处理装置300由中央运算处理装置305、主存储器306、外部存储装置307、生成向外部显示 的图像的图像输出部308、外部输入输出接口部309、网络接口部310的要素构成。这些各信息处理设备的安装,参照了作为通用的计算机而被安装的已有的各种。 另外,在外部输入输出接口中使用USB等通用的外部设备控制接口。另外,信息处理设备相 互经由网络IF309交换消息,但是在该网络的安装中利用TCP/IP等已有的消息交换用协 议。<消息流和过程>图19表示在客户机PC201、分析服务器PC210、子分析服务器PC221 223、 DB231 233、以及高速缓冲存储DB241的各信息处理装置上执行的程序、和在各程序间进 行的消息流。在客户机PC201中,将分析处理输入程序2010、分析结果提示程序2011、评价结果 输入程序2012、推荐分析处理提示程序2013读入主存储器306,分别非同步地通过中央运 算处理装置305执行,通过外部输入输出接口 309和网络接口 310接收消息和输入,进行信 息处理。在分析服务器PC210中,将调度程序2101、数据分析程序2102读入主存储器306, 分别非同步地通过中央运算处理装置305执行,通过外部输入输出接口 309和网络接口 310 接收消息和输入,进行信息处理。子分析服务器PC221接收来自分析服务器PC210的数据分析程序2102的消息, 由消息指定的预定的数据分析模块2211将数据提取过程2212读入主存储器,通过中央运 算处理装置305进行信息处理。此时,当存在多个可以进行处理的子分析服务器PC221 223时,数据分析程序2102按照后述的步骤将数据分析处理内容的一部分分配给子分析服 务器PC221 223,使其并行地执行。在DB231中,将从外部存储装置307读取并转发所保存的原始数据的数据管理程 序2311读入主存储器306,通过外部输入输出接口 309和网络接口 310接收消息和输入,进 行必要的数据的提取和转发处理。在高速缓冲存储DB241中,将登录所保存的内部数据(中间数据)、检索类似的中 间数据的高速缓冲存储数据检索程序2411、和从存储装置读取并转发高速缓冲存储数据的高速缓冲存储数据管理程序2412读入主存储器306,分别非同步地通过中央运算处理装置 305执行,通过外部输入输出接口 309和网络接口 310接收消息和输入,进行信息处理。以下,描述进行这些程序的协作处理和分析处理的过程。<分析课题的描述形式(脚本)的定义>通过图3中描绘的以树型结构表示的流程(数据分析流程)表现成为分析课题的 数据分析。图5表示用于在计算机(分析服务器PC210)内部保持该数据分析流程的数据 结构600。在图5中,树型结构作为节点构造体610、620等的列表来表示。在主存储器的 存储区域中,作为管理全部数量的节点构造体的数值,记载了要素数601。数据分析节点的 构造体610由表示生成时的优先度或保存状况的管理数据611、处理过程的ID编号612、输 入数据(子节点)的ID编号的列表613、614、输出数据(父节点)的ID编号615、存储与 其它分析内容对应的通用参数的区域616构成。处理过程编号612是用于从外部存储装置 307的预定位置调用处理内容的程序的ID编号。另外,613 615的ID编号是记载了 (a)指向数据分析流程内的别的构造体620 等的本地指针、(b)表示要参照的DB的数据库编号(图3的401 403)的ID编号、(c)高 速缓冲存储DB241内的管理表的ID编号中的任意一个或多个的数据区域。另外,通用参数 616是记载了从DB的查找条件、分析处理算法的调整参数等的区域。<分析课题的输入方法>分析服务器PC210执行的调度程序2101,以所述数据结构600取得从客户机 PC201请求的数据分析的课题,并根据对管理数据611附加的优先度的数值依次执行。在本 实施方式中,通过分析处理输入程序2010,按照利用者200通过客户机PC201明确输入的分 析步骤的脚本进行分析。图4是表示利用者从客户机PC201的分析处理输入程序2010明确地输入数据分 析的内容来执行分析时的过程的流程图。步骤501是客户机PC201定义处理流程的数据的步骤。在该步骤中,利用者200 通过由客户机PC201提供的信息输入程序(省略图示)的接口输入图3的图形结构。在该输入作业中,采用了作为使用字符符号来表现树型结构和ID编号的CUI、或 作为图形来进行表现、输入的⑶I来进行输入的方法。关于这些输入方法,可以采用在已有 的信息分析设备中安装的输入方法(该树型结构数据的输入方法,具有通过在Lisp等的描 述中出现的括号式进行的定义、或基于GUI的交互的连接方法,但都是众所周知的计算机 上的一般技术,不是包含本实施方式的新颖性的部分,因此省略步骤的细节)。在图3的例子中表示了,从DB401 403通过数据提取模块411 413提取数据 (421 423),数据421和422通过处理过程432进行处理,输出数据432,在处理过程441 中处理数据423和432来处理数据442,并显示在客户机PC201中显示的(450)这样的树型 结构的数据分析流程。在处理过程中生成的数据421 423、432成为中间数据,如后所述 被保存在高速缓冲存储DB241中。<向服务器发送>在步骤502中,将上述生成的数据分析流程的结构数据转发到分析服务器PC210, 在等待在分析服务器PC210中进行处理的结果的期间,该过程进入待机状态(步骤503)。 在后面使用图6的流程图描述在此期间执行的分析服务器PC210的处理。
8
<分析过程的结束>在可视化模块(图3的450、图19的2011)以外的全部要素的分析处理结束的 情况下,从分析服务器PC210向客户机PC201发送分析结果。客户机PC201接收分析结果 (504),以接收到的数据作为输入,启动可视化模块(分析结果提示程序2011)。<可视化模块的结构>图26A、图26B中举出构成可视化模块的实施的一例。可视化模块,作为图2所示 的作为通用计算机的分析服务器PC210和客户机PC201上的分析结果提示程序2011而实 现。可视化模块是配置在分析服务器PC210上的分析结果提示程序2011,如图26A、图26B 所示,由内容DB2710、和作为在客户机PC201上配置的程序的显示观察器2720这两部分构 成。分析服务器PC210的显示内容DB2710是存储了描述了图像处理的内容的脚本的 数据库。显示内容BD2710具有以下功能取得指定一个脚本的字符串或ID编号、和以预定 的格式存储的数据,通过检索程序部分2711从脚本的字符串代码(2701 2707)的数据库 中调用所指定的该代码2701,将调用的源字符串的代码2701和图26B的数据构造体802合 并,然后发送到客户机PC201的显示观察器2720。以下,把该脚本2701和数据构造体802 合并所得的内容称为显示内容。显示观察器2720,由描述图像显示内容的脚本部分(显示内容)2701、802、解释该 脚本表示的手续的解释器部分(2722)、和将交互地执行手续结果所得的结果显示在画面上 的提示部分2721构成。解释器部分2722依次执行脚本,按照脚本指示的方法读入数据构造 体802,执行提示部分的程序,作为图像信息显示在显示设备203中。作为这样的显示脚本 的解释和显示系统的一般实施例,可以利用因特网的浏览器中的Java(注册商标)Script 的动态解释机构等来实现。〈可视化模块的执行〉在该可视化模块中生成静态的图像·可以交互地控制的显示内容等,将其数据转 发到客户机PC。客户机PC的观察器在画面上提示该数据并待机,或者接收交互的输入。图25表示通过可视化模块的显示图像的例子。作为伴随图中2602那样的图标的 图,表现在地图2601上重叠地分析了各分区区域的数据的内容,通过点的大小和颜色表现 分析结果的数据。另外,此时配合来自接口设备202的命令,将地图的各部分交互地放大/ 缩小来显示。在该显示和阅览作业结束时,评价结果输入程序2012向利用者200提示图25的 数值输入画面2603,催促针对分析结果输入评价值(步骤506、507)。当输入了评价值时, 将该值发送到分析服务器PC210的调度程序2101,用于管理在高速缓冲存储DB241中保存 的中间数据的管理(步骤508)。使用图12的流程图在后面描述该中间数据的管理步骤。<分析处理服务器>图6的流程图表示分析服务器PC210的处理步骤。分析服务器PC210在主存储器306中保持了登录成为分析对象的分析流程的队 列。以下将该队列称为未执行队列。在初始状态下,分析服务器PC210在对结构数据和分 析处理开始消息的接收状态下进行待机(步骤701)。在接收到消息时,在消息是新的分析 流程的情况下,执行步骤703 711的处理内容,当消息是来自子分析服务器PC221 223
9的部分分析结束的通知的情况下,执行步骤712 719 (步骤702)。<新分析流程的情况>把在步骤701中接收到的消息是来自客户机PC201的新分析流程的情况下的举 动,作为分析的路线是通过数据构造体610表现的树型结构的分析,说明步骤703 711的 步骤。与该树型结构的父分析(处理过程编号612)的ID—起,生成列出各输入数据613 614而得到的构造体数据。以下,将该构造体称为子节点列表(步骤703)。分析服务器PC210,关于各输入数据613 614 (子节点),确认该节点是否是直接 参照DB231 233的数据提取过程。在这种情况下,委托子分析服务器PC221 223进行 数据的提取处理(步骤712)。在数据提取过程以外的情况下,分析服务器PC210每次一个地选择其中的子节 点,针对对应的分析内容进行步骤706 710的处理(步骤705)。首先,分析服务器PC210 委托高速缓冲存储DB247判定是否已经在高速缓冲存储DB241中登录了中间数据。分析服 务器PC210,将为此从数据构造600搜索出的全部数据做成列表,生成用于类似数据的检索 委托的消息,并转发到高速缓冲存储DB241 (步骤706)。以下,将该列表称为部分分析流程 处理脚本的高速缓冲存储DB241的高速缓冲存储数据检索程序,进行从分析服务器PC210 发送来的部分分析流程处理脚本和在高速缓冲存储数据管理程序的表中登录的数据之间 的条件比较。按照图8的流程图进行该高速缓冲存储DB241进行的条件比较的处理(后 述)。当条件比较结束时,从高速缓冲存储DB241发送关于再利用可能性的判断和登录编号 成为一组的数据(步骤707)。在高速缓冲存储DB241中已经存在可以再利用的相应数据时,把表示从高速缓冲 存储DB241发送来的中间数据的保存位置的编号(登录编号)写入子节点列表,同时将该 子节点的已执行标志设为ON (步骤708)。当高速缓冲存储DB241中不存在可以再利用的相应数据(中间数据)时,把表示 从高速缓冲存储DB241发送来的中间数据的保存位置的编号(未处理)写入子节点列表, 同时将该子节点的已执行标志设为OFF(步骤709)。从该分析流程中提取出将子节点作 为根的部分树,来生成新的分析流程,作为新分析流程循环地调用登录(701),对调度程序 2101自身进行。<部分分析结束的情况>说明在步骤701中接收到的消息是来自子分析服务器PC221 223的部分分析结 束时的处理。在从子分析服务器PC221 223发送来的信息中表示了表示高速缓冲存储 DB241的中间数据保存位置的编号。从登录在未执行队列中的全部子节点列表中检索该编 号,针对在子节点中包含相应编号的子节点列表进行步骤723 727 (步骤721、722)。首先,分析服务器PC210将子节点的已执行标志设为ON(步骤723)。接着,调查子 节点列表中包含的全部要素是否已执行(步骤724)。在子节点列表全部已执行的情况下, 判定该父分析的ID是可视化模块2011,还是数据分析模块2211。当父分析的ID是数据分 析模块2211时,分析服务器PC210委托子分析服务器PC221 223执行数据分析模块2211 的程序。另一方面,当父分析的ID是可视化模块2011时,从高速缓冲存储DB241中读入分 析结果的数据,并委托客户机PC201执行可视化模块2011。<待机状态>
在以上处理结束的时刻,分析服务器PC210在步骤720中再次进入消息待机状态, 等待下一次的接收。<同一性的判定>图8和图24的流程图表示,判断在高速缓冲存储DB241中登录的分析数据(中间 数据)和部分分析流程处理脚本之间的全等或类似性的一连串例程。该判断处理由以下两 个例程构成图8所示的针对个别的分析流程,循环地检查一致性的步骤900 907的个别 判定例程;和图24所示的针对高速缓冲存储DB241内的全部中间数据实施个别判定例程的 全体的例程。全体的例程,比较目标分析流程和在高速缓冲存储DB241保持的中间数据中所保 存的分析流程,判定(i)存在完全相同的分析流程的情况(全等)、( )是类似分析流程, 但数据查找范围的参数不同的情况(类似),当存在(i)、( )各自的中间数据时,在图23 的2410所示的构造体中加入数据,将这些构造体的列表作为返回值来返回。另外,个别判定的例程,比较目标分析流程和在中间数据中保存的分析流程,在树 型结构类似的情况下返回Ture,在树型结构不同的情况下返回False。另外,在树型结构的 各节点的参数不一致的情况下,将该节点的差分信息追加在堆栈中来返回。在图8的步骤901中,分析服务器PC210比较数据分析处理的相应节点的要素分 析处理、和高速缓冲存储DB241的数据分析处理的相应节点的要素分析处理的程序ID编 号。在该比较结果不同的情况下,视为未发现类似的分析处理结果,中断循环的判定处理 (图中,个别判定No),将False的值作为返回值来返回。在步骤902中,比较数据分析处理的相应节点的要素分析处理、和高速缓冲存储 DB241的数据分析处理的相应节点的要素分析处理的、在通用参数616中存储的信息。在 该比较结果不同的情况下(图中,个别判定No),视为未发现相同的分析处理结果,将False 的值作为返回值来返回。在步骤903中,检查在数据分析处理的相应的要素分析处理节点中是否存在子节 点(即输入数据613 614)。但是,当该要素分析处理需要的输入仅是表示DB的ID时,调 查表示DB的表的ID编号,在不同的情况下返回False。在相同的情况下,关于该要素分析 处理,视为进行同样的处理,并返回True。在步骤904 906中,依次搜索高速缓冲存储DB241的数据分析处理的要素分析 处理的子节点(步骤904),为了确认该子节点和高速缓冲存储DB241的数据分析处理的相 应位置的要素分析处理的同一性,对这些数据循环地执行相同例程900来检查(步骤905)。 在对该子节点循环检查的结果为False的情况下,作为返回值而返回False。在关于全部子 节点的结果,循环处理结束却一次也没有返回False的情况下,返回True。当检查以上的循环流程的结果为,结果对于全部子节点一致时,视为树型结构的 节点的基本形状类似。另外,外加在堆栈为空的情况下视为全等。通过重复上述的个别判定例程来进行高速缓冲存储DB241中的中间数据的搜索。 另一方面,当高速缓冲存储DB241取得成为课题的分析流程时,开始图24的处理(步骤 920)。选择在高速缓冲存储DB241内登录的中间数据(步骤921),通过上述方法进行与管 理表(图7表示其构造体)中保存的生成脚本801的比较(步骤922)。当上述比较的结果为,返回值是False时,由于数据间没有类似性,因此探索下一数据(步骤923)。另一方面,当上述比较的结果为,返回值是True时,参照循环流程结束时 的堆栈状态(步骤924)。在所保存的数据和检索对象的分析流程的处理全等的情况下,在 堆栈中未装满一切信息。在这种情况下,由于可以完全再利用中间数据,因此把指示该高速 缓冲存储DB241的指针信息(ID)记载在全等分析数据的ID2410的构造体中,追加到列表 中(步骤928)。另外,如果高速缓冲存储DB241中保存的数据是类似但不同的数据,则在堆栈中 装满表示其不同的数据。在这种情况下,针对该类似数据,使用与各要素分析处理相关联的 数据合成用的程序(后述),检查是否可以补充数据的不足部分.改变部分(根据图16在 后面描述该检查内容的步骤)(步骤925)。根据图16的流程图的返回值判定是否可以再利 用(步骤926),在通过补充不足部分的数据可以生成输出结果的情况下,作为分析流程处 理脚本而生成不足的数据部分的处理生成和数据的合成处理,作为分析服务器PC210的处 理来重新登录(步骤927)。接着,高速缓冲存储DB241生成图23的构造体2420,并将指示该高速缓冲存储 DB241的指针信息(ID)存储在类似分析数据的ID2421中,将差分信息存储在2422中,然后 追加到列表中(步骤928)。高速缓冲存储DB241,在判定出全部检查已结束的情况下(步 骤929),将中间数据的检索结果作为列表,返回分析服务器PC210(步骤930)。〈子分析服务器的处理〉在子分析服务器PC221 223中执行分析服务器PC210委托的各要素分析的处理。在分析处理的模块2211中存在数据提取模块、和数据分析模块这两种。数据提取 模块,作为图5的输入数据613而具有表示DB的表的ID,按照参数616的制约条件,仅将 必要的数据从DB提取出来。分析服务器PC210的数据分析模块2102,取得由ID613 614 表示的其它模块输出的中间数据来作为输入,按照参数616的条件进行分析处理。另外,在各数据分析模块2211中,为了再利用在高速缓冲存储DB241中存储的中 间输出结果(中间数据)来进行新数据的处理,另外准备合成运算处理和削减运算处理。在 后面描述该合成·削减处理的内容。在数据分析模块2211的程序中安装了在信息处理中一般所使用的各种计算处 理。在本实施方式中,作为该数据分析模块2211进行的处理的代表性的例子,假定安装了 求时间序列数据的移动平均过滤、每个数据要素的协方差矩阵、数据要素的聚类、类间的距 离函数等的分析方法的模块。在本实施方式中,这些各数据分析模块2211,作为输入来接收分组化的数据和处 理参数。各数据分析模块2211分别定义了固有的输入输出数据的类型和个数,作为在模块 处理的执行前检查该变量类型的适合性的该输入输出的数据类型的例子,具有时间序列数 据、在每单位时刻被分割的时间序列数据、通过聚类被划分的状态类等。将这些数据分析模块2211的程序预先保存在子分析服务器PC221 223内的 ROM、或者存储区域(外部存储装置307)中。用于数据分析模块2211的程序的实例的生成 的信息,可以通过进行要素分析过程的上述程序模块、和成为处理对象的数据、以及表示它 们的连接关系的树型结构来表现。当取得在从分析服务器PC210发送来的数据分析节点构造体610中记载的消息时,子分析服务器PC221 223生成这些要素分析过程的实例。在该各程序模块(数据分析模块2211)的执行实例中,表示高速缓冲存储DB241 的数据保存目的地的ID编号,被用作输入数据、输出数据、或执行时的参数,被用于执行时 的数据的输入输出。图9的流程图表示了执行子分析服务器PC221 223中的分析处理实例的一连串 的步骤。在子分析服务器PC221 223中,调度程序等待来自分析服务器PC210的处理内 容执行待机(步骤1000)。当子分析服务器PC221 223接收到处理内容时,从ROM或存储 区域读入数据分析节点构造体610的处理过程编号612的程序(步骤1001),同时从高速缓 冲存储DB2412分别读入输入数据613 614。另外,从子分析服务器PC221 223同时读 入图7所示的管理输入数据的表信息800。在步骤1003中,子分析服务器PC221 223将读入的程序应用于所读入的数据来 执行。将其计算结果保存在高速缓冲存储DB2412中(步骤1004)。另外,将该处理所需的时 间作为生成所需时间(差分),输入图7所示的高速缓冲存储DB241的管理表信息800的生 成所需时间(差分)803中,在作为输入数据的所需时间而登录的生成所需时间(总体)804 的合计值中,将补全了该过程的所需时间后的时间保存在生成所需时间(总体)804中,将 过程的结束发送到分析服务器PC210。<与数据分析程序的输入对应的结合·分离性>在本实施方式中,作为一个特征,当存在计算已结束的输出数据(分析结果)时, 对应于输入数据的增加·削减这样的变化,存在返回是否可以进行新的输入数据和已有的 处理结果之间的结合(合成)或分离的函数,关于可以进行合成 分离的处理,也记载了用 于该处理的算法。所谓可以进行输入数据的结合的情况,是指具有数据分析模块2211的输出结果 g,可以定义⑴式的函数f的情况。fl(g(a)+g(b)) = g(a+b)......(1)其中,g是表示各数据分析模块2211的程序的处理的函数,将输入集a、b的输出 记为g(a)、g(b)。函数fl是以处理结果g(a)、g(b)作为输入来执行处理的函数。a+b设为 输入集a和b的和集合。数据分析模块2211的类具有针对返回结合可能性的成员函数和进行结合处理的 函数的接口。该成员函数,是当存在两个输入数据集和各自的输出结果时,在通过处理两个 输出结果,可以返回与合成输入数据集来处理的结果相同的结果的情况下返回Ture,否则 返回False的静态函数。在前者的情况下,对实现进行结合处理的函数f的程序进行定义。作为可以进行这样的数据的合成的处理的简单例子,可以举出返回数据的数量、 平均和方差的计算处理等。另一方面,所谓可以进行输入数据的削减的情况,是指可以使用数据分析模块 2211的输出结果g来定义⑵式的函数f2的情况。f2(g(a+b)、a) = g(a)其中,g是表示各数据分析模块2211的程序的处理的函数,将输入集a的输出记 为g(a),a+b设为a和b的和集合。此时,函数f2是以处理g(a+b)的结果和将其部分集合的范围a作为输入来工作的函数。数据分析模块2211的类具有针对返回分解可能性的成员函数、和进行分解处理 的函数的接口。该函数是当存在输入数据集和其输出结果时,在可以得到在以输入数据集 的部分集合作为输入来处理时的输出结果的情况下返回Ture,否则返回False的静态函 数。在前者的情况下,定义了进行分解处理的函数f。作为这样的处理的例子,可以举出移动平均等在数据处理中保证了局部的局部性 的过滤处理。另外,关于可以进行输入数据的合成的函数,不仅将全体输出结果作为中间数据 来保存,还将独立对各部分集合的组进行处理而得的各输出结果作为中间数据来保存,由 此可以使以组单位的删除成为可能。<用于合成数据·生成新流程的例程>另外,各数据分析模块2211具有,再利用过去所输出的结果(中间数据)来判定 是否可以节省新数据的计算成本的算法。图16表示该算法。数据分析模块2211,在高速缓冲存储DB241中已经存在对输入数据χ处理而得的 中间数据g(x),此次处理的目的是根据输入数据y进行g(y)的处理。图17A、图17B是作 为该处理的结果而作成的新的树型结构数据的示意图。在图16中,关于各输入数据,为了调查已有的中间数据的输入数据χ和作为目标 的输入数据y之间的包含关系,提取出输入数据χ和输入数据y的公共部分ζ (积集合)(步 骤 1701、1702)。当输入数据χ和输入数据y中不存在公共部分ζ时,作为不可再利用而返回 False (步骤 1703、1712)。另一方面,当存在公共部分z,输入数据y包含公共部分ζ以外的数据时(步骤 1704),使用所述成员函数向该模块查询是否可以进行输入数据的结合处理f 1,在不可以的 情况下,作为不可再利用而返回False (步骤1705、1712)。当该检查的结果是输入数据y包含公共部分ζ以外的要素时,从保存在高速缓冲 存储DB241中的构造体数据的区域801拷贝进行输入数据χ的生成所得的中间结果的数据 流(data flow)(脚本)(步骤 1706)。以下,为了说明,以图17A的1810表现该数据g(x)的导出处理。把该对象数据的 提取处理1802的参数从输入数据χ改写为输入数据y_公共部分ζ (1822),变换成导出数据 g(y-z)的流程(步骤1707)。当输入数据χ包含公共部分ζ以外的区域时(步骤1708),使用所述成员函数向该 模块查询是否可以进行输入数据的削减处理f2。在不可以的情况下,作为不可再利用而返 回 False (步骤 1709、1712)。当输入数据χ包含公共部分ζ以外的要素时,把使用f2的处理从数据g(x)中删 除与z-x的区域相当的要素的处理(1826)记载在分析流程中。另外,通过fl的合成处理 1828,连接由此作成的数据g (ζ)和在先前的步骤1707中作成的处理脚本1802,生成新的树 型结构。如图17Β所示,在使用通过以上步骤生成的中间数据的新的树型结构1830中,替 换图17Α所示的已有的处理1810。〈从DB的数据提取模块〉
图3中作为411 413而描述的数据提取模块,具有从DB231 233 (对应于图3 的DB401 403)提取满足在输入参数中所示的制约条件的数据来读入的功能。该数据提取模块411 413取得的制约条件参数的典型例子,是具有某时刻范 围、空间范围、记载数据内容的条件句,从DB挑选出相应的全部数据,作为输出而列举的过 程。关于该条件处理的程序描述方法和提取的步骤,可以通过使用关系数据库管理系统 (RDBMS)和SQL等的现有的数据处理语言中采用的工具来实现。另外,在该DB231 233中,作为分析处理的辅助而使用的一般信息数据也同样地 被保存,根据分析处理的算法或可视化处理的算法的需要,将其提取.读入来利用。作为该 典型例子,具有登录了各都道府县的警察轮换的位置坐标和维诺图(Voronoi diagram),取 得与其他个别数据的相关的分析处理算法、或提取出与所提供的地区名相当的地像的 信息的可视化处理程序(分析结果提示程序2011)等。它们的用于表示从DB231 233的 提取中的制约条件的脚本的描述,被定义在图5的构造体610的格式内的管理数据611中。在本实施方式中,DB231 233的实现中的基本结构,假定以使用通用计算机广泛 安装了 RDBMS的软件的结构为基准,一般的特性是已知的。〈显示和评价〉利用者200为研究分析结果,操作客户机PC201来视听该显示结果,以及进行交互 的操作。在客户机PC201中运行的分析处理输入程序2010,对于视听该分析结果后的用户 提示数值的输入画面,经由接口设备202接收数值。利用者200把针对分析结果的有用度 作为数值来输入(以下将该值称为评价值)。为了将该评价值作为分析数据的评价来利用, 客户机PC201向在分析服务器PC210的后台运行的调度程序2101转发分析过程的ID和所 输入的评价值。<评价调度程序的启动>图12是描述分析服务器PC210中运行的调度程序2101的处理过程的流程图。调 度程序2101每到一定时刻接受来自计时器的启动,执行1302 1309的步骤(1301)。在步骤1302中,检查是否从客户机PC201发送了针对分析过程的评价值的数据。 在(1)从前一次的更新起测定的时间超过一定值(将其称为单位衰减时间)的情况下、和
(2)评价值的更新消息已到达的情况下,执行1304 1309的步骤。在其他情况下返回休止 状态(步骤1303)。在步骤1304中,按照图13的流程图所示的步骤(后述),将新评价值再分配给高 速缓冲存储DB241的各中间数据的评价。在后续的步骤1305中,使再分配的各中间数据的值衰减一定量。在后续的步骤1306中,关于各中间数据,检查更新后的评价值是否低于由下述的
(3)式的Xl决定的阈值,当评价值低于阈值时,对高速缓冲存储DB241发送中间数据的删除 消息(步骤1307)。当该删除消息到达时,高速缓冲存储DB241从存储装置(外部存储装置 307)删除相应的中间数据的信息。Xl= ml_s X (S_0_S_c) _ml_t X (T_c)......(3)其中,S_0是高速缓冲存储DB241的存储器的剩余容量,S_c是当前的中间数据 占用高速缓冲存储器的数据大小,T_c是中间数据的生成所花费的计算成本(生成所需时
15间)804的值。在这些处理结束后,调度程序2101进入休止状态(步骤1308)。通过上述处理,从高速缓冲存储DB241中删除从客户机PC201接收的评价值不到 阈值的中间数据,高速缓冲存储DB241可以抑制在存储装置(外部存储装置307)中存储的 中间数据量变得过大。<后台启动的评价基准值>图13表示在上述图12的步骤1304中,分析服务器PC210的调度程序2101进行 中间数据的评价值的再计算的处理。调度程序2101每隔一定时间对高速缓冲存储DB241的各中间数据进行评价值的 再计算。此时,在从客户机PC201取得了评价值的消息的情况下,从针对该最终分析数据的 评价值中,根据以下步骤向各中间数据分配评价值。为了根据最终分析数据的评价值ED_p计算各中间数据D_i的评价值的分配追加 量ED_i,以最终分析数据作为调用源,进行以下的循环调用。首先,调度程序2101,当得到中间数据(或最终分析数据)DJ的评价值EDJ时 (步骤1401),在分析服务器PC210的表信息800的中间数据的评价值807中追加该评价值 EDJ。另外,从表信息800的生成脚本801中记载的生成脚本(图5的610所示的构造体) 中,搜索为了导出该数据D_j而直接使用的输入数据D_i (613、614),根据这些信息如下述 的(4)式那样划分各输入数据D_i的评价值ED-i (步骤1402)。ED_i = ED_jX {DT_i}/{ Σ DT_n}_{n in DJ} · · · (4)其中,DT_j是用于求出在各中间数据的管理日志中记载的数据D_j的所需计算时 间 804。将该评价值ED_i传递给中间数据的节点,循环地执行划分处理(步骤1404)。在 针对全部节点结束了处理的情况下(步骤1403),返回父节点(步骤1405)。通过以上的步骤,从高速缓冲存储DB241删除在一定时间内未被再利用于被赋予 了高评价值的分析结果的中间数据。该删除的定时,如后述的(6)所示,较早地删除数据容 量大的中间数据,或者如(7)式所示,对数据生成中花费时间的中间数据赋予很多评价值。 但是,关于在多个分析中公共使用的中间数据,被取入改写后的新的分析过程,并被重新赋 予评价值。如上所述,在本实施方式中,把在分析的中间阶段生成的中间数据保存在高速缓 冲存储BD241中,把针对所保存的数据的反馈信息作为评价值,通过分析服务器PC210接 收,针对未被赋予评价值的中间数据,优先从高速缓冲存储DB241中删除,另一方面,对于 接收到特别高的评价分数的中间数据,进行类似的数据的分析处理,为了可以高速地进行 成为比较对象的数据的分析或派生地设想的分析,可以通过后台处理来进行中间数据的自 动管理,可以在防止在高速缓冲存储DB241中保存中间数据的区域变得过大的同时,也实 现利用了中间数据的高速的分析处理。〈第二实施方式〉作为第二实施方式,列举出包含当针对所述第一实施方式中的分析结果的用户评 价值较高时重新自动生成与其分析相类似的分析的数据的机构的实施的例子。本第二实 施方式,在所述第一实施方式中增加了重新自动生成与在先分析相类似的分析的数据的处理,其它结构与所述第一实施方式相同。图20描述了本实施方式中的数据流。与在先的第一实施方式相同,服务器PC执 行的调度程序以数据结构取得由客户机PC委托的数据分析的课题,根据附加的优先度依 次执行。在所述第一实施方式中,作为数据分析的脚本,执行了利用者200经由分析处理 输入程序2010手动地生成的脚本。在本第二实施方式中,通过两种方式来生成该数据分析 的脚本。一种方式是与在先的第一实施方式同样地,在客户机PC201中按照利用者200明 确输入的分析步骤的脚本来进行分析,通过分析处理输入程序2010来进行。另一方式是, 在分析服务器PC210中运行的调度程序2101,关于被赋予了较高评评价的分析,将变更了 其分析脚本中的输入数据的参数后的类似的分析流程作为脚本来自动生成,并进行其计
笪弁。首先,关于保存成为分析对象的原始数据的DB231 233,描述将本实施方式与第 一实施方式比较时的特征性的区别功能。在本第二实施方式的结构中,特征性的区别在于 具备在各数据之间定义距离函数的机构;预先定义了小规模的采样的划分集,数据分析模 块2211以该划分集为单位来接收输入。该划分集是把作为时空间数据而被视为同一分区 的数据汇总在一起而得到的组。作为这种划分的例子,将在某个特定区域的某个时间分区 (特定的市镇村、特定的一个小时等)中发生的数据汇总成一组等的例子与之相当。在每个 划分集中准备标题区域,为了描述数据的大小或划分集的特征、集间的关系,记载了元数据 (metadata)0图10是实现该要素数据间的距离函数和采样用的划分集的数据结构1100的一 例,假定本第二实施方式是根据该数据结构而构建的。在本第二实施方式中,各要素数据 1110最低具有一个指示时间的数据(时间信息)1101和指示空间1102的数据。作为这样 的数据例子,可以列举出商品销售信息、标签的分配信息、GPS那样的位置数据的取得信息、 配置在各地的传感器设备的接收信息或出错日志的信息等。另外,通过恰当地定义后述的 距离函数,不将该实施方式中的位置限定于地图上的物理位置,对于把数据的划分关系图 中的位置或web上的地址等作为对象的广义的概念也可以实施。在DB231中,各要素数据1110在被分割成基于空间和时间的组数据1120的基础 上被管理。在本第二实施方式中,假定该组的分类基准是基于所属地区、时刻、终端保有者 等的多维分类。这些DB231 233的数据的实体被保存在管理在网络上配置的存储装置 的信息处理设备中,参照表所示的对其保存位置的指数被保存在存储装置(外部存储装置 307)中。该指数的内容,以根据时刻或位置被分组而得的单位在存储装置上被管理。<时空间数据间的距离函数>在要素数据彼此或汇集要素数据的图10的各组数据1120之间可以定义距离。根 据数据彼此的时间信息1101和空间信息1102来定义该距离。这样的距离,当根据规定的 规则动态地生成时、和将距离作为表来保存时,还通过其组合来实现。<基于时间数据的距离的定义>关于以时间(时刻)为基准的组间的距离,不仅生成单纯地取得在数据中记载的 时间的差作为距离,还生成作为同周的日期接近的距离而定义的距离、或被定义成别的年的相同日期的数据成为相近的值的距离,将各个的合成值作为综合的距离函数来使用。作为该实现例,在本实施方式中,在存在两个不同时间的数据的情况下,作为基于 时间的数据间距离的要素,登录以线性和的方式合计以下三种值而得的距离函数1 取时刻的差的平方的倒数,2 关于时亥IJ,求出以24小时相除的余数的差,取其平方的倒数,3 关于时刻,求出以一周24小时X7天=168小时相除的余数的差,取其平方的 倒数。另外,关于以空间为基准的组间的距离,准备了地图上的单纯的欧几里得距离或、 使用了基于一般交通工具的移动时间的距离、以互相邻接的县的距离作为1来计数的距 离、或把以地方行政作为树型结构来保存时的树枝的数量定义的距离。<基于空间数据的距离的定义>本第二实施方式中的空间信息如图11所示,通过为以空间位置所属的地区行政 分区(国1201、地区1202、县1203、市区镇村1204)作为阶层的树型结构来整理各组。以此 为前提,如下定义相互的组。首先,在像市区镇村与市区镇村那样,行政分区存在于同一类 别中时,把在通过数据的算术平均而得到的位置间的距离的值上乘以常数后的值A设为数 据间的距离。如县与市区镇村那样,属于差一个层次的类别的行政分区在树型结构中存在 父子关系的情况下,作为距离而分配常数B。关于未按照上述规则分配的X和Y的距离,寻 找使X和Z的距离+Z和Y的距离达到最小的Z,将此时的值设为X、Y的距离。<基于保有者数据的距离的定义>另外,关于客户机PC201的终端保有者,当存在与上述行政分区同样地以树型结 构管理的分类分区(作为例子可以举出以树型结构保存了保有商业终端的法人主体的销 售分区·连锁店组·各店铺·各终端的分类分区;或以树型结构保存了个人终端保有者的 性别·年龄的分类的分类分区)时,也按照同样的规则来定义距离。<针对调度程序的追加>接下来,对于分析服务器PC210的调度程序2101,描述与第一实施方式的变更点 的内容。在第一实施方式的图12中记载的调度程序2101的处理被替换成图15所示的调 度处理。步骤1601到1607的处理与第一实施方式的1301到1307的处理相同。在步骤1606中进行删除数据的检索后,在本第二实施方式中,在步骤1608中,当 针对中间数据的评价值比以(5)式表示的值X2大时,进行关于类似的分析流程的新生成的 操作(步骤1609)。X2 = m2_s X (S_0_S_c) _m2_t X (T_c) _m2_p X P_c......(5)其中,S_0是高速缓冲存储DB241的存储装置(外部存储装置307)的剩余容量, S_c是当前的中间数据占用高速缓冲存储器的数据大小,T_c是成为参照源的分析中的处 理所花费的计算成本804的值、P_c是当前的分析服务器PC210和子分析服务器PC221 223的CPU负荷的比例。关于各中间数据,当更新后的评价值比通过上述值X2决定的阈值高时,按照图14 所示的后述的一连串步骤,生成与相应的分析内容类似的中间数据的生成脚本,新登录在 分析服务器PC210的调度程序2101的处理任务中(步骤1610)。
该调度程序2101是与取得来自客户机PC201的数据分析流程的程序相同的程序, 与从客户机PC201发送来的情况同样地进行中间数据的生成,然后将结果保存在高速缓冲 存储DB241中。〈类似中间数据的生成〉图14表示上述图15的步骤1610中的处理的细节,描述了对于从某分析流程产生 的评价较高的中间数据,生成类似的数据分析流程的脚本的步骤。在步骤1501中,调度程序2101从构成模仿源的分析流程的整个树型结构所保有 的数据提取处理中随机地选择某个数据提取处理。在步骤1502中,针对相应的处理的节点,变更在提取中所使用的制约的参数。此 时,首先决定作为参数的距离d的值,以使原分析中的提取数据和新分析中的提取数据的 距离d成为符合正态分布的随机数(步骤1502)。在此基础上,检索与原分析中的分析对象 集存在距离d的关系的数据集(步骤1503)。此时,与原始数据存在距离d的关系的数据集 的候补,关于空间或时间等的多个分类轴,存在大量可能的组合。从在步骤1503中作为候 补而选择的集合中随机地选出一个集合(步骤1504)。通过以上的处理,自动地生成与评价较高的中间数据类似的分析处理的数据(步 骤 1505)。根据上述第二实施方式,针对在分析服务器PC210中在先进行的分析的结果接受 评价值(评价分数),对构成分析的中途阶段的多个中间数据分配评价值,根据该评价值 的多少,进行中间数据的删除、保存或派生数据的生成。在向中间数据分配该评价值的处 理中,综合使用数据的生成所需的时间和计算成本、中间数据的大小和高速缓冲存储DB241 中可利用的盘(存储区域)的剩余容量、从阅览或评价起经过的时间的各要素。另外,关于 在多个分析结果中利用的中间数据,可以累积地存储评价值来用作数据管理基准。〈第三实施方式〉〈介绍〉在第三实施方式中,在所述第一实施方式中附加了通过客户机PC201对委托了数 据的分析的利用者200提示与希望的分析类似的、可以利用已经存在的中间数据来生成的 数据分析流程的例子、和该分析所需的计算时间(与所委托的数据的分析处理相比缩短的 时间)的结构,其它结构与所述第一实施方式相同。当利用者200希望执行由客户机PC201 推荐的更高效地获得的数据分析流程时,与先前的数据分析相比赋予更高的优先度,发送 到调度程序2101。该第三实施方式,可以通过对第一实施方式进行以下的变更来实施。图18是符合本第三实施方式的目的而变更了第一实施方式中的图8所示的步骤 的图。步骤1901 1906的处理,进行与所述第一实施方式的图8所示的步骤901 906 相同的处理。但是,在步骤1902中,分析服务器PC210,代替在比较结果不同的情况下返回 False的值作为返回值,而判断出存在不相同但类似的分析处理结果,将其差分保存登录在 堆栈中。在该差分信息装满堆栈时,在步骤1907中生成图27所示的构造体2800。从基础 分析的树型结构中,将被判断为类似部分的部分与该中间数据置换来进行剩余分析的情况 下的脚本(通过将部分树与中间数据置换而得到)记载在区域2801中。接着,将堆栈中装
19满的差分的信息写入2802。另外,将为了生成相应的中间数据所需的时间(已记载在804 中)和为了读入中间数据所花费的时间(根据数据大小和存储装置读入速度来计算)的差 写入2803。将该内容发送到客户机PC,向利用者提示差分信息2201和差分预想时间2202。 在利用者进行了允许该数据的再利用的输入时,将在2201中写入的数据处理发送到服务 器 PC210。通过以上的处理,可以将类似分析流程的建议反馈给利用者200。〈第四实施方式〉在第四实施方式中,描述了在所述第一实施方式的结构中附加了根据利用者200 的行动中包含的隐含信息生成评价值,来进行数据的删除和更新的方法的例子。以下的作业,描述了在第一实施方式的图4所示的步骤507中代替由利用者200 明确输入评价数值的步骤,而从利用者200的行动本身中检测信息的机构。该步骤由评价结果输入程序2012执行。该评价结果输入程序2012,是取得利用者 200在客户机PC201上进行观察器程序的视听的期间的行为、和明确输入的评价值,并发送 到分析服务器PC210的调度程序2101的专用程序。评价结果输入程序2012与多个评价方法组合来推定利用者200是否对分析结果 感兴趣。在本实施方式中,进行以下列举的四个分析(评价基准1 4),将它们的全部评价 值的合计用作评价值。<利用者进行的评价的明确输入>在评价基准1中,与第一实施方式同样地把用户自身对分析结果的满意度作为数 值来输入。将从接口设备(输入装置)202输入的0 100数值设为直接评价值E_l。<提示·观察时间的测定>在评价基准2中,根据照相机设备204的图像,基于在利用者200的观察时间较长 的情况下对客户机PC201上提示的内容感兴趣的可能性较高的假设,以提示了分析数据的 时间为基准来进行评价。使用显示分析结果的分析结果提示程序2011的画面提示时间TS、 和利用者200进行的交互操作的次数I,按照下面的(6)式来决定评价值E_2。E_2 = l/(l+b_21exp (TS)) Xpl+1/(l+b_22exp (I)) Xp2......(6)其中,b_21、b_23是常数,pl、p2是pl+p2 = 100的加权参数(常数)。<发言次数的记录>在评价基准3中,在多个利用者200阅览了数据的情况下,认为在利用者200间的 发言较多的情况下踊跃地进行与提示内容相关的议论的可能性较高,根据该发言时间计算 评价。对来自输入麦克风的声音信息的发言时间的总计TV进行计数,通过下面的(7)式决 定评价值E_3。E_3 = 1/(l+b_3exp (TV)) X 100......(7)其中,b_3是常数。〈视线的提取〉在评价基准4中,从照相机设备204的图像中,相对于客户机PC201中的信息的提 示时间,认为利用者200的视线朝向画面上的时间较长的情况下对提示内容感兴趣的可能 性较高,以该时间为基准进行评价。从在画面旁边设置的照相机设备204的图像中提取脸 部区域,测量视线朝向画面的期间(其中,关于从动画图像测量视线的技术存在很多先例,省略详细的说明)。对利用者200的视线朝向画面上的期间的总计TE进行计数,通过以下的⑶式决 定评价值E_4。E_4 = 1/(l+b_4exp (TE)) X 100......(8)其中,b_4是常数。<评价的合计>对于以评价基准1 4得到的评价值E_1 E_4,如下面的(9)式那样求得加权平 均值,作为数据D_p的评价值ED_p。ED_p =¥sigma_{i = 0} "4m_iXE_i......(9)将该评价值ED_p发送到分析服务器PC210的调度程序2101。通过以上的处理,可以从利用者200的分析数据观察时的行动中提取信息,用于 数据的管理。<第五实施方式>本第五实施方式,追加了当多个利用者200使用WWW等网络环境远程对分析结果 进行视听时,从针对分析结果的明确的评价或隐含的行动中提取出分析内容的评价值(阅 览信息),使用所提取出的评价值进行第一实施方式那样的分析中间数据的管理、和第二实 施方式那样的新分析数据的生成的机构。图21中记载了本第五实施方式中的结构。在web网络2202上公开了分析结果的 可视化数据,从而不仅可以由利用者200阅览,而且可以由不特定多数的利用者、或者输入 了密码的登录成员阅览。为了实现这一点,为了分发与发送到客户机PC201的可视化模块 2011相同的数据而配置了 web服务器2201,根据来自与网络连接的多个信息处理设备2203 的请求,分发可以在web浏览器上显示分析结果的可视化程序2300。图22表示该可视化程序2300的画面例。其通过在图2所示的通用计算机上执行 处理来提示图像的程序而实施。该画面显示和交互的实施,可以通过使用当前的web浏览 器和在其上使用的各种技术来实现。在此,2301是在画面上将分析结果可视化地显示在画 面上的区域,通过点击输入区域2302,可以使图像的视点或角度、放大率等变化来显示。另外,关于该分析结果,同时提示通过文本进行意见交换的布告牌系统2303。另 外,与分析的可视化数据所在的坐标位置相关联地同时提示写入脚注的系统2304。另外, 2305是将对这些分析数据视听后的评价作为数值而记入的区域。可视化程序2300在结束时将阅览时刻和处理日志发送到web服务器2201。另外, 将与该分析相关的评价调查问卷作为数值记载在2305中时,该数据也被发送到web服务器 2201。与它们对应地输入的数据被发送到2201的服务器来保管,该信息在利用者间共享。 这种web上的数据管理系统,可以通过使用现有的先行技术来实施。另外,web服务器2201 是取得来自这些各阅览者的评价的程序。代替在所述第一实施方式的图4的步骤507中由利用者200明确地输入的评价数 值,而进行以下列举的四个分析,将它们的全部的评价值的合计用作评价值。<评价值平均>对于被输入到客户机PC201的评价值的平均值Wl如下面的(10)式的E_wl那样 进行规范化来变换成评价值。
21
E_wl = l/(l+c_lexp (Wl)) XlOO......(10)<下载次数>对从所述第五实施方式中的Web服务器2201下载可视化程序的次数W2进行计 数,将该值作为W2,如下面的(11)式的E w2那样进行规范化来变换成评价值。E_w2 = 1 (l+c_2exp (W2)) X 100......(11)<网页级别>使用Web上的浮动系统(crawling system)从一般的Web信息中对记载了向Web 服务器2201的分析数据的连接URL的网页数进行计数,设为W3。(另外,在此时可以取得 各网页的推定访问数等的情况下,将其值作为加权数来计数)如下面的(12)式的E_w3那 样进行规范化来变换成评价值。E_w3 = 1/(l+c_3exp (W3)) X 100......(12)<布告牌记载量>使用在该布告牌系统中写入的写入字符数W41和写入次数W42作为评价量。如下 面的(13)式的E_w4那样进行规范化来变换成评价值。E_w4 = 1/(l+c_41exp (W41)) X 50+1/(l+c_42exp (W42)) X 50......(13)〈脚注记载量〉将写入该布告牌系统的次数W5用作评价量。如下面的(14)式的E_w5那样进行 规范化来变换成评价值。E_w5 = 1/(l+c_5exp (W5)) X 100......(14)〈合计显示时间〉关于各显示,取得进行下载的时刻和结束应用程序的时刻的差,计算进行视听的 显示时间。将该显示时间的合计W6用作评价量,如下面的(15)式的E_w6那样进行规范化 来变换成评价值。E_w6 = 1/(l+c_6exp (W6)) X 100......(15)<评价的合计>对于上述评价基准1 4,如下面的(16)式那样求出加权平均值,作为数据D_p的 评价值ED_p。E_wp =¥sigma_{p = 0} "7m_iXE_i......(16)将该评价值ED_p发送到分析服务器PC210的调度程序。如上所述,作为接收来自利用者200的评价值的方法,除了利用者200作为数值数 据而输入评价值的方法以外,作为评价信息,可以应用对进行了分析结果的阅览的时间、根 据声音数据或文章备忘录的写入而得到的议论的踊跃度或感情的信息、来自取得了阅览者 的表情的图像的信息等进行变换而得到的信息。<第六实施方式><参数的变更>在所述第一实施方式或所述第二实施方式中,关于成为分析对象的数据的选择作 业,作为新分析数据的对象。在不仅数据提取模块的输入数据的变化,而且在各分析处理模 块中的输入参数间,包含 部分集合的关系和中间数据的再利用为可能的情况下,关于这些 参数的变化,通过使用从已有的输出数据的合成 分离,有时也允许计算效率的提高。在本实施方式中记载了用于实现与这样的参数变化相伴的中间数据的利用方法的实施方法。<与分析处理程序的参数对应的结合·分离性>关于各数据分析模块2102,在变更了输入数据以外的参数的情况下,为了检查是 否可以再利用中间数据,在分析执行时的参数间构建包含关系,在参数A和参数B不相同的 情况下确认参数A和参数B的包含关系。作为与这样的参数的变更结果相伴的处理可以进行的处理的典型例子,可以列举 出以下情况(i)在时间序列数据的移动平均计算处理中使移动平均的范围增加的情况;(ii)对于进行傅立叶变换来取得某个特定频带的功率比例的运算,将作为傅立叶 变换结果的全频率成分作为中间数据来保存的情况等。在参数间存在包含关系的情况下,检查是否与所述的输入数据中的处理同样地在 模块中实现了实现相应的中间数据的再利用的合成处理(结合·削减处理)的方式,在不 可以进行参数的合成时返回False。其中,对参数不同的分析处理进行结合·削减的处理(与第一实施方式的fl、f2 同样)如下定义。hl(g(A、x)、g(B、x)) =g(A+B、x)......(3,)h2 (g (Α+Β、χ)、A) = g (Α、χ)......(4,)其中,g(A、χ)是表示与输入数据χ和参数A对应的分析处理程序的处理的函数, A、B是条件式,Α+Β是A和B的和集合。hi是根据应用了参数A和参数B的g(A、χ)、g(B、 x),计算对其二者进行包含 合成的参数Α+Β的输出结果g(A+B、x)的输出结果的函数。另 外,h2是计算参数Α+Β的输出结果g(A+B、χ)的输出结果、和指定了 Α+Β的部分集合A时 g(A+B、x)的输出结果的函数。关于可以实现这些处理的模块,与第一实施方式同样地,通过生成分析流程改变 脚本,对于参数的变化也可以使用中间数据。此外,在上述各实施方式中表示了在多个计算机中执行各处理的例子,但也可以 在一个计算机上执行上述各处理。如上所述,根据上述各实施方式,保存了在分析的中间阶段生成的数据,接收对与 所保存的数据对应的反馈信息定量化所得的结果来作为评价值,优先删除评价值满足预定 条件的中间数据,另一方面,通过保存评价值不满足预定条件的中间数据,在下次的分析 时,可以再利用中间数据来进行分析,可以在防止保存中间数据的区域变得过大的同时,还 实现利用了中间数据的高速的分析处理。如上所述,上述实施方式可以应用于进行数据的分析的计算机系统,尤其可以应 用于为了从原始数据进行分析而生成中间数据的计算机系统以及程序。以上,根据本发明表示并描述了多个实施方式,但本领域技术人员应该理解,在不 脱离本发明的范围的情况下可以进行变更和修改。因此,本发明不限于上述详细的表示和 描述,在要求保护的范围内也包含上述变更和修改。
权利要求
一种在具备处理器和存储装置的计算机中分析原始数据,输出分析结果的数据分析系统,其特征在于,具备存储所述原始数据的原始数据存储部;读入所述原始数据来进行分析,在该分析的过程中生成中间数据,然后输出分析结果的分析部;存储由所述分析部生成的中间数据的中间数据存储部;以及接收针对由所述分析部输出的分析结果的评价值的评价接收部,所述分析部在所述分析时,参照所述中间数据存储部的中间数据中可以利用的中间数据,所述评价接收部对与所述评价值对应的所述中间数据分配所述评价值,当所述分配的评价值满足预定的条件时,删除与该评价值对应的所述中间数据。
2.根据权利要求1所述的数据分析系统,其特征在于,所述分析部接收分析内容,然后将该分析内容存储在所述存储装置中,判定该分析内 容与过去的分析内容是否类似,当所述判定结果类似时,根据所述过去的分析内容和接收 的分析内容,生成参照所述中间数据存储部的中间数据的新的分析内容,并执行该新的分 析内容。
3.根据权利要求1所述的数据分析系统,其特征在于, 还具有显示所述分析结果的显示部,所述评价接收部接收针对所述显示部的显示的评价值。
4.根据权利要求1所述的数据分析系统,其特征在于,所述分析部接收分析内容,将该分析内容存储在所述存储装置中,判定在该分析内容 中使用的中间数据和过去的中间数据是否类似,当该判定结果类似时,根据所述过去的中 间数据,从所述中间数据存储部中参照在接收的分析内容中使用的中间数据来生成新的中 间数据,并通过该新的中间数据执行分析内容。
5.根据权利要求1所述的数据分析系统,其特征在于,所述评价值包含所述中间数据的生成所需的计算成本、所述中间数据的大小、所述存 储装置的剩余容量的至少一个。
6.根据权利要求3所述的数据分析系统,其特征在于,所述评价值是与所述显示部上显示的分析结果对应的阅览信息。
7.一种在具备处理器和存储装置的计算机中分析原始数据,输出分析结果的数据分析 方法,其特征在于,包含以下步骤读入在所述存储装置中存储的原始数据的步骤; 根据所述读入的原始数据生成中间数据的步骤; 将所述中间数据存储在所述存储装置中的步骤; 根据所述中间数据运算分析结果的步骤; 输出所述分析结果的步骤;以及 接收针对所述输出的分析结果的评价值的步骤; 根据所述中间数据运算分析结果的步骤,在所述分析时,参照所述中间数据中可以利用的中间数据,接收针对所述输出的分析结果的评价值的步骤,对与所述评价值对应的所述中间数据分配所述评价值,当所述分配的评价值满足预定 的条件时,删除与该评价值对应的所述中间数据。
8.根据权利要求7所述的数据分析方法,其特征在于,根据所述中间数据运算分析结果的步骤,接收分析内容,然后将该分析内容存储在所述存储装置中,判定该分析内容与过去的 分析内容是否类似,当所述判定结果类似时,根据所述过去的分析内容和接收的分析内容, 生成参照所述中间数据的新的分析内容,并执行该新的分析内容。
9.根据权利要求7所述的数据分析方法,其特征在于,输出所述分析结果的步骤,将所述分析结果显示在所述计算机的显示部上,接收针对所述输出的分析结果的评价值的步骤,接收针对所述显示部的显示的评价值。
10.根据权利要求7所述的数据分析方法,其特征在于,根据所述中间数据运算分析结果的步骤,接收分析内容,将该分析内容存储在所述存储装置中,判定在该分析内容中使用的中 间数据和过去的中间数据是否类似,当所述判定结果类似时,根据所述过去的中间数据,参 照在接收的分析内容中使用的中间数据来生成新的中间数据,并通过该新的中间数据执行 分析内容。
11.根据权利要求7所述的数据分析方法,其特征在于,所述评价值包含所述中间数据的生成所需的计算成本、所述中间数据的大小、所述存 储装置的剩余容量的至少一个。
12.根据权利要求9所述的数据分析方法,其特征在于,所述评价值是与所述显示部上显示的分析结果对应的阅览信息。
全文摘要
本发明提供一种数据分析系统及方法,目的在于高效率地保存在分析处理的中间阶段生成的数据来再利用中间数据。保存有在分析的中间阶段生成的数据,把与所保存的数据对应的反馈信息定量化的结果作为评价值来接收,优先删除未赋予评价值的中间数据,另一方面,对于接收了特别高的评价值的中间数据,进行类似的数据的分析处理,为了能够高速进行成为比较对象的数据的分析或派生设想的分析,通过后台处理进行中间数据的自动管理。
文档编号G06F17/30GK101923557SQ20101011572
公开日2010年12月22日 申请日期2010年2月11日 优先权日2009年6月16日
发明者宇都木契 申请人:株式会社日立制作所