专利名称:一种专利数据分析方法和系统的利记博彩app
技术领域:
本发明涉及计算机应用领域,具体而言,涉及一种专利数据分析方法和系统。
背景技术:
随着全球化进程的加快以及知识经济的来临,知识产权成为决定未来国家和企业 竞争力的一个重要因素,具有越来越重要的地位和作用。其中,专利尤其是专利技术作为一 种具有排他性权利的技术在产业中发挥了主导作用,往往能够决定企业的竞争地位以及市 场范围。目前,中国、美国、欧洲、日本等国家专利局的专利已超过6000万件,中国国家知 识产权局到2009年累计受理专利申请已超过500万件。专利信息作为一种竞争情报和技 术情报的获取来源,因其携带的信息具有数据全面、更新快速、权利明晰等特点,成为数据 分析的一个重要对象。专利分析的结果对发明人、中小企业、实验室、大学等知识创造者有 很好的使用价值,同时对于大企业或政府机构也很有用。专利信息分析是对已经公开的专利申请文件和专利文件加以检索,并对检索结果 进行清洗筛选,根据分析目的选取合适的专利信息分析项目,从微观层面和宏观层面,采用 定量分析、定性分析以及文本挖掘等信息处理技术提炼出专利中包含的权利信息、技术信 息、经营信息、发展趋向等内容。专利信息量的迅速增长以及查询的复杂化,使得专利信息分析成为一个数据量较 大的处理过程。同时,由于用户需求的多样性,进一步加剧了专利分析的复杂程度。使用现 有的数据分析系统和方法进行专利分析时,处理速度比较慢;严重时还会产生错误的分析 结果,进而影响依据专利分析而进行的战略决策。针对相关技术中的数据分析系统和方法不能合理、快速地进行专利分析问题,目 前尚未提出有效的解决方案。
发明内容
本发明所要解决的技术问题是提供一种能够提高专利数据分析准确性的专利数 据分析方法和系统。根据本发明的一个方面,提供了一种专利数据分析方法,包括在本地数据库中建立与分析目的对应的主题;以及建立与所述主题一致的数据集市,在数据仓库中建立与所述主题对应的数据 视图;对所述本地数据库中的专利数据进行抽取;将抽取后的专利数据存储至所述数据仓库中,所述存储以基于所述数据视图的形 式存储;根据用户的请求确定对应的数据集市,根据所确定的数据集市进行专利数据分 析;
将分析的结果以视图的形式返回给用户。根据本发明的另一方面,提供了一种专利数据分析系统,包括本地数据库,用于存储专利数据,所述专利数据与预先建立的主题相对应;建立模块,用于建立与所述主题一致的数据集市,以及在数据仓库中建立与所述 本地数据库中的主题对应的数据视图;数据抽取模块,用于对所述本地数据库中的专利数据进行抽取;数据仓库,用于存储所述数据抽取模块抽取后的专利数据,所述存储以基于所述 数据视图的形式存储;数据分析模块,用于根据用户的请求确定所述建立模块建立的数据集市,根据所 确定的数据集市进行专利数据分析;显示模块,用于将所述数据分析模块分析的结果以视图的形式返回给用户。根据本发明的另一方面,提供了一种专利数据分析系统,所述系统包括第一建立模块,用于在本地数据库中建立与分析目的对应的主题;第二建立模块,用于建立与所述主题一致的数据集市,以及在数据仓库中建立与 所述第一建立模块建立的主题对应的数据视图;数据抽取模块,用于对所述本地数据库中的专利数据进行抽取;存储模块,用于将所述数据抽取模块抽取后的专利数据存储至数据仓库,所述存 储以基于所述数据视图的形式存储;数据分析模块,用于根据用户的请求确定所述第二建立模块建立的数据集市,根 据所确定的数据集市进行专利数据分析;显示模块,用于将所述数据分析模块分析的结果以视图的形式返回给用户。通过采用针对主题对专利数据进行抽取处理,并对专利数据分析,将分析结果以 视图的直观形式返回给用户,可以提高专利分析的效率和质量,便于用户使用。
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了实施例1提供的专利数据分析系统的结构框图;图2示出了实施例1提供的另一专利数据分析系统的结构框图;图3示出了实施例1提供的另一专利数据分析系统的结构框图;图4示出了实施例2提供的专利数据分析方法的流程图;图5示出了实施例2提供的数据仓库中的数据视图的结构示意图。
具体实施例方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明实施例主要针对专利信息量的迅速增长以及查询的复杂化状况,在传统的 OLTP (On-Line Transaction Processing,联机事务处理)系统不能满足对数据进行深层次 多维分析的情况下,采用了数据仓库和0LAP(0ri-Line Analytical Processing,联机分析处理)相结合的技术进行专利分析。实施例1参见图1,本实施例提供了一种专利数据分析系统,该系统包括本地数据库102、 建立模块104、数据抽取模块106、数据仓库107、数据分析模块108和显示模块110 ;其中,本地数据库102,用于存储专利数据,该专利数据与预先建立的主题相对应;本实施例中预先建立的主题指专利集合,可以是依据用户的需求(即,分析目的) 建立的,例如“华为公司”欲查询其竞争对手“中兴公司”的技术发展状况,则在本地数据库 中建立一个主题申请人为中兴公司,这样进行专利分析时,则只考虑该主题下的专利;或 者发明人需要了解其研究课题目前的发展状况,则可以建立与其研究课题一致的主题,例 如发明名称为单片机的主题等;本地数据库102中的专利可以通过从互联网下载的方式获取,也可以通过其他方 式获取。建立模块104,用于建立与上述主题一致的数据集市,以及在数据仓库中建立与本 地数据库102中的主题对应的数据视图;通常数据集市是建立在分析服务器上的;数据抽取模块106,用于对本地数据库102中的专利数据进行抽取;数据仓库107,用于存储数据抽取模块106抽取后的专利数据,其中,本实施例中 的存储是以基于数据视图的形式存储的;数据分析模块108,用于根据用户的请求确定建立模块104建立的数据集市,根据 确定的数据集市进行专利数据分析;显示模块110,用于将数据分析模块108分析的结果以视图的形式返回给用户。为了能够更好地进行专利数据分析,需要使本地数据库中的主题、数据仓库中的 数据视图与分析服务器上的数据集市保持一致,建立模块104可以定时监测每个主题在 数据仓库中是否存在对应的数据视图,是否存在对应的数据集市,如果没有,则使用脚本创 建;当本地数据库中的某个主题被删除时,数据仓库中对应的数据视图和对应的数据集市 也要删除;本实施例以视图的形式向用户显示专利分析的结果,可以使用户能够更直观地获 取到需要的信息,方便用户的使用。优选地,本地数据库102包括多个原始信息库,用于存储各种专利信息的原始数据;该原始信息库可以集中存 储,也可以采用分布式存储方式;上述建立模块104、数据抽取模块106、数据仓库107、数据分析模块108和显示模 块110可以集成在一个设备上,参见图2,为本实施例提供的另一专利数据分析系统,该系 统中将建立模块104、数据抽取模块106、数据仓库107、数据分析模块108和显示模块110 集成在服务器10中。本实施例中提到的对本地数据库中的专利进行抽取指的是进行 ETL (Extract-Transform-Load,抽取、转换和装载)处理;上述数据抽取分为全库抽取和增量抽取,其中,全库抽取为将本地数据库中的所 有数据都复制到数据仓库中;增量抽取为只抽取上一次抽取完成之后增加的数据;增量抽 取的抽取周期可以是一天;一个月,或每周固定时间;
数据抽取模块106进行数据抽取时,判断本地数据库的主题是否在分析服务器 中有对应的数据立方(即,数据集市),如果没有,则动态在分析服务器中创建对应的数据 立方,实现分析服务器与本地数据库的主题一致;同时,可以按照某种规则,设定数据立方 ID,如按照主题ID,创建同名数据立方,以及同名的数据仓库中的数据视图,以便使这三 者(本地数据库中的主题、数据视图和数据立方)一致。本实施例的数据抽取可以采用全库抽取与增量抽取相结合的方式完成,具体方法 为初次数据抽取,采取全库抽取;然后,为全库抽取设定一个较长周期(例如一月),在 全库抽取周期内,设置多个较短周期(例如一个星期),用于进行增量抽取;进行增量抽取时,采取在本地数据库增加时间戳,每次增量抽取,只抽取上次抽取 完成之后增加的数据;因为在经过较长时间后,原始数据库中已经被抽取到数据仓库的专利也可能会发 生变化,例如法律状态在经过一段时间,有的专利状态发生了新的变化,由公开变为实审, 以及用户对专利数据进行了修改,标引等;所以经过较长时间后,需要进行全库抽取;进一步地,在上述抽取方式的基础上,还可以结合更新抽取的方式,其中,更新抽 取是指已经对本地专利数据库中的专利进行了抽取,并存储到数据仓库中,但是随着时间 的推移,本地专利数据库的专利发生了变化,需要采取更新抽取;具体更新抽取的方式有1)在本地专利数据库中增加更新时间戳,本地专利变化后,同时由业务系统更新 此时间戳,自动抽取上次更新抽取之后的专利数据;2)本地专利数据库采用触发器方式,建立更新触发器,每当专利表中的数据发生 变化后,更新触发器将变化的数据写入一个临时表,更新抽取从临时表中抽取数据,临时表 中抽取过的数据被标记或删除;3)在本地专利数据库中增加更新时间戳,用触发器方式,建立更新触发器,每当专 利表中的数据发生变化后,更新触发器自动记录变化专利的更新时间戳,更新抽取服务自 动抽取上次更新抽取之后的专利数据;上述更新抽取与增量抽取可以同时进行,也可以异步进行;优选地,数据抽取模块106进行数据抽取设定时,可以设定全库抽取的周期,增量 抽取的周期,更新抽取的周期;每次抽取完成记录全库抽取的时间,增量抽取的时间,以及 更新抽取的时间,下次启动时根据上次抽取的时间和设定周期,判断是否进行新的抽取工作。优选地,上述系统还可以包括法律状态采集模块,用于从法律状态检索网站采集指定专利的法律状态信息;和/或,存活期计算模块,用于解析采集到的法律状态信息,根据解析后的信息计 算该指定专利的存活期等。其中,存活期指专利自申请日起到当前时间的时长;专利存活期是一个随时间变 化的非物理存储数据,是一个计算项目,在经过一段时间后,自动会发生变化,需要再次计 算才能知道,而实际数据又没有变化,如存活期由4变为5 (它是当前时间与申请时间的年 度差值),这种非物理数据的变化通过其它方式是无法获得的,需要采用全库抽取策略,在 抽取过程中重新计算专利的存活期,虽然这种策略存在一定的滞后性,但是可以接受的;这里可以优化处理的方案是,不进行全库抽取,而是通过启动一个线程对数据仓库的存活期数据进行周期性的完全再计算获得,这种计算可以按天、周、月等的周期进行, 减少系统负载,但这样不能解决本地数据库的专利被删除的情况;进而采取全库抽取,与数据仓库数据的存活期再计算策略相结合的方式,全库抽 取可以适当设定较长的周期;上述从法律状态检索网站(例如,中华人民共和国国家知识产权局)上查找指定 专利可以根据该专利的专利号查找,也可以根据该专利的专利名称查找。通过对指定专利法律状态的查询,并对查询的结果进行解析,可以为计算该专利 的存活期提供依据,使用户能够进一步地了解该专利。优选地,上述系统还可以包括专利归属地解析模块,用于根据指定专利的申请人地址信息和预先设定的地域代 码表,自动判断专利的所属地。例如所属国、省、市等。本实施例中的数据抽取的启动可以是自动启动,也可以是由用户触发启动;其中, 自动启动的时间可以设定在服务器比较空闲的时间,比如后半夜,这时几乎没有人在访问 服务器,避开系统负载高峰,或者系统自动检测服务器的负载情况,调整启动的时间,这种 称为闲时抽取;有时用户想立即对最新的专利数据进行分析,这时通过手动触发启动实现 立即启动抽取进程。优选地,在进行数据抽取时,也可以对特定主题进行抽取,例如对本地数据库中, 只有某个主题的专利数据发生变化,可以只对变化的主题进行抽取;优选地,对于新增专利数据,例如新公开的专利,需要判定它归属于哪个主题,设 置归属至的主题更新标识,对具有更新标识的主题进行ETL处理;对于仅状态发生变化的, 例如著录变更专利权转让,可以直接对数据仓库中对应的专利进行写入,减少系统资源的 浪费。参见图3,本实施例还提供了一种专利数据分析系统,该系统包括第一建立模块1002,用于在本地数据库中建立与分析目的对应的主题;第二建立模块1004,用于建立与主题一致的数据集市,以及在数据仓库中建立与 第一建立模块1002建立的主题对应的数据视图;数据抽取模块1006,用于对本地数据库中的专利数据进行抽取;存储模块1008,用于将数据抽取模块1006抽取后的专利数据存储至数据仓库,其 中,存储以基于数据视图的形式存储;数据分析模块1010,用于根据用户的请求确定第二建立模块1004建立的数据集 市,根据所确定的数据集市进行专利数据分析;显示模块1012,用于将数据分析模块1010分析的结果以视图的形式返回给用户。其中,数据抽取模块1006的实现可以与图1所示系统中的数据抽取模块106的实 现一样,这里不再赘述。优选地,上述系统还可以包括法律状态采集模块,用于从法律状态检索网站采集指定专利的法律状态信息;和/或,存活期计算模块,用于解析采集到的法律状态信息,根据解析后的信息计 算该指定专利的存活期等。或者还包括,专利归属地解析模块,用于根据指定专利的申请人地址信息和预先设定的地域代码表,自动判断专利的所属地。例如所属国、省、市等。本实施例通过采用数据仓库和OLAP相结合的技术,对专利数据进行ETL处理,并 对存储在数据仓库中的数据完成多维的分析,将分析结果以多维视图的直观形式返回给用 户,可以提高专利分析的效率和质量,便于用户使用。实施例2参见图4,本实施例提供了一种专利数据分析方法,该方法包括步骤S302 在本地数据库中建立与分析目的对应的主题;为了便于管理专利,本实施例根据用户的需求,在本地数据库中建立对应的主题, 按照主题的方式对专利进行组织,每个主题下的专利数据用户可以进行标引和修改等操 作;步骤S304 建立与上述主题一致的数据集市,以及在数据仓库中建立与上述主题 对应的数据视图;本实施例优选数据仓库中的数据视图、分析服务器上的数据集市与本地数据库中 的主题保持对应的关系,可以按照某种规则,为本地数据库中的主题、数据视图和数据集市 分配相同的标识号ID,根据该ID判断这三者(本地数据库中的主题、数据视图和数据立 方)是否一致,如果不是,则需要根据本地数据库中的主题建立与之对应的数据视图和数 据集市;步骤S306 对本地数据库中的专利数据进行抽取,将抽取后的专利数据存储至数 据仓库中,其中,本实施例中的存储以基于上述数据视图的形式存储;本实施例中提到的数据抽取指进行ETL处理,即进行抽取、转换、清洗、过滤和装 载等处理,处理后的专利存储在数据仓库中,本实施例该数据仓库置于服务器中。本实施例可以对数据仓库中的数据定期进行更新操作,即进行上述抽取操作,数 据抽取分为全库抽取、增量抽取和更新抽取,其中,全库抽取为将本地数据库中的所有数据 都复制到服务器的数据仓库中;增量抽取为只抽取上一次抽取完成之后增加的数据;增量 抽取的抽取周期可以是一天;一个月,或每周固定时间;更新抽取指当本地数据库中的专 利发生变化时,对变化的专利进行抽取的方式;其中,进行全库抽取、增量抽取或者更新抽 取具体实现同实施例1中的实现一样,这里不再详述。上述数据抽取可以定期进行,例如每隔第一预设时间(例如一月)抽取本地数据 库中的全部专利数据;或者,每隔第二预设时间(例如一周)抽取本地数据库中的特定主 题的专利数据;或者,每隔第三预设时间(例如一个月)抽取本地数据库中的特定状态的 专利数据。进行更新抽取时,上述方法还可以包括在本地数据库中设置更新时间戳;相应地,对本地数据库中的专利数据进行抽取 包括当本地数据库中的专利数据发生变化时,对更新时间戳之后的专利数据进行抽取; 或者,在本地数据库中建立更新触发器,当本地数据库中的专利数据发生变化时,更新 触发器将变化的专利数据写入临时表;相应地,对本地数据库中的专利数据进行抽取包括 从上述临时表中抽取专利数据,并将临时表中抽取过的专利数据删除或作特定标记;或者,在本地数据库中同时设置更新时间戳和建立更新触发器;当本地数据库中的专利数据发生变化时,更新触发器记录变化的专利数据的更新时间戳;相应地,对本地数据库中 的专利数据进行抽取包括根据上述更新触发器记录的更新时间戳,对上次抽取之后的专 利数据进行抽取。进行抽取时,可以每隔预设时间抽取本地数据库中的全部专利数据;或者,每隔预 设时间抽取本地数据库中的特定主题的专利数据;或者,通过预先设定的系统时钟自动触 发进行专利数据的抽取等;然后对抽取到的数据进行转换等操作,使其的存储形式符合上 述数据视图的形式,进而使得到的分析结果更加准确、可靠;步骤S308 根据用户的请求确定对应的数据集市,按照确定的数据集市对专利数 据进行分析;步骤S310 将分析的结果以视图的形式返回给用户。数据抽取时,判断本地数据库的主题是否在数据仓库中有对应的数据视图,以及 是否在分析服务器中有对应的数据立方(即,数据集市),如果没有,则根据主题建立数据 视图,以及动态在分析服务器中创建对应的数据立方,实现数据视图、数据立方与本地数据 库的主题一致;本实施例的数据抽取可以采用全库抽取与增量抽取相结合的方式完成,具体方法 为初次数据抽取,采取全库抽取;然后,为全库抽取设定一个较长周期(例如一月),在 全库抽取周期内,设置多个较短周期(例如一个星期),用于进行增量抽取;或者,采取更 新抽取与增量抽取同时进行,或异步进行。进行增量抽取时,采取在本地数据库增加时间戳,每次增量抽取,只抽取上次抽取 完成之后增加的数据;因为在经过较长时间后,原始数据库中已经被抽取到数据仓库的专利也可能会发 生变化,例如法律状态在经过一段时间,有的专利状态发生了新的变化,由公开变为实审, 以及用户对专利数据进行了修改,标引等;所以经过较长时间后,需要进行全库抽取;本实施例中的数据抽取的启动可以是自动启动,也可以是由用户触发启动;其中, 自动启动的时间一般可以设定在服务器比较空闲的时间,比如后半夜,这时几乎没有人在 访问服务器,避开系统负载高峰,或者系统自动检测服务器的负载情况,调整启动的时间, 这种称为闲时抽取;有时用户想立即对最新的专利数据进行分析,这时通过手动触发启动 实现立即启动抽取进程。优选地,在进行数据抽取时,也可以对特定主题进行抽取,例如对本地数据库中, 只有某个主题的专利数据发生变化,可以只对变化的主题进行抽取。优选地,上述方法还包括当用户欲查询指定专利的存活期时,从法律状态检索网 站采集该指定专利的法律状态信息;解析法律状态信息;根据解析后的信息计算该指定专 利的存活期。优选地,上述方法还包括当用户欲查询指定专利的归属地时,根据该指定专利中 的申请人地址信息和预先设定的地域代码表,判断指定专利的所属地。其中,地域代码表指 将地方(例如,国家、省或市等)用代码表示,并用表格的形式使每个代码与每个地方一一 对应。参见图5,为本实施例提供的数据仓库中的数据视图的结构示意图,其中,数据视 图采用星型模式对专利数据中的信息进行组织,本实施例仅以一部分信息为例进行说明,本实施例的数据仓库采用的是关系数据库的形式存储,根据本地数据库中建立的主题在关 系数据库中建立对应数据视图,实现与主题数据的逻辑隔离。优选地,对于新增专利数据,例如新公开的专利,需要判定它归属于哪个主题,设 置归属至的主题更新标识,对具有更新标识的主题进行ETL处理;对于仅状态发生变化的, 例如著录变更专利权转让,可以直接对数据仓库中对应的专利进行写入,减少系统资源的浪费。本实施例通过采用数据仓库和OLAP相结合的技术,对专利数据进行ETL处理,并 对存储在数据仓库中的数据完成多维的分析,将分析结果以多维视图的直观形式返回给用 户,可以提高专利分析的效率和质量,便于用户使用。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成 的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储 在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示 出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或 步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种专利数据分析方法,其特征在于,所述方法包括 在本地数据库中建立与分析目的对应的主题;建立与所述主题一致的数据集市,以及在数据仓库中建立与所述主题对应的数据视图;对所述本地数据库中的专利数据进行抽取;将抽取后的专利数据存储至所述数据仓库中,所述存储以基于所述数据视图的形式存储;根据用户的请求确定对应的数据集市,根据所确定的数据集市进行专利数据分析; 将分析的结果以视图的形式返回给用户。
2.根据权利要求1所述的方法,其特征在于,对所述本地数据库中的专利数据进行抽 取包括定期对所述本地数据库中的专利数据进行抽取。
3.根据权利要求2所述的方法,其特征在于,定期对所述本地数据库中的专利数据进 行抽取包括以下方式中的至少一种方式每隔第一预设时间抽取所述本地数据库中的全部专利数据; 每隔第二预设时间抽取所述本地数据库中的特定主题的专利数据;以及 每隔第三预设时间抽取所述本地数据库中的特定状态的专利数据。
4.根据权利要求2所述的方法,其特征在于,定期对所述本地数据库中的专利数据进 行抽取是系统定时抽取或闲时抽取。
5.根据权利要求1所述的方法,其特征在于, 在所述本地数据库中设置有更新时间戳;相应地,对所述本地数据库中的专利数据进行抽取包括当所述本地数据库中的专利数据发生变化时,对所述更新时间戳之后的专利数据进行 抽取。
6.根据权利要求1所述的方法,其特征在于, 在所述本地数据库中建立有更新触发器;当所述本地数据库中的专利数据发生变化时,所述更新触发器将变化的专利数据写入 临时表;相应地,对所述本地数据库中的专利数据进行抽取包括从所述临时表中抽取专利数据,并将所述临时表中抽取过的专利数据删除或作特定标记。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括 在所述本地数据库中设置有更新时间戳和建立有更新触发器;当所述本地数据库中的专利数据发生变化时,所述更新触发器记录变化的专利数据的 更新时间戳;相应地,对所述本地数据库中的专利数据进行抽取包括根据所述更新触发器记录的更新时间戳,对上次抽取之后的专利数据进行抽取。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括从法律状态检索网站采集指定专利的法律状态信息。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括获取指定专利的存活期,包括 从法律状态检索网站采集所述指定专利的法律状态信息; 解析所述法律状态信息; 根据解析后的信息计算所述指定专利的存活期。
10.根据权利要求1所述的方法,其特征在于, 所述方法还包括获取指定专利的所属地,包括根据所述指定专利中的申请人地址信息和预先设定的地域代码表,判断所述指定专利 的所属地。
11.一种专利数据分析系统,其特征在于,所述系统包括本地数据库,用于存储专利数据,所述专利数据与预先建立的主题相对应; 建立模块,用于建立与所述主题一致的数据集市,以及在数据仓库中建立与所述本地 数据库中的主题对应的数据视图;数据抽取模块,用于对所述本地数据库中的专利数据进行抽取; 数据仓库,用于存储所述数据抽取模块抽取后的专利数据,所述存储以基于所述数据 视图的形式存储;数据分析模块,用于根据用户的请求确定所述建立模块建立的数据集市,根据所确定 的数据集市进行专利数据分析;显示模块,用于将所述数据分析模块分析的结果以视图的形式返回给用户。
12.—种专利数据分析系统,其特征在于,所述系统包括 第一建立模块,用于在本地数据库中建立与分析目的对应的主题;第二建立模块,用于建立与所述主题一致的数据集市,以及在数据仓库中建立与所述 第一建立模块建立的主题对应的数据视图;数据抽取模块,用于对所述本地数据库中的专利数据进行抽取; 存储模块,用于将所述数据抽取模块抽取后的专利数据存储至数据仓库,所述存储以 基于所述数据视图的形式存储;数据分析模块,用于根据用户的请求确定所述第二建立模块建立的数据集市,根据所 确定的数据集市进行专利数据分析;显示模块,用于将所述数据分析模块分析的结果以视图的形式返回给用户。
全文摘要
本发明公开了一种专利数据分析方法和系统,属于计算机应用领域。所述专利数据分析方法包括在本地数据库中建立与分析目的对应的主题,建立与所述主题一致的数据集市,以及在数据仓库中建立与所述主题对应的数据视图,对所述本地数据库中的专利数据进行抽取,将抽取的专利数据存储至所述数据仓库中,根据用户的请求确定对应的数据集市,根据所确定的数据集市进行分析,将分析的结果以视图的形式返回给用户。本发明针对主题对专利数据进行ETL处理,并对专利数据分析,可以提高专利分析的效率和质量,便于用户使用。
文档编号G06F17/30GK102117303SQ20091026576
公开日2011年7月6日 申请日期2009年12月31日 优先权日2009年12月31日
发明者潘晓梅 申请人:潘晓梅