专利名称::存储系统的利记博彩app
技术领域:
:本发明涉及一种存储系统,并且特别地,涉及一种具有重复存储消除功能的存储系统。
背景技术:
:在过去数年,数据去重(deduplication)已经变成存储系统领域中的最广泛研究的主题之一。它实现显著节省,因为所需的存储空间可以减少高达20倍数,对于备份用途而言尤其如此。除了容量优化之外,去重还可以优化写带宽。如果系统提供(在写数据期间执行的)内嵌(in-line)去重并且通过仅比较其哈希来验证组块的相等,则重复块的数据无需被存储在盘上或是甚至通过网络传输。然而,提供一种用于标识重复的有效方式却并非易事。考虑具有可靠的内嵌去重的示例单节点基于盘的存储系统。假设具有12个ITB盘的2u存储节点,用于每个节点共计12TB盘空间。通过比较组块的内容的哈希而在组块级完成去重。相关工作表明8kB的组块大小是一个合理的选择。为了提供具有该组块大小的去重,需要一个用于15亿个条目的词典。仅仅是保持用于它们的哈希便将消耗对于SHA-1而言是30GB或者对于SHA-256而言是50GB,并且不会适应合理大小的RAM。目前的系统将词典实现为驻盘(disk-resident)哈希表。然而,数据组块的哈希是均与分布的,并且在访问它们时没有局部性。这使得直接高速缓存是低效的,并且导致查找期间从盘的随机读取。NPLI和2建议两个优化技术的组合。1.为了在查找不存在于系统中的组块期间避免盘访问,在存储器中的布隆过滤器中概括所有哈希。这加速了否定回答。2.预取假设写入重复的顺序将与写入原有组块的顺序相同。哈希被附加地保持在反映其初始写入顺序的特殊文件中。这加速了肯定答复,但是只有在该顺序被保留的情况下才会如此。引用列表非专利文献非专利文献I:ZHU,B.,LI,K.,ANDPATTERSON,H.Avoidingthediskbottleneckinthedatadomaindeduplicationfilesystem.1nFAST'08:Proceedingsofthe6thUSENIXConferenceonFileandStorageTechnologies(Berkeley,CA,USA,2008),USENIXAssociation,pp.1-14.非专利文献2:RHEA,S.,COX,R.,ANDPESTEREV,A.Fast,inexpensivecontent-addressedstorageinfoundation.1nProceedingsofthe2008USENIXAnnualTechnicalConference(Berkeley,CA,USA,2008),USENIXAssociation,pp.143-156.非专利文献3:DEBNATH,B.,SENGUPTA,S.,ANDLI,J.Chunkstash!Speedingupinlinestoragededuplicationusingflashmemory.1n2010USENIXAnnualTechnicalConference(June2010).非专利文献4:MEISTER,D.,ANDBRINKMANN,A.dedupvlJmprovingDeduplicationThroughputusingSolidStateDrives(SSD).1nProceedingsofthe26thIEEESymposiumonMassiveStorageSystemsandTechnologies(MSST)(May2010).非专利文献5;QUINLAN,S.,ANDD0RWARD,S.Venti:anewapproachtoarchivalstorage.1nFirstUSENIXconferenceonFileandStorageTechnologies(Monterey,CA,2002),USENIXAssociation,pp.89-101.非专利文献6:WEI,J.,JIANG,H.,ZHOU,K.,ANDFENG,D.Mad2:Ascalablehigh-throughputexactdeduplicationapproachfornetworkbackupservices.1nProceedingsofthe26thIEEESymposiumonMassiveStorageSystemsandTechnologies(MSST)(May2010).非专利文献7:LILLIBRIDGE,M.,ESHGHI,K.,BHAGWAT,D.,DEOLALIKAR,V.,TREZIS,G.,ANDCAMBLE,P.Sparseindexing:Largescale,inlinededuplicationusingsamplingandlocality.1nFAST(2009),pp.111-123.非专利文献8:BHAGWAT,D.,ESHGHI,K.,LONG,D.D.E.,ANDLILLIBRIDGE,M.Extremebinning:Scalable,paralleldeduplicationforchunk-basedfilebackup.非专利文献9:MINGYANG,T.,FENG,D.,YINGNIU,Z.,ANDPINGWAN,Y.Scalablehighperformancede-duplicationbackupviahashjoin.JournalofZhejiangUniversity-ScienceC11,5(2010),315-327.非专利文献10:YANG,T.,JIANGY,H.,FENGZ,D.,ANDNIU,Z.Debar:Ascalablehigh-performancede-duplicationstoragesystemforbackupandarchiving.Tech.rep.,UniversityofNebraska—Lincoln,2009.非专利文献11:CLEMENTS,A.,AHMAD,1.,VILAYANNUR,M.,ANDLI,J.Decentralizeddeduplicationinsanclusterfilesystems.1nProceedingsoftheUSENIXAnnualTechnicalConference(June2009).非专利文献12:G0KHALE,S.,AGRAWAL,N.,Ν00ΝΑΝ,S.,ANDUNGUREANU,C.KVZoneandtheSearchforaWrite-OptimizedKey-ValueStore.1nUSENIX2ndWorkshoponHotTopicsinStorageandFileSystems(HotStoragef10)(Boston,MA,June2010).非专利文献13:YIN,S.,PUCHERAL,P.,ANDMENG,X.PbfilterJndexingflash-residentdatathroughpartitionedsummaries.ResearchReportRR—6548,INRIA,2008.非专利文献14:YIN,S.,PUCHERAL,P.,ANDMENG,X.Pbfilter!indexingflash-residentdatathroughpartitionedsummaries.1nCIKM(2008),pp.1333-1334.非专利文献15:CHANG,F.,DEAN,J.,GHEMAWAT,S.,HSIEH,W.C.,WALLACH,D.A.,BURROWS,M.,CHANDRA,T.,FIKES,A.,ANDGRUBER.R.E.Bigtable:Adistributedstoragesystemforstructureddata.1nOSDIf06:7thUSENIXSymposiumonOperatingSystemsDesignandImplementation(Berkeley,CA,USA,2006),USENIXAssociation,pp.205-218.非专利文献16LEE,S.-ff.,ANDMOON,B.Designofflash-baseddbmsaninpageloggingapproach.1nSIGMODConference(2007),pp.55-66.
发明内容技术问题这些技术可以允许实现合理带宽,但是它们具有若干弊端。布隆过滤器和预取二者需要附加存储器,它的大小显著(下文具体讨论存储器消耗)。查找操作的延时不稳定某些操作使用RAM来处理,而其它操作需要盘访问。具有若干毫秒延时的读盘对于一些使用(例如主储存器)而言可能是不够的。如果重复不是按照与原写入相同的顺序被写入的,则预取停止有效工作,并且吞吐量降低若干量级。所提到弊端中的最后一个往往是最严重的。根据NPL2,写入重复的顺序对性能具有巨大影响。如果重复是按照与原有写入相同的顺序,则基础系统实现22MB/S,但是如果重复未按顺序,则性能仅为6KB/s。问题是在现实备份使用中面对乱序去重的概率。每个后续备份改变数据的某个部分。虽然预计在两个后续备份之间的差异较小,但是在第一备份与最后备份之间的差异可能很大。随着每个下一备份,去重的排序将退化并且将最终导致未按顺序的重复。在该领域中尚未发现任何研究,但是预计它发生于数十个备份之后。该问题不仅随着相同数据的备份数目而且随着可以跨越多个备份集作为重复而发现的备份集的数目而增加。由许多小文件构成的备份还可能加剧该问题,因为可能以不同顺序写入文件。由此,本发明的示例目的是提供一种存储系统,该存储系统能够实现稳定的延时,同时抑制存储器大小的增加,并且实现针对不同顺序写入的高效去重,这是上文描述的有待解决的问题。问题解决方案根据本发明的一个方面,一种存储系统包括第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比第一辅助存储设备的数据读/写速度更高的数据读/写速度;主存储设备,具有比第一辅助存储设备和第二辅助存储设备的数据读/写速度更高的数据读/写速度;数据管理单元,将存储目标数据存储在第一辅助存储设备中,使用基于存储目标数据的数据内容的特征数据来管理存储目标数据的存储位置,并且从基于特征数据的数据内容的索引数据参考特征数据;以及重复确定单元,使用基于新近将被存储的存储目标数据的数据内容的特征数据和基于特征数据的数据内容的索引数据以确定与新近将被存储的存储目标数据相同的存储目标数据是否已被存储在第一辅助存储设备中。数据管理系统通过参考存储在第一辅助存储设备中的存储目标数据的特征数据而将基于特征数据的索引数据存储和保持在主存储设备中,并且如果保持和存储在主存储设备中的索引数据达到预设量则在第二辅助存储设备中存储和保持存储和保持在主存储设备中的索引数据,并且从主存储设备删除在被存储和保持在第二辅助存储设备中的索引数据。根据本发明的另一方面,一种存储程序的计算机可读介质,该程序包括用于使信息处理设备实现如下各项的指令,该信息处理设备包括第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比第一辅助存储设备的数据读/写速度更高的数据读/写速度;以及主存储设备,具有比第一辅助存储设备和第二辅助存储设备的数据读/写速度更高的数据读/写速度:数据管理单元,将存储目标数据存储在第一辅助存储设备中,使用基于存储目标数据的数据内容的特征数据来管理存储目标数据的存储位置,并且从基于特征数据的数据内容的索引数据参考特征数据;以及重复确定单元,使用基于新近将被存储的存储目标数据的数据内容的特征数据和基于特征数据的数据内容的索引数据,来确定与新近将被存储的存储目标数据相同的存储目标数据是否已被存储在第一辅助存储设备中。数据管理系统通过参考存储在第一辅助存储设备中的存储目标数据的特征数据而将基于特征数据的索引数据存储和保持在主存储设备中,并且如果存储和保持在主存储设备中的索引数据达到预设量,则将存储和保持在主存储设备中的索引数据存储和保持在第二辅助存储设备中,并且从主存储设备删除存储和保持在第二辅助存储设备中的索引数据。根据本发明的另一方面,在存储系统中的一种数据管理方法,该存储系统包括:第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比第一辅助存储设备的数据读/写速度更高的数据读/写速度;以及主存储设备,具有比第一辅助存储设备和第二辅助存储设备的数据读/写速度更高的数据读/写速度,该数据管理方法包括:将存储目标数据存储在第一辅助存储设备中,使用基于存储目标数据的数据内容的特征数据来管理存储目标数据的存储位置,并且通过从基于特征数据的数据内容的索引数据参考特征数据来管理存储目标数据;并且使用基于新近将被存储的存储目标数据的数据内容的特征数据和基于特征数据的数据内容的索引数据,来确定与新近将被存储的存储目标数据相同的存储目标数据是否已被存储在第一辅助存储设备中。管理存储目标数据包括:通过参考存储在第一辅助存储设备中的存储目标数据的特征数据而将基于特征数据的索引数据存储和保持在主存储设备中,并且如果存储和保持在主存储设备中的索引数据达到预设量,则将存储和保持在主存储设备中的索引数据存储和保持在第二辅助存储设备中,并且从主存储设备删除存储和保持在第二辅助存储设备中的索引数据。本发明的有益效果由于如上文描述的那样配置本发明,所以本发明能够提供一种存储系统,其能够实现稳定的延时同时抑制存储器大小的增加,而且还实现针对不同顺序写入的高效去重。[图1]图1示出了第一示例实施例中的SSD的性能测试的结果;[图2]图2示出了第一示例实施例中的获取组块的方面;[图3]图3示出了第一示例实施例中的固态去重索引;[图4]图4是示出了第一示例实施例中的作为λ的函数的扫掠的写高速缓存大小、相对价格以及SSD利用率;[图5]图5示出了第一示例实施例中的3级写高速缓存组织;[图6]图6是示出了第一示例实施例中的不同写高速缓存组织的比较的表;[图7]图7是示出了根据第一示例实施例中执行的测试的写入性能的图表;[图8]图8是示出了根据第一示例系统中执行的测试的写入期间的盘利用率的图表;[图9]图9示出了如下图表,这些图表指示根据第一示例实施例中执行的测试的LRU流预取的有效性;[图10]图10是示出了根据第一示例实施例的不同解决方案的成本的表;[图11]图11示出了在第一示例实施例的方法与根据NPL的方法之间的比较结果的表;[图12]图12是示出了整个系统的配置的框图,该系统包括第二示例实施例的存储系统;[图13]图13是示意地示出了第二示例实施例的存储系统的配置的框图;[图14]图14是示出了第二示例实施例的存储系统的配置的功能框图;[图15]图15是用于说明视图14中公开的存储系统中的数据存储过程的方面的说明视图;[图16]图16是用于说明视图14中公开的存储系统中的数据存储过程的方面的说明视图;[图17]图17是用于说明视图14中公开的存储系统中的数据获取过程的方面的说明视图;[图18]图18示出了第二示例实施例中的存储数据的方面;[图19]图19示出了第二示例实施例中的存储索引数据的方面;以及[图20]图20是示出了根据补充注释I的存储系统的配置的框图。具体实施例方式〈第一示例实施例〉在本发明中给出呈现固态去重索引(SSDI),它是一种用于查找去重的、被设计为置于基于闪存的SSD上的结构。在本发明中的解决方案没有先前解决方案的弊端——即使在乱序去重期间它仍然是有效的、具有稳定的查找操作低延时,并且不会消耗大量RAM。然而,与提出用于去重查找的另一基于SSD的结构的近来工作不同,在本发明的设计中,还考虑了SSD的有限擦除和写入持久度,并且量化了解决方案所需要的RAM。本说明书组织如下。首先将讨论对基于闪存的SSD的读/写操作的效率。然后将描述封闭哈希方案,并且将给出将其置于SSD上所产生的问题。然后将给出SSDI,它是一种满足性能要求的词典结构。然后将评估提出的解决方案的性能并且对其与备选方式进行比较。继而将给出相关工作,最终将提供结论。(SSD特性)为了使得将重复标识结构放置于SSD上成为可能,需要找到一种SSD设备,其可以每秒服务于足够数目的少量随机读取。SSD设备的其它特征对于本发明而言不是如此重要。例如,本发明不需要功率故障抵御,因为预计结构可以基于数据盘上保持的信息而被重建。此外,设备应当相当廉价,以降低本发明的系统所使用的硬件的价格。将给出在80GBIntelX25-MSATASSD上和在ITBHitachiUltra-start7200RPMSATAHDD上运行的性能测试的结果。在测试之前,已经用随机数据填充SSD设备(SSD的状态有时对它的性能具有影响、例如盒外设备上的写带宽可以比在填充设备之后高得多)。使用直接IO和本机命令排队在Linux上运行测试;关闭SSD设备上的写高速缓存。结果在图1中给出。随机读和随机写的特性对于HDD而言是相似的,而在SSD上,随机写比随机读要慢得多。SSD比盘(即对于更小块而言)更快达到最大带宽。少量SSD读以很高的IOPS速率实现良好带宽。在另一方面,少量SSD写特别不高效。SSD写带宽随着最多为擦除块大小(64KB)的请求大小而增长。如果它们具有与擦除块的大小相等或者更大的大小,则随机写实现最佳带宽。之所以会这样是因为:为了写入少量请求,闪存事务层(FTL)通常需要擦除并且再次写入整个擦除块(少量顺序写可以由设备的写高速缓存加以缓冲)。较为廉价的设备中的FTL通常在擦除块级工作,否则FTL将消耗SSD的太多内部RAM用于保持转译。一般而言,SSD处理的少量随机读取的数目高;然而为了实现合理写带宽,需要在更大块中发出SSD写。(封闭哈希)哈希表是用于去重词典的一个显然的选择。数据组块由其哈希标识,因此数据组块的哈希将是哈希表中的键。在每个哈希表的条目中,保持用于一个组块的元数据记录。由于对于每个组块,需要至少保持它的哈希(例如SHA-1具有20字节,SHA-256具有32字节)和它在盘上的局部化,所以每个元数据记录将消耗很少字节。从封闭哈希方案开始讨论本发明的结构,稍后表明它为什么不能直接用于重复的基于闪存的词典。在封闭哈希中,存在哈希函数将键变换为保存条目的表中的索引。为了高效操作,哈希表需要条目的特定部分是空闲的。由于在本发明中使用的元数据记录很大,所以在表中直接按照值来存储记录将是低效的。为了避免该点,本发明使用两个表哈希表和元数据表(见图2)。哈希函数对键确定哈希表中的索引,使用线性探测来解决冲突。在哈希表中,仅保持指向元数据表的索引。在查找期间,通过从元数据表读取键并且将其与期望键进行比较来校验来自哈希表的条目。从具有哈希函数给出的索引的条目开始,逐个检查条目直至找到匹配的元数据记录,或者直至在哈希表中存在空条目。考察将上述结构放置于基于闪存的固态驱动器上的效率。根据上文描述的观察,少量随机读取是高效的。仅有的顾虑是在查找期间需要校验哈希表和元数据表二者。从哈希表读取是高效的,因为将候选分组在一起并且单个读取请求足够了。然而,不能在一个请求中读取候选的元数据记录,因为它们随机放置于整个元数据表内。对于每个候选,必须发出用于从元数据表获得它的键的附加读取请求。为了校验给定的键是否存在而需要的读取数目将随着哈希表的负荷因子增长而增加。例如对于图2所示情况将在查找组块I(Chunk1)期间需要从元数据表的两个读取。插入新条目引起另一更为严重的问题。哈希的分布是均匀的,因此在插入期间没有空间局部性。用于随机写的IOPS数目没有使得在每个插入时更新SSD结构成为可能。少量随机写入是高成本的,它们的带宽差并且可能造成更快损耗,因为擦除的数据量比实际修改和写入的数据大得多。问题主要与哈希表有关,因为元数据表可能由批量写来更新。在本发明中,需要以写入请求的大小更大、优选地等于擦除块的大小这样的方式组织结构。(固态去重索引)这里将描述固态去重索引,它是满足去重性能要求的基于闪存的结构。该结构克服在上文段落的结尾提到的问题。本发明引入额外过滤以防止从元数据表的不必要读取。每个哈希表条目将不仅保持指向元数据表的索引而且保持过滤器,该过滤器是来自该元数据的键中的部分。仅在过滤器位与来自查找的键的对应位相匹配的情况下,才会执行从元数据表的读取。对于图3所示情形在查找块I(组块D期间,除非f(键J=f(键2)则才会读取用于键2的元数据记录。注意,这样的过滤有效降低读取具有错误键的元数据记录的概率。即使为过滤器省出每个条目中的仅十位,读取具有错误键的元数据记录的概率仍然为O.1/1024。为了通过扩大哈希表来实现相同减少率,它将必须要大许多倍。闪存架构使哈希表就地更新是不可能的。只有大块的写入产生令人满意的带宽。因此需要在批量模式中完成哈希表的更新。为了实现该点,本发明引入RAM中保持的写高速缓存。在更新期间,新的键仅被插入这样的高速缓存中。组织写高速缓存为哈希映射以允许高效键查找。在搜寻键之时,除了校验哈希表之外还需要校验写高速缓存。在图3中,将从写高速缓存获得用于键4的元数据记录的索引。注意,由于整个写高速缓存保持于存储器中,所以附加校验对性能具有可忽略不计的影响。当高速缓存全负荷时,执行扫掠操作一通过应用所有高速缓存的修改来重写哈希表从而在该过程中清除写高速缓存。为了使扫掠实施更简单,在本发明中将哈希表划分成固定大小的不相交区域。大小应当小到足以使得有可能向存储器中读取整个区域。相应地划分写高速缓存,因而每个区域在RAM中具有它自己的可以独立扫掠的独立高速缓存。还需要修改元数据表的组织以防止原位更新。为此,首先将描述基于盘的去重存储系统中的数据组织。所有研究的系统引入用于数据组块的容器的抽象化。提出的用于这样的容器的名称在不同系统中变化它们称为场地(arena)、兆字块、容器和同步运行组成容器(SCC)。虽然数据在容器中的具体组织在每个系统中不同,但是容器旨在于保持于盘上的分离文件中。以如下方式执行对容器的操作,该方式用于在访问容器文件时保证依序读/与,这允许盘的闻效使用。仅开放少数容器用于追加,新写入针对它们,因此向容器的新写入是依序的(与日志结构化文件系统相似)。如果组块以它们原先被写入的相同顺序来读取,则从容器的读取也是依序的。修改或者同步由系统保持的组块的操作立刻更新整个容器(例如标记组块为停用、收回由停用组块占用的空间)。本发明的设计遵循容器方式。本发明将保持用于每个容器的分离元数据文件而不是一个全局元数据表。例如在图3中有三个容器(A,B,C),它们中的每个容器具有一个对应元数据文件。元数据由与元数据表相同的记录(组块的键和组块在容器中的局部化)构成。每个元数据记录与它的容器的修改一起更新。(仅RAM的写高速缓存的限制)现代MLCNAND闪存的写入持久度通常允许5k_10k的编程-擦除循环。在多年内测量系统寿命时,保证针对哈希表扫掠而执行的写入不会引起闪存设备的磨损完,这需要RAM中的大量写高速缓存。以下等式呈现在写高速缓存的大小、SSD将在其之后变得不可用的时间和扫掠消耗的SSD的读/写带宽之间的依存性。[数学式I]权利要求1.一种存储系统,包括:第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比所述第一辅助存储设备的数据读/写速度更高的数据读/与速度;主存储设备,具有比所述第一辅助存储设备和所述第二辅助存储设备的所述数据读/写速度更高的数据读/写速度;数据管理单元,将存储目标数据存储在所述第一辅助存储设备中,使用基于所述存储目标数据的数据内容的特征数据来管理所述存储目标数据的存储位置,并且从基于所述特征数据的数据内容的索引数据参考所述特征数据;以及重复确定单元,使用基于新近将被存储的存储目标数据的数据内容的所述特征数据以及基于所述特征数据的所述数据内容的所述索引数据,来确定与所述新近将被存储的存储目标数据相同的存储目标数据是否已被存储在所述第一辅助存储设备中,其中所述数据管理单元通过参考存储在所述第一辅助存储设备中的所述存储目标数据的所述特征数据而将基于所述特征数据的所述索引数据存储和保持在所述主存储设备中,并且如果存储和保持在所述主存储设备中的所述索引数据达到预设量,则将存储和保持在所述主存储设备中的所述索引数据存储和保持在所述第二辅助存储设备中,并且从所述主存储设备删除被存储和保持在所述第二辅助存储设备中的所述索引数据。2.根据权利要求1所述的存储系统,其中:如果存储和保持在所述第二辅助存储设备中的所述索引数据达到所述预设量,所述数据管理单元对存储和保持在所述第二辅助存储设备中的所述索引数据的多个单元进行合并,将合并后的所述数据再次存储和保持在所述第二辅助存储设备中,并且从所述第二辅助存储设备删除合并前的所述索引数据。3.根据权利要求2所述的存储系统,其中所述数据管理单元对存储和保持在所述第二辅助存储设备中的所述索引数据的所述多个单元与存储和保持在所述主存储设备中的所述索引数据进行合并,并且将合并后的所述数据再次存储在所述第二辅助存储设备中,并且从所述第二辅助存储设备和所述主存储设备删除合并前的所述索引数据。4.根据权利要求2所述的存储系统,其中所述数据管理单元将基于所述索引数据的数据内容的元素数据存储在所述主存储设备中,所述元素数据用于确定是否存在被存储在所述第二辅助存储设备中的所述索引数据。5.根据权利要求4所述的存储系统,其中当所述数据管理单元对存储在所述第二辅助存储设备中的所述索引数据的所述单元进行合并并且将合并后的所述数据再次存储在所述第二辅助存储设备中时,所述数据管理单元释放存储在所述主存储设备中的所述索弓I数据的所述元素数据。6.根据权利要求1所述的存储系统,其中所述第一辅助存储设备是硬盘驱动器,并且所述第二辅助存储设备是固态驱动器(SSD)。7.一种存储程序的计算机可读介质,所述程序包括用于使信息处理设备实现以下各项的指令,所述信息处理设备包括:第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比所述第一辅助存储设备的数据读/写速度更高的数据读/写速度;以及主存储设备,具有比所述第一辅助存储设备和所述第二辅助存储设备的所述数据读/写速度更高的数据读/写速度:数据管理单元,将存储目标数据存储在所述第一辅助存储设备中,使用基于所述存储目标数据的数据内容的特征数据来管理所述存储目标数据的存储位置,并且从基于所述特征数据的数据内容的索引数据参考所述特征数据;以及重复确定单元,使用基于新近将被存储的存储目标数据的数据内容的所述特征数据以及基于所述特征数据的所述数据内容的所述索引数据,来确定与所述新近将被存储的存储目标数据相同的存储目标数据是否已被存储在所述第一辅助存储设备中,其中所述数据管理单元通过参考存储在所述第一辅助存储设备中的所述存储目标数据的所述特征数据而将基于所述特征数据的所述索引数据存储和保持在所述主存储设备中,并且如果存储和保持在所述主存储设备中的所述索引数据达到预设量,则将存储和保持在所述主存储设备中的所述索引数据存储和保持在所述第二辅助存储设备中,并且从所述主存储设备删除被存储和保持在所述第二辅助存储设备中的所述索引数据。8.根据权利要求7所述的存储所述程序的计算机可读介质,其中:如果存储和保持在所述第二辅助存储设备中的所述索引数据达到所述预设量,所述数据管理单元对存储和保持在所述第二辅助存储设备中的所述索引数据的多个单元进行合并,将合并后的所述数据再次存储和保持在所述第二辅助存储设备中,并且从所述第二辅助存储设备删除合并前的所述索引数据。9.一种存储系统中的数据管理方法,所述存储系统包括:第一辅助存储设备,用于对存储目标数据进行存储;第二辅助存储设备,具有比所述第一辅助存储设备的数据读/写速度更高的数据读/写速度;以及主存储设备,具有比所述第一辅助存储设备和所述第二辅助存储设备的所述数据读/写速度更高的数据读/写速度,所述方法包括:将存储目标数据存储在所述第一辅助存储设备中,使用基于所述存储目标数据的数据内容的特征数据来管理所述存储目标数据的存储位置,并且通过从基于所述特征数据的数据内容的索引数据参考所述特征数据来管理所述存储目标数据;以及使用基于新近将被存储的存储目标数据的数据内容的所述特征数据以及基于所述特征数据的所述数据内容的所述索引数据,来确定与所述新近将被存储的存储目标数据相同的存储目标数据是否已被存储在所述第一辅助存储设备中,其中所述管理所述存储目标数据包括:通过参考存储在所述第一辅助存储设备中的所述存储目标数据的所述特征数据而将基于所述特征数据的所述索引数据存储和保持在所述主存储设备中,以及如果存储和保持在所述主存储设备中的所述索引数据达到预设量,则将存储和保持在所述主存储设备中的所述索引数据存储和保持在所述第二辅助存储设备中,并且从所述主存储设备删除被存储和保持在所述第二辅助存储设备中的所述索引数据。10.根据权利要求9所述的数据管理方法,其中所述管理存储目标数据包括:如果存储和保持在所述第二辅助存储设备中的所述索引数据达到所述预设量,则对存储和保持在所述第二辅助存储设备中的所述索引数据的多个单元进行合并,将合并后的所述数据再次存储和保持在所述第二辅助存储设备中,并且从所述第二辅助存储设备删除合并前的所述索引数据。全文摘要存储系统包括第一辅助存储设备、第二辅助存储设备和主存储系统并且还包括数据管理单元,其通过参考存储在第一辅助存储设备中的存储目标数据的特征数据而将基于特征数据的索引数据存储和保持在主存储设备中。并且如果存储和保持在主存储设备中的索引数据达到预设量,则将存储和保持在主存储设备中的索引数据存储和保持在第二辅助存储设备中,并且从主存储设备删除被存储和保持在第二辅助存储设备中的索引数据。文档编号G06F3/06GK103080910SQ20118004250公开日2013年5月1日申请日期2011年8月25日优先权日2010年9月9日发明者J·萨克泽普科维斯基,M·韦尔尼克基,C·达布尼克基申请人:日本电气株式会社