处理器的利记博彩app

文档序号:6593054阅读:248来源:国知局
专利名称:处理器的利记博彩app
技术领域
本申请涉及的领域是处理器以及在存储器与处理器之间传送数据的方法。更具体 地,本申请针对存取存储器中的压缩数据结构内的单个值、或者值的邻近组或非邻近组而 无需检索并且解压缩整个压缩结构的方法。
背景技术
在设计计算系统时有个基本问题,就是使存储器存取的时间成本最小化。这是关于计算机系统设计的根本限制,因为不论使用何种存储器技术支持计算, 并且不论使用何种技术将该存储器连接到处理器,都存在关于在给定时间内在处理器与存 储器之间可以传送多少信息的最大限制(亦即可用的存储器带宽),可用的存储器带宽对 计算机能力的限制常常称为“存储墙(memory-wall) ”。本申请寻求通过用数据压缩来增加有效存储器带宽并且因此使“存储墙”的限制 最小化。已知采用数据压缩来减少“存储墙”效应。然而,编程人员使用压缩存储器子系统 的问题在于,数据可以被施予运算之前必须被解压缩,如图1的系统所示。这通常涉及将来 自存储器10的一部分的压缩数据读取到处理器16的寄存器文件中,使用从程序存储器18 检索到的程序代码对其进行解压缩,并且将解压缩后的数据存储在存储器12的另一未压 缩部分中。然而,这种方案的缺点在于,需要额外的存储器带宽来读取压缩数据,将其存储为 未压缩的形式,并且将其读回到处理器以施予运算。还需要额外的存储器容量来保存未压 缩的数据,并且解压缩处理将对处理器寄存器文件增加压力。显见,这是一种次优方案,其 暗示的内容解释了为何这种压缩存储器子系统依旧是学术探奇而未进入主流微处理器产 业。EP-0240032-A2公开了一种矢量处理器,包括用于存储并且检索矢量数据的存储 器。矢量处理器包括多个矢量寄存器,其中每一个都能够并行读取或者写入多个(m个)矢 量元素;至少一个掩码(mask)矢量寄存器,能够并行处理m个掩码比特;传递部分,连接到 存储器、多个矢量寄存器和掩码矢量寄存器并且响应于指令用于将来自存储器内规则分开 的地址位置的矢量元素传递到与有效掩码比特相对应的所选矢量寄存器的所选存储位置。 虽然这种方法有用,但局限在于矢量数据的存储/检索限于整个寄存器。寄存器模块化是一种用于加速矩阵代数(尤其是有限元)的有用技术,然而,其缺 点在于,对于很多矩阵(例如,如搜索引擎诸如GOOGLE 中所使用的)必须添加零填充,减 少了有效FLOPS (每秒浮点运算),并且增加了存储器带宽需求,但这二者在现代计算系统 中皆为短缺的益处。实际上,在正分别以每年50%和7%的高度相异的速率增长的处理能力与存储器 带宽之间的增长的鸿沟,如上所述,被称为“存储墙”。已有很多人声称“突除” 了存储墙,他 们通常包括使用缓存来减少必须离开芯片的概率,和/或使用多线程从而可以减小与离开
6芯片相关联的等待时间和损失。这些方法只是掩盖了有限外部存储器带宽的问题,但未解决该问题,并且通常依 赖于展现出充足的数据位置的数据集、和/或展现出充足的线程级并行性(TLP)的程序,以 便根本上有效,并且这可能并非对于所有问题都是正确的,并且当然并非总是事先知道的。 实际上,很多更大更被关注的问题既不展现出充足的数据位置也不展现出TLP,整个系统 的吞吐量退化到受限于外部存储器带宽的地步,并且已经在芯片上添加的额外硬件是无用 的。为此,大型工程应用将处理器性能拉低到制造商所号称的峰值性能规格的或更低并 不罕见。

发明内容
本申请寻求增加有效的存储器带宽,并且通过以压缩格式存储数据来使“存储墙” 对计算的局限最小化。这是通过提供压缩和解压缩装置来实现的,该压缩和解压缩装置适 合于在对必须存储在存储器中的庞大数据集进行运算的很多应用(包括例如计算机图形、 刚体动力学、有限元分析和其它科学工程应用)中使用的块结构数据。为了进一步减少“存 储墙”效应,处理器流水线也被修改为利用压缩,将处理速率提高超过仅通过对压缩数据进 行运算可以实现的速率。更特别地,本申请允许通过使用值映射以及被指定为指令的一部分的相关联字段 比特来随机存取存储器中存储的压缩结构中的各个值。因此,本申请的第一实施例提供一种如权利要求1和38中详述的处理器。本申请 还提供一种如权利要求21和56中详述的方法。本申请进一步提供一种如权利要求35和 69中详述的数据处理机。在从属权利要求中提供了有利的实施例。



,该 8比特值用于选择八个四项压缩矢量中的哪些实际上加载自/存储到VRF。由于LSU端口宽度通常受限,因此在应用于64比特的示例性布置方式的情况下, 应当理解,LDCV和STCV指令必须占用多个时钟周期。结果,从LSU端口可见,值映射按f比 特的顺序以迭代方式被解码,使得64比特压缩项被写入到或读取自正确的VRF寄存器并且 存储到或读取自正确的存储器(RAM)地址。图7示出64比特存储器子系统中典型压缩结 构在RAM中的布局。应理解,该方法和布置方式不限于32比特字或64比特宽的存储器,并且相似的布 局对于包括96和128比特宽的存储器等的其它存储器宽度是可能的,然而,为了简化解释, 这些布置方式组织在此将不详细讨论。VRF可以用作完整压缩结构的驻留区域,用于在压缩加载的情况下,在完整压缩结 构的各部分分散到处理器内部的其它寄存器文件之前,或者用于将压缩结构存储到附连于 LSU端口的外部RAM。现将参照图8讨论用于LSU的示例性逻辑,图8示出LSU压缩结构地址生成器的用 于在给定的基地址(base addr)从压缩结构内加载值的逻辑。第一行加法器50 (压缩器) 被提供以将排列为八个4比特值映射字段(bm7-bm0)的32比特的值映射结构压缩为八个 3比特数,其中每一个都表示在给定的4比特值映射中的1的数量。第二行加法器52被提
9供以将压缩器的行的结果相加以生成每个值映射的开始地址,使得可以通过在压缩加载或 存储操作码中应用适当的f比特来根据需要对每个值映射字段进行独立寻址。“与”(AND) 门54的行被提供以根据压缩加载/存储操作码中的f (字段)比特集的状态来屏蔽掉不需 要的字段。然后这些AND门的输出由另一组加法器56进行求和,以生成必须基于操作码f 比特来加载自/存储到存储器的32比特字的总数(word cnt)。最后的8 1复用器级58 受控于8个字段使能,其允许所选择的所需值映射地址被依次施加到最后的加法器60,以 便生成所需的RAM地址。图9示出示例压缩数据结构的各种信号的值。所示地址是根据所选择的IRF(整 型数寄存器文件)寄存器中的值映射而统计计算出的,并且然后根据在压缩加载或存储指 令中指定的f比特的级来依次应用。图10示出用于压缩加载/存储操作的完整的地址生成逻辑,包括计数器和有限状 态机,以生成所需的控制信号。选择要被应用于地址选择复用器的地址序列的fen[2:0]信号根据图11所示的真 值表操作。如图12所示,不仅生成由LSU地址生成器生成的压缩加载/存储操作所需的源地 址/目的地址,而且还生成相对于在压缩加载/存储操作中指定的地址的用于源/目的VRF 行的源/目的地址。在64比特LSU总线的情况下,可以在压缩加载/存储指令中寻址多达 2个VRF行。虽然在该示例性布置方式中,VRF被选取为在压缩加载/存储操作中加载或者 存储的数据的源/目的,但在原理上,可以同样地选取整型数寄存器文件(IRF)或标量寄存 器文件(SRF)。图12的示例性时序图清楚地示出压缩加载/存储操作占用多个周期来执行,并 且所有所需的控制信号是根据与在压缩加载/存储控制字中指定的f比特耦合的用于压缩 结构的IRF值映射描述符的知识而生成的。控制信号的序列是使用f比特以及值映射结合 受输入到地址生成器的时钟输入驱动的计数器而推导出的。该图示出加载和存储操作二者的行为,这两种操作之间的仅有差别是1.在压缩加载的情况下,生成用于从附连到LSU端口的RAM读取的读信号,并且生 成用于适当的VRF行(其充当RAM内容的目的地)的写信号。实际上,一系列RAM读取和 VRF写入可以根据IRF中的值映射的状态以及压缩加载操作码中的f比特集而生成。2.类似地,在压缩存储的情况下,一系列VRF读取和RAM写入可以根据IRF值映射 的状态以及压缩存储操作码中的f比特集而生成。图13示出SVU架构的框图,SVU架构的具有压缩加载/存储操作的加载存储单元 (LSU)形成一部分。可见,主要外部接口去往SVU指令存储器、连接到数据存储器库的LSU 端口以及允许SVU寄存器和诊断信息经由处理器总线被读取/写入的诊断控制单元(DCU)。指令字具有7个时隙,允许它每周期控制9个功能单元中的多达7个功能单元,如 图14所示。在该示例性实施例中,128比特指令的最左边的比特被反转以提供未来特征,其余 127比特被划分为多个字段,每个字段控制处理器架构的优选实施例中包含的多达9个功 能单元中的一个。· 1 X判定执行单元(PEU)
· 1 X分支/重复单元(BRU)· 2 X加载存储单元(LSU)· 1 X矢量算术单元(VAU)· 1 X标量算术单元(SAU)· 2 X整型数算术单元(IAU)· 1 X比较/移动单元(CMU)不在指令字的直接控制之下的最终功能单元是诊断控制单元(DCU),其允许处理 器监视并且控制程序执行,尤其是在异常条件和/或中断出现的情况下。示例性的LSU允许编程人员将矢量数据从存储器加载到VRF寄存器中。LSU受控 于24比特操作码,并且可以执行以下8种操作之一· NOP即不从存储器加载任何数据(用于省电的时钟关闭)· LDVX从存储器加载4元素未压缩矢量· STVX将4元素未压缩矢量存储到存储器· LDCV从存储器加载4元素压缩矢量· STCV将4元素压缩矢量存储到存储器· LDLI将16比特立即加载到所指定的IRF寄存器的低16比特· LDHI将16比特立即加载到所指定的IRF寄存器的高16比特· CPXI将IRF值映射中字段1_8的大小/地址拷贝到IRF基地址寄存器图15示出LSU的示例性操作码表。图16示出未压缩加载/存储模式下的LSU的框图。在该模式下,bru hold信号 防止BRU中的程序计数器(PC)前进,直到已经完成加载/存储操作。这在加载和存储未在 单个周期中完成的情况下是重要的,因为4个矢量元素必须在Is或2s中被传递,而不是单 个周期中4个元素(128比特)。图17示出用于非零值映射生成的值映射生成逻辑和去往VRF的加载/存储路径 的框图。每当将未压缩的4元素矢量从存储器加载到VRF时,就使用4个比较器(4X32输 入“或非”(NOR)门)的行来生成附加的4项非零值映射,并且将其插入在相应的VRF行, 作为从存储器取得的数据。该4比特值映射项可以稍后用于将数据以压缩格式存储回存储 器,并且通过消除对于零值的简单运算来使功率消耗最小化。此处描述的处理器架构的独特能力是支持以随机存取方式对压缩数据进行加载 和存储,而无需检索整个压缩结构。这种支持的原因在于,很多受关注的应用对大量的稀疏 数据进行运算,稀疏数据即包含大量零(这些零必须从存储器取得并且当被运算时生成零 结果)的数据。该架构中的主要假设在于,要由处理器处理的所有数据都被封装为要在存储器中 存储的4元素矢量,不论该数据是压缩的还是未压缩的,也不论数据是否包括矩阵、矢量和 封装的标量或整型数。基于这种假设,编程人员可以将矩阵/矢量/标量/整型数数据组 织为32项压缩块,其中,仅有那些非零项被显式地存储。所有零值和非零值在非零值映射 中由1比特项表示,其然后可以被用于将32项压缩/不压缩为RAM中的32或更少的32比 特字。图中所示的3D图形和游戏物理(刚体动力学)应用中使用的变换矩阵是很好的
11示例。图2详细示出与8个矩阵相对应的32比特值映射。在图18中可见,图形变换矩阵包含大百分比的简单值(零值),允许实现超过 50%的数据压缩。压缩值映射用于允许使用图19所示的硬件来随机存取编程人员定义的复杂数据 结构。压缩加载操作允许编程人员从开始于在IRF中指定的基地址的地址收集由操作码中 的8比特字段指定的一系列多达8X4元素值。该硬件自动生成所需的地址和读取信号以 及在需要多周期加载的情况下(例如,如果必须从存储器加载多于4个非零)生成用于保 持BRU的保持信号。与之对照,在现有技术中,使用需要以基地址和偏移量来设置多个寄存 器以允许复杂数据结构的索引的传统处理器架构来实现这种类型的复杂分散收集功能通 常是复杂的。而且,这样的传统处理器架构不提供简单数据值的压缩。适当地,LSU端口宽度是可经由在部分6中详述的SVU LCR寄存器独立配置的。通 过允许在附连到SVU LSU端口的/2/4元素宽数据总线上在多个交易中加载/存储4元素 矢量,端口宽度参数允许顶级SoC (片上系统)互连相对于SVU的吞吐量而折衷,如图20所
7J\ ο用于支持端口宽度参数化的附加地址最低有效位(Isb)的生成是使用计数器来 执行的,所述计数器将0、1或2地址最低有效位附加到由LSU生成的地址,如图21所示。图22示出端口宽度参数对存储到SVU RAM的4个元素的影响。在图18中可见, 图形变换矩阵包含大百分比的简单值(零值),允许实现超过50%的数据压缩。压缩值映射用于允许使用图19所示的硬件随机存取编程人员定义的复杂数据结 构。压缩加载操作允许编程人员从开始于在IRF中指定的基地址的地址收集由操作码中的 8比特字段指定的一系列多达8X4元素值。该硬件自动生成所需的地址和读取信号以及 在需要多周期加载的情况下(例如,如果必须从存储器加载多于4个非零)生成用于保持 BRU的保持信号。与之对照,在现有技术中,使用需要以基地址和偏移量来设置多个寄存器 以允许复杂数据结构的索引的传统处理器架构来实现这种类型的复杂分散收集功能通常 是复杂的。而且,这样的传统处理器架构不提供简单数据值的压缩。适当地,LSU端口宽度是可通过被提供为寄存器中的项的参数来独立配置的。通 过允许在附连到SVU LSU端口的1/2/4元素宽数据总线上在多个交易中加载/存储4元素 矢量,端口宽度参数允许顶级SoC互连相对于SVU的吞吐量而折衷,如图20所示。用于支持端口宽度参数化的附加地址最低有效位(Isb)的生成是使用计数器来 执行的,所述计数器将0、1或2地址最低有效位附加到由LSU生成的地址,如图21所示。图22示出端口宽度参数对存储到SVU RAM的4个元素的影响。可见,加载或存储 128比特矢量所占用的周期数量当端口宽度为1(32比特)时占用4个周期,当端口宽度为 2 (64比特)时占用2个周期,当端口宽度为4 (128比特)时占用1个周期。虽然已经针对具有指令集(该指令集具有用于在存储器与处理器之间执行数据 传送的所标识的操作码)的处理器描述了本申请,但应理解,可以在程序存储中没有显式 指令集而是在状态机或其它装置的控制下执行加载和存储的情况下执行功能。明显的优点 在于,可以从存储器中的压缩结构检索一个或多个数据项,而无需检索或解压缩整个压缩 结构。相似地,单个数据项可以在存储器中存储的压缩结构中被更新,而无需检索或解压缩 整个压缩结构。
词语“包括/包含”当用在本说明书中时是要指定所声明的特征、整体、步骤或组 件的存在,但不排除一个或更多其它特征、整体、步骤、组件或其群组的存在或添加。
权利要求
一种具有指令集架构的处理器,所述指令集架构包括用于从随机存取存储器中存储的压缩结构中提取数据值的至少一个加载指令,所述至少一个加载指令包括操作码和标识所述数据值在所述结构的非压缩形式中的位置的至少一个操作数,所述处理器适于将所述数据值在非压缩形式中的位置转换为所述数据值在所述压缩结构中的存储器位置,并且还适于从所述存储器位置中提取所述数据值。
2.根据权利要求1所述的处理器,其中,所述结构的非压缩形式包括简单值和复杂值, 并且所述压缩结构仅包括复杂数据值。
3.根据权利要求1或权利要求2所述的处理器,其中,所述压缩数据结构包括表示复杂 数据值在所述结构的非压缩形式中的位置的映射。
4.根据权利要求3所述的处理器,其中,所述处理器被配置为在传送所请求的值之前 获得所述压缩数据结构的所述映射。
5.根据权利要求3或4所述的处理器,其中,所述复杂数据值为非零值。
6.根据权利要求3至5中任一项所述的处理器,其中,所述处理器根据所述映射确定所 请求的值是简单值还是复杂值。
7.根据权利要求6所述的处理器,其中,所述至少一个操作数包括所述压缩结构在存 储器中的基地址。
8.根据权利要求7的处理器,其中,在所请求的值为复杂值的情况下,所述处理器被配 置为根据所述映射对所请求的值前面的复杂值的数量进行计数并且将该数量作为偏移与 所述基地址相加,并相应地设置所述随机存取存储器存取地址。
9.根据权利要求8的处理器,其中,所述计数是使用多个加法器来实现的。
10.根据权利要求8的处理器,其中,在所请求的值为简单值的情况下,所述处理器被 配置为返回所述简单值而不存取所述存储器。
11.根据任一前述权利要求所述的处理器,其中,所述处理器适于响应于所述指令来加 载多个数据值。
12.根据权利要求1所述的处理器,其中,所述数据值是浮点数。
13.根据权利要求12所述的处理器,其中,所述数据值是单精度浮点数。
14.根据权利要求12所述的处理器,其中,所述数据值是双精度浮点数。
15.根据权利要求12所述的处理器,其中,所述数据值是扩展精度浮点数。
16.根据权利要求12所述的处理器,其中,所述数据值是128比特精度浮点数。
17.根据权利要求1所述的处理器,其中,所述数据值是整型数。
18.根据权利要求1所述的处理器,其中,所述数据值是浮点、浮点矩阵、浮点矢量和固 定点整型数的组合。
19
20.一种将至少一个数据值从数据结构内加载到处理器中的方法,其中,所述数据结构 以仅存在复杂数据值的压缩形式存储于存储器中,所述压缩形式还包括指定所述复杂数据 值在非压缩结构中的位置的映射,所述方法包括以下步骤接收要加载到所述非压缩结构 中的所述至少一个数据值的至少一个位置,使用所述映射来识别所述至少一个数据值在所 述压缩结构内的至少一个存储位置,并且使用所述至少一个存储位置将所述至少一个数据 值从所述存储器加载到所述处理器。
21.根据权利要求20所述的方法,其中,所述方法仅加载所识别出的至少一个位置的数据值。
22.根据权利要求21所述的方法,其中,所述方法包括在提取所述至少一个数据值之 前获得所述压缩数据结构的映射的步骤。
23.根据权利要求22所述的方法,其中,所述获得映射的步骤包括从所述存储器中提 取映射。
24.根据权利要求21至23中任一项所述的方法,其中,所述复杂数据值为非零值。
25.根据权利要求21至24中任一项所述的方法,其中,在所请求的数据值为复杂值 的情况下,所述方法被配置为根据所述映射对所请求的数据值前面的复杂值的数量进行计 数,并相应地设置所述随机存取存储器存取地址。
26.根据权利要求21至25中任一项所述的方法,其中,所述方法在所述处理器与存储 器之间每次传送多个数据值。
27.根据权利要求21至24中任一项所述的方法,其中,在所接收到的至少一个位置对 应于简单值在所述非压缩结构中的位置的情况下,所述方法被配置为直接将所述简单值提 供给所述处理器。
28.根据权利要求21至27中任一项所述的方法,其中,所述数据值是浮点数。
29.根据权利要求28所述的方法,其中,所述数据值是单精度浮点数。
30.根据权利要求28所述的方法,其中,所述数据值是双精度浮点数。
31.根据权利要求28所述的方法,其中,所述数据值是扩展精度浮点数。
32.根据权利要求28所述的方法,其中,所述数据值是128比特精度浮点数。
33.根据权利要求21至27中任一项所述的方法,其中,所述数据值是整型数。
34.根据权利要求21所述的方法,其中,所述数据值是浮点、浮点矩阵、浮点矢量和固 定点整型数的组合。
35.一种具有数据传送功能部件的数据处理机,所述数据传送功能部件用于将至少一 个数据值从压缩结构加载到存储器中,所述压缩结构包括仅存在复杂数据值的多个数据值 以及标识所述复杂数据值在等效非压缩结构中的位置的映射,所述数据传送功能部件响应 于指令来加载所述数据值,所述指令标识所述数据值在所述等效非压缩结构中的位置,所 述数据传送功能适于生成相对于所标识的位置的存储器偏移,并且适于使用所述偏移来从 存储器传送数据值。
36.根据权利要求35所述的数据处理机,其中,所述数据处理机是处理器。
37.根据权利要求35的数据处理机,其中,所述数据机是状态机。
38.一种具有指令集架构的处理器,所述指令集架构包括用于将至少一个数据值从非 压缩数据结构存储到随机存取存储器中的对应压缩数据结构中的至少一个存储指令,所述 至少一个存储指令包括操作码以及标识所述至少一个数据值在所述非压缩数据结构中的 位置的至少一个操作数,所述处理器适于使用示出数据值在所述压缩结构内的位置的映 射来将所述至少一个数据值在非压缩形式中的位置转换为所述数据值在所述压缩结构中 的存储器位置,并且还适于在该存储器位置处存储所述至少一个数据值。
39.根据权利要求38所述的处理器,其中,所述非压缩结构包括简单值和复杂值,并且 所述压缩结构仅包括复杂数据值。
40.根据权利要求38或权利要求39所述的处理器,其中,所述映射是所述压缩数据结构的一部分,并且表示复杂数据值在所述非压缩数据结构中的位置。
41.根据权利要求40所述的处理器,其中,所述处理器被配置为在存储所请求的值之 前从存储器获得所述压缩数据结构的映射。
42.根据权利要求40或41所述的处理器,其中,所述复杂数据值为非零值。
43.根据权利要求38至42中任一项所述的处理器,其中,所述处理器被配置为根据所 述映射对所述数据值前面的复杂值的数量进行计数,并相应地设置所述随机存取存储器存 取地址。
44.根据权利要求43所述的处理器,其中,所述计数是使用一系列加法器来实现的。
45.根据权利要求38至44中任一项所述的处理器,其中,所述处理器响应于所述操作 码来每次存储多个数据值。
46.根据权利要求38至45中任一项的处理器,其中,所述至少一个操作数包括随机存 取存储器中的所述压缩数据结构的基地址。
47.根据权利要求38至47中任一项的处理器,其中,所述压缩数据结构中的多个数据 值能够通过一条指令被存储。
48.根据权利要求38所述的处理器,其中,所述数据值是浮点数。
49.根据权利要求48所述的处理器,其中,所述数据值是单精度浮点数。
50.根据权利要求48所述的处理器,其中,所述数据值是双精度浮点数。
51.根据权利要求48所述的处理器,其中,所述数据值是扩展精度浮点数。
52.根据权利要求48所述的处理器,其中,所述数据值是128比特精度浮点数。
53.根据权利要求38所述的处理器,其中,所述数据值是整型数。
54.根据权利要求38所述的处理器,其中,所述数据值是浮点、浮点矩阵、浮点矢量和 固定点整型数的组合。
55.一种将数据值从处理器插入存储器中的压缩结构中的方法,在所述压缩结构中仅 存在复杂数据值,所述压缩结构包括标识所述复杂数据值在等效非压缩结构中的位置的映 射,所述方法包括以下步骤接收要被插入的所述数据值在所述非压缩结构中的位置,使用 所述映射来根据所接收到的位置识别所述数据值在所述压缩结构中的等效位置,以及使用 所述等效位置来将所述数据值存储在所述存储器中。
56.根据权利要求55所述的方法,其中,所述方法包括在存储所述数据值之前获得所 述压缩数据结构的所述映射的步骤。
57.根据权利要求56所述的方法,其中,所述获得映射的步骤包括从所述存储器中提 取所述映射。
58.根据权利要求55至57中任一项所述的方法,其中,所述复杂数据值为非零值。
59.根据权利要求55至58中任一项所述的方法,其中,在所请求的数据值为复杂值 的情况下,所述方法被配置为根据所述映射对所请求的数据值前面的复杂值的数量进行计 数,并相应地设置所述随机存取存储器存取地址。
60.根据权利要求55至59中任一项所述的方法,其中,所述方法在所述处理器与存储 器之间每次传送多个双数据值。
61.根据权利要求55至60中任一项所述的方法,其中,所述数据值是浮点数。
62.根据权利要求61所述的方法,其中,所述数据值是单精度浮点数。
63.根据权利要求61所述的方法,其中,所述数据值是双精度浮点数。
64.根据权利要求61所述的方法,其中,所述数据值是扩展精度浮点数。
65.根据权利要求61所述的方法,其中,所述数据值是128比特精度浮点数。
66.根据权利要求55至60中任一项所述的方法,其中,所述数据值是整型数。
67.根据权利要求55所述的方法,其中,所述数据值是浮点、浮点矩阵、浮点矢量和固 定点整型数的组合。
68.一种具有数据传送功能部件的数据处理机,所述数据传送功能部件用于将数据值 直接存储到存储器中的压缩结构中,所述压缩结构包括仅存在复杂数据值的多个数据值以 及标识所述复杂数据值在等效非压缩结构中的位置的映射,所述数据传送功能部件响应于 指令来存储所述数据值,所述指令标识所述数据值在所述等效非压缩结构中的位置,所述 数据传送功能适于生成相对于所标识的位置的存储器偏移,以及适于使用所述偏移来存取 所述存储器以将所述数据值存储到存储器中。
69.根据权利要求68所述的数据处理机,其中,所述数据处理机是处理器。
70.根据权利要求68所述的数据处理机,其中,所述数据机是状态机。
全文摘要
本申请提供一种随机存取存储器中的压缩结构而无需提取并且解压缩整个压缩结构的方法。
文档编号G06F9/312GK101971139SQ200980108397
公开日2011年2月9日 申请日期2009年2月11日 优先权日2008年2月11日
发明者大卫·马洛尼 申请人:线性代数技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1