专利名称:用于跨晶片区域预测半导体参数的装置和方法
技术领域:
本发明涉及用于半导体制造过程的近似技术。更具体地,本发明涉及晶片未知参 数的预测。
背景技术:
在半导体制造业中,需要测量和预测某些晶片参数。一个这样的参数是叠对误差。 叠对误差指晶片不同层上结构的相对位置。叠对误差越大,则结构对偏(misalign)越多。 如果整个晶片上的叠对误差太大,则包括该晶片的电子器件的性能可能降低。在被称为批 次处置的工艺中,半导体生产商确定取自很多晶片的样品晶片的叠对误差。如果跨该样品 晶片的叠对误差不满足某一标准,则该批次可以被丢弃。跨整个晶片近似叠对误差常常包括使用目标结构。光刻工具在晶片上的各个位置 形成目标结构。该目标结构可以采取许多形式,比如方块中方块(box-in-box)的结构。在 这种形式中,在晶片一层上创建一个方块,而在另一层上创建第二较小的方块。局部的的叠 对误差通过比较两个方块中心之间的对准来测量。这样的测量是在晶片上可获得目标结构 的位置进行的。为了恰当地评价晶片,还可能需要对其他位置处的叠对误差的近似。为了产生这 样的近似,可以将上述测量输入到诸如高阶线性模型的模型中。然后所述近似可以用作批 次处置工艺的部分。然而,用于这样的近似的传统模型有限制。例如,所述模型可能依赖于不可预测的 变量,比如光刻工具的光学性质。所述模型还可能在识别大量输入与输出之间通常复杂的 关系方面有问题。因此,鉴于用于预测晶片参数的现有途径的不足,存在对克服先有技术一 些问题的途径的需求。
发明内容
因此,本发明提供用于使用多个已知参数值预测多个未知参数值(例如叠对误差 或临界尺寸)的装置和方法。在一个实施方案中,所述方法包括训练神经网络来预测多个 参数值。在其他实施方案中,所述预测过程不依赖于光刻工具的光学性质。这些预测可以 被用来确定晶片批次的处置。在特定示例性实现中,公开了一种预测在晶片至少一部分上分布的多个参数值的 方法。所述预测的参数值可以跨所述整个晶片分布或跨所述晶片的场分布。所述预测的参 数值可以包括多个叠对误差值或多个临界尺寸值。提供多个已知参数值。所述已知参数值 是从所述晶片特定测量位置处的多个目标测量的。在训练操作中,训练神经网络来使用所 述测量的已知参数值,以便所述经训练的神经网络被配置为预测多个预测的参数值,从而 与所述特定测量位置对应的所述预测的参数值子集在所述对应测量的已知参数值的预定 义误差函数内。在使用操作中,所述经训练的神经网络被用于预测跨所述晶片至少一部分 分布的多个位置处的所述预测的参数值。
在特定实施方案中,所述训练和使用操作可以包括将来自于光刻工具的对准量度 输入到所述神经网络和所述经训练的神经网络。所述训练和使用操作可以包括将表征所述 晶片性质的至少一个处理量度(process metric)输入到所述神经网络和所述经训练的神 经网络。所述训练和使用操作可以包括将以下项输入到所述神经网络和所述经训练的神经 网络(i)至少一个量化所述晶片至少一个目标的背景特性的噪声量度,(ii)所述晶片 至少一个目标的至少一个系统量度,(iii)来自于光刻工具的对准量度,以及(iv)至少 一个处理量度。在确定操作中,所述晶片的合格或不合格是基于所述经训练的神经网络预 测的所述预测的参数值确定的。在一种实现中,所述训练和使用操作可以包括将所述晶片至少一个目标的至少一 个目标量度输入到所述神经网络和所述经训练的神经网络。在进一步的方面,所述至少一 个目标量度可以包括量化所述晶片所述至少一个目标的背景特性的噪声量度。所述至少一 个目标量度可以包括所述晶片的所述至少一个目标的系统量度。在另一种实现中,本发明是关于一种预测在晶片至少一部分上分布的多个参数值 的方法。所述方法包括提供和预测操作。所述提供操作包括提供多个已知参数值,所述已知 参数值是从所述晶片特定测量位置处的多个目标测量的。所述预测操作包括预测跨所述晶 片至少一部分分布的多个位置处的多个未知参数值。所述预测操作基于所述已知参数值, 而不依赖于光刻工具的光学性质。所述预测操作可以在无需使用所述光刻工具的模型的情 况下执行。所述光学性质可以包括透镜像差特性。在另一种实现中,本发明是关于用于预测在晶片至少一部分上分布的多个参数值 的装置。所述预测的参数值可以跨所述整个晶片分布或跨所述晶片的场分布。所述预测的 参数值可以包括多个叠对误差值。所述预测的参数值可以包括多个临界尺寸值。所述装置 包括一个或更多个处理器和一个或更多个存储器。所述处理器和存储器的至少一个被配置 为执行上述方法操作中的一个或更多个。将在下面对本发明的详述及附图中更详细地给出本发明的这些及其他特征,所述 附图以实施例的方式图示本发明的原理。
图1是根据本发明一个实施方案、用于训练神经网络并利用该神经网络来预测叠 对误差的示例性过程的图示。图2是根据本发明一个实施方案的叠对图形(overlay pattern)的顶视图照片, 所述叠对图形也是用扫描电子显微镜(SEM)成像的。图3A是根据本发明一个实施方案的对称叠对图形部分的顶视图照片,所述对称 叠对图形部分也是用扫描电子显微镜(SEM)成像的。图3B是根据本发明特定实现的叠对图形部分的顶视图照片,所述叠对图形的部 分是用扫描电子显微镜(SEM)成像的,并且其中不同的边缘被用于分析该图像部分。图4根据本发明一个实施方案、用于基于相关性的叠对测量的SEM叠对图形的部 分的顶视图照片。图5是根据本发明一个实施方案的SEM设计相关分段类型目标的照片。图6A是示例性目标结构的图式的顶视图。
图6B是非对称的示例性目标结构的图式顶视图。图6C是具有噪声背景的图6A的目标的图式顶视图。图7是图示在示例性神经网络内输入、输出和隐藏节点之间的关系的图。图8是图示根据本发明一个实施方案、用于训练示例性神经网络的过程的流程 图。图9是图示根据本发明一个实施方案、用于使用神经网络来预测晶片的叠对误差 的过程的流程图。图10是根据本发明一个实施方案的叠对测量系统的简图。
具体实施例方式现在将参照如附图中图示的本发明的一些优选实施方案详细地描述本发明。在以 下描述中,阐述了许多的具体细节,以便于提供对本发明的全面理解。然而,本领域技术人 员将清楚,本发明可以在无需一些或所有这些具体细节的情况下实践本发明。另外,为了不 会不必要地模糊本发明,没有详细地描述公知的处理步骤。图1是用于训练示例性神经网络并使用该神经网络来预测叠对误差(overlay error)的示例性过程的图示说明。该方法开始于框102,在此,从一批新的晶片中取出样品 晶片。在框102,分析样品晶片。在框106、108和110,从该分析获得各种量度(metric)。 在框106,从该晶片获得目标质量量度。该目标质量量度量化晶片上目标的背景特性,例如 非对称性和噪声。在框108,从该晶片获得对准量度。该对准量度来自于用来在晶片上形成 结构的光刻工具。在框110,从该晶片获得处理量度。处理量度可以表征晶片的或该晶片中 一层的平滑度(或粗糙度)水平。这些量度随后在框114被输入到示例性神经网络。该神经网络是一种将输入关联 到输出的自适应性自我训练函数。在框114,在神经网络可以预测晶片的未知参数之前,必 须训练该神经网络。如果该神经网络正被训练,则其接收另外的参数。在框104,获得晶片 上各个位置处的叠对误差的值。可以使用各种技术和工具来获得叠对误差值,包括扫描电 子显微镜(SEM)或光学成像工具。这些叠对误差值在框112被用来计算纠正值,所述纠正 值在框114中被发送到光刻工具,以改善光刻工具的性能。如从框104延伸到框114的箭 头所示,所述叠对误差值还被输入到未经训练的神经网络。所述未经训练的神经网络使用 从框104、106、108和110收集的所述输入来改善其预测能力。如果所述神经网络已经被训练,则在框114中所述神经网络不再需要从框104接 收输入(例如叠对误差值)。在框114,所述训练的神经网络被用于从在框106、108和110 获得的量度中预测叠对误差。基于样品晶片的预测值,在框118做出关于该批次是合格还 是不合格的判定。过程100的各个框可以以各种方式重新配置。神经网络在框114可以接收与在框 106、108和110所获得的输入不同的或是另外的输入。神经网络在框114可以被训练来预 测除叠对误差以外的参数,例如临界尺寸(critical dimension)。在那种情况下,框104将 近似期望的参数的值,而不是叠对误差的值。在框104中对叠对误差的测量可以涉及各种不同的技术和工具,它们中的一些 在图2、3A和3B、4和5中给出。所述叠对是在具有以下固有对称性的特殊设计的目标上
6测量的。用于目标的感兴趣的区域(ROI)包含要在其间测量叠对的结构或层之间的结 (junction)。图2是根据本发明一个实施方案、可以用SEM测量的目标图像的顶视图。如 示出的,这些结构是由厚的在内条和薄的在外条的阵列形成。在该实施例中,在感兴趣的区域(ROI) 202和204中的结构在绕被称为对称中 心(COS)的点旋转180°之前是相同的。叠对(或图形设置误差)导致在内和在外图 形的COS之间的分离。所述叠对可以被定义为在内和在外图形的COS之间的重合不良 (misregistration)。一般说来,可以通过定位在内和在外图形两者的COS来测量叠对。在第一种技术中,叠对基于边缘检测工艺。从在内和在外线条(如图3A中所示) 的连续的结中抓取并分析一系列SEM图像。图3A图示图3A的目标的R0I302和304的连 结(conjunction)。ROI 302中的每个SEM图像具有来自ROI 304的互补(被设计为对称 的)图像,如这两个ROI之间的区所图示的。在该方法中,分析ROI中的每个特定结(“SEM图像”)以检测边缘(参见图3B)。 来自于ROI 302的边缘和来自于ROI 304的互补对偶(couple)的边缘之间的比较给出它 们的COS位置。虽然不能测量COS的绝对位置,但是可以检测在内和在外边缘的COS的相
对位置,因此产生叠对结果。对来自于整个的ROI的多条边缘的使用改善了统计,因此降低随机误差对测量的 影响。对物理上不同的边缘(例如,“左”对“右”)的分开处理使得能够监控对选定线条或 边缘的叠对效果。在各个晶片取向(0°,90°,180° )上测量叠对允许将实际叠对与工具 影响——工具诱发移位(TIS ;0°对180° )或旋转诱发移位(RIS ;0°对90° )——区分 开来。另一种方法基于相关性。该SEM叠对目标也具有层1和层2结构两者,所述层1 和层2结构打算以具有通过设计而重合的对称中心的方式对称。图4是根据本发明一个实 施方案、用于基于相关性的叠对测量的SEM叠对图形的部分的顶视图照片。从ROI (图4的 方块402、404、406和408)抓取的全部信号均被分析。可以(通过两维相关性或通过在垂直方向上与后续一维相关性求和)比较在互补 ROI (方块404对旋转的方块408 ;方块406对旋转的方块402)中的信号,以定位层1和层 2结构的COS。COS之间的重合不良可以被定义为叠对结果。用于SEM叠对测量的另一种方法基于类似标准光学成像的叠对标记设计。在图 5中示出SEM设计相关的分段类型目标的照片。该标记是由在内层和在外层两者上的细 密节距格栅构建成的。类似于标准(光学成像)设计相关的分段标记,该标记以这样的方 式设计,使得在内和在外结构的对称中心(COS)重合。所述叠对被测量为这些COS之间的 重合不良。用于发现COS的算法可以类似于2005年7月26日授权给Michael Adel等 人、标题为"OVERLAY MARKS, METHODS OF OVERLAY MARK DESIGN AND METH0DS0F OVERLAY MEASUREMENTS (叠对标记、叠对标记设计方法和叠对测量方法)”的美国专利No. 6,921,916 中描述的标准算法。这使SEM叠对测量能够自动化。另外,SEM设计相关的分段标记叠对 测量对SEM中出现的图像旋转不那么敏感。同样,90°和180°的旋转对称允许容易的TIS 和RIS测量以及它们(TIS和RIS)与目标本身有瑕疵造成的效果之间的明确分离。与SEM设计相关的分段标记类似地,SEM方块中方块(BiB)标记可以用此处所描 述的类似光学成像的技术(算法和自动化两者)来设计和测量。
可以使用各种技术(例如,在上面描述并在图2、3A、3B、4和5中描绘的那些技 术)来测量叠对误差。用于测量叠对误差的适当技术的其他例子在2008年6月10日 授权给 Mieher 等人、标题为 “APPARATUS AND METHODS FOR DETECTING 0VERLAYERR0RS USING SCATTEROMETRY(用于使用散射测量术检测叠对误差的装置和方法)”的美国专利 No. 7,385,699中给出。所述技术的结果可以连同量度一起被用于训练神经网络。一些这样的量度包括对目标质量的量化。在下面描述的是用于测量和获得这些量 度(例如系统和噪声量度)的技术和目标结构。例如,这些技术和结构可以连同图1中的 框106—起使用。目标结构可以采取各种形状和设计。一种周知的叠对目标形状是方块中方块结构。当然存在各种类型的叠对目标形 状,它们也可以与本发明的技术一起使用。图6A是示例性目标结构600的图式顶视图。如 示出的,目标600由在内的方块604和在外的方块602形成。所述在内的方块604通常形 成在与所述在外的方块602不同的层。例如,在DI阶段(Dl-stage),所述在内的方块604 可以是限定通路2层的抗蚀图形,而在外的方块602由金属2层中的特征形成。如示出的, 在内的方块604由被排列为方形图形的多个段604a-604d形成,而所述在外的方块由形成 为方形图形的多个段602a-602d形成。通常通过找出每个方块的中心并比较所述两个中心 以获得叠对误差差异来确定叠对误差。该差异通常用χ和y坐标表示,但是所述差异可以 用其他形式(例如,矢量)表示。如示出的,在内的方块和在外的方块共享同一中心606,指 示在所述在内和在外的方块之间没有叠对误差。在这种情况下,叠对误差将是0,0。图6B是非对称的示例性目标结构650的图式顶视图。如示出的,在内的方块604 具有宽度与其余段604b-604d不同的段604e。虽然因为在内的方块604和在外的方块602 共享同一中心606而导致该非对称目标650没有叠对误差,但是目标650由于所述非对称 性是有缺陷的。这一类型的缺点被称为系统误差。系统误差可以按目标来表征,并且它们 经常具有跨晶片的系统性性质。系统误差通常归因于由诸如CMP抛光、金属溅射或光致抗 蚀剂效果的处理效果所引起的目标非对称性。可以使用任何的适当技术来获得非对称性量度。在一个实施方案中,比较目标这 样的部分,所述部分被设计为相对于彼此是对称的。优选地,通过对来自于目标不同部分的 名义上对称的信号形式的比较(例如,在来自于左侧在外的条和右侧在外的条的信号之间 的比较)来获得系统误差量度。因为叠对工具可以在其光学器件中具有一些非对称性,所 以建议在晶片的两个取向上测量非对称性量度(Asymmetry Metric) :0°和180°。最终系 统或非对称性量度可以计算为非对称性(最终)=[非对称性(0° )_非对称性(180° )]/2。对于图6B的示例性目标,将左侧在内的条604e与右侧在内的条604c进行比较, 以针对目标在内部分获得X方向的非对称性量度。同样地,可以将左侧在外的条602a与右 侧在外的条602c进行比较,以针对目标的在外部分确定χ方向的非对称性量度。可以将顶 部在内的条604d与底部在内的条604b进行比较,以确定目标是否具有y方向的非对称性 量度。同样地,可以将顶部在外的条602d与底部在外的条602b进行比较,以针对目标的在 外部分确定y方向的非对称性量度。这些不同的χ和y方向的非对称性量度随后可以组合 成最终的非对称性量度。用于通过比较测量目标非对称性的具体技术或算法包括傅立叶变 换技术、导数(斜率)技术、重叠积分技术和重力中心技术。这些用于获得非对称性量度的技术可以与本发明的实施方案结合使用。可以在图1的框106获得的另一目标质量量度是噪声量度。图6C是图6A的目标 600具有噪声背景660的图式顶视图。如示出的,背景噪声呈颗粒的形式。然而,所述噪声 可以是由图像中任何的空间噪声源所引起的。噪音660可以导致在内的方块604或在外的 方块602的明显的中心在例如方向667上移位。因此,所产生的叠对误差可能是由随机噪 声所引起的,而不是由实际的叠对误差或系统误差所引起的。这些类型的误差被称为随机 误差。随机误差归因于诸如粒性的处理效果所导致的空间噪声。这些噪声相关的误差的特 征在于这样的事实,即它们对跨晶片的多个目标甚至单个目标的影响本质上是统计性的。可以实现任何用于表征噪声数据的适当技术来获得针对一目标的噪声量度。例 如,可以使用以下噪声确定算法统计算法,积分噪声算法,积分导数算法,信号对噪声算法 或噪声谱算法。根据本发明的实施方案,这些算法可以产生神经网络的噪声量度。可以输入到根据本发明的神经网络的另一量度是处理量度。处理量度表征晶片的 属性。例如,处理量度可以反映与光刻处理有关的参数。这样的处理量度包括与曝光后烘 烤(PEB)温度、PEB次数、底部反反射涂层(BARC)厚度、显影时间、剂量、聚焦和扫描方向相 关联的值。处理量度还可以代表晶片的物理特征。这样的处理量度包括与临界尺寸、抗蚀 剂厚度、侧壁角度和晶片平面度对应的值。例如,晶片平面度可以使用各种量度来表示,例 如所基于的场点,所参考的前表面(SFQR),移动平均数(MA),抛出高度(CHK),流平检验测 试(LVT),范围和厚度变化(THK)。适于与本发明的一些实施方案一起使用的处理量度的实 施例在 Valley 等人的 “APraOACHING NEW METRICSFOR WAFER FLATNESS (接近针对晶片平 面度的新量度)、Richard Silver 等人的"Metrology, Inspection and Process Control Process Control FOR Microlithography XVIII (Proceedings of SPIE Vol. 5375, SPIE, 2004)(用于微光刻XVIII的计量法、检查和工艺控制(SPIE汇刊,5375卷,SPIE, 2004))” 和 Dusa 等人的 “ INTRA-W AFER CDUCHARACTERIZATION TO DETERMINE PROCESS AND FOCUS C0NTRIBUTI0NSBASED ON SCATTEROMETRY METROLOGY,,、Kenneth Tobin 等人的 “Data Analysis andModeling FOR Process Control (Proceedings of SPIE Vol. 5378, SPIE, 2004 (用于工艺控制的数据分析和建模(SPIE汇刊,5378卷,SPIE, 2004)) ”中给出。可以被输入神经网络来预测分布的晶片特性的另一量度被称为对准量度。一般说 来,对准量度是容易从任何光刻工具获得的。对准量度通常是为其他目的(例如标度线对 准)提供的。对准量度可以估计对准标记的质量。该量度还可以与用于校准光刻工具的而 且由对叠对误差或一些其他参数的测量推导而来的纠正值有关。这样的纠正值的实施例在 图1的框112和116中给出。上述量度是根据本发明的一些实施方案、可以用来训练神经网络的已知参数的实 施例。使用在这里和在权利要求书中的术语“神经网络”应该被理解为包括从一组输出预 测一组输入而且通过反复的自我学习过程改善其预测准确度的任何系统,包括但不限于传 统的神经网络。存在许多适于与本发明一起使用的神经网络类型,其中有一些是在商业上 可获得的。这些神经网络的一些可以是基于硬件或软件的、位于一个装置中或者跨多个平 台分布。图7是根据本发明一个实施方案的示例性神经网络700的图示。神经网络700是 用于将输入组(sets of inputs) 702与输出组706关联的自适应迭代系统。所述输入可以
9包括类似在图1的框106、和110中获得的那些目标质量量度、对准量度和处理量度。输入 702还可以包括晶片和场坐标,从而所获得的叠对误差值可以与晶片上的位置关联。输入 702可以包括其他输入或者用其他输入替换以上的一些输入。 网络700 —般包括多个隐藏节点704,例如节点H1-H5。隐藏节点704可以被理解 为神经网络700中那些不是输入702或者输出706的而且仅连接到输入702、输出706或彼 此的节点。神经网络700可以包含很多更多的层和隐藏节点,但是为了简化和清楚起见仅 示出一层和五个隐藏节点。隐藏节点704通过连接708链接到输入702。隐藏节点704通 过连接710与输出706有关。连接708和710定义输入702、隐藏节点704与输出706之间 的关系。这样的关系可以通过数学运算和系数或权重的组合来表征。例如,将输入702(在 下面通过变量“X”代表)相关到隐藏节点704(在下面通过变量“H”代表)的连接708可 以如下定义 使隐藏节点704与输出变量706 (在下面通过变量“Y”代表)相关的连接710可 以如下定义对于连接708和710的上述定义是许多可能性中的两种。数学运算、参数、系数、 隐藏节点、输入和输出的任何组合都可以用于连接708和710。注意,在由输入702计算隐藏节点704的值时,使用系数或权重aii。类似地,在由 隐藏节点704计算输出的值时,使用系数或权重biit)对这些系数的调整在神经网络700的 训练中占一席之地。在下面更详细地描述了这些训练。图8给出根据本发明一个实施方案、用于神经网络832的训练过程800的图示。该 过程开始于框802,在此,分析晶片(框804),并将上述量度中的一些——例如目标质量量 度和处理量度(框808和812)——输入到神经网络832中。神经网络832另外从光刻工具 (框810)以及场和晶片坐标(框814)中接收与晶片对准有关的输入。上述量度被输入到神经网络832,所述神经网络832通过定义例如与早先参照图7 中的框704讨论的隐藏节点对应的多个隐藏节点(框816)来开始训练过程。可以在该阶 段定义节点和节点层的范围。在隐藏节点被建立之后,为来自于图7中连接708和710的 权重和、选定任意值。可替换地,可以基于任何适当的准则来智能地选择所述权重, 即,非随机的选择。在框820,至少部分地使用来自于框808、810、812和814的输入和权重来确定 隐藏节点的值。例如,该确定操作之前在图7中通过关系708来图示。在框822,从在框820 找出的隐藏节点的值和在框818选择的权重、中部分地推导出输出的值。例如,所述输出 和所述隐藏节点之间的关系也是之前在图7中用关系710给出的。神经网络832正被训练来基于在框808、810、812和814中获得的输入预测晶片上 多个如场和晶片坐标所标识的(框814)位置的叠对误差值。神经网络832的训练包括生 成叠对误差的预测、将所述预测与外部获得的叠对误差值进行比较、以及重新调整神经网 络832直到它可以合理地独立生成准确预测。框806产生用于训练神经网络832的叠对误差值(例如,从叠对目标确定)。框806可以使用各种叠对测量技术来生成所述叠对误差 值,包括之前连同图2、3A、3B、4和5提及的那些技术。框806还可以利用数学模型来生成 叠对误差的近似。在框824,将从外部获得的叠对误差的值与神经网络832产生的叠对误差值进行 比较。在该阶段,在框822由神经网络832产生的叠对误差值可能是非常不准确的,因为它 们至少部分地基于在框818随机选择的权重。在框828评估生成值的准确度。如果评估导 致超过某一阈值(或者不在预定规范之内)的误差,则将在框826调整该权重并将从框820 重新开始该训练过程。在框826对权重进行的调整的性质可以大大地不同。可以调整除了权重以外的参 数或者附加于权重的参数。可以基于各种技术(包括反向传播)来调整权重。在该技术的 一个应用中,预测的输出值(例如,框824产生的值)将与期望的输出值(例如,框806产 生的值)进行比较。将至少部分地基于该差异调整权重biit)还可以通过由输出的值和
的最佳值推测这样的值来确定隐藏节点的期望的值。可以类似地至少部分基于隐藏节点的 期望值和预测值(例如,框820产生的值)之间的差异调整权重aii。对于隐藏节点的附加 层,如果这样的层存在的话,可以重复该过程。随着每个调整(框826),产生隐藏节点的新值(框820)和输出的新值(框822)。 这些输出的值还被测试(框824),如果发现不满意,则尝试新的调整(框826)。经过多次 重复和调整,神经网络826 “学习”如何改善其预测的准确度。一旦神经网络832可以以可 接受的准确程度预测叠对误差,则该训练过程将终止(框830)。在训练过程结束时,神经网 络优选地可以预测跨整个晶片或者晶片的场分布的叠对误差值。一旦神经网络已经被恰当地训练,则它可以被用来用已知的参数值预测未知参数 值。图9是根据本发明一种实施方案的这样的过程的图示。例如,神经网络920已经被训 练来按图8的方式预测叠对误差值。为了该实施例的目的,假定神经网络920的内部结构 类似于图8中给出的结构。该预测过程开始于框902,在此,从一批次选定晶片(框904)。 如对于图9中的训练过程的情况那样,从该晶片(或者用于获得对准量度的光刻工具)获 得诸如目标质量量度(框906)、对准量度(908)和处理量度(910)的各种量度。这些量度 连同晶片和场坐标一起被输入到神经网络中(框912)。神经网络920将权重、应用于上述输入,产生各个隐藏节点的值(框914)。将 权重应用于隐藏节点的值,产生对叠对误差的预测(框916)。为了简化的目的,可以假 定框914和916中涉及和的计算是关于图7中连接708和710的已经描述的计算的 映像。假定神经网络920被充分地训练并且在框906、908和910输入的量度是可靠的,则 在预测过程918结束时,神经网络920应该提供叠对误差的合理近似。经训练的神经网络920可以因此在除了来自于框906、908、910和912的输入之外 无需任何其他项的情况下预测叠对误差。神经网络920因此不依赖于光刻工具的光学性 质。许多用于近似叠对误差的传统模型依赖于这样的性质。这种依赖是有问题的,因为不 同的光刻工具有不同的性质,这需要对模型的重新调整。例如,如果传统模型不考虑光刻工 具中的透镜像差,则该模型的预测能力可能降低。然而,经训练的神经网络920不受此依赖 性的影响,并且不必考虑光刻工具的光学性质。经训练的神经网络920还有能力将数量众 多的输入与输出关联,以找出以其他方式可能难以检测的因果连接。
图8中的训练过程800和图9中的预测过程900可以在软件或者硬件中实现。例 如,所述过程可以被并入到配备有至少一个处理器和至少一个存储器的设备(例如,计算 机或测量工具)中。如之前注意到的,图8中的训练过程800和图9中的预测过程900包括输入各种 类型的数据到神经网络中。该数据可以包括目标质量量度(图9中的框906)和处理量度 (框910)。该数据还可以包括叠对误差的近似(图8中的框806)。这样的数据可以使用各 种类型的装备来获得。例如,可以使用扫描电子显微镜(SEM)来测量叠对。图10提供使用 成像来从晶片中收集数据的叠对测量系统或计量工具1020的图示。成像是一种非常成熟的技术,使用者接受度高,并且其部件对于使用者来说容易 获得。如一般公知的,成像是一种在任何一个时刻收集大量信息的有效方式。亦即,可以同 时观察标记内的所有点。而且,成像允许使用者查看在晶片上实际正在测量什么。各个组 件的尺寸被放大以更好地图示该实施方案。叠对测量系统1020可以被用来确定各种参数,包括叠对误差、系统量度和噪声量 度。例如,叠对测量工具1020可以被使用来训练图8中的神经网络832,并提供与图1中 的框104和106、图8中的框806和808、以及图9中的框906相关的数据。叠对测量工具 1020经由一个或更多个设置在晶片1024上的叠对目标1022确定这些参数。在大多数情况 中,叠对目标1022被定位在晶片1024的刻线(scribe line)内。如一般公知的,刻线是晶 片中这样的区域,其被用来将晶片锯开并切分为多个管芯。然而,应该注意,这并非限制,并 且目标的位置可以根据每个设备设计的需要而改变。例如,半导体器件的设计者可能选择 将叠对目标插入在有源器件(active device)的区域内部。如示出的,叠对测量系统1020 包括光学组件1026以及具有处理器和一个或更多个存储器器件的计算机系统1028。光学 组件1026 —般被安排来捕获叠对目标1022的图像。另一方面,所述计算机被安排来计算 叠对目标要素(element)与所捕获图像的相对位移和目标诊断,而且训练神经网络来预测 叠对误差等等。在所图示的实施方案中,光学组件1026包括被安排为沿着第一路径1034发射光 1032的光源1030 (例如,非相干的或相干的,虽然非相干的一般是优选的)。使光1032入 射在第一透镜1035上,所述第一透镜1035将光1032聚焦在光纤线路1036上,所述光纤线 路1036被配置为使光1032通过其。当光1032从光纤线路1036出来时,它随后经过第二 透镜1038,所述第二透镜1038被安排来将光纤1036的末端成像到该光学系统中适当的光 学平面上,例如物镜1044的入射光瞳中。光1032随后继续其路径直到它抵达分束器立方 体1040,所述分束器立方体1040被安排来将光引导到路径1042上。使沿着路径1042继续 的光1032入射在物镜1044上,所述物镜1044将光1032中继到晶片1024上。反射离开晶片1024的光1032随后被物镜1044收集。应该意识到,物镜1044收 集的反射光1032 —般的包含晶片1024部分的像,例如,叠对目标1022的像。当光1032离 开目标1044时,它沿着路径1042 (图14中向上)继续,直到它抵达分束器立方体1040。一 般说来,物镜1044在光学上以与操纵入射光的方式相反的方式操纵所收集的光。亦即,物 镜1044使光1032重新成像并将光1032朝分束器立方体1040引导。分束器立方体1040 被安排来将光1032引导到路径1046上。在路径1046上继续的光1032随后被管透镜1050 收集,所述管1050将光1032聚焦到记录晶片1024的像(更具体地,是目标1022的像)的照相机1052上。举例来说,照相机1052可以是电荷耦合器件(CXD)、两维(XD或线性(XD 阵列。在大多数情况中,照相机1052将记录的像变换为电信号,所述电信号被发送到计算 机1028。在接收到所述电信号后,计算机1028使用如上面描述的那样的算法来进行分析, 所述算法计算所述像的叠对误差目标、量度,并训练神经网络来预测叠对误差等等。系统1020还包括与计算机1028和照相机1052 —同工作来从晶片1024抓取图像 的帧抓取器1054。虽然帧抓取器1054被显示为分立部件,但应当注意的是,帧抓取器1054 可以是计算机1028的部分和/或照相机1052的部分。帧抓取器1054的功能一般是将来 自于照相机1052的信号转换为计算机1028可用的形式。叠对计量事件被分成两个功能 (function)——目标获取和图像抓取。在目标获取期间,帧抓取器1054和计算机1028与 晶片台1056协作来将目标置于在焦点上并将目标定位为尽可能靠近计量工具视场(F0V) 的中心。在大多数情况中,帧抓取器抓取多个图像(例如,不只是用于测量叠对的图像), 并且所述台在这些抓取之间移动晶片直到目标在X、Y和Z方向上正确定位。应该意识到, X和Y方向一般与视场(F0V)对应,而Z方向一般的与焦点对应。一旦帧抓取器确定正确 的目标位置,则实现这两个功能中的第二个(例如,图像抓取)。在图像抓取期间,帧抓取 器1054做出最后的一次或多次抓取,以便捕获并储存正确定位的目标图像,也就是被用于 确定叠对和目标诊断的图像。在抓取图像后,从所抓取的图像提取信息来确定叠对误差。随后可以使用各种算 法来确定半导体晶片各层之间的重合误差。例如,可以使用基于频域的途径、基于空间域的 途径、傅立叶变换算法、过零检测、相关性和互相关性算法及其他算法。所提出用于经由本文描述的标记(例如包含周期性结构的标记)确定叠对和目标 诊断量度(例如非对称性)的算法一般可以被分成数个组。例如,一个组可以与基于相位 获取的分析有关。基于相位获取的分析通常包括通过借助于沿周期性结构的线条对像素求 和而叠并(collapse)每一工作区来创建一维信号,所述基于相位获取的分析通常被称作 基于频域的途径。可以使用的相位获取算法的实施例在2000年2月8日授权的美国专利 No. 6,023,338,2002年10月8日授权的美国专利No. 6,462,818以及2002年11月26日授 权的美国专利No. 6,486,954中被描述。可以使用的再一种相位获取算法在2006年3月7日授权的美国专利 No. 7,009, 704中被描述。在其中所公开的相位获取算法将信号分解为一组基本信号频率的 谐波。不同谐波的振幅和相位的定量比较提供关于信号对称性和谱内容的重要信息。具体 来说,同一信号的第一和第二或高次谐波(以它们的振幅校准)之间的相差测量信号的非 对称性程度。对这种非对称性的主要贡献来自于计量工具中的光学未对准和照明非对称性 (工具诱发移位)以及处理诱发的结构特征(晶片诱发移位)。针对从同一处理层上视场 的不同部分获取的信号,比较第一和第二谐波相位之间的重合不良,可以提供关于计量工 具光学象差的独立信息。最终,对来自于在给定取向上进行测量的这些重合不良与在旋转 晶片180度后获得的重合不良进行的比较允许将工具诱发移位与由于非对称性而造成的 晶片诱发移位分离开。可以使用的再又一种相位获取算法是小波分析。小波分析有点类似于在上面的部 分描述的算法,只是现在动态窗跨一维信号移动并且以更局部化的方式进行相位估计。尤 其感兴趣的是,其在啁啾的(chirped)周期性结构的情况下的使用。
13
另一组可以与基于相关性的方法有关。在该途径中,通过计算一个信号与来自于 相同处理层、来自于标记相对部分的相反信号的互协方差来找出每个处理层的对称中心。 该技术类似于当今关于方块中方块目标所使用的技术。以实施例的方式给出上述技术,并且已经测试和证明了上述技术的良好性能。用 于计算叠对的其他可替换算法方法包括自相关和互相关技术、误差相关技术、误差最小化 技术(例如,最小化绝对差,最小化差的平方)、基于阈值的技术(包括过零检测和峰值检 测)的其他变体。还存在可以用于在两个一维图形之间寻找最佳匹配的动态规划算法。如 上述的,可以针对在之前的部分中描述的所有各种叠对标记运用分析算法和途径。重要的是,应当注意上面的图及其描述不是限制,而且所述重叠图像系统可以以 许多其他形成实施。例如,预期所述叠对测量工具可以是任何多种适当的和已知的成像 或计量工具,所述工具被安排来解析形成在晶片表面上的叠对标记的临界方面(critical aspect)。以实施例的方式,叠对测量工具可以被调适用于明视场成像显微术、暗视场成像 显微术、全天空成像显微术、相位对比显微术、偏振对比显微术和相干探针显微术。还预期 可以使用单个图像或多个图像的方法,以便于捕获目标的图像。这些方法例如包括单次抓 取、双次抓取、单次抓取相干探针显微术(CPM)和双次抓取CPM方法。其中,这些类型的系 统是商业上可获得的。以实施例的方式,单个图像和多个图像的方法是容易从加利福尼亚 州圣荷塞的KLA-Tencor获得的。可以预期非成像的光学方法(例如散射测量术),以及诸 如SEM(扫描电子显微镜)的非光学方法,以及例如AFM(原子力显微镜)或轮廓测定仪的 非光学的基于触针的仪器。无论用于实践本发明的技术的系统结构如何,其可以采用一个或更多个存储器或 存储模块,所述存储器或存储模块被配置为储存针对通用检验操作和/或本文描述的发明 性技术的数据、程序指令。所述程序指令可以控制例如操作系统和/或一个或更多个应用 的操作。所述一个或多个存储器还可以被配置为储存目标的图像、叠对误差值、目标诊断量 度及其他量度、预测的叠对误差值、与神经网络使用和训练相关的数据,以及检查或计量系 统的特定操作参数值。尽管出于清楚理解的目的已经较详细地描述了发明,但是讲清楚可以在所附权利 要求书的范围内实践某些变化和修改。因此,所描述的实施方案应该被视为说明性的而非 限制性的,并且本发明将不会受限于本文给出的细节,应该由所附权利要求书及其等同方 案的完全范围来限定。
权利要求
一种预测在晶片至少一部分上分布的多个参数值的方法,所述方法包括提供多个已知参数值,所述已知参数值是从所述晶片上特定测量位置处的多个目标测量的;使用所述测量的已知参数值训练神经网络,以便于所述经训练的神经网络被配置为预测多个预测的参数值,从而与所述特定测量位置对应的所述预测的参数值的子集在所述对应测量的已知参数值的预定义误差函数内;使用所述经训练的神经网络来预测在跨所述晶片至少一部分分布的所述多个位置处的所述预测的参数值;以及基于所述经训练的神经网络预测的所述预测的参数值确定所述晶片合格还是不合格。
2.如权利要求1所述的方法,其中所述预测的参数值跨整个晶片分布或跨所述晶片的 场分布。
3.如权利要求1或2所述的方法,其中所述预测的参数值包括多个叠对误差值。
4.如权利要求1或2所述的方法,其中所述预测的参数值包括多个临界尺寸值。
5.如权利要求1-4中任一所述的方法,其中训练所述神经网络并且使用所述经训练的 神经网络的操作包括将所述晶片的所述目标中至少之一的至少一个目标量度输入到所述 神经网络和所述经训练的神经网络。
6.如权利要求5所述的方法,其中所述至少一个目标量度包括量化所述晶片的所述至 少一个目标的背景特性的噪声量度。
7.如权利要求5或6所述的方法,其中所述至少一个目标量度包括所述晶片的所述至 少一个目标的系统量度。
8.如权利要求1-7中任一所述的方法,其中训练所述神经网络和使用所述经训练的神 经网络的操作包括将来自于光刻工具的对准量度输入到所述神经网络和所述经训练的神 经网络。
9.如权利要求1-8中任一所述的方法,其中训练所述神经网络和使用所述经训练的神 经网络的操作包括将表征所述晶片性质的至少一个处理量度输入到所述神经网络和所述 经训练的神经网络。
10.一种预测在晶片至少一部分上分布的多个参数值的方法,所述方法包括提供多 个已知参数值,所述已知参数值是从所述晶片上特定测量位置处的多个目标测量的;以及 预测在跨所述晶片至少一部分分布的多个位置处的多个未知参数值,其中所述预测操作基 于所述已知参数值,而不依赖于光刻工具的光学性质。
11.如权利要求10所述的方法,其中所述预测操作是在无需使用所述光刻工具的模型 的情况下执行的。
12.如权利要求10或11所述的方法,其中所述光学性质包括透镜像差特性。
13.一种用于预测在晶片至少一部分上分布的多个参数值的装置,所述装置包括一个或更多个处理器;一个或更多个存储器,其中所述处理器和存储器的至少一个被配置为提供多个已知 参数值,所述已知参数值是从所述晶片上特定测量位置处的多个目标测量的;使用所述测 量的已知参数值训练神经网络,以便于所述经训练的神经网络被被配置为预测多个预测的 参数值,从而与所述特定测量位置对应的所述预测的参数值的子集在所述对应测量的已知参数值的预定义误差函数内;使用所述经训练的神经网络来预测在跨所述晶片至少一部分 分布的所述多个位置处的所述预测的参数值;以及基于所述经训练的神经网络预测的所述 预测的参数值确定所述晶片是合格还是不合格。
14.如权利要求13所述的装置,其中所述预测的参数值跨所述整个晶片分布或跨所述 晶片的场分布。
15.如权利要求13或14所述的装置,其中所述预测的参数值包括多个叠对误差值。
16.如权利要求13或14所述的装置,其中所述预测的参数值包括多个临界尺寸值。
17.如权利要求13-16中任一所述的装置,其中训练所述神经网络并且使用所述经训 练的神经网络的操作包括将所述晶片的所述目标中至少之一的至少一个目标量度输入到 所述神经网络和所述经训练的神经网络。
18.如权利要求17所述的装置,其中所述至少一个目标量度包括量化所述晶片的所述 至少一个目标的背景特性的噪声量度。
19.如权利要求17或18所述的装置,其中所述至少一个目标量度包括所述晶片的所述 至少一个目标的系统量度。
20.如权利要求13-19中任一所述的装置,其中训练所述神经网络和使用所述经训练 的神经网络的操作包括将来自于光刻工具的对准量度输入到所述神经网络和所述经训练 的神经网络。
21.如权利要求13-20中任一所述的装置,其中训练所述神经网络和使用所述经训练 的神经网络的操作包括将表征所述晶片性质的至少一个处理量度输入到所述神经网络和 所述经训练的神经网络。
22.一种用于预测在晶片至少一部分上分布的多个参数值的装置,所述装置包括一个或更多个处理器;一个或更多个存储器,其中所述处理器和存储器的至少一个被配置为提供多个已知参数值,所述已知参数值是从所述晶片上特定测量位置处的多个标测量 的;以及预测在跨所述晶片至少一部分分布的多个位置处的多个未知参数,其中所述预测操作 基于所述已知参数值而不依赖于光刻工具的光学性质。
23.如权利要求22所述的装置,其中所述预测操作是在无需使用所述光刻工具的模型 的情况下执行的。
24.如权利要求22或23所述的装置,其中所述光学性质包括透镜像差特性。
全文摘要
提供了用于使用多个已知参数值预测多个未知参数值(例如叠对误差或临界尺寸)的装置和方法。在一个实施方案中,所述方法包括训练神经网络来预测所述多个参数值(114,700,800,900)。在其他实施方案中,所述预测过程不依赖于光刻工具的光学性质。这些预测可以被用来确定晶片批次的处置(114)。
文档编号H01L21/66GK101939833SQ200880113786
公开日2011年1月5日 申请日期2008年8月29日 优先权日2007年8月31日
发明者P·伊兹克森 申请人:恪纳腾公司