信息处理装置、信息处理方法和程序的利记博彩app

文档序号:6783281阅读:181来源:国知局
专利名称:信息处理装置、信息处理方法和程序的利记博彩app
技术领域
本发明涉及信息处理装置、信息处理方法和程序。

背景技术
近年来,将作为数字数据的由TV广播所广播的节目记录到诸如DVD(数字多功能光盘)或HDD(硬盘驱动器)之类的具有随机存取性能的记录介质中的视频一记录/回放装置迅速普及。此外,通过因特网对诸如视频和音频之类的内容进行发行变得流行,并且具有内置HDD或闪存的回放装置已经广泛普及,通过该回放装置能够在室内或室外欣赏从因特网下载得到的内容。
利用数字和随机存取特性,将如上所述的用于数字内容的回放装置实现为具有各种功能。变速回放功能可以作为示例,其在维持声音的恒定音高(pitch)的同时可变地设定回放速度。变速回放功能是减缓或加快视频和音频的回放速度的功能,并且例如,该功能针对语言的初学者等将回放速度减缓大约20%(慢回放),或者将回放速度加快大约50%以节省观看时间等(快回放)。变速回放功能是这样的功能,其从数字内容回放装置开始普及起就被一般地实现在该装置中,并且如今,数字内容回放装置已经十分普遍。本发明不仅关注音频内容,而且关注视频内容的音频部分。
在数字内容的回放装置中,在维持声音的恒定音高的同时可变地设定回放速度的技术被称作语速转换。在下文中,语速转换意味着在维持声音的恒定音高的同时拉伸或压缩信号的转换。已知几种用于语速转换的方法,例如,用作在对应于数字音频信号的时域上的时间轴拉伸/压缩算法的PICOLA(指针间隔控制交叠和相加)(参见“Expansion/compression on theaudio time-axis using duplication adding method by pointer amount-of-movement control(PICOLA)and its evaluation”,by Morita and Itakura,Acoustic Society of Japan collected papers,October 1986,pp.149-150)。该算法的优点在于虽然其处理简单轻量,但是可以获得好的声音质量。


发明内容
然而,经过语速转换,在维持声音的恒定音高的同时执行了回放速度转换,已经很难在听觉上识别转换后的回放速度。
因此,考虑到上述问题而提出本发明,并且期望提供在转换音频信号的回放速度时使得能够在听觉上识别转换后的回放速度的新的并改良的信息处理装置、新的并改良的信息处理方法以及新的并改良的程序。
根据本发明的实施例,提供了一种信息处理装置,该信息处理装置包括参数调节部分,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及信号处理部分,其基于第二参数和第三参数来调节音频信号的回放速度和声音音高中的至少一个,其中信号处理部分在所输入的回放速度变量因子小于预定阈值时调节音频信号的回放速度,并且在所输入的回放速度变量因子在预定阈值以上时调节音频信号的回放速度和声音音高。
通过这样的配置,参数调节部分根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数,并且信号处理部分基于第二参数和第三参数来调节音频信号的回放速度和声音音高的至少一个。在此,信号处理部分在所输入的回放速度变量因子小于预定阈值时调节音频信号的回放速度,并且在所输入的回放速度变量因子在预定阈值以上时调节音频信号的回放速度和声音音高。因此,通过根据本发明的信息处理装置,在音频信号的回放速度被转换的情况下,可以在听觉上识别转换后的回放速度。
信号处理部分包括回放速度转换部分,其转换音频信号的回放速度;以及音高调节部分,其调节音频信号的声音音高,并且回放速度转换部分可以基于第二参数来转换音频信号的回放速度,而音高调节部分可以基于第三参数来调节音频信号的声音音高。
第一参数可以近似等于第二参数和第三参数的乘积。
信号处理部分还包括音频信号输出控制部分,其控制将从信号处理部分中被输出的、被执行了预定信号处理的音频信号的输出,并且当回放速度和声音音高均经过调节的音频信号从信号处理部分中被输出时,音频信号输出控制部分可以降低回放速度和声音音高均经过调节的音频信号的音频音量。
信号处理部分还包括拟声声音(onomatopoeic sound)切换判断部分,其根据第一参数,判断是调节音频信号的回放速度和声音音高的至少一个,还是将音频信号切换到指示正在执行高速回放的预定拟声声音,并且当第一参数在预定阈值以上时,拟声声音切换判断部分可以判断将音频信号切换到预定拟声声音;并且当拟声声音切换判断部分判断将音频信号切换到预定拟声声音时,音频信号输出控制部分可以在将音频信号切换到预定拟声声音后输出音频信号。
信息处理装置还包括内容管理部分,该内容管理部分管理包括音频信号的内容,并且参数调节部分可以根据待输入的第一参数来确定第四参数,该第四参数对将从内容管理部分被输出到信号处理部分的音频信号的数据量进行调节。
当第一参数在预定阈值以上时,参数调节部分可以减小第四参数以减小将从内容管理部分被输出到信号处理部分的内容的数据量。
第一参数和第四参数的乘积可以近似等于第二参数和第三参数的乘积。
信息处理装置还包括内容管理部分,该内容管理部分管理包括音频信号的内容,并且参数调节部分可以基于对将从内容管理部分被输出到信号处理部分的音频数据的数据量进行调节的第四参数和待输入的第一参数,确定第二参数和第三参数。
当第一参数在预定阈值以上时,内容管理部分可以减小第四参数以减小将从内容管理部分被输出到信号处理部分的内容的数据量。
信息处理装置还包括存储部分,该存储部分存储其中待输入的第一参数与第二参数和第三参数相互相关的数据库,并且参数调节部分可以通过参考在存储部分中所存储的数据库来确定第二参数和第三参数。
信息处理装置还包括存储部分,该存储部分存储其中待输入的第一参数与第二参数、第三参数和第四参数相互相关的数据库,并且参数调节部分可以通过参考在存储部分中所存储的数据库来确定第二参数、第三参数和第四参数。
当第一参数在预定阈值以上时,参数调节部分可以根据第一参数与预定阈值之间的差来增大第二参数。
数据库被存储为指示第二参数和第三参数随第一参数的变化的曲线,并且指示第三参数的变化的曲线可以在预定阈值前后具有平滑的形状。
根据本发明的另一实施例,提供了一种信息处理方法,该信息处理方法包括参数调节步骤,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及信号处理步骤,其基于第二参数和第三参数,调节音频信号的回放速度和声音音高的至少一个,其中信号处理步骤在所输入的回放速度变量因子小于预定阈值时,基于第二参数来调节音频信号的回放速度,并且在所输入的回放速度变量因子在预定阈值以上时,基于第二参数和第三参数来调节音频信号的回放速度和声音音高。
通过这样的配置,参数调节步骤根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数,并且信号处理步骤基于第二参数和第三参数来调节音频信号的回放速度和声音音高的至少一个。此时,信号处理步骤在所输入的回放速度变量因子小于预定阈值时,基于第二参数来调节音频信号的回放速度,并且在所输入的回放速度变量因子在预定阈值以上时,基于第二参数和第三参数来调节音频信号的回放速度和声音音高。因此,通过根据本发明的信息处理装置,在音频信号的回放速度被转换的情况下,可以在听觉上识别转换后的回放速度。
在参数调节步骤中,可以确定第二参数和第三参数以使得第一参数可以近似等于第二参数和第三参数的乘积。
在信号处理步骤中,可以对音频信号的信号波形振幅进行控制以使得当音频信号的回放速度和声音音高均经过调节时,音频信号的音频音量可以较小。
在信号处理步骤中,当第一参数在预定阈值以上时,音频信号可以被切换到指示正在执行高速回放的预定拟声声音。
在参数调节步骤中,还可以根据第一参数来确定第四参数,该第四参数对将在信号处理步骤中被处理的音频信号的数据量进行调节。
在参数调节步骤中,当第一参数在预定阈值以上时,第四参数可以被减小以减小音频信号的数据量。
在参数调节步骤中,可以根据对将在信号处理步骤中被处理的音频信号的数据量进行调节的第四参数和第一参数来确定第二参数和第三参数。
在参数调节步骤中,可以确定第二参数、第三参数和第四参数以使得第一参数和第四参数的乘积可以近似等于第二参数和第三参数的乘积。
根据本发明的另一实施例,提供了一种在计算机中实现的程序参数调节功能,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及信号处理功能,其基于第二参数和第三参数来调节音频信号的回放速度和声音音高的至少一个。
通过这样的配置,计算机程序被存储在计算机中所包括的存储部分中,并且被计算机中所包括的CPU读取以执行,因此,该程序使计算机用作上述的信息处理装置。此外,还可以提供一种其中记录了计算机程序并且可以被计算机读取的记录介质。记录介质例如是磁盘、光盘、磁光盘和闪存。此外,例如可以经由网络来发布上述的计算机程序而无需使用记录介质。
根据上述本发明的实施例,在音频信号的回放速度被转换的情况下,可以在听觉上识别转换后的回放速度。



图1A是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图1B是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图1C是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图1D是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图2A是示出搜索类似波形长度的示例的说明性示图。
图2B是示出搜索类似波形长度的示例的说明性示图。
图2C是示出搜索类似波形长度的示例的说明性示图。
图3A是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图3B是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
图4A是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图4B是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图4C是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图4D是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图5A是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图5B是示出通过PICOLA来压缩音频信号的方法的说明性示图。
图6是示出通过PICOLA来拉伸音频信号的方法的流程图。
图7是示出通过PICOLA来压缩音频信号的方法的流程图。
图8是示出根据PICOLA的语速转换装置的配置的框图。
图9是示出检测类似波形长度的处理的流程图。
图10是示出检测类似波形长度的处理的流程图。
图11是示出生成交叉淡入淡出信号的处理示例的流程图。
图12是示出降低采样率的方法的说明性示图。
图13是示出提高采样率的方法的说明性示图。
图14A是示出与回放速度成比例地升高声音音高的处理示例的说明性示图。
图14B是示出与回放速度成比例地升高声音音高的处理示例的说明性示图。
图14C是示出与回放速度成比例地升高声音音高的处理示例的说明性示图。
图15A是示出在相关技术的第一回放装置中回放速度变量因子与语速转换率之间关系的坐标图。
图15B是示出在相关技术的第一回放装置中回放速度变量因子与声音音高之间关系的坐标图。
图16A是示出在相关技术的第二回放装置中回放速度变量因子与语速转换率之间关系的坐标图。
图16B是示出在相关技术的第二回放装置中回放速度变量因子与声音音高之间关系的坐标图。
图17是示出包括根据本发明第一实施例的信息处理装置的回放速度转换系统的说明性示图。
图18是示出根据本实施例的信息处理装置配置的框图。
图19A是示出第一参数R和第二参数Rs之间关系的坐标图。
图19B是示出第一参数R和第三参数Rp之间关系的坐标图。
图20是示出根据本实施例的信息处理装置的处理流程的流程图。
图21是示出根据本实施例的信息处理部分的功能的框图。
图22A是示出第一参数R和第二参数Rs之间关系的坐标图。
图22B是示出第一参数R和第三参数Rp之间关系的坐标图。
图23是示出根据本实施例的信号处理方法的流程图。
图24A是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理示例的说明性示图。
图24B是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理示例的说明性示图。
图24C是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理示例的说明性示图。
图24D是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理示例的说明性示图。
图25A是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理的另一示例的说明性示图。
图25B是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理的另一示例的说明性示图。
图25C是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理的另一示例的说明性示图。
图25D是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理的另一示例的说明性示图。
图26A是示出第一参数R和第二参数Rs之间关系的坐标图。
图26B是示出第一参数R和第三参数Rp之间关系的坐标图。
图27A是示出第一参数R和第二参数Rs之间关系的坐标图。
图27B是示出第一参数R和第三参数Rp之间关系的坐标图。
图28A是示出第一参数R和第二参数Rs之间关系的坐标图。
图28B是示出第一参数R和第三参数Rp之间关系的坐标图。
图29是示出根据本实施例的信号处理部分的修改示例的框图。
图30是示出根据修改示例的信号处理方法的流程图。
图31是示出转换采样率的另一种方法的说明性示图。
图32是示意性示出回放速度变量因子随时间的变化的说明性示图。
图33是示出根据本发明第二实施例的信息处理装置的功能的框图。
图34A是示出第一参数R和第四参数Rt之间关系的坐标图。
图34B是示出第一参数R和将被输入到信号处理部分的音频信号数据量之间关系的坐标图。
图35A是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图35B是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图36A是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图36B是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图37A是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图37B是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图37C是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
图38A是示出第一参数R和第二参数Rs之间关系的坐标图。
图38B是示出第一参数R和第三参数Rp之间关系的坐标图。
图39是示出根据本实施例的信息处理装置的处理流程的流程图。
图40是示出根据本实施例的信号处理部分的功能的框图。
图41A是示出第一参数R和第二参数Rs之间关系的坐标图。
图41B是示出第一参数R和第三参数Rp之间关系的坐标图。
图42是示出根据本实施例的信号处理方法的流程图。
图43是示出根据本实施例的信息处理装置的第一修改示例的功能的框图。
图44是示出根据本修改示例的信号处理方法的流程图。
图45是示出根据本实施例以及本修改示例的信号处理部分的修改示例的框图。
图46是示出根据本修改示例的信号处理方法的流程图。
图47是示出根据本发明每个实施例的信息处理装置的硬件配置的框图。

具体实施例方式 在下文中,将参考附图详细描述本发明的优选实施例。应注意,在本说明书和附图中,用相同标号来表示实质上具有相同功能和结构的结构元件,并且省略对这些结构元件的重复说明。
顺便提及,以下,由语音构成的信号称作语音信号,由诸如音乐之类的除语音外的声音构成的信号称作声响信号,并且由语音信号和声响信号构成的信号称作音频信号。
(基础技术描述) 首先,在给出对本发明的优选实施例的详细描述之前,将描述实现本发明所基于的技术问题。顺便提及,本发明被配置为能够通过改进如下所述的基础技术来获得显著效果。因此,与改进有关的技术是本实施例的特征。也就是,虽然本实施例遵循如下所述的技术问题的基本概念,但是实施例的本质关注改进,并且应注意,所述配置清楚地区别于基础技术,并且在本实施例的效果和基础技术的效果之间存在清楚的差别。
(PICOLA描述) 如上所述,PICOLA是在对应于数字语音信号的时域上的时间轴拉伸/压缩算法,并且如下所述,对语音信号执行拉伸和压缩。以下,通过参考图1A到图5B,将描述根据PICOLA的信号处理方法。
图1A到1D是示出通过PICOLA来拉伸音频信号的方法的说明性视图。顺便提及,在以下描述中,原始波形是信号最初被输入到PICOLA时的波形。此外,在图1A到1D中,纵轴代表信号振幅(即强度),并且横轴代表时间。
(根据PICOLA对波形进行拉伸的处理) 根据PICOLA,首先,从原始波形中检测到具有类似波形的周期A和周期B。如图1A所示,周期A和周期B是连续并且具有相同长度的两个周期,并且周期A的样本数和周期B的样本数相同。随后,生成在图1B中示出的波形,图1B的波形在所检测到的周期A中保持不变,然后在所检测到的周期B中淡出(fade out)。类似地,生成在图1C中示出的波形,图1C的波形从周期A开始淡入(fade in)并且在周期B中保持不变。然后,通过相加在图1B和图1C中示出的所生成波形,可以获得在图1D中示出的经拉伸的波形。
如上所述的相加淡出波形和淡入波形被称作交叉淡入淡出(cross-fade)。当周期A和周期B的交叉淡入淡出周期被表示为周期A×B并且上述操作被执行时,在图1A中示出的原始波形的周期A和周期B变为在图1D中示出的经拉伸波形的周期A、周期A×B和周期B。
(类似波形长度检测) 在此,在如上所述的拉伸波长的处理中,将要从所输入的信号中检测出连续并且具有类似波形的两个周期。在下文中,通过参考图2A到图2C,来描述检测具有类似波形的周期A和周期B的周期长度W的方法。图2A到图2C是示出搜索类似波形长度的示例的说明性示图。顺便提及,在以下的描述中,周期A和周期B的周期长度被称作类似波形长度。
首先,使信号波形中的处理开始位置P0作为开始点,如图2A所示,j个样本的周期A和周期B被指定。接下来,如图2A→图2B→图2C所示,j(即,样本数)逐渐增大,并且彼此十分类似的具有周期A的j和具有周期B的j被检测到。在此,作为测量周期A与周期B之间的相似性的尺度,例如,可以使用如以下等式1所示的函数D(j)。 ...(等式1) 在类似长度波形的搜索范围的最小值(WMIN)到最大值(WMAX)的范围内(即,WMIN≤j≤WMAX)计算函数D(j),并且导致最小D(j)的j被获得。该导致最小D(j)的参数j是周期A和周期B的周期长度W。顺便提及,上述j、WMIN和WMAX表示周期的样本数。
在此,在上述的等式1中,x(i)代表周期A的每个样本值,并且y(i)代表周期B的每个样本值。此外,x(i)代表周期B的每个样本值并且y(i)代表周期A的每个样本值是可以的。顺便提及,例如,类似波形长度的搜索频率范围可以近似是50Hz到250Hz。例如,当采样频率为8kHz时,近似地,WMAX是160并且WMIN是32。在如图2B所示的示例中,j被选作使函数D(j)最小的j。
随后,通过参考图3A到图3B,将描述利用PICOLA来将音频信号拉伸到任意长度的方法。图3A和图3B是示出通过PICOLA来拉伸音频信号的方法的说明性示图。
首先,如参考图2A到图2C所描述的,在将处理开始位置P0作为开始点的情况下,使函数D(j)最小的j被获得,并且W被设定为j。随后,周期301被复制到周期303,并且周期301和周期302的交叉淡入淡出波形被产生在周期301中。然后,从在3A中示出的原始波形的位置P0到位置P0’的周期被复制到在图3B中示出的经拉伸的波形。通过如上所述的操作,从在图3A中示出的原始波形的位置P0到位置P0’的L个样本变为在图3B中示出的经拉伸波形的W+L个样本,并且样本数变为r倍。在此,利用如下等式2来定义表示样本数的拉伸率(样本数的增长率)的r。 ...(等式2) 在此,关于L重写上述等式2得出如下等式3。
...(等式3) 也就是,从等式3显然可见,当期望将原始波形的样本数乘以r时,可以通过利用如下等式4指定位置P0’来实现。
P0′=P0+L ...(等式4) 此外,通过定义如下式5所示的参数Rs,样本数L可以被表示为如下等式6。
...(等式5) ...(等式6) 通过使用如上文所定义的Rs,使得能够实现诸如原始波形“以Rs倍速度被回放”之类的表达。在下文中,Rs将被称作“语速转换率”。
当完成了对原始波形的位置P0到位置P0’的处理时,位置P0’被切换到将被视为进行处理的新的开始点的位置P1,并且相同处理被重复。通过重复这样的处理,原始波形可以被拉伸。
在如图3A和3B所示的示例中,样本数L近似是2.5W,因此,根据等式2和5,语速转换率Rs近似是0.7。也就是,如图3A和3B所示的示例对应于具有近似0.7倍速度的慢回放。
(根据PICOLA对波形进行压缩的处理) 随后,通过参考图4A到图5B,来描述通过PICOLA对波形进行压缩的处理。
图4A到4D是示出通过使用PICOLA来压缩音频信号的示例的说明性视图。根据PICOLA,首先,从如图4A所示的原始波形中检测出具有类似波形的周期A和周期B。如图4A所示,周期A和周期B是连续并且具有相同长度的两个周期,并且周期A和周期B的样本数相同。顺便提及,通过参考图2A到图2C而描述的方法可以被应用于检测具有类似波形的周期。随后,在周期A中淡出的、在图4B中示出的波形和从周期B开始淡入的、在图4C中示出的波形被生成。然后,通过相加在图4B和图4C中示出的所生成波形,可以获得在图4D中示出的压缩波形。通过如上所述的处理,在图4A中示出的原始波形的周期A和周期B变为在图4D中示出的压缩波形的周期A×B。
随后,通过参考图5A和图5B,来描述利用PICOLA来将音频信号压缩到任意长度的方法。图5A和图5B是示出通过PICOLA来压缩音频信号的方法的说明性示图。
首先,如参考图2A到图2C所描述的,在将处理开始位置P0作为开始点的情况下,使函数D(j)最小的j被获得,并且W被设定为j。随后,周期501和周期502的交叉淡入淡出波形被产生在周期502中。然后,其中从在图5A中示出的原始波形的位置P0到位置P0’的周期中排除周期501的剩余周期被复制到在图5B中示出的压缩波形。通过上述操作,从在图5A中示出的原始波形的位置P0到位置P0’的W+L个样本变为在图5B中示出的压缩波形的L个样本,并且样本数变为r倍。在此,利用如下等式7来定义表示样本数的压缩率的r。
...(等式7) 在此,关于L重写上述等式7得出如下等式8。
...(等式8) 也就是,从等式8显然可见,当期望将原始波形的样本数乘以r时,可以通过利用如下等式9指定位置P0’来实现。
P0′=P0+(W+L) ...(等式9) 此外,通过定义如下式10所示的参数Rs,样本数L可以被表示为如下等式11。
...(等式10) ...(等式11) 通过使用如上文所定义的Rs,使得能够实现诸如原始波形“以Rs倍速度被回放”之类的表达。当完成了对原始波形的位置P0到位置P0’的处理时,位置P0’被切换到将被视为进行处理的新的开始点的位置P1,并且相同处理被重复。通过重复这样的处理,原始波形可以被压缩。
在如图5A和5B所示的示例中,样本数L近似是1.5W,因此,根据等式7和10,语速转换率Rs近似是1.7。也就是,如图5A和5B所示的示例等价于具有近似1.7倍速度的快回放。
(根据PICOLA对信号进行拉伸的处理流程) 随后,通过参考图6,来简要描述根据PICOLA对信号进行拉伸的处理流程。图6是示出利用PICOLA来拉伸音频信号的处理流程的流程图。
首先,根据PICOLA,判断在实现了PICOLA的信息处理装置等的输入缓冲器中是否存在待处理的音频信号(步骤S601)。在此,如果判断不存在待处理的音频信号,那么处理终止。然而,如果判断存在待处理的音频信号,那么在使处理开始位置P作为开始点的情况下获得使函数D(j)最小的j,并且W被设定为j(步骤S602)。随后,根据PICOLA,根据由使用者所指定的语速转换率Rs来获得L(步骤S603),并且对应于从处理开始位置P起的W个样本的周期A被输出到实现了PICOLA的信息处理装置等的输出缓冲器(步骤S604)。
接下来,根据PICOLA,具有从处理开始位置P起的W个样本的周期A与具有从周期A起连续的下一组W个样本的周期B之间的交叉淡入淡出被获得,并且被置于周期A中(步骤S605)。随后,输入缓冲器的具有从位置P起的L个样本的信号被输出到输出缓冲器(步骤S606)。随后,PICOLA将处理开始位置P移至P+L(步骤S607),并且返回到步骤S601以重复处理。通过重复这样的处理直到在输入缓冲器中不再有待处理的音频信号,可以执行对音频信号的拉伸处理。
(根据PICOLA对信号进行压缩的处理流程) 随后,通过参考图7,来简要描述根据PICOLA对信号进行压缩的处理流程。图7是示出利用PICOLA来压缩音频信号的处理流程的流程图。
首先,根据PICOLA,判断在实现了PICOLA的信息处理装置等的输入缓冲器中是否存在待处理的音频信号(步骤S701)。在此,如果判断不存在待处理的音频信号,那么处理终止。然而,如果判断存在待处理的音频信号,那么在使处理开始位置P作为开始点的情况下获得使函数D(j)最小的j,并且W被设定为j(步骤S702)。随后,根据PICOLA,根据由使用者所指定的语速转换率Rs来获得L(步骤S703)。
接下来,具有从处理开始位置P起的W个样本的周期A与具有从周期A起连续的下一组W个样本的周期B之间的交叉淡入淡出被获得,并且被置于周期B中(步骤S704)。随后,输入缓冲器的具有从位置P+W起的L个样本的信号被输出到输出缓冲器(步骤S705)。随后,PICOLA将处理开始位置P移至P+(W+L)(步骤S706),并且返回到步骤S701以重复处理。通过重复这样的处理直到在输入缓冲器中不再有待处理的音频信号,可以执行对音频信号的压缩处理。
(根据PICOLA的语速转换装置的配置) 接下来,通过参考图8,来描述根据PICOLA的语速转换装置的配置。图8是示出根据PICOLA的语速转换装置的配置的框图。顺便提及,在以下描述中,在图1A和图4A中的周期A和周期B的周期长度被称作类似波形长度。
如图8所示,根据PICOLA的信息处理装置800例如包括输入缓冲器801、类似波形长度检测部分802、连接信号生成部分803和输出缓冲器804。
输入缓冲器801,在缓冲被输入到信息处理装置800的音频信号的同时,将所输入的音频信号发送到随后将描述的类似波形长度检测部分802和连接信号生成部分803,并且将根据语速转换率Rs而生成的音频信号输出到输出缓冲器804。顺便提及,将被输入到输入缓冲器801的音频信号可以是直接被输入到信息处理装置800的数字信号,或者是被信息处理装置800 AD(模拟到数字)转换到数字信号的模拟信号。
具体地,基于由随后将描述的类似波形长度检测部分802所检测到的类似波形长度W,输入缓冲器801将2W个样本的音频信号传送到连接信号生成部分803。根据语速转换率Rs,输入缓冲器801将由连接信号生成部分803所生成的连接信号存储到输入缓冲器801中的适当位置中。此外,根据语速转换率Rs,输入缓冲器801将输入缓冲器801中的音频信号发送到输出缓冲器804。
关于被输入到输入缓冲器801的音频信号,类似波形长度检测部分802检测使函数D(j)最小的参数j,并且所检测到的参数j被设定为类似波形长度W(W=j)。所检测到的类似波形长度W被发送到输入缓冲器801。顺便提及,所检测到的类似波形长度W可以直接被输出到随后将描述的连接信号生成部分803。此外,所检测到的类似波形长度W可以被存储在被配置为RAM、存储设备等的存储部分(未示出)中。
通过使用从输入缓冲器801发送的音频信号和类似波形长度W,连接信号生成部分803生成将被用于音频信号的拉伸/压缩处理中的连接信号,并且将所生成的连接信号发送到输入缓冲器801。具体地,连接信号生成部分803将所接收的2W个样本的音频信号交叉淡入淡出为W个样本,并且将经交叉淡入淡出的信号发送到输入缓冲器801。此外,可以将所生成的连接信号存储在被配置为RAM、存储设备等的存储部分(未示出)中。
输出缓冲器804缓冲由输入缓冲器801所生成的音频信号,并且在输出缓冲器804上执行拉伸/压缩处理。被执行了拉伸/压缩处理的音频信号在经过DA(数字到模拟)转换后,经由诸如扬声器之类的输出设备作为输出音频信号被输出。
(类似波形长度检测流程) 随后,通过参考图9和图10,来详细描述检测类似波形长度的处理。图9和图10是示出检测类似波形长度的处理的流程图。
关于检测类似波形长度,首先,作为参数的索引值j被设定为初始值WMIN(步骤S901)。在此,如上所述,WMIN是在其中搜索类似波形的搜索范围的最小值。当设定了类似波形长度搜索的初始值时,如图10所示的子程序在实现了PICOLA的信息处理等中被执行(步骤S902)。如随后将描述的,该子程序是,用于计算用以判断波形之间的相似性的函数D(j)的子程序。在此,D(j)是通过如下等式12被给出的函数。...(等式12) 在此,在上述等式12中,f是输入音频信号,并且例如在如图2A到图2C所示的示例中,在使位置P0作为开始点的情况下,它指示样本。顺便提及,等式1和等式12表示相同问题。
随后,通过子程序而获得的函数D(j)的值被指定给变量min,并且索引j被指定给W(步骤S903)。然后,索引j被增大1(步骤S904)。接下来,判断索引j是否小于WMAX(步骤S905)。如果不小于WMAX(也就是,如果超过WMAX),那么处理终止,并且当终止处理时在变量W中存储的值是使函数D(j)最小的索引j,也就是,类似波形长度,并且此时变量min的值是函数D(j)的最小值。
此外,如果索引j小于WMAX,那么通过上述的子程序,针对新的索引j的函数D(j)被获得(步骤S906)。接下来,判断针对新的索引j而获得的函数D(j)的值是否小于min(步骤S907)。在此,如果函数D(j)的值小于min,那么函数D(j)的值被指定给变量min,并且索引j被指定给W(步骤S908),然后处理返回步骤S904。此外,如果函数D(j)的值不小于min(也就是,如果超过min),那么处理返回步骤S904。通过执行这样的处理,输入音频信号的类似波形部分可以被搜索到,并且类似波形长度可以被检测到。
(函数D(j)的值的计算) 随后,通过参考图10,来详细描述用于计算函数D(j)的子程序流程,该函数D(j)用于判断波形之间的相似性。
当子程序的处理开始时,首先,索引i和变量s被设定为0(步骤S1001)。接下来,判断索引i是否小于索引j(步骤S1002)。如果索引i小于索引j,那么执行随后将描述的步骤S1003,并且如果索引i不小于索引j(也就是,如果索引i等于或大于索引j),那么执行随后将描述的步骤S1005。在此,索引j与如图9所示的流程图中的索引j相同。
在步骤S1003,输入音频信号的差被平方,然后与变量s相加。然后,索引i被增大1(步骤S1004),并且处理返回步骤S1002。此外,在步骤S1005,变量s被除以索引j,并且商被作为函数D(j)的值,然后子程序终止。
(交叉淡入淡出信号的生成) 随后,通过参考图11,来详细描述在连接信号生成部分803中执行的生成交叉淡入淡出信号的方法。图11是示出生成交叉淡入淡出信号的处理示例的流程图。
关于生成交叉淡入淡出信号,首先,索引i被设定为0(步骤S1101)。接下来,比较索引i和类似波形长度W(步骤S1102),并且如果索引i不小于W(也就是,如果索引i等于或大于W),那么处理终止。此外,如果索引i小于W,那么将被用于淡入和淡出的系数h被获得(步骤S1103)。当完成了对系数h的计算时,淡入的信号x(i)被乘以系数h,并且淡出的信号y(i)被乘以(1-h),并且这些信号的和被指定给z(i)(步骤S1104)。例如,在如图1A到1D所示的示例中,周期A中的信号对应于x(i),并且周期B中的信号对应于y(i)。此外,在如图4A到4D所示的示例中,周期B中的信号对应于x(i),并且周期A中的信号对应于y(i)。以这样的方式生成的信号z(i)被作为交叉淡入淡出信号。在接下来的处理中,索引i被增大1(步骤S1105),并且处理返回到步骤S1102。通过重复这样的处理,交叉淡入淡出信号可以被算出。
如在上文中参考图1A到图11所描述的,通过语速转换算法,PICOLA,使得能够通过任意的语速转换率Rs(Rs<1.0,1.0<Rs)来拉伸/压缩音频信号,并且能够关于语音信号实现尤其良好的声音质量。此外,如果语速转换率Rs是1.0,那么信息处理装置800可以将输入音频信号如其原样地用作输出音频信号。
(关于语速转换处理的考虑) 甚至在利用如上所述的语速转换的数字内容回放装置普及之前,针对用于盒式磁带的模拟回放装置等,已经存在可变地设定回放速度的装置。然而,通过这样的模拟回放装置,声音音高与回放速度成比例地改变,并且当回放速度被减缓时,声音音高降低,并且当回放速度被加快时,声音音高升高。
例如,当回放内容主要由诸如用于语言学习的内容或新闻节目之类的语音构成时,如果声音音高改变,那么出现语音内容变得很难理解的问题。此外,作为另一个问题,即使声音音高仅略微地改变,识别说话人也变得很难。在其中知道哪个语音由哪个人物发出很重要的内容中,例如戏剧内容等,对于使用者而言,很难通过以不同速度回放的语音来识别说话人是回放装置的缺点。此外,还存在一个问题,即就音乐内容而言,甚至声音音高的轻微改变也会很大程度上改变音乐的情绪。在下文中,将描述如上所述的由于在以不同速度回放时声音音高的改变而引出的问题,该问题被称作第一问题。
在维持恒定的声音音高的同时可变地设定回放速度的变速回放,即近年来在许多数字内容回放装置中实现的变速回放功能,解决了第一问题。在回放速度的范围大约是0.5到4.0倍速度的情况下,可以获得尤其良好的结果。在下文中,其中获得了尤其良好的结果的这个范围被称作第一范围,并且没有落入第一范围内的范围(即低于第一范围的下限的范围和高于第一范围的上限的范围)将被称作第二范围。容易理解,第一范围根据内容而改变。例如,如果内容的说话人的语速较慢,那么即使回放速度被大大加快也可以理解内容。然而,如果内容的说话人的语速较快,那么即使回放速度仅略微被加快也很难理解内容。
另一方面,还存在以诸如10或20倍速度之类的高速来回放声音的需求。例如,虽然由用于盒式磁带的模拟回放装置等所提供的变速回放功能具有第一问题,但是即使当以高速回放时也能够概略地领会内容。对内容的概略领会是诸如“有个人正在说话”、“音乐正在播放”或“没有声音”之类的领会。即使是这个级别的领会,在目标内容中急速搜索期望部分时也是十分有用的。
此外,因为回放速度被加快越多,声音音高变得越高,所以能够根据声音音高在听觉上感受到近似的回放速度。存在如下的优点通过在听觉上识别近似的回放速度,能够本能地感受到内容中的每个事件之间的时间位置关系(例如,诸如“有个人正在说话”、“音乐正在播放”或“没有声音”之类的事件,等等)。因此,当在目标内容中搜索期望部分时,很容易控制回放速度,例如,“该部分好像不相关所以让我们加快回放速度”或者“该部分好像相关所以让我们减缓回放速度”。因此,当在目标内容中急速搜索期望部分时十分有用。
(基础技术转换声音音高的处理) 在下文中,将考虑其中声音音高与回放速度成比例地改变的数字内容回放装置,例如,用于盒式磁带的模拟回放装置。作为将被用于与回放速度成比例地改变声音音高的方法的示例,例如,有用于转换采样率的方法。在下文中,通过参考图12和图13,来简要描述用于转换采用率的方法示例。
(降低采样率的方法) 图12是示出用于降低采样率的方法的说明性示图(下采样方法)。图12的(a)是待处理的原始信号,其中T是采样周期并且fs是采样频率。
在采样率转换过程中,首先,原始信号(a)通过低通滤波器(LPF)1201。低通滤波器1201是将截止频率设定为fs/(2M)的滤波器。原始信号(a)被低通滤波器1201滤波为信号(b)。如图12的(b)所示,原始信号(a)的波形通过低通滤波器1201变得平滑。随后,下采样器1202从信号(b)中间隔剔除(thin out)M-1个样本并针对每M个样本留下一个样本。在如图12所示的示例中,M是2。因此获得的信号(c)具有采样率fs/M,即原始信号(a)的采样率的1/M倍。此外,信号(c)的样本数也是原始信号(a)的样本数的的1/M倍。当低通滤波器1201没有被用于上述操作中时,在信号(c)中可能生成混迭分量(aliasing component)。如图12所示的包括低通滤波器1201和下采样器1202的配置被称作抽取器(decimator)。
(提高采样率的方法) 图13是示出用于提高采样率的方法的说明性示图(上采样方法)。图13的(a)是待处理的原始信号,其中T是采样周期并且fs是采样频率。
在采样率转换过程中,首先,预定数目的零值被插入原始信号(a)中。具体地,上采样器1301将L-1个零值插入到原始信号(a)的每个样本之间。在如图13所示的示例中,L是2。图中,经上采样的信号是信号(b)。信号(b)具有fsL的采样率,所述fsL是L乘以原始信号(a)的采样率。此外,信号(c)的样本数也是L乘以原始信号(a)的样本数。随后,随着信号(b)通过低通滤波器1302,信号(c)生成。低通滤波器1302是将截止频率设定为fs/2的滤波器。此外,在通过低通滤波器1302对信号(b)进行处理后,经处理的信号的振幅可以被调节。当低通滤波器1302没有被用于如上所述的操作中时,在信号(c)中生成镜像分量。如图13所示的包括上采样器1301和低通滤波器1302的配置被称作内插器。
如图12所示的抽取器和如图13所示的内插器仅能够转换整数比值的采样率。然而,通过结合这两种配置,使得能够进行有理数采样率的转换。例如,使内插器的参数L为3,并且使抽取器的参数M为2。首先由内插器来处理原始信号以获得经处理的信号1。随后,由抽取器来进一步处理经处理的信号以获得经处理的信号2。因此获得的经处理信号2以因子3被上采样,然后被下采样到1/2,因此采样率被转换为原始信号的采样率的3/2倍。因此,通过结合抽取器和内插器,使得能够实现L/M倍的采样率转换。
图14A到图14C是示出与回放速度成比例地升高声音音高的处理示例的说明性示图。首先,通过根据回放速度利用抽取器和内插器来转换采样率,将在图14A中示出的采样率为fs(=1/T)的原始信号转换为在图14B中示出的采样率为fs’(=1/T’)的信号。随后,在图14B中示出的采样率为fs’(=1/T’)的信号的采样频率被在图14A中示出的原始信号的采样频率fs(=1/T)取代,并且使其变为在图14C中示出的信号。因此获得的在图14C中示出的信号的声音音高根据回放速度的改变量,高于在图14A中示出的原始信号的声音音高。如图14A到图14C所示的示例示出其中回放速度是2倍的示例。在图14B中示出的信号的采样频率是在图14A中示出的原始信号的采样频率的1/2倍。此外,在图14C中示出的信号的声音音高是在图14A中示出的原始信号的声音音高的2倍,并且在图14C中示出的信号的样本数是在图14A中示出的原始信号的样本数的1/2倍。
(本实施例的描述) 在以下描述中,其中声音音高与回放速度成比例地改变的回放装置将被称作“相关技术的第一回放装置”,并且其中当回放速度改变时恒定的声音音高被维持的回放装置将被称作“相关技术的第二回放装置”。
(相关技术的第一回放装置) 图15A是示出在相关技术的第一回放装置中回放速度变量因子和语速转换率之间关系的坐标图,并且图15B是示出在相关技术的第一回放装置中回放速度变量因子和声音音高之间关系的坐标图。在此,图15A的回放速度变量因子代表回放速度与正常回放速度的比值。例如,当以2倍的正常回放速度进行回放时,回放速度变量因子是2,并且当以一半的正常回放速度进行回放时,回放速度变量因子是0.5。此外,图15B的声音音高代表频率与正常回放时的频率的比值。例如,当以2倍的正常回放频率进行回放时,声音音高是2,并且当以一半的正常回放频率进行回放时,声音音高是0.5。
在相关技术的第一回放装置中,因为没有执行语速转换,所以如图15A所示,语速转换率是1并且恒定。此外,如图15B所示,在相关技术的第一回放装置中,声音音高与回放速度变量因子成比例,并且一般地,声音音高等于回放速度变量因子。
顺便提及,图15A和图15B仅示出以正常速度或以比正常速度更快的速度(换言之,回放速度变量因子为1或更大)来进行回放的情况。在下文中,为了避免自变量变得复杂,将讨论比正常速度更快的回放速度。然而,显然,针对以小于正常速度的速度(例如,0.5倍速度)进行回放的情况,可以做出相同的自变量。
(相关技术的第二回放装置) 图16A是示出在相关技术的第二回放装置中回放速度变量因子和语速转换率之间关系的坐标图,并且图16B是示出在相关技术的第二回放装置中回放速度变量因子和声音音高之间关系的坐标图。在相关技术的第二回放装置中,因为执行了语速转换,所以如图16A所示,语速转换率与回放速度变量因子成比例,并且一般地,语速转换率的值等于回放速度变量因子值。此外,如图16B所示,在相关技术的第二回放装置中,声音音高为1并且恒定。
(关于相关技术的语速转换装置的再考虑) 在相关技术的第二回放装置中,即使通过语速转换生成了具有超出第一范围的回放速度(换言之,在第二范围内的回放速度)的声音,也很难从听觉上感受到回放速度。例如,通过诸如如上所述的PICOLA之类的语速转换算法,即使指定了例如10倍或20倍的回放速度,也能够生成相应声音。然而,通过语速转换而获得的声音物理上是10倍或20倍的速度,而在听觉上感觉在10倍速度和20倍速度之间实际没有差别。换言之,即使加快了速度,正在收听声音的收听者在转换后也不能够在听觉上感受到加速。因此,存在很难在听觉上感受到第二范围内的回放速度的问题。这样的问题被称作第二问题。
如上所述,就相关技术的第一回放装置而言,虽然存在第一问题,但是没有出现第二问题。另一方面,就相关技术的第二回放装置而言,虽然解决了第一问题,但是出现了第二问题。
因此,本发明的发明人就上述问题进行了认真的研究,并且实现了一种包括变速回放方法的信息处理装置,该变速回放方法通过在第一范围内的变速回放使能够容易领会语音内容或指定说话人,此外,通过在第二范围内的变速回放使能够在听觉上感受到回放速度(换言之,即能够同时解决第一和第二问题的变速回放)。
(第一实施例) 在下文中,通过参考图17到图32,来详细描述根据本发明第一实施例的信息处理装置。顺便提及,在以下描述中,回放速度变量因子将被称作第一参数,语速转换率将被称作第二参数,并且声音音高将被称作第三参数。
(回放速度转换系统) 图17是示出包括根据本实施例的信息处理装置1701的回放速度转换系统的说明性示图。如图17所示,在回放速度转换系统中,作为用于控制回放速度变量因子的装置的信息处理装置1701,可以经由诸如因特网和家用网络之类的各种网络1702连接到内容服务器1703和客户端装置1704。此外,诸如AV设备(例如电视、DVD录像机和音乐组件、计算机等)之类的各种外部连接装置1705可以直接连接到根据本实施例的信息处理装置1701。
在此,内容服务器1703是与诸如URL(统一资源定位符)等之类位置信息、元数据等相关联地来管理包括音频信号的内容的服务器。例如,内容服务器1703可以是诸如电视、DVD录像机和音乐组件、计算机等之类的AV设备,或者是符合DLNA(数字生活网络联盟)规范的DMS(数字媒体服务器)。此外,客户端装置1704是从内容服务器1703获得各种内容以进行回放的设备。客户端装置1704可以是诸如电视、DVD录像机和音乐组件、计算机等之类的AV设备,或者是符合DLNA(数字生活网络联盟)规范的DMP(数字媒体播放器)。
(根据本实施例的信息处理装置的配置) 图18是示出根据本实施例的信息处理装置1800的配置的框图。如图18所示,根据本实施例的信息处理装置1800主要包括参数调节部分1801、信号处理部分1803和存储部分1805。在根据本实施例的信息处理装置1800中,音频信号和代表回放速度变量因子的第一参数R被输入,并且其回放速度变量因子受第一参数R控制的音频信号被作为输出信号输出。
顺便提及,在以下描述中,描述其中音频信号从信息处理装置1800的外部被输入的情况。然而,本实施例并不局限于这样的情况,并且音频信号可以被存储在信息处理装置1800中。
参数调节部分1801例如被配置为CPU(中央处理单元)、ROM(只读存储器)、RAM(随机存取存储器)等,并且根据从外部输入的第一参数R来调节第二参数Rs和第三参数Rp。随后将详细描述根据第一参数R来设定第二参数Rs和第三参数Rp的方法。参数调节部分1801将根据第一参数R而确定的第二参数Rs和第三参数Rp发送到随后将描述的信号处理部分1803。
信号处理部分1803例如被配置为CPU、ROM、RAM等,并且基于所输入的音频信号和第一参数R以及从参数调节部分1801发送来的第二参数Rs和第三参数Rp,来调节音频信号的语速和声音音高。此外,信号处理部分1803将被调节了语速和声音音高的音频信号作为输出音频信号输出。信息处理装置1800通过未示出的DA转换器将这样的输出音频信号转换为模拟信号,并且将该模拟信号从诸如扬声器之类的输出设备输出。
存储部分1805例如被配置为RAM、存储设备等,并且存储在根据第一参数R来确定第二参数Rs和第三参数Rp时所使用的各种数据库、将由信息处理装置1800执行的各种程序等。此外,除这些数据外,存储部分1805可以视需要存储当信息处理装置1800执行处理、处理的中间进程等时需要存储的参数。参数调节部分1801、信号处理部分1803等可以在存储部分1805中自由地执行读取或写入数据。
(第一参数与第二参数以及与第三参数的关系) 随后,通过参考图19A和图19B,来详细描述根据本实施例的参数调节部分1801。图19A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图19B是示出第一参数R和第三参数Rp之间关系的坐标图。
在如图19A和图19B所示的示例中,当第一参数R是1到4时,也就是,当以1到4倍的速度进行回放时,仅执行语速转换(区间1901和区间1903),并且当第一参数R大于4时,也就是,当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高(区间1902和区间1904)。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
顺便提及,在图19A中,以虚线示出区间1902,因为第二参数Rs的值根据改变声音音高的方法而改变。当将如图12到14所示的方法用作改变声音音高的方法时,样本数随着声音音高的升高而减少,从而导致区间1902的虚线。然而,当将其中样本数不减少的方法或者其中减少量较小的方法用作改变声音音高的方法时,将与如图19所示的虚线不同地设定区间1902。
在图19B的区间1903中,当第一参数R是1到4时,第三参数Rp是1并且恒定。然而,在该区间中的第三参数Rp不一定是恒定的。此外,在区间1904中第三参数Rp的上坡度并不局限于如图所示的示例,并且它可以是任意的,只要第三参数Rp具有大于0的上坡度。此外,在图19A和图19B中,虽然第二参数Rs和第三参数Rp以连续的方式(模拟地)改变,但是第二参数Rs和第三参数Rp也可以以离散的方式(数字地)改变。
(参数调节部分1801) 在根据本实施例的信息处理装置1800中,如图19A和图19B所示的第一参数R与第二参数Rs以及与第三参数Rp的关系的数据库例如被存储在存储部分1805中,并且参数调节部分1801通过参考这样的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
参数调节部分1801在如下所述的四个条件下,通过参考如图19A和图19B所示的的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间1901中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间1903中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间1904中时,第三参数Rp随第一参数R的增大而增大。
条件4第一参数R=第二参数Rs×样本数的增长率Rd。
在此,区间1901和区间1903对应于第一参数R的第一范围,并且区间1902和区间1904对应于第一参数R的第二范围。
此外,当在改变声音音高的方法中样本数的增长率是Rd时,参数调节部分1801的第一范围和第二范围二者具有如上述条件4所指示的特性。在此,例如,当样本数是2倍时,增长率是2,并且当样本数被减少到一半时,增长率是1/2。
(根据本实施例的控制回放速度变量因子的方法) 图20是示出根据本实施例的信息处理装置1800的处理流程的流程图。首先,信息处理装置1800判断是否存在输入音频信号(步骤S2001),并且当不存在输入音频信号时,处理终止。此外,当输入音频信号存在时,信息处理装置1800的参数调节部分1801根据所输入的第一参数R来调节第二参数Rs和第三参数Rp(步骤S2002)。以满足上述条件1到4的方式来执行调节。随后,信息处理装置1800的信号处理部分1803根据经调节的第二参数Rs和第三参数Rp来调节输入音频信号的语速和声音音高(步骤S2003)。随后,信息处理装置1800输出语速和声音音高经过调节的音频信号(步骤S2004)。然后,返回到步骤S2001,上述处理被重复。
通过重复这样的处理,根据本实施例的信息处理装置1800被使得能够控制音频信号的回放速度变量因子。
如参考图18到图20所描述的,根据本实施例的控制回放速度变量因子的方法,能够在第一参数R的第一范围内仅调节语速,并且在第一参数R的第二范围内随同语速一起来调节声音音高。因此,在第一参数R的第一范围内解决了第一问题,并且在第一参数R的第二范围内解决了第二问题。
(信号处理部分1803) 随后,通过参考图21,来详细描述根据本实施例的信号处理部分1803的示例。图21是示出根据本实施例的信号处理部分1803的功能的框图。
如图21所示,例如,根据本实施例的信号处理部分1803主要包括拟声声音(onomatopoeic sound)切换判断部分2101、语速转换部分2103、音高调节部分2105和音频信号输出控制部分2107。
拟声声音切换判断部分2101例如被配置为CPU、ROM、RAM等,并且基于所发送的第一参数R,判断是对输入音频信号执行诸如语速和声音音高转换之类的信号处理,还是将输入音频信号切换到拟声声音而不执行信号处理。具体地,拟声声音切换判断部分2101将第一参数R的等级与预定阈值进行比较,并且当第一参数R大于预定阈值(例如,以大于20倍的速度回放)时,判断将音频信号切换到预定拟声声音而不执行语速和声音音高的转换。拟声声音切换判断部分2101将判断结果发送到随后将描述的语速转换部分2103和音频信号输出控制部分2107。
语速转换部分2103例如被配置为CPU、ROM、RAM等。输入音频信号和由参数调节部分1801确定的第二参数Rs被输入到语速转换部分2103,并且语速转换部分2103基于第二参数Rs来转换输入音频信号的语速。例如,利用如图1到图7所示的算法来执行语速转换。语速转换部分2103将语速经过调节的音频信号发送到随后将描述的音高调节部分2105。
此外,当被拟声声音切换判断部分2101通知“将音频信号切换到拟声声音”的判断结果时,语速转换部分2103不必执行转换语速的处理。
音高调节部分2105例如被配置为CPU、ROM、RAM等,并且基于从语速转换部分2103发送来的、语速经过调节的音频信号以及从参数调节部分1801发送来的第三参数Rp,来调节音频信号的声音音高。音高转换的任意方法,例如,如图12到图14C所示的方法,可以用于音高调节。当完成了声音音高调节时,音高调节部分2105将语速和声音音高经过调节的音频信号输出到随后将描述的音频信号输出控制部分2107。
顺便提及,当如图12到图14C所示的方法被音高调节部分2105使用时,该方法中用于改变声音音高的样本数的增长率Rd与声音音高成比例,并且样本数的增长率Rd变得等于声音音高的上升率。也就是,Rd=第三参数Rp的关系成立。
音频信号输出控制部分2107例如被配置为CPU、ROM、RAM等,并且当输出所输入的音频信号或者从音高调节部分2105发送来的音频信号时控制输出。当被拟声声音切换判断部分2101通知“将音频信号切换到拟声声音”的判断结果时,音频信号输出控制部分2107将所输入的音频信号切换到例如被存储在存储部分1805中的预定拟声声音并输出信号。此外,当被拟声声音切换判断部分2101通知“不将音频信号切换到拟声声音”的判断结果时,音频信号输出控制部分2107输出从音高调节部分2105发送的音频信号。
此外,音频信号输出控制部分2107可以调节待输出的音频信号的音频音量。通过调节指定音频信号的信号波形的绝对值来执行对音频信号的音频音量的调节。当回放速度变量因子超过1时,音频信号输出控制部分2107可以调小音频信号的音频音量。此外,音频信号输出控制部分2107可以独立于回放速度来控制音频音量。
图22A和图22B是示出由包括如图21所示的信号处理部分1803的信息处理装置1800的参数调节部分1801所执行的参数调节方法示例的说明性示图。图22A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图22B是示出第一参数R和第三参数Rp之间关系的坐标图。
如图22A所示,横轴代表第一参数R并且纵轴代表第二参数Rs的坐标图被配置为具有第二参数Rs的不同上升率(换言之,坐标图的坡度(gradient))的至少两个区域。类似地,如图22B所示,横轴代表第一参数R并且纵轴代表第三参数Rp的坐标图被配置为具有第三参数Rp的不同上升率的至少两个区域。
当信号处理部分1803的音高调节部分2105通过如图12到图14C所示的方法来调节音高时,参数调节部分1801在下述的四个条件下,通过参考在存储部分1805中存储的、如图22A和图22B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间2201中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间2203中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间2204中时,第三参数Rp随第一参数R的增大而增大。
条件4’第一参数R=第二参数Rs×第三参数Rp在第一范围和第二范围内均成立。
在此,区间2201和区间2203对应于第一参数R的第一范围,并且区间2202和区间2204对应于第一参数R的第二范围。
在如图22A和图22B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
至此,已经描述了根据本实施例的信息处理装置1800的功能示例。上述结构元件的每个可以被配置为通用组件或电路,或者可以被配置为专用于每个结构元件的功能的硬件。此外,CPU等可以执行所有的功能。因此,能够根据实现本实施例的各种技术水平来适当改变待使用的配置。
(根据本实施例的信号处理方法) 随后,通过参考图23,来详细描述根据本实施例的信号处理方法。图23是示出根据本实施例的信号处理方法的流程图。
首先,信息处理装置1800判断是否存在输入音频信号(步骤S2301),并且如果没有输入音频信号那么终止处理。此外,当输入音频信号存在时,信号处理部分1803的拟声声音切换判断部分2101判断所输入的第一参数R是否大于预定阈值(步骤S2302)。当第一参数R小于预定阈值时,参数调节部分1801根据所输入的第一参数R来调节第二参数Rs和第三参数Rp(步骤S2303),并且将参数发送到信号处理部分1803。信号处理部分1803的语速转换部分2103基于所发送的第二参数Rs来调节输入音频信号的语速(步骤S2304),并且将语速经过调节的音频信号输出到音高调节部分2105。音高调节部分2105基于所发送的第三参数Rp来调节从语速转换部分2103发送的音频信号的声音音高(步骤S2305)。语速和声音音高经过调节的音频信号被发送到音频信号输出控制部分2107,并且音频信号输出控制部分2107输出语速和声音音高经过调节的音频信号(步骤S2306)。然后,返回到步骤S2301,上述处理被重复。
另一方面,当拟声声音切换判断部分2101判断第一参数R大于预定阈值时,音频信号输出控制部分2107输出被存储在存储部分1805等中的预定拟声声音,并且将所述拟声声音作为音频信号输出(步骤S2307)。然后,返回到步骤S2301,上述处理被重复。
通过重复这样的处理,根据本实施例的信息处理装置1800被使得能够以在听觉上可以识别转换后的回放速度的方式来控制音频信号的回放速度变量因子。
随后,通过关注在待处理的音频信号中所包括的样本数,来详细描述由根据本实施例的信息处理装置1800所执行的信号处理示例。图24A到图24D是以样本为单位示出由根据本实施例的信息处理装置1800所执行的信号处理示例的说明性示图。
在如图24A到图24D所示的示例中,当第一参数R是2.5时,第二参数Rs被调节为2.0并且第三参数Rp被调节到1.25。假设在如图24A所示的原始信号中,作为在将语速转换的处理开始点P0作为开始点的情况下检测到类似波形长度的结果,区间2401和区间2402被选作交叉淡入淡出区间。区间2401的信号和区间2402的信号的交叉淡入淡出信号被获得,并且被置于区间2402中。随后,区间2402的信号被复制到区间2403的、如图24B所示的信号,并且语速转换的处理开始位置从位置P0移至位置P1。通过将在图24A中示出的原始信号转换到在图24B中示出的信号,语速变为2倍速度(样本数变为1/2倍),并且声音音高不变。随后,在图24B中示出的信号的采样频率被变为4/5倍以获得在图24C中示出的信号。当采样频率变为4/5倍时,样本数也变为4/5倍。通过用在图24A中示出的原始信号的采样频率来替换在图24C中示出的信号的采样频率,在图24D中示出的信号被获得。在图24D中示出的信号样本数是0.4=(1/2)x(4/5)倍的在图24A中示出的原始信号的样本数,并且声音音高是5/4倍。换言之,回放速度是2.5=2x(5/4)倍的速度并且声音音高是1.25倍。
图25A到图25D是以样本为单位示出由根据本实施例的信息处理装置所执行的信号处理的另一示例的说明性示图。在如图25A到图25D所示的示例中,当第一参数R是4.0时,第二参数Rs被调节为2.0并且第三参数Rp被调节到2.0。假设在如图25A所示的原始信号中,作为在将语速转换的处理开始点P0作为开始点的情况下检测到类似波形长度的结果,区间2501和区间2502被选作交叉淡入淡出区间。区间2501的信号和区间2502的信号的交叉淡入淡出信号被获得,并且被置于区间2502中。随后,区间2502的信号被复制到区间2503的、如图25B所示的信号,并且语速转换的处理开始位置从位置P0移至位置P1。通过将在图25A中示出的原始信号转换到在图25B中示出的信号,语速变为2倍速度(样本数变为1/2倍),并且声音音高不变。随后,在图25B中示出的信号的采样频率被变为1/2倍以获得在图25C中示出的信号。当采样频率变为1/2倍时,样本数也变为1/2倍。通过用在图25A中示出的原始信号的采样频率来替换在图25C中示出的信号的采样频率,在图25D中示出的信号被获得。在图25D中示出的信号样本数是0.25=(1/2)×(1/2)倍的在图25A中示出的原始信号的样本数,并且声音音高是2倍。换言之,回放速度是4.0=2×2倍的速度并且声音音高是2倍。
图26A和图26B是示出由参数调节部分1801所执行的参数调节方法的其他示例的坐标图。图26A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图26B是示出第一参数R和第三参数Rp之间关系的坐标图。
如图26A所示,横轴代表第一参数R并且纵轴代表第二参数Rs的坐标图被配置为具有第二参数Rs的不同上升率(换言之,坐标图的坡度)的至少两个区域。类似地,如图26B所示,横轴代表第一参数R并且纵轴代表第三参数Rp的坐标图被配置为具有第三参数Rp的不同上升率的至少两个区域。
在这种情况下,参数调节部分1801在下述的五个条件下,通过参考在存储部分1805中存储的、如图26A和图26B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间2601中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间2603中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间2604中时,第三参数Rp随第一参数R的增大而增大。
条件4’第一参数R=第二参数Rs×第三参数Rp在第一范围和第二范围内均成立。
条件5当所输入的第一参数R存在于区间2602中时,第二参数Rs随第一参数R的增大而增大(换言之,示出第二参数Rs变化的曲线的导数大于0)。
在此,区间2601和区间2603对应于第一参数R的第一范围,并且区间2602和区间2604对应于第一参数R的第二范围。
在如图26A和图26B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
在如图26A和图26B所示的示例中,与如图22A和图22B所示的示例不同的,第二参数Rs随着第一参数R的增大而增大。换言之,示出第二参数Rs变化的曲线的导数大于0。在图22A的区间2202中,尽管第一参数R增大,但是第二参数Rs恒定。换言之,第二参数Rs的导数为0。在这样的情况下,尽管回放速度加快但是语速转换率不变,并且关于所回放的声音可能会感受到不适。另一方面,在图26A中的区间2602中,因为第二参数Rs随第一参数R的增大而增大(因为导数大于0),所以可以防止尽管语速加快但是语速转换率不变的情况,并且由所回放的声音所导致的不适可以被防止。
图27A和图27B是示出由参数调节部分1801所执行的参数调节方法的其他示例的坐标图。图27A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图27B是示出第一参数R和第三参数Rp之间关系的坐标图。
如图27A所示,横轴代表第一参数R并且纵轴代表第二参数Rs的坐标图被配置为具有第二参数Rs的不同上升率(换言之,坐标图的坡度)的至少两个区域。类似地,如图27B所示,横轴代表第一参数R并且纵轴代表第三参数Rp的坐标图被配置为具有第三参数Rp的不同上升率的至少两个区域。
在这种情况下,参数调节部分1801在下述的五个条件下,通过参考在存储部分1805中存储的、如图27A和图27B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间2701中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间2703中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间2704中时,第三参数Rp随第一参数R的增大而增大。
条件4’第一参数R=第二参数Rs×第三参数Rp在第一范围和第二范围内均成立。
条件6区间2703和区间2704被平滑地连接(换言之,示出第三参数Rp变化的曲线在区间2703和区间2704的连接点处可微分)。
在此,区间2701和区间2703对应于第一参数R的第一范围,并且区间2702和区间2704对应于第一参数R的第二范围。
在如图27A和图27B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
在如图27A和图27B所示的示例中,与如图22A和图22B所示的示例不同的,在第三参数Rp中,区间2703和区间2704被平滑地连接。换言之,示出第三参数Rp变化的曲线在区间2703和区间2704的连接点处可微分。在如图22A和图22B所示的区间2203和区间2204的连接点不可微分的情况下,当第一参数R逐渐增大时,第三参数Rp的单位增大量(微分值)在连接点处激增,并且关于所回放的声音可能会感到不适。另一方面,在如图27B中区间2703和区间2704所示的曲线平滑连接的情况下,当第一参数R逐渐增大时,可以防止声音音高在区间2703和区间2704的连接点处开始激增,并且关于所回放声音的不适可以被防止。
图28A和图28B是示出由参数调节部分1801所执行的参数调节方法的其他示例的坐标图。图28A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图28B是示出第一参数R和第三参数Rp之间关系的坐标图。
如图28A所示,横轴代表第一参数R并且纵轴代表第二参数Rs的坐标图被配置为具有第二参数Rs的不同上升率(换言之,坐标图的坡度)的至少两个区域。类似地,如图28B所示,横轴代表第一参数R并且纵轴代表第三参数Rp的坐标图被配置为具有第三参数Rp的不同上升率的至少两个区域。
在这种情况下,参数调节部分1801在下述的六个条件下,通过参考在存储部分1805中存储的、如图28A和图28B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间2801中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间2803中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间2804中时,第三参数Rp随第一参数R的增大而增大。
条件4’第一参数R=第二参数Rs×第三参数Rp在第一范围和第二范围内均成立。
条件5当所输入的第一参数R存在于区间2802中时,第二参数Rs随第一参数R的增大而增大(换言之,示出第二参数Rs变化的曲线的导数大于0)。
条件6区间2803和区间2804被平滑地连接(换言之,示出第三参数Rp变化的曲线在区间2803和区间2804的连接点处可微分)。
在此,区间2801和区间2803对应于第一参数R的第一范围,并且区间2802和区间2804对应于第一参数R的第二范围。
在如图28A和图28B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
在如图28A和图28B所示的示例中,与如图27A和图27B所示的示例类似地,在第三参数Rp中,区间2803和区间2804被平滑地连接。换言之,示出第三参数Rp变化的曲线在区间2803和区间2804的连接点处可微分。另一方面,在如图28A和图28B所示的示例中,与如图27A和图27B所示的示例不同的,第二参数Rs随第一参数R的增大而增大。换言之,示出第二参数Rs变化的曲线的导数大于0。在图27A的区间2702中,尽管第一参数R增大,但是存在第二参数Rs减小的部分。换言之,存在示出第二参数Rs变化的曲线的导数为负的部分。在这样的情况下,尽管回放速度加快但是语速转换率减小,并且关于所回放的声音可能感到不适。另一方面,在图28A的区间2802中,因为第二参数Rs随着第一参数R的增大而增大(因为导数大于0),所以可以防止尽管语速加快但是语速转换率减小的情况,并且关于所回放的声音的不适可以被防止。
如上所述,通过当转换所输入音频信号的回放速度变量因子时,在调节声音音高之前转换语速,可以在语速转换中更精确地执行对输入音频信号的类似波形长度的检测,并且能够将输出音频信号的声音质量维持在其最佳状态。
(信号处理部分1803的修改示例) 随后,通过参考图29,来详细描述根据本实施例的信号处理部分1803的修改示例。图29是示出根据本实施例的信号处理部分1803的修改示例的框图。
如图29所示,例如,根据该修改示例的信号处理部分1803主要包括拟声声音切换判断部分2101、音高调节部分2901、语速转换部分2903和音频信号输出控制部分2107。
除了拟声声音切换判断部分2101将判断结果输出到音高调节部分2901和音频信号输出控制部分2107外,拟声声音切换判断部分2101具有与根据本发明第一实施例的拟声声音切换判断部分相同的配置和功能,因此,省略其详细描述。
音高调节部分2901例如被配置为CPU、ROM、RAM等,并且基于所发送的输入音频信号以及从参数调节部分1801发送来的第三参数Rp,来调节音频信号的声音音高。音高转换的任意方法,例如,如图12到图14C所示的方法,可以用于音高调节。当完成了声音音高调节时,音高调节部分2901将声音音高经过调节的音频信号输出到随后将描述的语速转换部分2903。
顺便提及,当如图12到图14C所示的方法被音高调节部分2901使用时,该方法中用于改变声音音高的样本数的增长率Rd与声音音高成比例,并且样本数的增长率Rd变得等于声音音高的上升率。也就是,Rd=第三参数Rp的关系成立。
此外,当被拟声声音切换判断部分2101通知“将音频信号切换到拟声声音”的判断结果时,音高调节部分2901不必执行转换声音音高的处理。
语速转换部分2903例如被配置为CPU、ROM、RAM等。输入音频信号和由参数调节部分1801确定的第二参数Rs被输入到语速转换部分2903,并且语速转换部分2903基于第二参数Rs来转换输入音频信号的语速。例如,利用如图1到图7所示的算法来执行语速转换。语速转换部分2903将语速经过调节的音频信号发送到随后将描述的音频信号输出控制部分2107。
音频信号输出控制部分2107例如被配置为CPU、ROM、RAM等,并且当输出所输入的音频信号或者从音高调节部分2105发送来的音频信号时控制输出。当被拟声声音切换判断部分2101通知“将音频信号切换到拟声声音”的判断结果时,音频信号输出控制部分2107将所输入的音频信号切换到例如被存储在存储部分1805中的预定拟声声音并输出信号。此外,当被拟声声音切换判断部分2101通知“不将音频信号切换到拟声声音”的判断结果时,音频信号输出控制部分2107输出从语速转换部分2903发送的音频信号。
此外,音频信号输出控制部分2107可以调节待输出的音频信号的音频音量。通过调节指定音频信号的信号波形的绝对值来执行对音频信号的音频音量的调节。当回放速度变量因子超过1时,音频信号输出控制部分2107可以调小音频信号的音频音量。此外,音频信号输出控制部分2107可以独立于回放速度来控制音频音量。
至此,已经描述了根据修改示例的信号处理部分1803的功能示例。上述结构元件的每个可以被配置为通用组件或电路,或者可以被配置为专用于每个结构元件的功能的硬件。此外,CPU等可以执行所有的功能。因此,能够根据实现本实施例的各种技术水平来适当改变待使用的配置。
(根据修改示例的信号处理方法) 随后,通过参考图30,来详细描述根据修改示例的信号处理方法。图30是示出根据修改示例的信号处理方法的流程图。
首先,信息处理装置1800判断是否存在输入音频信号(步骤S3001),并且当没有输入音频信号时终止处理。此外,当输入音频信号存在时,信号处理部分1803的拟声声音切换判断部分2101判断所输入的第一参数R是否大于预定阈值(步骤S3002)。当第一参数R小于预定阈值时,参数调节部分1801根据所输入的第一参数R来调节第二参数Rs和第三参数Rp(步骤S3003),并且将参数发送到信号处理部分1803。信号处理部分1803的音高调节部分2901基于所发送的第三参数Rp来调节所发送的输入音频信号的声音音高(步骤S3004),并且将声音音高经过调节的音频信号输出到语速转换部分2903。语速转换部分2903基于所发送的第二参数Rs来调节声音音高经过调节的音频信号的语速(步骤S3005)。语速和声音音高经过调节的音频信号被发送到音频信号输出控制部分2107,并且音频信号输出控制部分2107输出语速和声音音高经过调节的音频信号(步骤S3006)。然后,返回到步骤S3001,上述处理被重复。
另一方面,当拟声声音切换判断部分2101判断第一参数R大于预定阈值时,音频信号输出控制部分2107将被存储在存储部分1805等中的预定拟声声音作为音频信号输出(步骤S3007)。然后,返回到步骤S3001,上述处理被重复。
通过重复这样的处理,根据修改示例的信息处理装置1800被使得能够以在听觉上可以识别转换后的回放速度的方式来控制音频信号的回放速度变量因子。
如上所述,通过当转换所输入的音频信号的回放速度变量因子时,在转换语速之前调节声音音高,能够减少语速待转换的输入音频信号的样本数,并且能够减少待处理的资源,因此能够实现处理的加速。顺便提及,当转换声音音高经过调节的音频信号的语速时,可以根据音高调节的程度来适当改变执行语速转换的频率范围。
(转换采样率的其他方法) 图31是示出通过不同于如图12和图13所示的转换采样率方法的方法来转换采样率的方法的说明性示图。通常,在如图12和图13所示的方法中,处理量很大,因此例如在诸如便携式回放装置之类的不期望高处理性能的回放装置中很难实现它们。在这样的情况下,如图31所示的转换采样率的方法证明是有用的。图31是示出这样的情况的说明性示图,其中当采样点n0、n1、n2、n3、...存在于转换前的信号中时,新的采样点m0、m1、m2、...通过线性插值被获得。例如,关于m1的采样值,线性插值通过计算比值p1∶1-p1来获得在采样点n1和采样点n2之间的采样点m1的位置,并且根据该比值,根据n1的采样值和n2的采样值来获得m1的采样值。
如此,在本实施例中,调节声音音高的方法并不限于如图12和图13所示的那些方法,并且可以使用任意的方法,例如在图31中示出的方法,以及满足根据本实施例的信息处理装置的条件的那些方法。
(回放速度变量因子的渐变) 随后,通过参考图32,来描述连续改变代表回放速度变量因子的第一参数R的情况。图32是示意性地示出回放速度变量因子随时间的变化的说明性示图。
与代表回放速度变量因子的第一参数R被设定为R1并且输出音频信号的信息处理装置1800相对地,当在时间点t1输入用于将第一参数R变到R2的信号时,例如,如图32所示,根据本实施例的信息处理装置1800并不立即数字地切换第一参数R,而是可以控制第二参数和第三参数从而使得第一参数逐渐从R1切换到R2。
在这样的情况下,参数调节部分1801使第一参数R连续地从R1变到R2,并且针对渐变中的每个参数R来设定第二参数Rs和第三参数Rp。通过执行这样的处理,即使在改变音频信号的语速和声音音高期间,音频信号的收听者也可以听到音频信号而不会感觉到不适。
如上所述,通过根据本实施例的控制回放速度变量因子的方法,当以近似正常的速度进行回放时,回放速度改变然而声音音高不变,并且容易理解说话人的语音内容或者容易识别说话人。此外,在高速回放/低速回放的情况下,当回放速度改变时,因此可以在听觉上感觉到此时的回放速度,并且可操作性可以得到改进。
(第二实施例) 随后,通过参考图33到图46,来详细描述根据本发明第二实施例的信息处理装置3300。
当所谓的内容回放装置回放内容时,装置从内容回放装置的诸如硬盘驱动器、DVD驱动器和蓝光驱动器之类的记录介质回放装置获得音频信号。但是,这样的记录介质回放装置的数据读取速度存在上限。换言之,每单位时间可以从记录介质中读取的数据量存在上限。因此,即使能够获得足够以10倍速度回放内容的数据量,也不一定能够获得足够以20倍速度回放内容的数据量。还存在其他类似情况。例如,近年来,内容数据通常以MPEG等进行编码,并且当回放经编码的内容时,首先,它必须被解码。因此,即使诸如硬盘驱动器、DVD驱动器和蓝光驱动器之类的记录介质回放装置的数据读取速度足够快,如果解码设备的计算能力不够,那么解码处理也不能继续。当连接诸如硬盘驱动器、DVD驱动器和蓝光驱动器之类的记录介质回放装置,以及CPU或存储器的总线带宽不够时,也会出现类似情况。
因此,构成内容回放装置的每个结构元件都有其处理能力限制,并且当以变速回放时,整个装置的处理能力限制由处理能力限制最低的结构元件来决定。存在这样的问题,即存在由于该处理能力限制而无法实现期望回放速度的情况。在下文中,这个问题被称作第三问题。
因此,本发明的发明人就上述问题进行了认真研究,并且实现了一种变速回放方法,该方法通过在第一范围内的变速回放使能够容易领会语音内容或者指定说话人,此外,通过在第二范围内的变速回放使能够在听觉上感受到回放速度,并且此外,实现回放速度的更高上限。换言之,根据本实施例的变速回放方法是能够同时解决第一、第二和第三问题的变速回放方法。
(根据本实施例的信息处理装置的配置) 首先,通过参考图33,来详细描述根据本实施例的信息处理装置3300的配置。图33是示出根据本实施例的信息处理装置3300的功能的框图。
如图33所示,根据本实施例的信息处理装置3300例如主要包括参数调节部分3301、内容管理部分3303、内容存储部分3305、信号处理部分3307和存储部分3309。
参数调节部分3301例如被配置为CPU、ROM、RAM等,并且根据从外部输入的第一参数R来调节第二参数Rs、第三参数Rp和第四参数Rt。随后将详细描述根据第一参数R来设定第二参数Rs、第三参数Rp和第四参数Rt的方法。参数调节部分3301将根据第一参数R确定的第四参数Rt发送到随后将描述的内容管理部分3303,并且将第二参数Rs和第三参数Rp发送到随后将描述的信号处理部分3307。
内容管理部分3303例如被配置为CPU、ROM、RAM等,并且管理包括可以被根据本实施例的信息处理装置3300所回放的音频信号的内容。在随后将描述的内容存储部分3305中,内容管理部分3303例如与内容标题、内容ID和属性信息等相关联地来记录包括音频信号的内容。内容管理部分3303根据对从信息处理装置3300外部输入的内容的回放指令,从内容存储部分3305中获得内容,并且将所述内容输出到随后将描述的信号处理部分3307。当将内容输出到信号处理部分3307时,基于从参数调节部分3301发送的第四参数Rt来确定待发送的数据量。此外,当从内容存储部分3305读取的内容数据是经编码的数据时,内容管理部分3303通过未示出的解码器对所述内容数据进行解码,并将所述内容数据输出到信号处理部分3307。
此外,内容管理部分3303可以经由诸如因特网和家用网络之类的网络1702来获得包括待回放的音频信号的内容。内容管理部分3303可以将经由网络1702而获得的内容记录在内容存储部分3305中。
内容存储部分3305例如被配置为诸如硬盘驱动器、DVD驱动器和蓝光驱动器之类的记录介质,并且与内容的标题、ID、属性信息等相关联地存储包括音频信号的内容。此外,包括构成内容存储部分3305的各种记录介质的读取速度上限值的控制信息等可以作为数据库被存储在内容存储部分3305中。
信号处理部分3307例如被配置为CPU、ROM、RAM等,并且基于从内容管理部分3303发送的音频信号、第一参数R以及从参数调节部分3301发送的第二参数Rs和第三参数Rp,来调节音频信号的语速和声音音高。此外,信号处理部分3307将语速和声音音高经过调节的音频信号作为输出音频信号输出。信息处理装置3300通过未示出的DA转换器将这样的输出音频信号转换为模拟信号,并且将所述模拟信号从诸如扬声器之类的输出设备输出。
存储部分3309例如被配置为RAM、存储设备等,并且存储在根据第一参数来确定第二参数Rs、第三参数Rp和第四参数Rt时所使用的各种数据库,将由信息处理装置3300执行的各种程序等。此外,除了这些数据外,存储部分3309还可以根据需要存储当信息处理装置3300执行处理、处理的中间进程等时需要被存储的各种参数。参数调节部分3301、内容管理部分3303、信号处理部分3307等可以在存储部分3309中自由地执行对数据的读取或写入。
(第一参数和第四参数之间的关系) 随后,通过参考图34A和图34B,来详细描述根据本实施例的通过参数调节部分3301来调节第四参数的方法。图34A是示出第一参数R和第四参数Rt之间关系的坐标图,并且图34B是示出第一参数R和将被输入到信号处理部分3307的音频信号数据量之间关系的坐标图。
如图34A所示,其中横轴代表第一参数R并且纵轴代表第四参数Rt的坐标图被配置为具有第四参数Rt的不同上升率(也就是说,坐标图的坡度)的两个区域。
参数调节部分3301在下述情况下调节第四参数Rt。在此,将在内容管理部分3303从内容存储部分3305读取内容数据并将所述内容数据发送到信号处理部分3307时的数据读取速度的上限简写为Sm。顺便提及,在以下描述中,数据读取速度是这样的速度,其包括内容管理部分3303从内容存储部分3305读取预定内容数据的数据读取速度和当将从内容管理部分3303读取的内容数据发送到信号处理部分3307时所需要的速度。
条件A当所输入的第一参数R存在于区间3405中时,第四参数Rt恒定地为1.0。
条件B当所输入的第一参数R存在于区间3406中时,上限速度Sm=第一参数R×第四参数Rt成立。
上限速度Sm是根据内容管理部分3303和内容存储部分3305的处理能力而确定的恒定值,因此,在区间3406中,随着第一参数R的值变大,第四参数Rt变小。
图34B示出每单位时间输入到信号处理部分3307的音频信号量与数据读取速度上限Sm的比值。在区间3407,数据量比值与第一参数R成比例。但是,在区间3408,数据量比值恒定地为1.0。这是因为数据读取速度根据第四参数Rt被调节,所以数据读取速度没有超过其上限Sm。因此,可以说第四参数Rt是在从内容存储部分3305读取内容数据以及将所述内容数据发送到信号处理部分3307时数据的间隔剔除率。
(根据第四参数对数据读取速度的调节) 例如,通过如图35A到图37C所示的方法来执行根据第四参数对数据读取速度的调节。图35A到图37C是示出根据本实施例的调节数据读取速度的方法示例的说明性示图。
在如图35A和图35B所示的示例中,诸如区间3501、区间3502和区间3503之类的原始信号的片段从在图35A中示出的、被记录在记录介质中的原始信号中被选出。在图35B中示出的信号代表所读取的信号,并且区间3504、区间3505和区间3506分别对应于在图35A中示出的原始信号的区间3501、区间3502和区间3503。从内容存储部分3305中读取并被输出到信号处理部分3307的信号是由相连接的、在图35B中示出的信号的区间3504、区间3505和区间3506构成的信号。在此,当连接每个区间时,每个区间的信号可以被淡入或淡出以进行平滑连接。此外,每个区间可以被略微拉长以通过交叉淡入淡出来进行连接。在图35B中示出的信号被信号处理部分3307处理以在变速回放时形成回放声音。
在如图35A和图35B所示的示例中,关于在图35A中示出的原始信号,读取区间长度和跳过区间长度彼此相等(也就是,区间3501的长度和介于区间3501和区间3502之间的水平区段长度彼此相等),因此,第四参数Rt等于1/2。另一方面,图36A和图36B示出这样的示例,其中第四参数Rt的值不同于如图35A和图35B所示的示例。在如图36A和图36B所示的示例中,关于在图36A中示出的原始信号,读取区间长度与跳过区间长度的比值是3∶4,因此第四参数Rt等于3/7。
图37A到图37C示出类似于如图35A到图36B所示的示例,但区别在于,记录在记录介质中的内容数据经过编码。在许多情况下,虽然随编解码器的不同,名称可能有变化,但是通常以一致的单位来管理经编码的数据。例如,就MPEG而言,以诸如包或数据包之类的单位P来管理经编码的数据。
在如图37A到图37C所示的示例中,诸如区间3701、区间3702和区间3703之类的流数据片段从在图37A中示出的、记录在记录介质中的流数据(经编码数据)中被读取。在图37B中示出的、所读取的流数据的区间3704、区间3705和区间3706分别对应于在图37A中示出的流数据的区间3701、区间3702和区间3703。从如图37B所示的流数据中读取的区间3704、区间3705和区间3706分别被解码器解码,从而变为在图37C中示出的音频信号的区间3707、区间3708和区间3709。在此,当连接每个区间时,每个区间的信号可以被淡入或淡出以进行平滑连接。此外,每个区间可以被略微拉长以通过交叉淡入淡出来进行连接。在图37C中示出的音频信号被信号处理部分3307处理以在变速回放时形成回放声音。
在如图37A到图37C所示的示例中,关于在图37A中示出的流数据,读取区间长度和跳过区间长度彼此相等,因此,第四参数Rt等于1/2。然而,在经编码信号的情况下,每个管理单位P在进行编码前可能在音频数据中具有交叠区间。在这种情况下,可能必须根据交叠区间来读取在图37A中示出的流数据中的额外读取区间。此外,根据编解码器,管理信息被添加到每个管理单位,并且管理信息必须被读取该以读取下一个管理单位。在这种情况下,即使在跳过区间,也至少必须读取管理信息。因此,当处理流数据时,虽然必须添加取决于编解码器的处理,但是基本处理与在图35A到图36B中示出的处理是相同的。
在以下描述中,对应于其中第四参数Rt是1.0的区间的第一参数R的范围(例如图34A中的区间3405)被称作第三范围,并且对应于其中第四参数Rt受上限速度Sm影响的区间的第一参数R的范围(例如图34A中的区间3406)被称作第四范围。
(第一参数与第二参数以及与第三参数的关系) 图38A和图38B详细描述根据本实施例的参数调节部分3301的参数调节方法示例。图38A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图38B是示出第一参数R和第三参数Rp之间关系的坐标图。
在根据本实施例的信息处理装置3300中,如图38A和图38B所示的、示出第一参数R与第二参数Rs以及与第三参数Rp关系的数据库,和如图34A中所示的、示出第一参数R和第四参数Rt之间关系的数据库例如被存储在存储部分3309中,并且参数调节部分3301通过参考这些数据库,根据第一参数R来确定第二参数Rs、第三参数Rp和第四参数Rt。
在此,参数调节部分3301在下述的四个条件下,通过参考在存储部分3309中存储的、如图38A和图38B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间3801中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间3803中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间3804中时,第三参数Rp随第一参数R的增大而增大。
条件4第一参数R×第四参数Rt=第二参数Rs×样本数的增长率Rd。
在此,在图38A的区间3809中,因为受上述条件B的影响所以第二参数Rs减小。顺便提及,从图38A和图38B中显然可见,Rt影响第二参数Rs,但是不影响第三参数Rp。换言之,当被发送到信号处理部分3307的音频信号的数据量减小时,数据量的减小影响语速转换的程度,然而不影响对声音音高的调节。
此外,区间3801和区间3803对应于第一参数R的第一范围,并且区间3802,区间3809和区间3804对应于第一参数R的第二范围。此外,区间3801和区间3802对应于第一参数R的第三范围,并且区间3809对应于第一参数R的第四范围。
在如图38A和图38B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
此外,当第一参数R是1到20时,即当以1到20倍的速度回放时,信号被连续读取,并且当第一参数R大于20时,即当以大于20倍的速度回放时,信号被断续读取。通过执行这样的处理,可以实现超过20倍速度的回放速度,20倍的速度被认为是连续读取信号情况下的回放上限。
顺便提及,在图38A中,周期3802和周期3809以虚线被示出,因为第二参数Rs的值随改变声音音高的方法而改变。当将如图12到图14所示的方法用作改变声音音高的方法时,样本数随声音音高的升高而减少,因此,用虚线示出区间3802和区间3809的线条。然而,当将样本数不减少的方法或者减少量很小的方法用作改变声音音高的方法时,将不同于如图38A所示的虚线来设定区间3802和区间3809。
此外,当方法中用于改变声音音高的样本数的增长率是Rd时,参数调节部分3301具有如上述条件4所指示的特性。在此,例如,当样本数是2倍时,增长率是2,并且当样本数被减少到一半时,增长率是1/2。
(根据本实施例的控制回放速度变量因子的方法) 图39是示出根据本实施例的信息处理装置3300的处理流程的流程图。首先,信息处理装置3300判断是否存在输入音频信号(步骤S3901),并且当不存在输入音频信号时,处理终止。此外,当输入音频信号存在时,信息处理装置3300的参数调节部分3301根据所输入的第一参数R来调节第二参数Rs、第三参数Rp和第四参数Rt(步骤S3902)。以满足上述条件1到4以及条件A和B的方式来执行调节。随后,信息处理装置3300的信号处理部分3307根据经调节的第二参数Rs和第三参数Rp来调节从内容管理部分3303发送来的音频信号的语速和声音音高(步骤S3903)。随后,信息处理装置3300输出语速和声音音高经过调节的音频信号(步骤S3304)。然后,返回到步骤S3901,上述处理被重复。
通过重复这样的处理,根据本实施例的信息处理装置3300被使得能够控制音频信号的回放速度变量因子。
如参考图33到图39所描述的,根据本实施例的控制回放速度变量因子的方法,能够在第一参数R的第一范围内仅调节语速,并且在第一参数R的第二范围内随同语速一起来调节声音音高。因此,在第一参数R的第一范围内解决了第一问题,并且在第一参数R的第二范围内解决了第二问题。此外,在第一参数R的第三范围内,信号可以被连续读取,并且在第一参数R的第四范围内,信号可以被断续读取。因此,第三问题可以在第四范围内被补救,并且第四范围可以扩展进而回放速度的上限可以提高。
(信号处理部分3307) 随后,通过参考图40,来详细描述根据本实施例的信号处理部分3307的示例。图40是示出根据本实施例的信号处理部分3307的功能的框图。
如图40所示,例如,根据本实施例的信号处理部分3307主要包括拟声声音切换判断部分4001、语速转换部分4003、音高调节部分4005和音频信号输出控制部分4007。
根据本实施例的拟声声音切换判断部分4001、语速转换部分4003、音高调节部分4005和音频信号输出控制部分4007分别与根据本发明第一实施例的拟声声音切换判断部分2101、语速转换部分2103、音高调节部分2105和音频信号输出控制部分2107具有几乎相同的配置,并且实现类似的效果,因此,省略其详细描述。
图41A和图41B是示出由具有如图40所示的信号处理部分3307的信息处理装置3300的参数调节部分3301所执行的参数调节方法示例的说明性示图。
参数调节部分3301包括上述的条件A和条件B二者。图41A是示出第一参数R和第二参数Rs之间关系的坐标图,并且图41B是示出第一参数R和第三参数Rp之间关系的坐标图。
如图41A所示,横轴代表第一参数R并且纵轴代表第二参数Rs的坐标图被配置为具有第二参数Rs的不同上升率(换言之,坐标图的坡度)的多于三个的区域。类似地,如图41B所示,横轴代表第一参数R并且纵轴代表第三参数Rp的坐标图被配置为具有第三参数Rp的不同上升率的至少两个区域。
当信号处理部分3307的音高调节部分4005通过如图12到图14C所示的方法来调节音高时,参数调节部分3301在下述的四个条件下,通过参考在存储部分3309中存储的、如图41A和图41B所示的数据库,根据第一参数R来确定第二参数Rs和第三参数Rp。
条件1当所输入的第一参数R存在于区间4101中时,将第二参数Rs确定为与第一参数R成比例(换言之,确定第二参数Rs以使得第二参数Rs等于第一参数R)。
条件2当所输入的第一参数R存在于区间4103中时,将第三参数Rp恒定地设定为1。
条件3当所输入的第一参数R存在于区间4104中时,第三参数Rp随第一参数R的增大而增大。
条件4’第一参数R×第四参数Rt=第二参数Rs×第三参数Rp在第一范围和第二范围(第三范围和第四范围)内成立。
在此,在区间4109中,因为受上述条件B的影响所以第二参数Rs减小。顺便提及,如从图41A和图41B中显然可见的,第四参数Rt影响第二参数Rs,但是不影响第三参数Rp。换言之,当被发送到信号处理部分3307的音频信号的数据量减小时,数据量的减小影响语速转换的程度,但是不影响对声音音高的调节。
此外,区间4101和区间4103对应于第一参数R的第一范围,并且区间4102、区间4109和区间4104对应于第一参数R的第二范围。此外,区间4101和区间4102对应于第一参数R的第三范围,并且区间4109对应于第一参数R的第四范围。
在如图41A和图41B所示的示例中,当第一参数R是1到4时,即当以1到4倍的速度回放时,仅执行语速转换,并且当第一参数R大于4时,即当以大于4倍的速度进行回放时,随同对语速进行转换一起来升高声音音高。通过执行这样的处理,当以1到4倍的速度进行回放时,说话人的语速根据回放速度逐渐加快,并且当以大于4倍的速度进行回放时,在说话人语速加快的同时逐渐升高声音音高。
此外,当第一参数R是1到20时,即当以1到20倍的速度回放时,信号被连续读取,并且当第一参数R大于20时,即当以大于20倍的速度回放时,信号被断续读取。通过执行这样的处理,可以实现超过20倍速度的回放速度,20倍的速度被认为是当没有执行间隔(thinned)回放时的回放上限。
至此,已经描述了根据本实施例的信息处理装置3300的功能示例。上述结构元件的每个可以被配置为通用组件或电路,或者可以被配置为专用于每个结构元件的功能的硬件。此外,CPU等可以执行所有的功能。因此,能够根据实现本实施例的各种技术水平来适当改变待使用的配置。
(根据本实施例的信号处理方法) 随后,通过参考图42,来详细描述根据本实施例的信号处理方法。图42是示出根据本实施例的信号处理方法的流程图。
首先,信息处理装置3300的信号处理部分3307判断是否存在从内容管理部分3303发送的音频信号(步骤S4201),并且如果没有从内容管理部分3303发送的音频信号那么终止处理。此外,当从内容管理部分3303发送的音频信号存在时,信号处理部分3307的拟声声音切换判断部分4001判断所输入的第一参数R是否大于预定阈值(步骤S4202)。当第一参数R小于预定阈值时,参数调节部分3301根据所输入的第一参数R来调节第二参数Rs、第三参数Rp和第四参数Rt(步骤S4203),并且将参数发送到信号处理部分3307。信号处理部分3307的语速转换部分4003基于所发送的第二参数Rs来调节输入音频信号的语速(步骤S4204),并且将语速经过调节的音频信号输出到音高调节部分4005。音高调节部分4005基于所发送的第三参数Rp来调节从语速转换部分4003发送的音频信号的声音音高(步骤S4205)。语速和声音音高经过调节的音频信号被发送到音频信号输出控制部分4007,并且音频信号输出控制部分4007输出语速和声音音高经过调节的音频信号(步骤S4206)。然后,返回到步骤S4201,上述处理被重复。
另一方面,当拟声声音切换判断部分4001判断第一参数R大于预定阈值时,音频信号输出控制部分4007将被存储在存储部分3309等中的预定拟声声音作为音频信号输出(步骤S4207)。然后,返回到步骤S4201,上述处理被重复。
通过重复这样的处理,根据本实施例的信息处理装置3300被使得能够以在听觉上可以识别转换后的回放速度的方式来控制音频信号的回放速度变量因子。
(第二实施例的第一修改示例) 随后,通过参考图43,来详细描述根据本发明第二实施例的第一修改示例的信息处理装置4300的配置。图43是示出根据本修改实施例的信息处理装置4300的功能的框图。
如图43所示的修改示例是其中内容管理部分4303设定第四参数Rt的示例。例如,当根据本修改示例的信息处理装置4300被用作视频记录/回放装置时,存在这样的情况,其中对内容的回放和对另一节目的视频记录同时被执行。在这样的情况下,视频记录/回放装置必须同时执行回放和记录,并且与仅执行回放的情况相比,可以分配给回放处理的处理量减少。因此,因为回放处理的处理量可能随情况的不同而改变,所以应该根据能够备用于回放处理的处理量来确定间隔率(thinning rate)。根据本修改示例的信息处理装置4300通过包括如下所述的内容管理部分4303来实现这样的处理。
如图43所示,根据本修改示例的信息处理装置4300例如主要包括参数调节部分4301、内容管理部分4303、内容存储部分4305、信号处理部分4307和存储部分4309。
在此,内容存储部分4305、信号处理部分4307和存储部分4309分别与根据本发明第二实施例的内容存储部分3305、信号处理部分3307和存储部分3309具有几乎相同的配置,并且实现类似的效果,因此省略其详细描述。
参数调节部分4301例如被配置为CPU、ROM、RAM等,并且根据从外部输入的第一参数R和从随后将描述的内容管理部分4303发送的第四参数Rt,来调节第二参数Rs和第三参数Rp。如在本发明第二实施例中所描述的,通过参考在存储部分4309中所存储的、示出第一参数R与第二参数Rs以及与第三参数Rp的关系的数据库,来确定第二参数Rs和第三参数Rp的设定以满足如在第二实施例中所描述的条件。参数调节部分4301将所确定的第二参数Rs和第三参数Rp发送到信号处理部分4307。
内容管理部分4303例如被配置为CPU、ROM、RAM等,并且管理包括可以被根据本实施例的信息处理装置4300所回放的音频信号的内容。在内容存储部分4305中,内容管理部分4303例如与内容标题、内容ID和属性信息等相关联地来记录包括音频信号的内容。内容管理部分4303根据对从信息处理装置4300外部输入的内容的回放指令,从内容存储部分4305中获得内容,并且将所述内容输出到信号处理部分4307。当将内容输出到信号处理部分4307时,内容管理部分4303根据可用于内容输出的资源量来确定对应于数据间隔率的第四参数Rt,并且根据第四参数Rt来确定待发送的数据量。此外,内容管理部分4303将所确定的第四参数Rt发送到参数调节部分4301。顺便提及,当从内容存储部分4305读取的内容数据是经编码的数据时,内容管理部分4303通过未示出的解码器对数据进行解码,并将所述数据输出到信号处理部分4307。
此外,内容管理部分4303可以经由诸如因特网和家用网络之类的网络1702来获得包括待回放的音频信号的内容。内容管理部分4303可以将经由网络1702而获得的内容记录在内容存储部分4305中。
内容存储部分4305例如被配置为诸如硬盘驱动器、DVD驱动器和蓝光驱动器之类的记录介质,并且与内容的标题、ID、属性信息等相关联地存储包括音频信号的内容。此外,包括构成内容存储部分4305的各种记录介质的读取速度上限值的控制信息等可以作为数据库被存储在内容存储部分4305中。
至此,已经描述了根据本修改示例的信息处理装置4300的功能示例。上述结构元件的每个可以被配置为通用组件或电路,或者可以被配置为专用于每个结构元件的功能的硬件。此外,CPU等可以执行所有的功能。因此,能够根据实现本修改示例的各种技术水平来适当改变待使用的配置。
(根据本修改示例的信号处理方法) 随后,通过参考图44,来详细描述根据本修改示例的信号处理方法。图44是示出根据本修改示例的信号处理方法的流程图。
首先,信息处理装置4300的信号处理部分4307判断是否存在从内容管理部分4303发送的音频信号(步骤S4401),并且当没有从内容管理部分4303发送的音频信号终止处理。此外,当从内容管理部分4303发送的音频信号存在时,信号处理部分4307的拟声声音切换判断部分判断所输入的第一参数R是否大于预定阈值(步骤S4402)。当第一参数R小于预定阈值时,参数调节部分4301根据所输入的第一参数R和从内容管理部分4303发送的第四参数Rt来调节第二参数Rs和第三参数Rp(步骤S4403),并且将参数发送到信号处理部分4307。信号处理部分4307基于所发送的第二参数Rs和第三参数Rp来调节输入音频信号的语速和声音音高(步骤S4404)。语速和声音音高经过调节的音频信号被发送到音频信号输出控制部分,并且音频信号输出控制部分输出语速和声音音高经过调节的音频信号(步骤S4405)。然后,返回到步骤S4401,上述处理被重复。
另一方面,当拟声声音切换判断部分判断第一参数R大于预定阈值时,音频信号输出控制部分将被存储在存储部分4309等中的预定拟声声音作为音频信号输出(步骤S4406)。然后,返回到步骤S4401,上述处理被重复。
通过重复这样的处理,根据本修改示例的信息处理装置4300被使得能够以在听觉上可以识别转换后的回放速度的方式来控制音频信号的回放速度变量因子。
(信号处理部分3307、4307的修改示例) 随后,通过参考图45,来描述根据本实施例的以及根据本修改示例的信号处理部分3307、4307的修改示例。图45是示出信号处理部分3307、4307的修改示例的框图。
如图45所示,根据本修改示例的信号处理部分主要包括拟声声音切换判断部分4001、音高调节部分4501、语速转换部分4503和音频信号输出控制部分4007。
根据本修改示例的拟声声音切换判断部分4001、音高调节部分4501、语速转换部分4503和音频信号输出控制部分4007分别与根据本发明第一实施例的第一修改示例的拟声声音切换判断部分2101、音高调节部分2901、语速转换部分2903和音频信号输出控制部分2107具有几乎相同的配置,并且实现类似的效果,因此,省略其详细描述。
(根据本修改示例的信号处理方法) 随后,通过参考图46,来详细描述根据本修改示例的信号处理方法。图46是示出根据本修改示例的信号处理方法的流程图。
首先,信息处理装置4300判断是否存在输入音频信号(步骤S4601),并且当没有输入音频信号时终止处理。此外,当输入音频信号存在时,信号处理部分4307的拟声声音切换判断部分4001判断所输入的第一参数R是否大于预定阈值(步骤S4602)。当第一参数R小于预定阈值时,参数调节部分4301根据所输入的第一参数R和从内容管理部分4303发送的第四参数Rt来调节第二参数Rs和第三参数Rp(步骤S4603),并且将参数发送到信号处理部分4307。信号处理部分4307的音高调节部分4501基于所发送的第三参数Rp来调节所发送的输入音频信号的声音音高(步骤S4604),并且将声音音高经过调节的音频信号输出到语速转换部分4503。语速转换部分4503基于所发送的第二参数Rs来调节声音音高经过调节的音频信号的语速(步骤S4605)。语速和声音音高经过调节的音频信号被发送到音频信号输出控制部分4007,并且音频信号输出控制部分4007输出语速和声音音高经过调节的音频信号(步骤S4606)。然后,返回到步骤S4601,上述处理被重复。
另一方面,当拟声声音切换判断部分4001判断第一参数R大于预定阈值时,音频信号输出控制部分4007将被存储在存储部分3309等中的预定拟声声音作为音频信号输出(步骤S4607)。然后,返回到步骤S4601,上述处理被重复。
通过重复这样的处理,根据本修改示例的信息处理装置4300被使得能够以在听觉上可以识别转换后的回放速度的方式来控制音频信号的回放速度变量因子。
如上所述,通过根据第二实施例和根据本发明的每个修改示例的信息处理装置,能够确定音频信号的语速转换率和声音音高转换率,同时通过在发送音频信号时进行间隔剔除来实现构成音频数据的样本数的减少。通过使用这样的装置,当以近似正常速度进行回放时,回放速度改变然而声音音高不变,因而很容易理解说话人的语音内容或者很容易指定说话人。同时,在高速/低速回放的情况下,当转换回放速度时还改变声音音高,因此可以从听觉上感受到此时的回放速度,并且此外,通过调节例如连续读取和断续读取,在高速回放时的回放速度上限可以显著提高。因此,通过根据本实施例的信息处理装置,可操作性能够得到改进。
(信息处理装置的硬件配置) 随后,通过参考图47,来详细描述根据本发明每个实施例的信息处理装置的硬件配置。图47是示出根据本发明每个实施例的信息处理装置的硬件配置的框图。
信息处理装置1800、3300和4300主要包括CPU 4701、ROM 4703、RAM 4705、主机总线4707、电桥(bridge)4709、外部总线4711、接口4713、输入设备4715、输出设备4717、存储设备4719、驱动器4721、连接端口4723和通信设备4725。
CPU 4701用作算术处理设备和控制设备,并且根据在ROM 4703、RAM 4705、存储设备4719或可移动记录介质4727中存储的各种程序,来控制信息处理装置1800、3300和4300的整个操作或部分操作。RAM4705临时存储将在CPU 4701的执行期间所使用的程序、在执行期间根据需要而变化的参数等。这些组件通过主机总线4707来彼此连接,通过诸如CPU总线之类的内部总线来配置主机总线4707。
主机总线4707经由电桥4709连接到诸如PCI(外围组件互连/接口)总线之类的外部总线4711。
输入设备4715例如是将由使用者来操作的诸如鼠标、键盘、触摸面板、按钮、开关和控制杆之类的操作装置。此外,输入设备4715可以是利用红外线或其他无线电波的遥控装置(所谓的遥控器),或者它可以是诸如与信息处理装置1800、3300和4300的操作相关联的蜂窝式电话、PDA等之类的外部连接装置4729。此外,输入设备4715基于由使用者例如利用上述操作装置而输入的信息来生成输入信号。信息处理装置1800、3300和4300的使用者可以将各种数据输入到信息处理装置1800、3300和4300,或者可以通过在输入设备4715上进行操作来指示处理操作。
通过能够在视觉上或者在听觉上将所获得的信息通知给使用者的设备来配置输出设备4717,例如诸如CRT显示器、液晶显示器、等离子显示器、EL显示器和灯之类的显示设备,诸如扬声器和头戴式耳机之类的音频输出设备,打印设备,蜂窝式电话,或者传真。4717例如输出通过由信息处理装置1800、3300和4300所执行的各种处理而获得的结果。具体地,显示设备将通过由信息处理装置1800、3300和4300所执行的各种处理而获得的结果显示为文本或图像。另一方面,音频输出设备将所回放的音频数据的音频信号、声响数据等转换为模拟信号并且将所述模拟信号输出。
存储设备4719是作为信息处理装置1800、3300和4300的存储部分而配置的用于存储数据的设备,并且例如被配置为诸如HDD(硬盘驱动器)之类的磁存储设备、半导体存储设备、光存储设备和磁光存储设备。存储设备4719存储将由CPU 4701执行的程序以及各种数据,从外部获得的声响信号数据和图像信号数据等。
驱动器4721是与记录介质结合使用的读取器/写入器,并且被嵌入信息处理装置1800、3300和4300中或者被配置为外围驱动器。驱动器4721读取在装载于其中的诸如磁盘、光盘、磁光盘或半导体存储器之类的可移动记录介质4727中所记录的信息,并且将所述信息输出到RAM 4705。此外,驱动器4721可以将记录写入装载于其中的诸如磁盘、光盘、磁光盘或半导体存储器之类的可移动记录介质4727中。可移动记录介质4727是DVD介质、HD-DVD介质、蓝光介质、紧凑式闪存(CF)(注册商标)、存储棒、SD(安全数字)存储卡等。此外,可移动记录介质4727例如可以是其中嵌入了非接触型IC芯片的IC卡(集成电路卡)或者电子设备。
连接端口4723是这样的端口,例如USB(通用串行总线)端口、诸如i.Link之类的IEEE 1394端口、SCSI(小型计算机系统接口)端口、RS-232C端口、光音频终端和用于直接将设备连接到信息处理装置1800、3300和4300的HDMI(高清多媒体接口)端口。通过将外部连接装置4729连接到连接端口4723,信息处理装置1800、3300和4300直接从外部连接装置4729获得声响信号数据或图像信号数据,或者为外部连接装置4729提供声响信号数据或图像信号数据。
通信设备4725例如是被配置为连接到网络1702的通信设备等的通信接口。通信设备4725例如是用于有线或无线LAN(局域网)的通信卡,蓝牙或WUSB(无线USB),用于光通信的路由器,用于ADSL(不对称数字用户线)的路由器,或者用于各种通信的调制解调器。通信设备4725例如可以向/从因特网和其他通信设备发送/接收声响信号等。此外,将被连接到通信设备4725的网络1702被配置为以有线或无线的方式连接的网络等,并且它可以是因特网、家用LAN、红外通信、无线电波通信、卫星通信等。
通过如上所述的配置,信息处理装置1800、3300和4300可以从各种信息资源获得与声响信号等有关的信息,并且可以将与声响信号等有关的信息发送到与连接端口4723或网络1702相连接的外部连接装置4729、内容服务器1703和客户端装置1704,并且此外,信息处理装置1800、3300和4300可以从外部连接装置4729、内容服务器1703和客户端装置1704接收与声响信号有关的信息,并且获得外部连接装置4729、内容服务器1703和客户端装置1704中的与声响信号有关的信息。此外,信息处理装置1800、3300和4300可以通过使用可移动记录介质4727来取出与声响信号等有关的信息。
至此,已经描述了可以实现根据本发明每个实施例的信息处理装置1800、3300和4300的功能的硬件配置示例。上述结构元件的每个可以被配置为通用组件,或者可以被配置为专用于每个结构元件的功能的硬件。因此,能够根据实现本实施例的各种技术水平来适当改变待使用的配置。
本领域中的技术人员应理解,根据设计需求和其他因素,可以想到各种修改、组合、子组合和变更,只要它们落入随附权利要求书或其等价物的范围内。
例如,在上述的每个实施例中,对这样的情况进行了说明,其中在第一范围内,第一参数R是1到4。然而,第一范围并不局限于此,并且第一参数可以具有不同的值。例如,在慢节奏的语音和音乐中,第一参数R的第一范围可以是1到6左右。相反,在快节奏的语音和音乐的情况下,其可以是1到2左右。
此外,在如上所述的第二实施例中,对这样的情况进行了说明,其中在第三范围内,第一参数R是1到20。然而,第三范围并不局限于此,并且它可以具有不同的值。
此外,在上述的每个实施例中,PICOLA被用作语速转换的算法。然而,本发明的语速转换算法并不局限于此,并且可以使用任意算法而无论时间轴和频率轴如何,只要语速转换可以被执行。
顺便提及,在上述的每个实施例中,对回放速度比正常速度更快的变速回放示例进行了说明,然而相同的事情可以被视为以小于正常速度的速度进行回放的情况。也就是,例如,0.5到1.0倍的速度对应于第一范围,并且0.0到0.5倍的速度对应于第二范围。在0.5到1.0倍速度的范围内仅转换语速,并且在0.0到0.5倍速度的范围内,在转换语速的同时随着回放速度的减缓来降低声音音高,这是可能的。
本发明包含与2007年9月19日递交到日本专利局的日本专利申请JP2007-241681相关的主题,该日本专利申请的全部内容通过引用被结合于此。
权利要求
1.一种信息处理装置,包括
参数调节部分,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及
信号处理部分,其基于所述第二参数和所述第三参数,调节音频信号的回放速度和声音音高中的至少一个,其中
所述信号处理部分在所输入的回放速度变量因子小于预定阈值时调节所述音频信号的所述回放速度,并且在所输入的回放速度变量因子在所述预定阈值以上时调节所述音频信号的所述回放速度和所述声音音高。
2.如权利要求1所述的信息处理装置,其中
所述信号处理部分包括
回放速度转换部分,其转换所述音频信号的所述回放速度;以及
音高调节部分,其调节所述音频信号的所述声音音高,其中
所述回放速度转换部分基于所述第二参数来转换所述音频信号的所述回放速度,并且
所述音高调节部分基于所述第三参数来调节所述音频信号的所述声音音高。
3.如权利要求1所述的信息处理装置,其中
所述第一参数约等于所述第二参数和所述第三参数的乘积。
4.如权利要求1所述的信息处理装置,其中
所述信号处理部分还包括
音频信号输出控制部分,其控制将从所述信号处理部分输出的、已被执行了预定信号处理的音频信号的输出,其中
当回放速度和声音音高均经过调节的音频信号被从所述信号处理部分输出时,所述音频信号输出控制部分降低所述回放速度和声音音高均经过调节的音频信号的音频音量。
5.如权利要求4所述的信息处理装置,其中
所述信号处理部分还包括
拟声声音切换判断部分,其根据所述第一参数,判断是调节所述音频信号的所述回放速度和所述声音音高中的至少一个,还是将所述音频信号切换到指示正在执行高速回放的预定拟声声音,其中
当所述第一参数在所述预定阈值以上时,所述拟声声音切换判断部分判断将所述音频信号切换到所述预定拟声声音;并且
当所述拟声声音切换判断部分判断将所述音频信号切换到所述预定拟声声音时,所述音频信号输出控制部分在将所述音频信号切换到所述预定拟声声音之后输出所述音频信号。
6.如权利要求1所述的信息处理装置,还包括
内容管理部分,其管理包括所述音频信号的内容,其中
所述参数调节部分根据所输入的所述第一参数来确定第四参数,所述第四参数对将从所述内容管理部分输出到所述信号处理部分的所述音频信号的数据量进行调节。
7.如权利要求6所述的信息处理装置,其中
当所述第一参数在预定阈值以上时,所述参数调节部分减小所述第四参数以减小将从所述内容管理部分输出到所述信号处理部分的所述内容的数据量。
8.如权利要求6所述的信息处理装置,其中
所述第一参数和所述第四参数的乘积约等于所述第二参数和所述第三参数的乘积。
9.如权利要求1所述的信息处理装置,还包括
内容管理部分,其管理包括所述音频信号的内容,其中
所述参数调节部分基于对将从所述内容管理部分输出到所述信号处理部分的所述音频数据的数据量进行调节的第四参数和所输入的所述第一参数,来确定所述第二参数和所述第三参数。
10.如权利要求9所述的信息处理装置,其中
当所述第一参数在预定阈值以上时,所述内容管理部分减小所述第四参数以减小将从所述内容管理部分输出到所述信号处理部分的所述内容的数据量。
11.如权利要求9所述的信息处理装置,其中
所述第一参数和所述第四参数的乘积约等于所述第二参数和所述第三参数的乘积。
12.如权利要求1所述的信息处理装置,还包括
存储数据库的存储部分,在所述数据库中,所输入的所述第一参数与所述第二参数和所述第三参数相互相关,其中
所述参数调节部分通过参考存储在所述存储部分中的所述数据库来确定所述第二参数和所述第三参数。
13.如权利要求12所述的信息处理装置,其中
当所述第一参数在预定阈值以上时,所述参数调节部分根据所述第一参数与所述预定阈值之差来增大所述第二参数。
14.如权利要求12所述的信息处理装置,其中
所述数据库被存储为指示所述第二参数和所述第三参数随所述第一参数的变化的曲线,并且
指示所述第三参数的变化的所述曲线在所述预定阈值之前和之后具有平滑的形状。
15.如权利要求6所述的信息处理装置,还包括
存储数据库的存储部分,在所述数据库中,所输入的所述第一参数与所述第二参数、所述第三参数和所述第四参数相互相关,其中
所述参数调节部分通过参考存储在所述存储部分中的所述数据库来确定所述第二参数、所述第三参数和所述第四参数。
16.如权利要求1所述的信息处理装置,其中
当所述第一参数在预定阈值以上时,所述参数调节部分根据所述第一参数与所述预定阈值之差来增大所述第二参数。
17.一种信息处理方法,包括
参数调节步骤,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及
信号处理步骤,其基于所述第二参数和所述第三参数,调节音频信号的回放速度和声音音高中的至少一个,其中
所述信号处理步骤在所输入的回放速度变量因子小于预定阈值时,基于所述第二参数来调节所述音频信号的所述回放速度,并且在所输入的回放速度变量因子在所述预定阈值以上时,基于所述第二参数和所述第三参数来调节所述音频信号的所述回放速度和所述声音音高。
18.如权利要求17所述的信息处理方法,其中
在所述参数调节步骤中,确定所述第二参数和所述第三参数以使得所述第一参数可以约等于所述第二参数和所述第三参数的乘积。
19.如权利要求17所述的信息处理方法,其中
在所述信号处理步骤中,对所述音频信号的信号波形的振幅进行控制以使得当所述音频信号的所述回放速度和所述声音音高均被调节时,所述音频信号的音频音量可以较小。
20.如权利要求17所述的信息处理方法,其中
在所述信号处理步骤中,当所述第一参数在所述预定阈值以上时,所述音频信号被切换到指示正在执行高速回放的预定拟声声音。
21.如权利要求17所述的信息处理方法,其中
在所述参数调节步骤中,还根据所述第一参数确定了第四参数,所述第四参数对在所述信号处理步骤中被处理的所述音频信号的数据量进行调节。
22.如权利要求21所述的信息处理方法,其中
在所述参数调节步骤中,确定所述第二参数、所述第三参数和所述第四参数以使得所述第一参数和所述第四参数的乘积可以约等于所述第二参数和所述第三参数的乘积。
23.如权利要求21所述的信息处理方法,其中
在所述参数调节步骤中,当所述第一参数在预定阈值以上时,所述第四参数被减小以减小所述音频信号的数据量。
24.如权利要求17所述的信息处理方法,其中
在所述参数调节步骤中,根据对将在所述信号处理步骤中被处理的所述音频信号的数据量进行调节的第四参数和所述第一参数来确定所述第二参数和所述第三参数。
25.如权利要求24所述的信息处理方法,其中
在所述参数调节步骤中,确定所述第二参数和所述第三参数以使得所述第一参数和所述第四参数的乘积可以约等于所述第二参数和所述第三参数的乘积。
26.一种在计算机中实现的程序
参数调节功能,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数;以及
信号处理功能,其基于所述第二参数和所述第三参数来调节音频信号的回放速度和声音音高中的至少一个。
全文摘要
本发明提供了一种信息处理装置、信息处理方法和程序。根据本发明,提供了参数调节部分,其根据指示所输入的回放速度变量因子的第一参数来设定第二参数和第三参数,以及信号处理部分,其基于第二参数和第三参数来调节音频信号的回放速度和声音音高中的至少一个,其中信号处理部分在所输入的回放速度变量因子小于预定阈值时调节音频信号的回放速度,并且在所输入的回放速度变量因子大于预定阈值时调节音频信号的回放速度和声音音高。
文档编号G11B20/00GK101393745SQ20081017473
公开日2009年3月25日 申请日期2008年9月19日 优先权日2007年9月19日
发明者中村理, 安部素嗣 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1