摘要大黄是我国最常用的中草药之一。对正品和非正品大黄的快速、准确鉴别对于大黄及其中草药产品的质量控制具有重要的意义。将近红外漫反射光谱分析技术与人工神经网络方法相结合, 对52种大黄样品进行了测定和鉴别,正确率可达96%。并对神经网络的隐含层个数和动量因子的影响做了讨论。由于近红外光谱法具有样品前处理少,测定快速和非破坏性等特点,因而特别适合于中草药的鉴别。
主题词:近红外光谱法;大黄;人工神经网络;中草药
引 言
大黄为蓼科大黄属植物,共约60种,大黄是我国著名的特产药材,用药历史悠久。大黄具有泻下、抗菌、利胆、保肝、止血活血等功效。在商品中常常混有非正品大黄的根和根茎,但其泻下作用不及正品大黄,有些还能引起腹痛。为了确保正品大黄的临床疗效,长期以来,对大黄生药的鉴定多是依靠其外部形态、性状鉴定、显微鉴定和理化鉴定,这些方法在一定程度上依赖于经验,且难以区别正品大黄和非正品大黄的根及炮制加工后的粉末。近年来人们采用多种现代分析检测技术对各种中草药的鉴别做了研究,例如红外光谱法、质谱法等。利用这些现代分析检测手段使对于中草药的快速、准确鉴别成为可能,也为中医药现代化奠定了科学基础。
近红外光谱(NIR)技术是近年来受到人们的特别重视和发展非常快的光谱分析方法之一。在近红外光谱区(通常为780~3100nm),主要是分子中CH,OH,NH基团的倍频和合频的吸收。由于其吸收谱带强度较弱,所以要获得理想的图谱往往需要样品量较大。由于在NIR区谱峰的重叠非常严重,数据的处理和解释非常困难。在较早时期,由于受到技术水平和实验条件限制,无法将NIR区的信息充分提出来,因此。近红外光谱的应用非常有限。随着计算机技术的普及和化学计量学的发展,人们对NIR光谱数据的解释和校准做了深入的研究。建立了许多NIR光谱分析的校准方法,使得NIR光谱分析技术得到了广泛的应用。目前近红外光谱分析
方法在农业、食品工业、石油、化工、制药、纺织及生物医学等领域,尤其适用于在线分析等领域都有广泛的应用。近红外光谱技术在中草药鉴别方面的应用也有许多报道。但是在中草药大黄的鉴别应用中报道得较少。
人工神经网络(ANN)是对生物神经网络的一种数学模拟。它利用大量简单的处理单元广泛连接组成的复杂网络,来模仿人脑神经网络结构和功能,从而对信息进行处理。由于神经网络具有自组织、自学习、稳健性、容错性以及非线性信息处理等功能,因而在各个领域得到了广泛的应用。目前应用最广泛的是采用误差反向传播算法的前馈神经网络(BP-ANN)。
本文将近红外光谱技术与人工神经网络方法相结合,采用漫反射光学检测方法,对52种大黄样品进行了测定和鉴别,并对神经网络的隐含层个数和动量因子的影响做了讨论。
1 实验部分
1.1 仪器与样品
Foss 6500型近红外光谱仪(Foss NIR Systems Inc.,MD,USA),石英卤灯,PbS检测器。本工作选用的52个大黄样品为不同品种和不同产地的样品。根据我国药典的要求,将这些样品分为正品大黄和非正品大黄两类,其中25个为正品样本(No.1-25),27个为非正品样本(No.25—52)。大黄样品经干燥后粉碎成60目的粉末后直接测定。 ·
1.2 数据采集和处理
大黄样品的测量波长范围为:1100~2500nm。每隔2nm采集一个数据点。光谱采集所用样品池为直径38mm,厚度为10mm。为了保证样品数据的代表性,进行若干次测量后将样品池取出摇动,使样品池中的样品得到重新填充。每个样品扫描测量50次,然后取其平均值作为该样品的光谱。样品的扫描测量数据以ascii 码存储,然后再用另一台微机进行计算处理。
测量得到的大黄样品NIR光谱经二阶导数处理,消除了斜坡背景的影响。为了减少光谱的变量,从而提高神经网络的训练速度,我们利用小波变换方法对二阶导数N1R光谱进行压缩。经小波压缩后的光谱变量点由原来的700个减少为44个。利用小波变换数据压缩技术既能高效地减少数据的变量数目,又能保持原光谱的特征。用经过压缩的含44个变量的大黄NIR光谱作为神经网络的输入。本工作使用误差反向传播算法的神经网络(BP-ANN)建立大黄样品的分类模型。神经网络的输入层单元为44,输出层单元为1个,以1.0代表正品大黄,0.0代表非正品大黄。对隐含层单元进行优化选择。
为了简化计算步骤,首先使用Matlab 5.0(Mathworks,Inc.,USA)的内部函数Appooef进行一维小波变换,对光谱进行压缩。然后使用Trmnbpx(快速BP算法)进行网络的训练和建模。为了验证神经网络建立的分类模型,采用交叉验证方法。使用n中取1的方法选取检验样本,即每次选取一个样本作为检验样本,其余样本作为训练样本。这样,每个样品作为检验样本1次,作为训练集样本n一1次。预测结果的判定阈值设为0.5,即当输出值大于0.5判为正品大黄,当输出值小于0.5判为非正品大黄。
2 结果与讨论
2.1 大黄的NIR光谱和相似性判别
可以看出,大黄样品的近红外光谱非常相似,不可能用直接观察的方法对正品和非正品大黄做出鉴别。即使使用传统的相关系数法也很难对正品和非正品的大黄样品做出鉴定。
正品和非正品大黄样品的相关系数非常大(即非常接近于1)。即使使用导数光谱使正品和非正品样品的相关系数有所降低,但也不能根据NIR光谱对大黄样品进行分类鉴别。因此,我们使用人工神经网络方法对正品和非正品大黄样品的分类鉴定做了深入的研究。
2.2 隐含层结点的影响
在这项试验中,我们用BP-ANN鉴别正品大黄和非正品大黄。实际上,隐含层的结点数决定着BP网络的复杂性。因此,必须选择一个最佳的隐含层结点数。我们把隐含层个数从1到8逐个进行比较。
可以发现,当隐含层神经元为1时,BP网络对大黄的识别正确率很低,仅达到55.8%。当隐含层神经元为2时,BP网络对大黄的识别正确率立刻升高到90.38%。调节隐含层神经元为2到8时,BP网络对大黄的识别正确率基本趋于平缓,当隐含层神经元为5时,BP网络对大黄的识别正确率达到最高,为96.15%。经过上述优化,我们选定最佳的隐含层个数为5。
2.3 动量因子的影响
动量因子和学习速率是影响BP神经网络训练速率和收敛度的两个重要因素。到目前为止,还没有严格的系统的理论规则来选择动量因子和学习速率。对于特定的问题,这些参数通常根据实验来选择。在这项实验中,我们使用的是Matlab软件中的内部函数Trainbpx,其中学习速率一项是由函数自我调整的。因此,在实验中只需要选择合适的动量因子。我们把动量因子从0.1到0.9逐个比较,最后,我们确定最合适的动量因子为0.9。
BP网络对大黄的识别正确率随着动量因子的变化比较平稳,都达到了90%以上。调节动量因子,可以使我们找到最高的识别正确率,但是如果动量因子太大了,BP网络就不能收敛了。
可以发现,有两个大黄样品在BP网络的鉴别之外,被识别错误。第2个样品输出值为0.4938,第36个样品输出值为0.7228。这两个样品为鉴别错误的样品。其他50个样品的鉴别是正确的。从总体来看,使用BP网络鉴别大黄样品识别正确率达到了96.15%。
3 结论
本文旨在将近红外光谱和人工神经网络相结合进行中药大黄的鉴别。大黄样品粉碎后无需进行复杂的处理,就可以用近红外光谱仪进行分析监测。NIR光谱经小波变换压缩后,将光谱变量从700减少到44个。用经小波压缩的NIR光谱输入到神经网络建立分类鉴别模型。用独立预测样本进行检验,识别正确率可达到96.15%。本方法操作简便、无污染、低消耗,是一个很有发展前途的鉴别中草药的方法。