پیش بینی LD50 در مشتقات کربوکسیلیک اسید با مدل های رگرسیون خطی چندگانه و شبکه عصبی مصنوعی
محورهای موضوعی : حشره شناسی و سایر بندپایانعصمت محمدی نسب 1 , فهیمه محمایی 2
1 - داﻧﺸﮕﺎه آزاد اﺳﻼﻣﻲ، واﺣﺪ اراک، ﮔﺮوه شیمی، اراک، ایران
2 - دانشجوی دکتری شیمی فیزیک، گروه شیمی، واحد اراک، دانشگاه آزاداسلامی، اراک، ایران
کلید واژه: واژههای کلیدی: "سمیت" "روش رگرسیون خطی چندگانه ", "شبکه عصبی مصنوعی", "مشتقات کربوکسیلیک اسید ", Key words:" Toxicity", " Multiple linear regression method", "Artificial neural network", "Carboxylic acid derivatives,
چکیده مقاله :
در این تحقیق، از طریق مطالعه رابطه ساختار-فعالیت به پیش بینی مقادیر سمیت مشتقات کربوکسیلیک اسید پرداخته شده است. ابتدا مقادیر LD50 برای مجموعه ای از ترکیبات مورد مطالعه با استفاده از منابع علمی معتبر استخراج گردید و ساختار آنها به کمک نرمافزار گوس ویو 05 رسم شده و با نرمافزار گوسین09 به روش هارتری فاک و سری پایه G21-3 بهینه شدند. سپس با استفاده از نرم افزار دراگون توصیفگرهای مولکولی استخراج گردیدند. به کمک ژنتیک الگوریتم و روش برگشتی توصیفگرهای نامناسب حذف شده و بهترین آنها برای مدلهای رگرسیون خطی چندگانه و شبکه عصبی مصنوعی مورد استفاده قرار گرفت. دقت پیش بینی مدل نهایی توسط ضرایب آماری مورد بحث قرار گرفت. اعتبارسنجی تقاطعی و نیز اعتبارسنجی خارجی مدل های پیش بینی همبستگی بسیار بالا را بین مقادیر تجربی و مقادیر پیش بینی گروه های آموزش آزمون و اعتبارسنجی در روش شبکه عصبی مصنوعی نشان داد. مشخص گردید که روش شبکه عصبی مصنوعی با خطای کمتر و ضریب تعیین بالاتر نسبت به روش رگرسیون خطی چندگانه از برتری قابل توجه ای برخوردار می باشد. مدل پیشنهادی می تواند برای پیش بینی log(LD50) ترکیبات جدید کربوکسیلیک اسید مفید واقع گردد.
In this research, Quantitative Structure–Activity Relationship (QSAR) study has been used for prediction of toxicity values of carboxylic acid derivatives. Firstly, the toxicity (LD50) values of data set of studied compounds were taken from the scientific web book and the their structures were drawn with the Gauss view 05 program and optimized at Hartree–Fock level of theory and 3-21G basis set by Gaussian 09 software. Then the dragon software was used for the calculation of molecular descriptors. The unsuitable descriptors were deleted with the aid of the genetic algorithm (GA) and backward techniques, and the best descriptors were used for multiple linear regression (MLR) and artificial neural network (ANN) models. The prediction accuracy of the final model was discussed using the statistical parameters. Leave-one-out cross-validation and external test set of the predictive models demonstrated a high-quality correlation between the observed and predicted toxicity values of all, training, test and validation sets in GA-ANN method. The model by ANN algorithm due to the lower error and higher regression coefficients was clearly superior to those models by MLR algorithm. The proposed model may be useful for predicting log LD50 of new compounds of similar class.
_||_