طبقهبندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن
محورهای موضوعی : انرژی های تجدیدپذیرحسین پورقاسم 1 * , محمد صادق هل فروش 2 , سبلان دانشور 3
1 - استادیار /دانشگاه آزاد اسلامی واحد نجفآباد
2 - استادیار /دانشگاه صنعتی شیراز
3 - استادیار /دانشگاه صنعتی سهند تبریز
کلید واژه: طبقهبندی محتوایی, تصاویر متنی و غیرمتنی, ارزشمندی اطلاعاتی, سیستمهای جمعآوری اطلاعات,
چکیده مقاله :
استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستمهای جمعآوری اطلاعاتی در حوزه تکنولوژی اطلاعات میباشد. این مسأله وقتی حادتر میگردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی میباشند. در این مقاله، جهت تجزیه و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقهبندی مبتنی بر ناحیهبندی تصویر استفاده شده است. در این الگوریتم به کمک یک روش ناحیهبندی دومرحلهای، نواحی تصویر شناسایی شده، سپس به کمک یک ساختار سلسلهمراتبی طبقهبندی، نوع ناحیه از لحاظ متنی یا عکسی (غیرمتنی) بودن مشخص میگردد. در ادامه با تعریف باارزش بودن متن یک تصویر متنی، سعی میشود تصویر متنی در یکی از دو گروه معنایی باارزش و بیارزش دستهبندی گردد. الگوریتم پیشنهادی بر روی یک پایگاه داده تصاویر متنی و غیرمتنی که از تصاویر موجود در اینترنت فراهم شده است، موردارزیابی قرار میگیرد. نتایج آزمایشها بیانگر کارایی روش پیشنهادی در طبقهبندی معنایی تصاویر براساس تعریف کاربر از باارزش و بیارزش بودن تصاویر متنی است. الگوریتم پیشنهادی، صحت طبقهبندی %98.8 برای طبقهبندی تصاویر متنی باارزش از بیارزش را فراهم کرده است.
Knowledge extraction from detected document image is a complex problem in the field of information technology. This problem becomes more intricate when we know, a negligible percentage of the detected document images are valuable. In this paper, a segmentation-based classification algorithm is used to analysis the document image. In this algorithm, using a two-stage segmentation approach, regions of the image are detected, and then classified to document and non-document (pure region) regions in the hierarchical classification. In this paper, a novel valuable definition is proposed to classify document image in to valuable or invaluable categories. The proposed algorithm is evaluated on a database consisting of the document and non-document image that provide from Internet. Experimental results show the efficiency of the proposed algorithm in the semantic document image classification. The proposed algorithm provides accuracy rate of 98.8% for valuable and invaluable document image classification problem.
_||_