سلام، دوستان عزیز وقتتون بخیر!

    قسمت قبل راجع به یه سری از کلیات سیستم IR صحبت کردیم، و قرار شد برای این جلسه وقت بیشتری بزاریم رو مبحث خلاصه کردن متن ها اگه آماده هستین جلسه امروز رو شروع می کنیم.

    سوال اولی که ممکنه براتون پیش بیاد اینه که اصلا چه نیازی هست متن ها رو خلاصه سازی کنیم؟! در جواب باید خدمتتون عرض کنم زندگی ما تو دوره ای از زمان قرار گرفته که اطلاعات خیلی گسترده هستن و زمان کافی برای بررسی و پردازش کامل همه ی اونها نداریم. علاوه بر اون یه سیستم خلاصه متون که واقعا کارآمد باشه هم فعلا وجود نداره، درحالی که ما برای خلاصه کردن حجم زیادی کتابها، مقالات و اخبار نیاز به یک سامانه قدر داریم که این کارو برامون انجام بده. رو این موضوع تحقیقات زیادی انجام شده اما تا رسیدن به سیستمی که این کار رو مثل عامل هوشمند انسانی انجام بده تایم زیادی مونده ینی همچنان یه سری ضعف ها وجود داره. در واقع باید بدونیم انجام این عمل روی زبان فارسی به مراتب سخت تر هستش. پیچیدگی های زبانی که وجود داره و عدم وجود ابزار های مناسب برای کار با این زبان یه سد برامون محسوب میشه که نتونیم کارمون رو با اون سرعتی که می خوایم پیش ببریم.

    حالا باهم ادامه می دیم تا بامفاهیم این مبحث آشنا شیم.

     

    سند متنی :

    اگر اجزای یه زبان(کلمات، عبارات و جملات) به طور کاملا مفهومی و با یه ارتباط معنادار کنار هم قرار بگیرن بهش یه سند متنی گفته میشه.

    متن کاوی :

    ینی بدست آوردن اطلاعات جدیدبا استفاده از کامپیوتر و استخراج خودکار اونها. تو متن کاوی، متن ها تحلیل میشن و الگوهای مخفی که بینشون هست رو باید پیدا کنیم.پس متن کاوی ینی پیدا کردن ارتباط بین کلمه ها و جمله ها، طبقه بندی متن ها وخلاصه سازی شون.

    اما توجه به خلاصه سازی از کجا و کی به وجود اومد؟

    اولین بار حدود دهه ۵۰ بود که فردی به اسم Luhn این فعالیت ها رو شروع کرد. اوایل اساس کارش پیدا کردن کلماتی بود که خیلی تکرار شدن. از نظر ایشون وقتی یه کلمه به تعداد دفعات زیادی تکرار میشه ینی مهم هست، جمله ای که اون کلمه رو داره جزء جملات مهم و اون قسمت از متن مهم ترین قسمت بخشی هست که تو خلاصه سازی باید بهش توجه بشه. این روش باعث خطاهای زیادی می شد که بعد توسط خودشون یه سری اصلاحات روش انجام شد. برای مثال بعضی از فعل ها یا حروف اضافه تو خیلی از متن ها تکرار می شدن در صورتی که اطلاعات مهمی رو نمی رسوندن اما این رو باعث میشد تو دسته کلمات با فرکانس بالا قرار بگیرن. تو اصلاحات بعدی اومدن حروف اضافه و کلماتی که پرتکرار هستن رو از الگوهایی که قرار بود استخراج بشه حذف کردن. از اون به بعد بود که خلاصه سازی متن شکل مهم تری به خودش گرفت و دربارش تحقیقات زیادی انجام دادن  و روش های زیادی برای پردازش متن پیشنهاد شد که بتونن این کار رو مثل اون چیزی که تو مغز انسان انجام میشه شبیه سازی کنن. Edmondson نفر دومی بود که از بقیه ویژگی هایی که تو متن وجود داره برای بهینه کردن متن استفاده کرد.

    ایشون برای مشخص کردن ارزش هر جمله، ترکیب خطی این ویژگی ها رو در نظر گرفت.

    روش های ارائه شده برای بدست آوردن وزن جملات به این صورت بود:

    روش نشانه: این روش با استفاده از ارتباط بین کلمه ها و جمله ها بود ینی وجود یا عدم یک کلمه در جمله رو با استفاده از یه فرهنگ لغت بررسی میکردن.

    روش عنوان: وزن کلمه تو این روش براساس کلمات موجود تو عنوان ها و زیر عنوان ها محاسبه می شد.

    روش مکان: تو این روش مکان هر جمله با یه قسمت از متن و احتمال ارتباط بینشون مورد بررسی قرار می گرفت.

    نتایج به دست اومده از متن های خلاصه سازی شده با این روش ها  مشابه خلاصه سازی ها توسط انسان ها بود.

    اگر قسمت های قبلی رو نخوندین توصیه می کنم یه مرور کوتاه روشون انجام بدین، چون برای قسمت های بعدی نیازه اطلاعات پایه رو داشته باشین.مبحث این جلسه رو قسمت بعد تموم می کنیم.

    با ما باشید……

    خلاصه سازی متون

© تمامی حقوق مطالب برای وبسایت هفت دیزاین محفوظ است و هرگونه کپی برداری بدون ذکر منبع ممنوع و شرعا حرام می باشد.
قدرت گرفته از : بک لینکس