تو چند قسمت قبلی باهم راجع به مفهوم SEO وچندتا از فاکتورای مهمه رنک دهی گوگل یه مطالبی یاد گرفتیم.
    امروز به بعد درمورد بازیابی اطلاعات و جست و جو در وب صحبت می کنیم.می خوایم بدونیم اسناد یا همون متن های ما چطور توسط گوگل شناسایی می شن.

    توی بعضی از کاربردها ما از داده های ساختار یافته استفاده نمی کنیم، بخاطر همین نمی تونیم از داده کاوی بهره ببریم. پس باید چه کاری انجام بدیم؟ اینجاست که پای web mining/text mining (روندی که اطلاعات رو از متن خارج می کنیم) به میون میاد. سروکارمون فقط با متن هست نه یه سری داده ی پردازش شده پس از علم Information Retrieval (IR) استفاده می کنیم.

    خب اگه شما یه کادر حاوی متن رو در نظر بگیرین اون متن ها از چندتا پاراگراف تشکیل شدن، هرپاراگراف شامل چندتا جملس وهر جمله از کلمات ساخته شده. برای اینکه متن رو تجزیه وتحلیل کنیم بایدبه ترتیب اول پاراگراف ها رو جداکنیم بعد جمله، کلمه وبعد حروف اضافه رو.

    هرکدوم از اجزای متن رو با یه قواعدی می تونیم تشخیص بدیم مثلا:

    تشخیص پاراگراف:بعد از نقطه enter زدن
    تشخص جمله:نقطه، علامت تعجب وعلائم نگارشی
    تشخیص کلمه:به ازای هر space
    خب بعد از بیرون کشیدن نتیجه تجزیه و تحلیل برامون مهمه که اطلاعات ایندکس گذاری بشن و ما بتونیم روشون کار کنیم.مرحله بعدی اینه که ببینیم query که زدیم درست هستش یا نه. برای مثال شما توی موتور جستجو عبارت”رشته مهندسی کامپیوتر” رو تایپ می کنید، در واقع شما می خواید گوگل تمام رشته مطالبی که داخلش مهندسی کامپیوتر به کار رفته رو براتون نمایش بده.
    سوال:چندتا مسئله پیش میاد اینکه query که زدیم درسته؟ ینی اون چیزی که تو ذهنمون هست و دنبالش هستیم رو با این عبارت میتونیم پیدا کنیم یا نه؟ یکی دیگه اینکه اطلاعاتی که گوگل برای ما به دست آورده مفید هست واسمون؟!
    خب گوگل میاد چندتا لینک رو فهرست میکنه برای شما:
    ۱_رشته ۲_مهندسی ۳_کامپیوتر ۴_مهندسی کامپیوتر ۵_رشته مهندسی کامپیوتر
    اون مطلبی که شما دنبالش هستی میشه مورد پنجم لینک هایی که برگردونده شده بریم جلوتر ببینیم گوگل چطور میتونه منظور شما رو بهتره بفهمه!

    IR یک سری وظایف داره، اونا چی هستن؟

    give (1                 ۲)find
    موتور جستجوی شما یک سری متن ها بهش داده میشه، که روش کار میشه و بهشون می گیم doc یا همون اسناد. از طرفی یک سری رشته مورد جست وجوی کاربر هست که بهش می گیم query. چیزی که کاربر می خواد اینه که، با توجه به query موردنظرش doc های رتبه بندی شده ای روببینه که مدنظرشه.شاید بپرسین داکیومنت های رتبه بندی شده چی هست؟در اصل تمامی متن های مشابه یا خلاصه شده مرتبط با query میشن داکیومنت رتبه بندی شده.این خلاصه سازی متن خودش طبق تکنیک های خاصی پیاده سازی میشه که تو قسمت بعد باهم راجع بهش صحبت می کنیم.

    آموزش سئو

    پس یه نمای کلی از کار IR خلاصه میشه تو چندتا مورد پایین:

    ۱) ایندکس گذاری و بازیابی اسناد متنی
    ۲) پیدا کردن اسناد (document) مربوط به query مورد نظر کاربر
    ۳) انتخاب چندتا از سندها برای نمایش به کاربر بین حجم وسیعی از اسناد مربوطه

    امیدوارم مطلب براتون مفید بوده باشه،منتظرم باشید تا قسمت بعدی!!!
    برای دیدن قسمت های قبلی بر روی لینک های زیر کلیک کنید.
    قسمت اول
    قسمت دوم
    قسمت سوم

© تمامی حقوق مطالب برای وبسایت هفت دیزاین محفوظ است و هرگونه کپی برداری بدون ذکر منبع ممنوع و شرعا حرام می باشد.
قدرت گرفته از : بک لینکس