رده:استخراج و بازیابی اطلاعات

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

بازیابی اطلاعات (Information Retrieval) به فن آوری و دانش پیچیده جستجو و استخراج اطلاعات، داده ها، و فراداده ها در انواع گوناگون منابع اطلاعاتی مثل بانک اسناد، مجموعه ای از تصاویر، و وب گفته می شود. با افزایش روز افزون حجم اطلاعات ذخیره شده در منابع قابل دسترس و مختلف، فرآیند بازیابی و استخراج اطلاعات اهمیت ویژه ای یافته است. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد. بر خلاف پایگاه داده ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیر مجموعه های آن مانند شبکه های اجتماعی از ساختار مشخصی پیروی نمی کنند و عموما دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات در چنین شرایطی، کمک به کاربر برای یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختار نیافته می باشد.
امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای داده های خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیداً وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستم های پردازشگر زبان مانند، بازیابی کننده های اطلاعات، خلاصه سازها، مترجم ها و ... احساس می شود.

محتویات

ابهام و انواع آن

يكي از مشكلات خاص در زمينه پردازش زبان طبيعي موضوع ابهام است كه با توجه به سطوح مختلف زبان داراي انواع مختلفي است. در واقع پردازش‌هاي زبان طبيعي به نوعي مي‌توانند به عنوان رفع كننده‌ي ابهام در يكي از اين سطوح ديده شوند. در ادامه به معرفي سطوح مختلف ابهام در زبان‌هاي طبيعي پرداخته شده است.

ابهام آوایی

در زبان‌هاي طبيعي هر يك از كلمات از تركيب آوا و صداهاي مختلف تشكيل شده است و تلفظ كلمات مختلف بر اساس آنها صورت مي‌‌گيرد. آواشناسي در واقع علمي است كه در آن به بررسي تلفظ كلمات و تركيب آواهاي مختلف مي‌‌پردازد. ابهام آوايي در واقع زماني رخ مي‌‌دهد كه يك كلمه بيش از يك تلفظ داشته باشد و يا چندين كلمه تلفظ يكساني داشته باشند. به عنوان مثال در زبان انگليسي كلمات write، right و rite همگي داراي تلفظ يكسان هستند. در زبان فارسي نيز دو كلمه " قضا" و " غذا" داراي تلفظ يكساني هستند، در حالي كه از لحاظ معنايي كاملا متفاوت هستند. برخي از برنامه‌هاي كاربردي پردازش زبان طبيعي مانند سيستم‌هاي تشخيص گفتار نيازمند رفع اينگونه ابهام هستند.

ابهام ریخت‌شناسی

ريخت‌شناسي علمي است كه به شناخت، تحليل و توصيف ساختار داخلي كلمات مي‌‌پردازد. در بسياري از موارد كلمات از لحاظ ساختار داخلي مي‌‌توانند مبهم باشند. به عنوان مثال در زبان فارسي تركيب برخي اسامي با " ان" باعث توليد اسم جمع مي‌‌شود. حال تشخيص اينكه " ان" مربوط به خود كلمه است و يا نشانه جمع آن كلمه است، ابهامي است كه بايد از طريق شناسايي الگوي داخلي اين كلمه آن را رفع كرد. اينكه كلمه " آبادان" جمع است يا مفرد ابهامي است كه در اين سطح به آن پرداخته مي‌‌شود.

ابهام نحوی

درك و فهم دقيق جملات در زبان‌هاي طبيعي با توجه به ساختار تركيبي كلمات در آن‌ها و اينكه اين ساختار مي‌‌تواند مبهم باشد نيازمند رفع ابهام هستند. به عنوان مثال نقش دستوري كلمات از مواردي است كه همواره در آن ابهام وجود دارد و كلمات زيادي وجود دارند كه مي‌-توانند در جايگاه‌هاي مختلف نقش‌هاي دستوري متفاوتي بگيرند. كلمه ديد در جمله "من دوستم را ديدم" به عنوان فعل ظاهر شده است در حالي كه در جمله "ديدم ضعيف است" نقش اسم را پذيرفته است. اين نوع ابهام، ابهام نحوي در سطح لغت مي‌باشد.
نوعي ديگري از ابهام نحوي در سطح جمله ديده مي‌شود. به عنوان مثال در جمله " آن مرد دختر را با تلسكوپ ديد" با توجه به اينكه چند معني متفاوت از آن برداشت مي‌شود، ابهام وجود دارد. اين ابهام به ابهام اتصال عبارت حرف اضافه معروف است كه باعث مي‌شود دو مفهوم متفاوت براي جمله حاصل شود.
1) آن مرد با استفاده از تلسكوپ دختر را ديد.
2) آن مرد دختري كه تلسكوپ دارد را ديد.
این جمله به تنهایی برای انسان نیز دارای ابهام است، ولی در صورتی که در کنار جملات دیگر دیده شود ممکن است ابهام آن برای انسان رفع شود. در مقایسه جمله "آن مرد دختر را با بستنی دید" برای انسان دارای ابهام نمی‌باشد، زیرا بستنی وسیله دیدن نیست و در نتیجه تنها یک برداشت از این جمله باقی می‍‌ماند. این در حالیست که برای رایانه هر دو جمله در یک سطح از ابهام قرار دارند.

ابهام معنایی

يك كلمه مي‌تواند بر اساس ساختار داخلي خود و از لحاظ معنايي مبهم بوده و معاني مختلفي از آن استنباط شود. اين پديده باعث مي‌شود تا اين كلمات در هنگام ظاهر شدن در جمله باعث بروز ابهام شوند. به عنوان مثال در زبان فارسي كلمه شير داراي معاني مختلفي است (شير به معناي نوعي حيوان، به معناي نوعي نوشيدني غذايي و همچنين به معناي يكي از ابزارآلات ساختماني). اين نوع ابهام براي انسان با توجه به دانش كلي پيرامون جمله حاوي كلمه مبهم به راحتي قابل حل است. اگر بتوان تمام اين دانش را نيز براي رايانه فراهم كرد، اين نوع ابهام توسط رايانه قابل حل است. اما بخش بسيار كمي از اين اطلاعات را مي‌‌توان بصورت قابل درك براي رايانه فراهم كرد. به عنوان مثال اطلاعاتي همچون كلمات مجاور كلمه مبهم و معني دقيق آنها، ادات سخن و يا اطلاعات آماري، تنها دانشي هستند كه براي رفع ابهام معنايي مي‌‌توان به رايانه ارائه داد. به عنوان مثال در صورتي كه كلمه جنگل در نزديكي كلمه مبهم "شير" در يك جمله ظاهر شود به احتمال زياد معني اول آن مورد نظر بوده است.
ابهام معنايي كلمات يكي از مشكلات اساسي در پردازش زبان طبيعي است كه رفع آن با توجه به نكاتي كه گفته شد، براي رايانه امري دشوار است. ابهام ‌زدايي معنايي كلمات يكي از زمينه-هاي تحقيقاتي در پردازش زبان طبيعي است كه در آن به حل ابهام معنايي پرداخته مي‌شود و هدف اصلي آن رفع ابهام معنايي كلمات است.
در بسياري از برنامه‌هاي كاربردي پردازش زبان طبيعي، همچون بازيابي اطلاعات و ترجمه ماشيني، ابهام زدايي معنايي امري ضروري و واجب است. ترجمه يك جمله مبهم توسط مترجم ماشيني مستلزم رفع ابهام چه در سطح جمله و چه در سطح كلمه است. در غير اين صورت ترجمه حاصل يا اشتباه است و يا داراي كيفيت پائيني است كه باعث كاهش دقت مترجم مي-شود. همچنين بازيابي اطلاعات مربوط به پرس‌وجوي مبهم توسط موتور جستجوگر ممكن است اطلاعات نامرتبط بيشتري به عنوان نتيجه ارائه دهد. در اينجا نيز به منظور افزايش دقت موتور جستجوگر نياز به ابهام زدايي معنايي الزامي به نظر مي‌رسد. در اين پروژه به بررسي ابهام زدايي معنايي كلمات پرداخته شده است و يك روش مبتني بر يادگيري بي‌مربي براي رفع ابهام كلمات انگليسي در هنگام ترجمه آنها به زبان فارسي ارائه شده است.

ابهام مباحثه

اين نوع ابهام در واقع به ابهاماتي مربوط مي‌‌شود كه از طريق تركيب اجزاء زبان بوجود مي‌‌آيند. به عنوان مثال عاملي كه مي تواند بوجود آورنده اين نوع ابهام در جمله باشد ارجاعات هستند. ضماير نمونه‌اي از ارجاعات جمله هستند كه مي‌توانند باعث ابهام شوند. به عنوان مثال در جمله "پدر علي باغبان است، من او را دوست دارم" ضمير" او" باعث ايجاد ابهام شده است. اينكه ضمير" او" به علي اشاره مي‌كند و يا به پدر علي، دو تعبير متفاوت از جمله است.

ابهام زدايي معنايي كلمات

كلمات اجزا اوليه و اساس ساختار زبان‌هاي طبيعي هستند، بنابراين درك و فهم كلمات براي كار با زبان‌هاي طبيعي لازم و ضروري است. بسياري از كلمات در يك زبان مي‌توانند با وجود شكل ظاهري يكسان معاني متفاوتي داشته باشند. به عنوان مثال در زبان فارسي كلمه "شير" داراي چندين معني متفاوت است(شير به معناي نوعي حيوان، به معناي نوعي نوشيدني غذايي و همچنين به معناي يكي از ابزارآلات ساختماني). اين پديده باعث ايجاد ابهام براي فهم جمله و يا متني ميشود كه آن كلمه در آن بكار برده شده است.
وجود معاني مختلف براي كلمه مبهم باعث شده است ابهام زدايي خودكار كلمه مبهم و انتخاب معني درست آن با توجه به متني كه در آن بكار رفته است، يکي از مراحل مهم و در عين حال چالش‌انگيز در زمينه پردازش زبان طبيعي به شمار آيد. ابهام زدايي معنايي كلمات به انتخاب درست معني كلمه مبهم با توجه به متني كه در آن بكار برده شده است اطلاق مي‌شود. ابهام زدايي معنايي كلمات به تنهايي هدف نمي‌باشد بلكه به عنوان يك كار مياني در سيستم‌هاي ديگر از جمله ترجمه ماشيني و يا بازيابي اطلاعات مورد استفاده قرار ميگيرد و باعث افزايش دقت آنها مي‌شود. ابهام زدايي معاني كلمات در حقيقت نوعي عمل دسته‌بندي است كه در آن معاني مختلف به عنوان دسته‌ها در نظر گرفته مي‌شود. وظيفه الگوريتم هاي ابهام زدايي در واقع انتساب هر وقوع يك كلمه مبهم به دسته مناسب بر اساس متني است كه كلمه در آن بكار برده شده است.
در حالت كلي، الگوريتم‌هاي ابهام‌زدايي معنايي كلمات، كلمات مبهم در متن را به همراه معاني مختلف آنها به عنوان ورودي دريافت كرده و معني درست كلمه را با توجه به جايگاه استفاده از آن در متن به عنوان خروجي ارائه مي‌دهند. ورودي بر اساس برنامه كاربردي مورد نظر مي‌تواند متفاوت باشد. به عنوان مثال در يك مترجم ماشيني انگليسي به فارسي، ورودي ترجمه‌هاي مختلف فارسي كلمات مبهم انگليسي هستند. عوامل مختلفي عمل ابهام زدايي معاني كلمات را با مشكل مواجه مي‌سازد. يكي از اين عوامل تعريف معاني مختلف براي يك كلمه مبهم مي‌باشد. در فرهنگ لغت هر كلمه شامل ليستي از معاني جدا از هم است كه ممكن است از يك فرهنگ لغت به فرهنگ لغت ديگر متفاوت باشد. در بسياري از موارد معاني مختلف به يكديگر مرتبط مي‌باشند و جداسازي آنها از يكديگر سخت و مبهم است. اولين مرحله در ابهام زدايي معنايي كلمات، جمع آوري معاني مختلف كلمه مبهم است. ليست معاني مختلف ممكن است تمامي معاني يك كلمه را شامل شود و يا بسته به دامنه معنايي متني كه در آن بكار رفته است تنها بخشي از معاني مرتبط با آن دامنه معنايي انتخاب شود. معاني مختلف يك كلمه مبهم مي‌تواند از منابع مختلفي استخراج شوند. به عنوان مثال معاني موجود در فرهنگ لغات و يا توضيحات و طبقه‌بندي در فرهنگ‌هاي جامع مي‌توانند منابعي به منظور استخراج معاني مختلف كلمه مبهم در نظر گرفته شوند.
هيچ يك از اين منابع دانش كامل نبوده و هر يك از آنها داراي كاستي‌هاي خاص خود مي‌باشند. به عنوان مثال طبقه‌بندي موجود در فرهنگ جامع تفكيك درشت دانه‌اي را فراهم مي‌سازند و به همين دليل كلمات با درجه عموميت بالا را به علت اينكه معاني مختلف آن در يك طبقه قرار مي‌گيرند، نمي توان به راحتي ابهام زدايي كرد. حتي ليست موجود در فرهنگ لغات و يا هستان-شناسي‌ها كه كاربرد فراواني در پردازش زبان طبيعي دارند، داراي مشكلاتي مي‌باشند. علاوه بر اين اطلاعات موجود در آنها ممكن است نسبت به يكديگر متفاوت باشد و اين باعث مي‌شود سيستم‌هايي كه از فرهنگ لغات متفاوت استفاده مي‌كنند قابليت مقايسه با يكديگر را نداشته باشند.
مشكل ديگري كه محققان در زمينه ابهام زدايي معنايي كلمات و استخراج معاني ممكن براي كلمه مبهم با آن مواجه مي‌باشند، مسئله دانه‌بندي معاني است. در برخي موارد ممكن است تفاوت‌هاي اساسي در معاني مختلف عامل تفكيك آنها باشد. اصطلاحاً به اين نوع تفكيك ، تفكيك درشت دانه‌اي اطلاق مي‌شود كه باعث نتايج كاري مقايسه‌پذيرتر مي‌شوند. اين در حالي است كه در برخي كاربردها اين سطح از تفكيك معاني به اندازه كافي پاسخگو نمي‌باشد. در اين حالت نياز به تفكيك ريز دانه‌تري است تا بتوان بر اساس آن و با جزئيات بيشتر عمل ابهام‌زدايي را انجام داد. براي انسان، متني كه كلمه مبهم در آن ظاهر مي‌شود به عنوان منبع دانشي فراتر از يك جمله و يا پاراگراف است كه باعث مي‌شود انسان در درك و فهم زبان مشكل چنداني نداشته و به راحتي بتواند معناي درست كلمات جمله را فهميده و در نهايت مفهوم كل جمله را درك كند. مدل كردن تمام اين دانش بصورت اطلاعاتي كه براي برنامه رايانه‌اي قابل استفاده و ارجاع باشد در حقيقت يكي از اهداف محقق نشده در هوش مصنوعي است. كمبود اينگونه اطلاعات براي رايانه و عدم توانايي در فراهم سازي آنها باعث شده است تا از اطلاعات جايگزين ديگري همچون اطلاعات آماري كه امكان استخراج آن براي رايانه وجود دارد براي ابهام زدايي استفاده شود.
عدم وجود استاندارد خاص و همچنين توافق بين زبان‌شناسان براي تمايز و تعاريف معاني مختلف يك كلمه، همچنين عدم توانايي رايانه در جمع‌آوري اطلاعات جامع قابل استفاده پيرامون كلمات مبهم همان‌طور كه گفته شد از جمله مشكلاتي است كه همچنان براي ابهام‌زدايي معنايي كلمات وجود دارد و باعث شده است تحقيقات در اين زمينه ادامه داشته و روش-هاي مختلفي براي مقابله با آن ارائه شود.
همان‌طور كه گفته شد، ابهام‌زدايي معنايي كلمات به تنهايي هدف نمي‌باشد بلكه به عنوان يك مرحله مياني و تكميل كننده در بسياري از برنامه‌هاي كاربردي پردازش زبان طبيعي به منظور افزايش دقت آنها بكار گرفته مي‌شود. برنامه‌هاي كاربردي كه در آنها نياز به درك و فهم زبان است، با توجه به ابهام در زبان و بخصوص ابهام در سطح كلمات زبان، ابهام زدايي معنايي را به عنوان يكي از مراحل مياني و لازم مورد توجه قرار مي‌دهند. در زير نمونه‌اي از برنامه‌هاي كاربردي در حوزه پردازش زبان طبيعي كه در آنها نياز به ابهام‌زدايي معنايي كلمات وجود دارد آورده شده است.
1) ترجمه ماشيني : در هنگام خواندن يك متن به دفعات با كلماتي روبرو مي¬شويم كه براي آنها در زباني ديگر بيش از يك معني معادل وجود دارد. اين نوع چند معنايي و يا به عبارت ديگر ابهام، براي سيستم‌هاي مترجم ماشيني چالشي بزرگ به¬شمار مي‌آيد و رفع آن به دقت و كارايي اين برنامه‌ها مي‌افزايد. در اين حالت به يك پردازش جهت ابهام زدايي نياز است كه توسط آن بهترين معني ممكن براي ترجمه انتخاب شود. به عنوان مثال در يك مترجم ماشيني انگليسي به فارسي، كلمه paper مي‌تواند به كاغذ، روزنامه و مقاله ترجمه شود. بنابراين براي ترجمه درست جمله‌اي كه شامل اين كلمه مبهم مي‌باشد نياز به ابهام‌زدايي معاني وجود دارد.
2) بازيابي اطلاعات : ابهام معنايي ممكن است در پرس‌وجوهاي ارائه شده به يك موتور جستجوگر وجود داشته باشد. بنابراين اگر عمل ابهام‌زدايي در اين پرس‌وجوها صورت نگيرد ممكن است اسناد غير مرتبط با آنچه كاربر انتظار دارد بازيابي شود. به عنوان مثال براي پرس‌‍وجويي كه در آن كلمه شير وجود دارد سيستم كدام معني از آن را بايد بازيابي كند؟ (نوعي حيوان، نوعي نوشيدني و يا يكي از ابزارآلات ساختماني). با اين حال در بسياري از موارد با توجه به پرس‌وجوي كاربر امكان ابهام زدايي وجود دارد. به عنوان مثال در پرس‌وجوي" فوايد نوشيدن شير"، با توجه به كلمه نوشيدن مي‌‌توان معني درست كلمه شير را پيدا كرد.
3) پردازش متن : ابهام‌زدايي معنايي كلمات براي پردازش‌هايي كه بر روي متون صورت مي‌گيرند نيز لازم هستند. چك‌كردن متون از لحاظ نوشتار يكي از اين پردازش‌ها است. به عنوان مثال در برخي زبان‌ها لغات در برخي جايگاه‌ها نياز به نشانه‌هاي جدا‌كننده دارند و يا برخي حروف بايد به شكل بزرگ آنها نوشته شوند. براي اين منظور ابتدا بايد معني درست كلمات شناخته شود تا بر اساس آن اقدامات لازم براي تصحيح نوشتار آنها انجام پذيرد. علاوه بر آن بررسي متون از لحاظ ساختار نحوي و تصحيح خطا در اين زمينه نيازمند ابهام‌زدايي معنايي است.
4) پردازش گفتار : در برخي موارد كلمات مبهم بر اساس معاني مختلف ممكن است تلفظ‌هاي متفاوتي داشته باشند. بر اين اساس براي بيان خودكار آنها نياز است تا ابتدا معناي درست اين كلمات تشخيص داده شود تا تلفظ درست آنها پيدا شود.
با وجود اينكه در هيچ كدام از برنامه‌هاي كاربردي ذكر شده ابهام زدايي معنايي كلمات به صورت مستقيم اعمال نمي‌شود، با اين حال مشخص است كه ابهام زدايي براي آنها كاملا ضروري است و بصورت غير مستقيم در تمام آنها اعمال مي‌شود. تحقيق بر روي ابهام زدايي معنايي بصورت مستقيم مي‌تواند به روشن شدن جنبه‌هايي منتج شود كه بتوان از آنها در ابهام زدايي غير مستقيم استفاده كرد.

روش‌هاي ابهام زدايي معنايي كلمات

در اين فصل طبقه‌‌‌‌بندي روش‌‌‌‌هاي مختلف ابهام زدايي معنايي بين شده و مثالي براي هر يك ارائه شده است. همچنين در انتهاي فصل خلاصه‌‌‌‌اي از روش‌‌‌‌هاي اعمال شده در زبان فارسي نيز ارائه شده است.
روش‌‌‌‌هاي موجود براي ابهام‌‌‌‌زدايي معنايي كلمات مي‌‌‌‌تواند بر اساس معيار‌‌‌‌هاي مختلف دسته‌‌‌‌بندي شوند. براي نمونه يكي از معيار‌‌‌‌هايي كه روش‌‌‌‌هاي مختلف ابهام‌‌‌‌زدايي معاني كلمات بر اساس آن دسته‌‌‌‌بندي مي‌‌‌‌شوند، منبع دانشي است كه با استفاده از آن اطلاعات مورد نياز پيرامون معاني كلمه مبهم گرد‌‌‌‌آوري مي‌‌‌‌شود. بر اساس اين معيار روش‌‌‌‌هاي موجود براي ابهام زدايي معنايي كلمات به سه دسته كلي زير تقسيم بندي مي‌‌‌‌شوند:
• روش‌‌‌‌هاي مبتني بر دانش
• روش‌‌‌‌هاي مبتني بر پيكره متني
• روش‌‌‌‌هاي تركيبي
شكل زیر اين دسته بندي را بصورت كامل نشان مي‌دهد.
Shekle 2.1.jpg

روش‌‌‌‌هاي مبتني بر دانش

در اين روش‌‌‌‌ها اطلاعات مورد نياز پيرامون معاني مختلف كلمات از منابع دانشي لغوي استخراج مي‌‌‌‌شود و در آنها از پيكره‌‌‌‌هاي متني استفاده‌‌‌‌اي نمي‌‌‌‌شود. فرهنگ‌‌‌‌لغات، فرهنگ‌‌‌‌هاي جامع، هستان‌‌‌‌شناسي‌‌‌‌ها و غيره، منابع دانش لغوي مي‌‌‌‌باشند كه در اين روش‌‌‌‌ها مورد استفاده قرار ميگيرد. اين منابع شامل اطلاعاتي همچون تعاريف و طبقه‌‌‌‌بندي معنايي كلمات در فرهنگ ‌‌‌‌لغات‌‌‌‌ قابل خواندن توسط ماشين و فرهنگ جامع و يا روابط سلسله‌‌‌‌مراتبي كلمات در هستان‌‌‌‌شناسي‌ها (شبکه واژگان) مي‌‌‌‌باشند.
ابهام زدايي بر اساس تعاريف موجود در فرهنگ‌‌‌‌ لغات
اطلاعات موجود در فرهنگ لغات مي‌‌‌‌تواند شاخص خوبي براي بدست آوردن معني درست كلمه در متن باشد. لسك براي اولين بار روش ساده‌‌‌‌اي براي ابهام‌‌‌‌زدايي معنايي كلمات بر اساس اطلاعات موجود در فرهنگ ‌‌‌‌لغت ارائه داد. تنها منبع دانش مورد نياز در اين روش تعريف موجود در فرهنگ ‌‌‌‌لغت براي هر يك از معاني كلمات مي‌‌‌‌باشد. ايده اوليه در اين روش بر اساس تعداد همپوشاني لغات موجود در تعريف معاني كلمات در فرهنگ لغت بنا شده بود. به عنوان مثال براي دو كلمهw_1 و w_2 ، به ازاي هر يك از جفت معاني مختلف آنها در فرهنگ لغت، تعداد همپوشاني كلمات موجود در تعريف آنها محاسبه شده و در نهايت جفت معني با همپوشاني بيشتر به عنوان معاني درست انتخاب مي‌‌‌‌شوند. دقت 50 تا 70 درصدي براي اين الگوريتم گزارش شده است . مراحل اصلي اين الگوريتم در شكل زیر نشان شده است.
Shekle 2.2.jpg
در سال‌‌‌‌هاي بعد نسخه‌‌‌‌هاي مختلفي از الگوريتم اوليه لسك و با تغييراتي براي بهبود آن توسط محققان ديگر ارائه شد. در الگوريتم اوليه زماني كه بيشتر از دو كلمه براي ابهام زدايي در نظر گرفته شود، تعداد حالات ممكن براي در نظر گرفتن جفت معاني مختلف رابطه تواني با افزايش تعداد كلمات دارد و اين يكي از نقاط ضعف اين الگوريتم محسوب مي‌‌‌‌شد.
در روشی دیگر با استفاده از روش شبيه‌‌‌‌سازي ذوب فلزات الگوريتمي براي مقابله با اين مشكل ارائه داد. در اين روش ابتدا معني با بيشترين استفاده براي هر يك از كلمات متن انتخاب و تعاريف آنها از فرهنگ‌‌‌‌لغت استخراج مي‌‌‌‌شود. هر كلمه كه حداقل يك بار در اين مجموعه تعاريف ظاهر شده باشد امتيازي برابر با تعداد رخدادش در آن مجموعه دريافت مي‌‌‌‌كند. مجموع اين اعداد افزونگي متن را نشان مي‌‌‌‌دهد. در ادامه تابعي كه مقدار آن عكس افزونگي متن است تعريف مي‌‌‌‌شود و هدف بدست آوردن تركيبي از معاني است كه اين تابع را حداقل كند. اين عمل با عوض كردن تصادفي معني يكي از كلمات و محاسبه دوباره تابع تا زماني كه تغييري حاصل نشود ادامه پيدا مي‌‌‌‌كند. اين الگوريتم دقتي حدود دقت الگوريتم اوليه دارا بود.
Shekle 2.3.jpg
نسخه ديگري از الگوريتم لسك كه به نسخه ساده‌‌‌‌سازي شده معروف مي‌‌‌‌باشد، عمل ابهام‌‌‌‌زدايي را براي هر يك از كلمات متن بطور جداگانه انجام مي‌‌‌‌دهد. بر اساس اين الگوريتم تعداد كلمات مشترك بين معاني مختلف كلمه مبهم و متن حاوي آن محاسبه شده و معني كه تعريف آن بيشترين اشتراك را با متن از لحاظ تعداد كلمه دارد به عنوان معني درست انتخاب مي‌‌‌‌شود. شكل قبل شبه‌‌‌‌كد مربوط به اين الگوريتم را نشان مي‌‌‌‌دهد. به عنوان مثال كلمه انگليسي "Ash" داراي دو معني مختلف مي باشد كه در جدول زیر تعاريف اين معاني آورده شده است.
Jadvale 2.1.jpg
در صورتي كه بخواهيم اين كلمه را ابهام زدايي كنيم با توجه به اين روش به تعداد همپوشاني تعداد كلمات مشترك بين معاني و جملات نگاه مي‌‌‌‌كنيم. همانطور كه در جدول 3-2 آورده شده است جمله اول با تعريف دوم داراي يك كلمه مشترك مي‌‌‌‌باشد و اين در حالي است كه با تعريف اول اشتراكي ندارد. بنابراين معني دوم اين كلمه انتخاب مي‌‌‌‌شود. و به همين ترتيب براي جمله دوم معني اول انتخاب مي‌‌‌‌شود.
Jadvale 2.2.jpg
آزمايشاتي كه براي اين الگوريتم انجام شد نشان داد كه هم از لحاظ دقت و هم از لحاظ كارايي اين الگوريتم به مراتب بهتر از الگوريتم اوليه لسك مي‌‌‌‌باشد.
ابهام زدايي بر اساس تشابه معنايي
كلمات براي بوجود آوردن پيوستگي معنايي متن نياز دارند كه خود نيز از لحاظ معنايي داراي وابستگي باشند. اين يكي از خصوصيات طبيعي زبان و همچنين يكي از محدوديت‌‌‌‌هاي مهم براي ابهام زدايي معاني محسوب مي‌‌‌‌شود. كلماتي كه در يك متن و در كنار هم ظاهر مي‌‌‌‌شوند معمولا از لحاظ معنايي به يكديگر وابسته مي‌‌‌‌باشند و به همين دليل يكي از ملاك‌‌‌‌هاي خوب براي بدست آوردن معني درست كلمات، انتخاب معاني با فاصله معنايي كمتر است.
اين محدوديت در كل يك متن صادق است ولي معمولا براي ابهام زدايي روش‌‌‌‌هاي مختلف محدوديتي از لحاظ فاصله بين كلمات در نظر مي‌‌‌‌گيرند و تنها كلماتي كه در نزديكي و مجاورت كلمه مبهم وجود دارند را در نظر مي‌‌‌‌گيرند و به مابقي متن توجهي ندارد. براي بدست آوردن تشابه معنايي دو كلمه معيار‌‌‌‌هاي مختلفي وجود. بيشتر اين معيار‌‌‌‌ها بر اساس روابط موجود درشبكه‌‌‌‌هاي معنايي مي‌‌‌‌باشند كه اولين بار در مورد توجه قرار گرفت.
در روشي بر اساس پنج معيار‌‌‌‌ تشابه معنايي پيشنهاد شد كه در آن با توجه به فاصله معنايي كلمه مبهم با كلمات مجاورش (يكي از سمت چپ و يكي از سمت راست)عمل ابهام زدايي انجام مي‌‌‌‌گرفت. بر اساس اين روش معني كه كمترين فاصله معنايي با كلمات مجاور را دارا بود به عنوان پاسخ صحيح انتخاب مي‌‌‌‌شد.
استفاده از وابستگي‌‌‌‌هاي نحوي در جملات يكي ديگر از محدوديت‌‌‌‌هايي است كه مي‌‌‌‌شود براي اعمال تشابه معنايي در نظر گرفت. به عبارت ديگر به‌‌‌‌جاي در نظر گرفتن كلمات مجاور مي‌‌‌‌توان كلماتي كه از لحاظ نحوي با كلمه مبهم در ارتباط هستند براي محاسبه فاصله معنايي در نظر گرفته شوند.
ابهام زدايي بر اساس اولويت‌‌‌‌هاي انتخابي
اولويت‌‌‌‌ انتخابي معياري است كه در آن معاني ممكن براي يك كلمه مبهم محدود مي‌‌‌‌شوند. اين محدوديت‌‌‌‌ها بر اساس متني است كه كلمه مبهم در آن قرار مي‌‌‌‌گيرد و در حقيقت روابط ممكن بين طبقات معنايي كلمات مي‌‌‌‌باشد (خوردن-غذا ، نوشيدن-مايعات). اين روابط بصورت قوانين معنايي هستند كه از انتخاب معاني نادرست كلمات مبهم جلوگيري مي‌‌‌‌كنند. به عنوان مثال در جمله علي شير مي‌‌‌‌نوشد، با توجه به متن، معني كلمه شير به عنوان نوعي حيوان نمي‌‌‌‌تواند مورد نظر باشد، زيرا فعل نوشيدن نياز به نوعي مايع به عنوان مفعول مستقيم خود دارد. در نتيجه در اين متن شير به عنوان نوعي ماده غذايي مورد نظر مي‌‌‌‌باشد.
از آنجايي كه اين نوع روابط بصورت ذاتي و ادراكي است، استخراج و استفاده از آنها براي ابهام زدايي معاني عمل دشواري است. رابطه بين ابهام‌‌‌‌زدايي معاني و اولويت‌‌‌‌هاي انتخابي رابطه‌‌‌‌اي دو طرفه مي‌‌‌‌باشد. به عبارت ديگر يادگيري صحيح اين محدوديت‌‌‌‌ها نياز به اطلاعات دقيق پيرامون كلمه مبهم دارد و برعكس، ابهام زدايي معاني با در اختيار داشتن تعداد بيشتر اولويت‌‌‌‌هاي انتخابي مي‌‌‌‌تواند بصورت دقيقتر انجام گيرد.
در اين رابطه دوطرفه براي ارتقاء كيفيت ابهام زدايي بايد روشي پيدا كرد كه با استفاده از آن بتوان اولويت‌‌‌‌هاي انتخابي را بر اساس آن بدست آورد. در اين رابطه افراد مختلف روش‌‌‌‌هاي متفاوتي را براي استخراج خودكار اين روابط ارائه داده‌‌‌‌اند.
ابهام زدايي بر اساس فرهنگ جامع
استفاده از فرهنگ‌‌‌‌جامع و اطلاعات موجود در آن مي‌‌‌‌تواند ابزار خوبي براي ابهام‌‌‌‌زدايي باشد. از جمله اين اطلاعات مي‌‌‌‌توان به طبقه‌‌‌‌بندي مفهومي اشاره كرد. اين طبقه‌‌‌‌بندي به عنوان مثال در لانگ‌‌‌‌من كه يك فرهنگ جامع با طبقه‌‌‌‌بندي موضوعي است فراهم شده است. ايده اساسي در اين روش‌‌‌‌ها اين است كه با توجه به طبقه مفهومي كلمات يك متن مي‌‌‌‌توان به طبقه مفهومي خود متن پي برد و از روي اين اطلاعات معني درست كلمات را پيدا كرد.
در اين روش‌‌‌‌ها از طبقه بندي مفهومي لغات كه از منابع دانشي همچون فرهنگ جامع راجت استخراج مي‌‌‌‌شوند، استفاده مي‌‌‌‌كنند و اساس كار آنها بر مبناي 3 ايده‌‌‌‌ي زير مي‌‌‌‌باشد.
-لغات در كلاس‌‌‌‌هاي مفهومي متفاوت، در متون متفاوتي قرار مي‌‌‌‌گيرند.
- معاني مختلف يك كلمه مبهم تمايل دارند در كلاس‌‌‌‌هاي مفهومي متفاوتي ظاهر شوند. به عنوان مثال معاني مختلف كلمه‌‌‌‌ شير به كلاس‌‌‌‌هاي مفهومي جداگانه‌‌‌‌اي تعلق دارند(كلاس مفهومي حيوانات، كلاس مفهومي ابزار آلات ساختماني و كلاس مفهومي نوشيدني‌‌‌‌ها).
-اگر كسي بتواند يك تفكيك كننده براي كلاس‌‌‌‌هاي مفهومي مختلف بسازد، تفكيك كننده‌‌‌‌اي براي معاني مختلف كلمه كه به آن كلاس‌‌‌‌ها متعلق مي‌‌‌‌باشند نيز ساخته است. بنابراين شاخص‌‌‌‌هاي مفهومي كلاس‌‌‌‌هاي راجت مي‌‌‌‌توانند شاخص خوبي براي اعضاء آن كلاس باشند.
در کاری دیگر روش ساده‌‌‌‌اي ارائه شده است كه در آن از اين حقيقت بهره برده است كه كلمات موجود در متن و كلاس مفهومي آنها ميتواند معياري براي مشخص كردن كلاس مفهومي كل متن و در نتيجه كلمه مبهم داخل آن باشد.
هر كلمه در فرهنگ جامع راجت داراي كد موضوع خاص مي‌‌‌‌باشد. در صورتي كه هر كلمه داراي چند كد موضوع خاص باشد فرض شده است كه هر كد موضوع متناسب با معني خاصي از آن كلمه مي‌‌‌‌باشد. در اين روش فرض شده است t(s_k) كد موضوع براي معني s_kام كلمه مبهم w در متن c است. كلمه w مي‌‌‌‌تواند با شمارش تعداد كلمات در هر يك از كلاس‌‌‌‌هاي مفهومي با كد موضوع t(s_k) ابهام زدايي شود. براي اين منظور كد موضوع با بيشترين شمارش را به عنوان كد موضوع كلمه مبهم انتخاب مي كنيم.در شكل زیر شبه كد اين روش آورده شده است.
Shekle 2.4.jpg
در سال 1992، الگوريتمي پيشنهاد شد كه در آن سعي شده بود تا كلمات شاخص براي كلاس‌‌‌‌هاي مفهومي مختلف شناسايي، وزن دهي و مورد استفاده قرار گيرند. اين كار طي 3 مرحله زير صورت مي‌‌‌‌پذيرفت.
1• جمع آوري متوني كه بيان كننده كلاس‌‌‌‌هاي مفهومي راجت باشند. هدف از اين مرحله جمع‌‌‌‌آوري كلماتي است كه معمولا در متون مختلف كلاس‌‌‌‌هاي مفهومي راجت يافت مي‌‌‌‌شوند. براي اين منظور از 100 كلمه مجاور كلمات عضو كلاس‌‌‌‌هاي راجت در پيكره متني استفاده شد.
2• مشخص كردن كلمات شاخص در متون انتخاب شده و تخصيص وزن مناسب براي هر يك از آنها. كلمه شاخص، كلمه‌‌‌‌اي است كه از لحاظ تعداد تكرار بيشتر در متون كلاس مورد نظر ديده شود. براي وزن‌‌‌‌دهي به اين كلمات از رابطه زیر استفاده مي‌‌‌‌شود كه در حقيقت از تقسيم احتمال رخداد كلمه در كلاس مفهومي به احتمال رخداد كلمه در كل پيكره حاصل مي‌‌‌‌شود. در جدول زیر نمونه-اي از اين كلمات براي كلاس اشياء/ماشين‌‌‌‌آلات آورده شده است. قابل ذكر است كه اين كلمات متعلق به كلاس مفهومي مورد نظر نيستند بلكه تنها كلماتي هستند كه بيشتر تمايل دارند با كلمات كلاس مفهومي مورد نظر بيايند.
Formule vazn.jpg
3• استفاده از كلمات شاخص و وزن آنها براي پيش‌‌‌‌بيني كلاس مفهومي مناسب كلمات مبهم كه در متون جديد ديده مي‌‌‌‌شوند. وجود يكي از كلمات شاخص، كه در مرحله قبل و از روي داده‌‌‌‌هاي يادگيري بدست آمد، در متن حاوي كلمه مبهم، نشان دهنده تعلق كلمه به آن كلاس خاص مي‌‌‌‌باشد. به عبارت ديگر هر چه تعداد كلمات شاخص مربوط به يك كلاس مفهومي خاص در متن بيشتر باشد احتمال اينكه متن نيز مربوط به آن كلاس مفهومي باشد نيز بيشتر است.
براي بدست آوردن كلاس يك متن جديد ، ابتدا وزن‌‌‌‌هاي كلمات شاخص هر كلاس كه در آن متن ظاهر شده‌‌‌‌اند را جمع كرده و كلاسي كه بيشترين وزن را داراست به عنوان كلاس مفهومي آن متن در نظر مي‌‌‌‌گيريم.
Jadvale 2.3.jpg
در اينجا متن مورد نظر مي‌‌‌‌تواند به عنوان مثال كلمه مبهم به همراه 50 كلمه در دو سمت آن باشد. عمل ماكزيمم‌‌‌‌گيري تنها بر روي كلاس‌‌‌‌هايي اعمال مي شود كه معاني مختلف كلمه مبهم به آنها تعلق دارند و در نهايت معني متعلق به كلاس مفهومي با بيشترين وزن به عنوان معني مناسب انتخاب مي‌‌‌‌شود.
كارايي اين سيستم زماني است كه كلمات مبهم داراي مفاهيم گسترده باشد. به عبارت ديگر معاني مختلف آن در كلاس‌‌‌‌هاي معنايي متفاوتي قرار گيرد. اين ويژگي ببيشتر براي اسامي ديده مي‌‌‌‌شود. اين روش بر روي 12 كلمه مورد ارزيابي قرار گرفته است و بطور ميانگين ميزان كارايي سيستم با توجه به اين 12 كلمه 92% مي‌‌‌‌باشد. نمونه‌‌‌‌اي از كلمات شاخص براي دو كلاس مفهومي متفاوت در جدول فوق آورده شده است.
عملكرد اين روش در مواردي كه در ادامه ذكر مي‌‌‌‌شود ضعيف و نامناسب مي‌‌‌‌باشد.
• تفكيك‌‌‌‌هاي مستقل از موضوع : در بسياري از موارد معاني ممكن است مستقل از موضوع باشند به عبارت ديگر نتوان براي يك معني كلاس مفهومي خاصي در نظر گرفت.
• عدم تفكيك معاني در يك كلاس مفهومي: كلمات مبهمي كه معاني مختلف آن متعلق به يك كلاس مفهومي مي‌‌‌‌باشند با استفاده از اين روش نمي‌‌‌‌توانند به خوبي ابهام زدايي شوند
• افعال: مشكل مستقل بودن از موضوع در افعال بيشتر ديده مي‌‌‌‌شود و براي ابهام زدايي آنها نياز است از اطلاعات بيشتري استفاده شود. با اين حال اين روش براي برخي از افعال كه در دامنه گسترده‌‌‌‌تري از مفاهيم قرار مي‌‌‌‌گيرند مي‌‌‌‌تواند مناسب باشد.
• اصطلاحات: روش بالا كه روشي بر اساس موضوع مي باشد براي اصطلاحات كارايي خوبي ندارد. كلمات يك اصطلاح معمولا به فرم ثابتي در جملات بيان مي‌‌‌‌شوند و نياز به اطلاعات بيشتري علاوه بر اطلاعات متني براي ابهام زدايي دارند.
از آنجايي كه فرهنگ‌‌‌‌هاي جامع همچون فرهنگ‌‌‌‌ لغات به عنوان يك منبع دانش و براي استفاده انسان‌‌‌‌ ساخته شده است، نمي‌‌‌‌تواند اطلاعات كاملي از رابطه بين كلمات را دارا باشد. بسياري از سلسله‌‌‌‌ مراتب معنايي در آنها و همچنين نحوه طبقه‌‌‌‌بندي مفهومي مورد توافق همگان نبوده و اختلاف نظر‌‌‌‌ها در اين زمينه وجود دارد. با اين حال فرهنگ‌‌‌‌هاي جامع شبكه‌‌‌‌اي قوي از وابستگي‌‌‌‌هاي كلمات و همچنين مجموعه‌‌‌‌اي از طبقه‌‌‌‌بندي‌‌‌‌هاي مهفومي را دارا مي‌‌‌‌باشند كه در بسياري از برنامه‌‌‌‌هاي كاربردي پردازش زبان مورد استفاده قرار مي‌‌‌‌گيرند. اين در حالي است كه از اين منبع دانش در ابهام زدايي زياد استفاده نشده است.
ابهام زدايي بر اساس شبکه واژگان
همانطور كه گفته شد، شبکه واژگان يك منبع دانش لغوي است كه علاوه بر معاني مختلف كلمات و تعاريف آنها روابط معنايي مختلف بين كلمات را نيز بر اساس ساختار سلسله‌‌‌‌مراتبي فراهم آورده است. امروزه با توجه به كامل بودن و در دسترس بودن شبکه واژگان روش‌‌‌‌هاي بسياري در زمينه ابهام زدايي معنايي كلمات با استفاده از شبکه واژگان پيشنهاد شده است. گزارشي كه ارائه شده است، نشان مي‌‌‌‌‌دهد در صورتي كه از شبکه واژگان به عنوان منبع لغت استفاده شود و اولين معني از آن براي هر كلمه انتخاب شود، با توجه به اينكه معاني كلمات در شبکه واژگان بر اساس كاربرد مرتب شده‌‌‌‌اند، دقتي برابر با 57% حاصل مي‌-شود. در روشی از روابط معنايي در شبکه واژگان به منظور تقويت الگوريتم لِسك استفاده شده است. در اين روش علاوه بر تعريف معني كلمه، تمام تعاريف كلماتي كه داراي رابطه Hypernymy با كلمه مورد نظر هستند نيز در نظر گرفته مي‌‌‌‌‌شوند.
روابط سلسله‌‌‌‌مراتبي در شبکه واژگان مي‌‌‌‌‌تواند به منظور محاسبه ميزان تشابه معنايي كلمات مورد استفاده قرار گيرد. روش‌‌‌‌هاي بسياري نيز از اين معيار براي ابهام‌‌‌‌زدايي معنايي كلمات استفاده كرده‌‌‌‌اند. به عنوان مثال در کاری دیگر روش‌‌‌‌هاي مختلفي براي محاسبه تشابه معنايي كلمات بر اساس روابط سلسله‌‌‌‌مراتبي شبکه واژگان استفاده شده و الگويتم ابهام‌‌‌‌زداي معنايي بر اساس آنها ارائه شده است. در اين الگوريتم تشابه معنايي بين تمام معاني مختلف كلمات جمله محاسبه شده و در نهايت بر اساس معيار‌‌‌‌هاي وزن‌‌‌‌دهي به معاني، معني مناسب انتخاب مي‌‌‌‌‌شود.
ابهام زدايي بر اساس شبکه واژگان
همانطور كه گفته شد، شبکه واژگان يك منبع دانش لغوي است كه علاوه بر معاني مختلف كلمات و تعاريف آنها روابط معنايي مختلف بين كلمات را نيز بر اساس ساختار سلسله‌‌‌‌‌مراتبي فراهم آورده است. امروزه با توجه به كامل بودن و در دسترس بودن شبکه واژگان روش‌‌‌‌‌هاي بسياري در زمينه ابهام زدايي معنايي كلمات با استفاده از شبکه واژگان پيشنهاد شده است. گزارشي كه ارائه شده است، نشان مي‌‌‌‌‌‌دهد در صورتي كه از شبکه واژگان به عنوان منبع لغت استفاده شود و اولين معني از آن براي هر كلمه انتخاب شود، با توجه به اينكه معاني كلمات در شبکه واژگان بر اساس كاربرد مرتب شده‌‌‌‌‌اند، دقتي برابر با 57% حاصل مي‌-شود. در مقاله ای از روابط معنايي در شبکه واژگان به منظور تقويت الگوريتم لِسك استفاده شده است. در اين روش علاوه بر تعريف معني كلمه، تمام تعاريف كلماتي كه داراي رابطه Hypernymy با كلمه مورد نظر هستند نيز در نظر گرفته مي‌‌‌‌‌‌شوند.
روابط سلسله‌‌‌‌‌مراتبي در شبکه واژگان مي‌‌‌‌‌‌تواند به منظور محاسبه ميزان تشابه معنايي كلمات مورد استفاده قرار گيرد. روش‌‌‌‌‌هاي بسياري نيز از اين معيار براي ابهام‌‌‌‌‌زدايي معنايي كلمات استفاده كرده‌‌‌‌‌اند. به عنوان مثال در کاری دیگر روش‌‌‌‌‌هاي مختلفي براي محاسبه تشابه معنايي كلمات بر اساس روابط سلسله‌‌‌‌‌مراتبي شبکه واژگان استفاده شده و الگويتم ابهام‌‌‌‌‌زداي معنايي بر اساس آنها ارائه شده است. در اين الگوريتم تشابه معنايي بين تمام معاني مختلف كلمات جمله محاسبه شده و در نهايت بر اساس معيار‌‌‌‌‌هاي وزن‌‌‌‌‌دهي به معاني، معني مناسب انتخاب مي‌‌‌‌‌‌شود.

روش‌‌‌‌‌هاي مبتي بر پيكره متني

در اين روش‌‌‌‌‌ها از متون و پيكره‌‌‌‌‌هاي متني براي استخراج اطلاعات مورد نياز براي عمل ابهام زدايي استفاده مي‌‌‌‌‌شود. اطلاعات موجود در پيكره‌‌‌‌‌هاي متني خود دو دسته مي‌‌‌‌‌باشند. اولين دسته اطلاعاتي هستند كه توسط يك عامل خارجي به آنها اضافه شده است. منظور از عامل خارجي معمولا انسان مي‌‌‌‌‌باشد. متني كه معناي صحيح هر كلمه در آن وجود دارد به اصطلاح متن برچسب‌‌‌‌‌گذاري شده معنايي ناميده مي‌‌‌‌‌شود . علاوه بر معناي صحيح كلمات موارد ديگري از جمله، وجه سخن كلمات، ريشه كلمات و يا ارتباطات نحوي كلمات مي‌‌‌‌‌تواند به عنوان اطلاعات ديگر به متن اضافه شود. تهيه و آماده‌‌‌‌‌سازي اينگونه متون معمولا كاري سخت و پر‌‌‌‌‌هزينه است. به همين دليل ابهام زدايي معنايي كلمات با كمبود اينگونه متون مخصوصا در زبان‌‌‌‌‌هايي غير از زبان انگليسي روبرو است. از اينگونه اطلاعات و منابع در روش‌‌‌‌‌هاي با مربي استفاده مي‌‌‌‌‌شود.
نوع ديگري از اطلاعات كه مي‌‌‌‌‌توان از پيكره‌‌‌‌‌هاي متني استخراج كرد اطلاعاتي است كه مربوط به خود پيكره بوده و نيازي به برچسب‌‌‌‌‌گذاري اوليه آنها نيست. به عنوان مثال فراواني توزيعي معاني مختلف يك كلمه مبهم و يا اطلاعات آماري ديگري همچون هم‌‌‌‌‌وقوعي كمات با يكديگر مي‌‌‌‌‌تواند براي ابهام زدايي از پيكره‌‌‌‌‌هاي متني بزرگ استخراج شوند. اينگونه اطلاعات معمولا در روش-هاي بي‌‌‌‌‌مربي شده مورد استفاده قرار مي‌‌‌‌‌گيرند.
بر اساس اينكه در روش‌‌‌‌‌هاي مبتني بر پيكره متني از چه اطلاعاتي استفاده شود، اين روش‌‌‌‌‌ها به دو دسته كلي طبقه‌‌‌‌‌بندي مي‌‌‌‌‌شوند: روش‌‌‌‌‌هاي با‌‌‌‌‌مربي و روش‌‌‌‌‌هاي بي‌‌‌‌‌مربي.
روش‌‌‌‌‌هاي با مربي
در 15 سال اخير، روش‌‌‌‌‌هاي تجربي و آماري رشد بسيار زيادي در زمينه پردازش زبان طبيعي داشته‌‌‌‌‌اند. اولين مسائلي كه روش‌‌‌‌‌هاي آماري و يادگيري ماشين در پردازش زبان طبيعي براي حل آنها مورد استفاده قرار گرفت مسائلي بود كه در آنها نوعي ابهام زدايي و به عبارت ديگر انتخاب درست يكي از كانديدها صورت مي‌‌‌‌‌پذيرفت. به علت اينكه ذات اينگونه مسائل از نوع مسائل دسته‌‌‌‌‌بندي است، استفاده از روش‌‌‌‌‌هاي آماري و يادگيري ماشين براي آنها بسيار كارا مي‌‌‌‌‌باشد. به عنوان نمونه در ابهام زدايي‌‌‌‌‌ معنايي كلمات، معاني مختلف كلمه مبهم نشان دهنده كلاس‌‌‌‌‌ها مي‌‌‌‌‌باشند و هدف انتساب درست كلمه مبهم به يكي از اين دسته‌‌‌‌‌ها با توجه به متني است كه كلمه مبهم در آن بكار رفته است. روش‌‌‌‌‌هاي نظارت شده بر اساس اينكه از كدام روش يادگيري ماشين در آنها استفاده شده باشد خود نيز به سه گروه مبتي بر مثال، مبتني بر قواعد و روش‌‌‌‌‌هاي آماري دسته‌‌‌‌‌بندي مي‌‌‌‌‌شوند.
روش‌‌‌‌‌هاي مبتني بر مثال
در برنامه‌‌‌‌‌هاي كاربردي يادگيري زبان ناديده گرفتن شرايط استثنا باعث از دست رفتن اطلاعات مفيدي مي‌‌‌‌‌شود كه ممكن است در آينده مورد نياز باشند. بر همين اساس ايده اصلي در اين روش‌‌‌‌‌ها استفاده از تمامي اطلاعات موجود در پيكره متني براي عمل ابهام زدايي مي‌‌‌‌‌باشد. به عبارت ديگر در اين روش‌‌‌‌‌ها تا حد امكان اطلاعات موجود در پيكره متني در مرحله يادگيري كد شده و نهايتا در زمان تست از آنها به خوبي استفاده مي‌‌‌‌‌شود. اين روش‌‌‌‌‌ها بر پايه مقايسه مي‌‌‌‌‌باشند و عمل ابهام زدايي را بر اساس معيار‌‌‌‌‌هاي مقايسه-اي بين مثال‌‌‌‌‌هاي برچسب‌‌‌‌‌گذاري شده موجود در مرحله يادگيري و مثال جديد انجام مي‌‌‌‌‌دهند. روش‌‌‌‌‌هاي مختلفي براي بدست آوردن ميزان تشابه دو مثال وجود دارد. به عنوان مثال در صورتي كه مثال‌‌‌‌‌ها را در فضاي بردار متن فرض كنيم يكي از روش‌‌‌‌‌هاي بدست آوردن ميزان تشابه آنها استفاده از مدل فضاي بردار مي‌‌‌‌‌باشد. عامل مهم و تاثير‌‌‌‌‌گذار در اين روش‌‌‌‌‌ها انتخاب درست ويژگي‌‌‌‌‌هاي نشان دهنده هر مثال و در نهايت انتخاب معيار مقايسه مناسب مي‌‌‌‌‌باشد.
در منبعی دیگر روشي مبتني بر مثال و بر اساس تشابه در فضاي متن ارائه شد. در اين روش تمام كلمات موجود در پيكره يادگيري بر اساس اينكه در چه متوني تكرار شده‌‌‌‌‌اند بوسيله يك بردار نشان داده مي‌‌‌‌‌شوند. به عبارت ديگر كلمات در فضاي متن در نظر گرفته مي‌‌‌‌‌شوند.به عنوان مثال در صورتي كه كلمه 〖lem〗_i در متون C_1,C_j,C_n ديده شود، بردار متناظر با آن بصورت قسمت الف در شكل زیر مي‌باشد.
پرونده:Shekle2.5.jpg
به ازاي هر متن بايد وزن كلمه در آن متن در نظر گرفته شود. اين وزن مي‌‌‌‌‌تواند تعاريف مختلفي داشته باشد. در زير روش‌‌‌‌‌هاي مختلف براي محاسبه آن آورده شده است.
Formulhaye vazn.jpg
در مرحله يادگيري الگوريتم، پيكره متني تبديل به ماتريس قسمت ب شکل قبل مي‌‌‌‌‌شود كه در آن تمام كلمات به بردار متن تبديل شده‌‌‌‌‌اند. هر ستون نشان دهنده يك متن(مثال) و هر رديف نشان دهنده يك كلمه مي‌‌‌‌‌باشد. در مرحله بعدي الگوريتم متني(مثال) شامل يك كلمه مبهم به الگوريتم داده مي‌‌‌‌‌شود و الگوريتم در ابتدا اين متن را به برداري در فضاي كلمات تبديل مي‌‌‌‌‌كند. در صورتي كه بردار حاصل شده را در ماتريس بدست آمده در مرحله يادگيري ضرب كنيم، برداري در فضاي متن براي مثال جديد بدست مي‌آيد. اين فرآيند در شكل زیر نشان داده شده است.
Shekle 2.6.jpg
عمل ضرب داخلي بردارها مي‌‌‌‌‌تواند از روش‌‌‌‌‌هاي مختلفي محاسبه شود. در زير دو نمونه از اين روش‌‌‌‌‌ها آورده شده است.
ضرب داخلي كه توسط رابطه زیر محاسبه مي‌‌‌‌‌شود.
[[پرونده: formule qj.jpg]]
در صورتي كه بردارهايي كه در ضرب شركت مي‌‌‌‌‌كنند(ستون‌‌‌‌‌هاي ماتريس و بردار اوليه متن(q)) نرمال باشند(طولي برابر يك داشته باشند) مي‌‌‌‌‌توان از فرمول كسينوسي استفاده كرد. اين مقدار با استفاده از رابطه زیر محاسبه مي‌‌‌‌‌‌شود.
Formule bordare q.jpg
در مرحله نهايي با توجه به اينكه هم معاني مختلف كلمه مبهم و هم متني كه كلمه مبهم در آن بكار رفته است توسط برداري در فضاي متن نمايش داده شده‌‌‌‌‌اند، مي‌‌‌‌‌توان با مقايسه آنها معني را كه بردار آن به بردار متن جديد نزديكتر است به عنوان جواب انتخاب كرد.
اين روش در سِنس‌‌‌‌‌اِول 3 و بر اساس چهار زبان مختلف شركت داشته و در زبان انگليسي و در بخش درشت دانه‌‌‌‌‌اي دقتي برابر با %72 بدست آورده است.
روش‌‌‌‌‌هاي مبتني بر قواعد
در اين روش‌‌‌‌‌ها در مرحله يادگيري سيستم ويژگي‌‌‌‌‌هاي تفكيك‌‌‌‌‌كننده براي معاني مختلف كلمات مبهم در متن را شناسايي كرده و در نهايت بر اساس اين ويژگي‌‌‌‌‌ها قواعدي را بر اساس ميزان تفكيك سازي آنها استنتاج كرده و از آنها براي ابهام زدايي استفاده مي‌‌‌‌‌كند. هنگامي كه سيستم مثال جديدي را مي‌‌‌‌‌بيند، قوانين متناسب با مثال را انتخاب كرده و بر اساس پيش‌‌‌‌‌بيني اين قواعد معني درست كلمه مبهم را پيدا مي‌‌‌‌‌كند.
استفاده از ليست تصميم يكي از روش‌‌‌‌‌هاي است كه در آن قوانين مختلف در مرحله يادگيري از پيكره‌‌‌‌‌ استخراج و وزن‌‌‌‌‌دهي مي-شوند. اين قوانين بصورت سه‌‌‌‌‌تايي (شرايط، معني، وزن) هستند. معيار‌‌‌‌‌هاي وزن‌‌‌‌‌دهي متفاوتي توسط محققان ارائه شده است. به عنوان مثال در منبعی معياري بر اساس احتمال لگاريتمي ارائه شد تا بر اساس آن اهميت هر يك از قواعد بدست آيد. اين معيار در رابطه زیر آورده شده است.
Formule vazne sk fi.jpg
در اين فرمول وزن هر معني از كلمه مبهم (S_k) نسبت به يك ويژگي خاص (f) سنجيده مي‌‌‌‌‌شود.
براي اين روش و بر اساس ارزيابي‌‌‌‌‌هاي موجود در سِنس‌‌‌‌‌اِول براي 36 كلمه مورد ارزيابي دقتي در حدود 78 % گزارش شده است.

روش‌‌‌‌‌هاي آماري
امروزه استفاده از روش‌‌‌‌‌هاي آماري با توجه به گسترش منابع اطلاعاتي همچون پيكره‌‌‌‌‌هاي متني برچسب‌‌‌‌‌گذاري شده و همچنين سادگي و كيفيت بالاي آنها بسيار مورد توجه قرار گرفته است. در اين روش‌‌‌‌‌ها معمولا پارامترهاي آماري همچون احتمالات شرطي و توزيع‌‌‌‌‌هاي احتمالاتي بر اساس اطلاعات موجود در پيكره‌‌‌‌‌هاي متني در مرحله يادگيري محاسبه مي‌‌‌‌‌شوند. در مراحل بعدي اين اطلاعات براي رفع ابهام از مثال‌‌‌‌‌هاي جديد مورد استفاده قرار مي‌‌‌‌‌گيرند.
الگوريتم بيز يكي از ساده‌‌‌‌‌ترين الگوريتم‌‌‌‌‌ها در اين حوزه مي‌‌‌‌‌باشد كه از قانون بيز و نوع ساده‌‌‌‌‌سازي شده آن استفاده مي‌‌‌‌‌كند. علي‌‌‌‌‌رغم ساد‌‌‌‌‌گي اين الگوريتم مي‌‌‌‌‌توان نشان داد كه نتايج حاصل از آن با نتايج ديگر روش‌‌‌‌‌ها برابري مي‌‌‌‌‌كند.
طبقه‌‌‌‌‌بندي بيز با وجود سادگي و مفروضات نادرست، در موارد زيادي براي عمل ابهام زدايي معنايي مورد استفاده قرار گرفته است. در فاز يادگيري ما متني را در اختيار داريم كه در آن معناي درست كلمات مبهم در آن مشخص شده است(پيكره برچسب گذاري شده). ايده اصلي در اين روش استفاده از تعداد زيادي كلمات مجاور كلمه‌‌‌‌‌اي مبهم مي‌‌‌‌‌باشد. هر كلمه در متن داراي اطلاعات مفيدي براي پيدا كردن معناي صحيح مي باشد بنابراين مي‌‌‌‌‌توان از آن براي ابهام زدايي استفاده كرد. در اين روش سعي شده است تا حد امكان اين اطلاعات جمع‌‌‌‌‌آوري شوند. براي بيان اين روش نماد‌‌‌‌‌هاي زير را در نظر مي‌‌‌‌‌گيريم:
•(〖S_1…S〗_k) مجموعه معاني مختلف كلمه مبهم.
•(〖C_1…C〗_i) متون حاوي كلمه مبهم در پيكره.
•(〖V_1…V〗_j) كلماتي كه به عنوان ويژگي‌‌‌‌‌هاي متني براي كلمه مبهم در متن در نظر گرفته مي‌‌‌‌‌شوند.
در اين روش از رابطه زیر استفاده مي‌‌‌‌‌شود. اين فرمول همواره بهينه است زيرا احتمال وقوع خطا را به كمترين مقدار ممكن خود نزديك مي‌‌‌‌‌كند. به عبارت ديگر به دليل اينكه همواره در شرايط مختلف معني (دسته) انتخاب مي‌‌‌‌‌شود كه بيشترين احتمال شرطي را داراست ميزان خطا به حداقل ممكن مي‌‌‌‌‌رسد.
Formule decide.jpg
با توجه به اينكه معمولا ما مقدار P(s_k│c)را نداريم از قانون بيز استفاده مي كنيم. p(c) براي تمام كلمات و همچنين براي تمام معاني مختلف يك كلمه در رابطه 3-7 ثابت مي‌‌‌‌‌‌باشد و در رابطه از آن صرف نظر مي شود.
Formule pskc.jpg
در اين روش دو فرض در نظر گرفته مي‌‌‌‌‌شود. اول اينكه ترتيب خطي قرارگيري كلمات و ساختار جملات در متن مورد توجه قرار نمي‌‌‌‌‌گيرد . اصطلاحا به اين مدل كيسه كلمات گفته مي‌‌‌‌‌شود به اين معني كه براي كلمات جاي خاصي در متن در نظر گرفته نمي‌شود. دومين فرضي كه در اين روش از آن استفاده مي‌‌‌‌‌شود اين است كه وجود و يا عدم وجود يك كلمه در متن مستقل از كلمات ديگر مي‌‌‌‌‌باشد. اين فرض به روشني يك فرض نادرست است. چرا كه به عنوان مثال كلمه رئيس جمهور بيشتر تمايل دارد تا در يك متن حاوي كلمه انتخابات قرار گيرد تا متني كه شامل كلمه شاعر است! اما اين ساده‌‌‌‌‌سازي با وجود كمبودهايي كه دارد در بسياري از موارد كارآمد مي‌‌‌‌‌باشد. در رابطه زیر مراحل مختلف اين ساده‌‌‌‌‌سازي آورده شده است.
Formule bozorge sprim.jpg
تساوي اول در رابطه فوق قانون بيز در جابجايي احتمال شرطي مي‌‌‌‌‌باشد. براي بدست آوردن مقدار p(c│s_k ) از ساده‌‌‌‌‌سازي صورت گرفته در ادامه كه بر اساس فرض غير وابسته بودن كلمات در متن استنتاج شده است، استفاده شده است.
احتمالات شرطي p(v_j│s_k ) و همچنين احتمال p(s_k) پارامتر‌‌‌‌‌هاي آماري هستند كه مي‌‌‌‌‌توانند با استفاده از اطلاعات آماري موجود در پيكره متني برچسب گذاري شده محاسبه ‌‌‌‌‌شوند. نحوه محاسبه اين دو احتمال به ترتيب در بخش نهایی رابطه‌‌‌‌‌هاي فوق آورده شده‌‌‌‌‌ است.

روش‌‌‌‌‌هاي بدون مربي
نتيجه تحقيقات در زمينه ابهام زدايي معنايي كلمات، پياده‌‌‌‌‌سازي الگوريتم‌‌‌‌‌هايي است كه بر اساس منابع دانش مختلف عمل مي‌‌‌‌‌‌كنند. به عنوان مثال روش‌‌‌‌‌هايي كه در آنها از فرهنگ‌‌‌‌‌هاي لغت، فرهنگ‌‌‌‌‌هاي جامع، سلسله‌‌‌‌‌مراتب مفهومي و يا پيكره‌‌‌‌‌هاي متني برچسب-گذاري شده استفاده مي‌‌‌‌‌‌شود. متاسفانه تهيه اينگونه منابع كه لازمه بسياري از روش‌‌‌‌‌ها مي‌‌‌‌‌‌باشند، نيازمند صرف هزينه زياد است. به عنوان مثال بزرگترين محدوديت روش‌‌‌‌‌هاي با‌‌‌‌‌مربي نيازمندي آنها به پيكره‌‌‌‌‌هاي متني بزرگ با برچسب‌‌‌‌‌گذاري معنايي به منظور يادگيري سيستم است كه تهيه آنها كاري پرهزينه و وقت‌‌‌‌‌گير است. به همين دليل روش‌‌‌‌‌هاي بامربي با وجود دقت بالا معمولا با مشكل كمبود اينگونه متون روبرو بوده و در بسياري از موارد امكان گسترش و اعمال اين روش‌‌‌‌‌ها براي تمام حوزه‌‌‌‌‌هاي معنايي و زبان‌‌‌‌‌هاي مختلف ميسر نمي‌‌‌‌‌باشد.
ابهام زدايي بدون مربي بصورت كامل در صورتي كه هدف ما برچسب گذاري معاني باشد امكان پذير نيست. به عبارت ديگر الگوريتمي كه مشخص كند هر كلمه در متن چه معنايي دارد، نمي‌‌‌‌‌تواند كاملا بدون مربي صورت پذيرد، چرا كه اين كار نيازمند اطلاعاتي در مورد معاني مختلف كلمه است. بنابراين در صورتي اين ابهام زدايي مي‌‌‌‌‌‌تواند كاملا بصورت بدون مربي انجام گيرد كه متن حاوي كلمه مبهم را به گروه‌‌‌‌‌هاي مختلف خوشه‌‌‌‌‌بندي كرده و در نهايت بدون برچسب گذاري آنها اين گروه‌‌‌‌‌ها را متمايز كنيم. در روش‌‌‌‌‌هاي با مربي در حقيقت يكي از معاني كه از پيش براي كلمه مبهم تعريف شده‌‌‌‌‌اند به آن انتساب داده مي‌‌‌‌‌شود در حالي كه در اين گونه روش‌‌‌‌‌ها اين مجموعه، يعني معاني از پيش تعيين شده براي كلمه مبهم در دسترس نمي‌‌‌‌‌باشد. عملي كه در اين روش‌‌‌‌‌ها انجام مي‌‌‌‌‌شود تمايز معاني مختلف كلمه مبهم است. اين تمايز مي‌‌‌‌‌تواند با استفاده از روش‌‌‌‌‌هاي توزيعي و يا روش‌‌‌‌‌هاي معادل ترجمه‌‌‌‌‌اي انجام شود. اين روش‌‌‌‌‌ها بسيار انعطاف‌‌‌‌‌پذير هستند و نيازي به فرهنگ لغت، سلسله مراتب مفهومي و يا هر منبع دست‌‌‌‌‌نويس ديگري ندارند. اين روش‌‌‌‌‌ها بدليل اينكه توسط منابع دانش و همچنين مثال‌‌‌‌‌هاي ساخته شده توسط انسان راهنمايي نمي‌‌‌‌‌شوند به اين نام شناخته مي‌‌‌‌‌شوند.
اين اصطلاح خود نيز در مقالات مختلف به معاني متفاوتي تعبير مي‌‌‌‌‌شود. برخي آنرا به روش‌‌‌‌‌هايي اطلاق مي‌‌‌‌‌كنند كه از متون برچسب‌‌‌‌‌گذاري شده براي يادگيري استفاده نمي‌‌‌‌‌كنند، در نتيجه روش‌‌‌‌‌هايي كه از منابعي همچون ديكشنري استفاده مي‌‌‌‌‌كنند جزء اين دسته مي‌‌‌‌‌باشند. اين تعريف در واقع تعريفي است كه در سِنس‌‌‌‌‌اِول از روش‌‌‌‌‌هاي بدون مربي شده است.
ممكن است اين سؤال مطرح شود كه چرا از اين روش‌‌‌‌‌ها با وجود مشكلات آن استفاده مي‌‌‌‌‌شود؟ يكي از دلايل اين امر عدم وجود يك منبع معنايي ثابت و هماهنگ براي كلمات است. هر فرهنگ لغت تفسير و سازماندهي خاص خود را براي معاني مختلف كلمات دارد. بنابراين تمامي روش‌‌‌‌‌هايي كه از بك منبع معنايي خاص استفاده مي‌‌‌‌‌كنند تنها بر روي همان داده‌‌‌‌‌ها تمركز كرده و امكان وفق-پذيري ندارند. علت ديگر استفاده از اين روشها عدم وابستگي آنها به زبان خاص مي‌‌‌‌‌باشد و در واقع براين باورند كه ابهام زدايي نبايد به منبع دانشي خاص وابسته باشد و بايد به راحتي به زبان‌‌‌‌‌هاي ديگر انتقال داده شود.
روش‌‌‌‌‌هاي توزيعي
كلماتي كه در متون مشابه بكار برده مي‌‌‌‌‌‌شوند داراي معاني مشابهي هستند. اين فرضي است كه روش‌‌‌‌‌هاي توزيعي از آن به منظور ابهام زدايي استفاده مي‌‌‌‌‌‌كنند. مشخصه اصلي اين روش‌‌‌‌‌ها اين است كه در آنها كلمات بر اساس معاني از پيش تعيين شده طبقه‌‌‌‌‌بندي نمي‌‌‌‌‌شوند بلكه بر اساس متني كه حاوي كلمه است و مشاهدات موجود در پيكره خوشه‌‌‌‌‌بندي مي‌‌‌‌‌‌شوند. اين روش‌‌‌‌‌ها معاني را به كلمات انتساب نمي‌‌‌‌‌دهند بلكه امكان تمايز بين معاني را با خوشه‌‌‌‌‌بندي كردن متون نشان مي‌‌‌‌‌‌دهد. به عبارت ديگر هر يك از خوشه‌‌‌‌‌ها بيان كننده كلمه است كه در معني خاصي بكار برده شده است.
الگوريتمي ارائه شده که عمل ابهام زدايي را به دو مرحله تقسيم مي‌‌‌‌‌‌كند. در مرحله اول متون مختلف حاوي كلمه مبهم بر اساس اشتراك مؤلفه‌‌‌‌‌هاي توزيعي به خوشه‌‌‌‌‌هاي متفاوت اختصاص داده مي‌‌‌‌‌‌شوند. در واقع با اين كار تفكيكي بين معاني مختلف كلمه مبهم صورت مي‌‌‌‌‌‌گيرد. در مرحله دوم به هر يك از خوشه‌‌‌‌‌ها معني مناسب با كلمه مبهم در متون آن خوشه انتساب داده مي‌‌‌‌‌‌شود. نتايج مرحله اول در اين الگوريتم تعدادي خوشه است كه مبين معاني مختلف كلمه مبهم است كه در متون مختلف ديده شده است.
روش‌‌‌‌‌هاي معادل ترجمه‌‌‌‌‌اي
در اين روش‌‌‌‌‌ها از پيكره‌‌‌‌‌هاي متني دو زبانه موازي استفاده مي‌‌‌‌‌‌شود كه در آنها هر كلمه يا عبارت در زبان مقصد با معادل مناسب خود در زبان مبدا منتسب شده است به عنوان مثال در مقاله ای مدلي ارائه شده است تا توسط آن از بين دو معني در زبان مقصد، براي كلمه در زبان مبدا يكي را انتخاب كند. اين روش بر مبناي كلمه شاخص نزديك كلمه مبهم است. روشي شبيه ليست تصميم به منظور شناسايي كلمات شاخصي كه به بهترين شكل عمل تفكيك سازي معاني مختلف كلمه مبهم را انجام دهد، بكار برده مي‌‌‌‌‌‌شود.

روش‌‌‌‌‌‌هاي تركيبي

در اين روش‌‌‌‌‌‌ها تركيبي از روش‌‌‌‌‌‌هايي كه در روش‌‌‌‌‌‌هاي قبلي مورد استفاده قرار گرفته است بكار برده مي‌‌‌‌‌‌‌شود. به عنوان مثال در [42] روشي ارائه شده است كه در آن ابتدا از اطلاعات موجود در پيكره متني كلماتي كه با كلمه مبهم (w) بيشترين تكرار را با توجه به روابط نحوي تعريف شده دارند (به عنوان مثال رابطه فعل و مفعول) به عنوان كلمات همسايه انتخاب مي‌‌‌‌‌‌‌شوند (N_w={n_1,n_2,…,n_k}) و به هر يك از آنها بر اساس اطلاعات آماري امتياز متناسب داده مي‌‌‌‌‌‌‌شود:
Formule dss.jpg
در ادامه و بر اساس اطلاعات موجود در شبکه واژگان و روش‌‌‌‌‌‌هاي محاسبه وابستگي معنايي كلمات، ميزان تشابه (wnss) هر يك از كلمات همسايه (N_w) با معاني مختلف كلمه مبهم (〖ws〗_i∈senses(w)) محاسبه شده و در نهايت بر اساس رابطه زیر امتياز هر معني مشخص مي‌شود.
Formule score.jpg

روش‌‌‌‌‌‌هاي اعمال شده در زبان فارسي

برخي از روش‌‌‌‌‌‌هاي ابهام زدايي معنايي كلمات در زبان فارسي نيز مورد استفاده قرار گرفته‌‌‌‌‌‌اند و در مواردي به منظور افزايش دقت ترجمه ماشيني در سيستم‌‌‌‌‌‌هاي مترجم ماشيني اعمال شده‌‌‌‌‌‌اند. در مقاله ای روشي پيشنهاد شده است كه با استفاده از روش توسعه داده شده لِسك عمل ابهام زدايي معنايي را به منظور انتخاب درست معني كمات در زبان مقصد (فارسي) انجام مي‌‌‌‌‌‌‌دهد. در اين روش بجاي استفاده از فرهنگ لغت به منظور استخراج معاني از شبکه واژگان و روابط معنايي موجود در آن استفاده شده است. روش پيشنهادي در اين تحقيق بر اساس 113 جمله مورد ارزيابي قرار گرفته و در بهترين حالت به دقت 87% دست پيدا كرده است. همچنين در منبعی دیگر روشي مبتني بر دانش ارائه شده است كه با استفاده از قواعد تعريف شده براي سيستم عمل ابهام زدايي را انجام مي‌‌‌‌‌‌دهد. اين قواعد بر اساس هشت عامل مختلف تعريف شده‌‌‌‌‌‌اند ( به عنوان مثال نقش دستوري كلمه مبهم). سيستم براي هر يك از كلمات مبهم منبع دانش خود را براي تطبيق با آن جستجو مي‌‌‌‌‌‌كند. در صورتي كه كلمه در منبع دانش سيستم موجود باشد با استفاده از قانون مناسب ابهام زدايي صورت مي‌‌‌‌‌‌پذيرد در غير اين صورت عمل ابهام زدايي با استفاده از اطلاعات باهمايي و هم‌وقوعي انجام مي‌‌‌‌‌‌شود.
در مرجعی روشي بر اساس درخت تصميم ارائه شده است كه قوانين آن بصورت خودكار از پيكره متني دو زبانه استخراج مي‌‌‌‌‌‌‌شوند. در درخت تصميم گره‌‌‌‌‌‌هاي مياني بيان‌‌‌‌‌‌كننده يك ويژگي و يال‌‌‌‌‌‌ها نشان‌‌‌‌‌‌دهنده مقادير مختلف براي آن ويژگي است. همچنين برگ‌‌‌‌‌‌هاي موجود در درخت تصميم نشان دهنده معاني ممكن براي كلمه مبهم مورد نظر است. ادات سخن كلمه مبهم و نقش دستوري آن از ويژگي‌‌‌‌‌‌هايي است كه در اين روش مورد استفاده قرار گرفته است. با بدست آوردن مقادير ويژگي‌‌‌‌‌‌ها براي كلمات مبهم در متن و با استفاده از پيكره موازي دو زبانه و همچنين الگوريتم ID3 مرحله يادگيري و ساخت درخت تصميم انجام مي‌‌‌‌‌‌‌پذيرد. بر اين اساس براي تمام كلمات مبهم موجود در دادگان يادگيري درخت تصميم ساخته شد و در مرحله نهايي از آنها به منظور ابهام زدايي استفاده مي‌‌‌‌‌‌‌شود.
در آزمايشات انجام شده بر روي اين روش كه بر اساس 81 كلمه مبهم صورت پذيرفته است، دقتي معادل 81% گزارش شده است. استفاده از اطلاعات آماري كه از پيكره‌‌‌‌‌‌هاي متني بزرگ استخراج مي‌‌‌‌‌‌‌شوند نيز در زبان فارسي مورد توجه بوده است. در کاری دیگر از اطلاعات آماري جمع‌‌‌‌‌‌آوري شده از پيكره متني تك زبانه و همچنين روابط نحوي بين كلمات به منظور ابهام زدايي استفاده شده است. در روش ارائه شده براي هر كلمه مبهم بر اساس ادات سخن آن، كلمه‌‌‌‌‌‌اي در جمله در نظر گرفته مي‌‌‌‌‌‌‌شود. به عنوان مثال در صورتي كه كلمه مورد بررسي اسم باشد، اين كلمه مي‌‌‌‌‌‌‌تواند اولين اسم بعد از آن و يا فعل قبل آن باشد. در ادامه معاني مختلف كلمه مبهم و كلمه متناسب با آن در جمله، از فرهنگ لغت استخراج شده و تعداد رخداد هم‌‌‌‌‌‌زمان آنها محاسبه مي‌‌‌‌‌‌‌شود. در انتها با استفاده از مدل آماري معرفي شده در اين روش معني مناسب براي كلمه مبهم بر اساس تعداد رخداد‌‌‌‌‌‌هاي آن بدست مي‌‌‌‌‌‌‌آيد. دقت گزارش شده در اين روش 79% مي‌‌‌‌‌‌‌باشد كه بر اساس 764 كلمه مبهم مورد استفاده در آن است.

تشابه بین مفاهیم

همانطور که اشاره شد، تعیین شباهت متن معنایی، یا جمله یا واژگان یکی از مسائل مهم در گروه‌بندی مفاهیم مشابه است. تا کنون روش‌های مختلفی برای اندازگیری میزان تشابه بین مفاهیم استخراج شده از متن تعریف شده‌اند.

مشابهت معنایی مبتنی بر شبکه واژگان

مشابهت معناییِ مبتنی بر WordNet بصورت گسترده در پردازش زبان¬ طبیعی (NLP)و بازیابی اطلاعات (IR) مورد بررسی قرار گرفته است.
روش‌های بسیاری برای محاسبه‌ی مشابهت معنایی بین دو کلمه و براساس WordNet ارائه شده است. معیارهای تشابه بر روی اسم‌ها‌ و فعل‌ها بوده و نیز اکثراً بر روابط IS-A در WordNet اعمال شده‌اند. علت این امر آن است که نزدیک 80 درصد از رابطه‌ها و لینک‌های بین مفاهیم را روابط ابرمفهوم/ زیر مفهوم تشکیل می‌دهند. با این‌حال به هنگام بررسی یک رابطه معنایی در سطح مفاهیم، چندین نوع رابطه‌ی بالقوه را می‌توان متصور شد: مترادف، رابطه‌ی ابرمفهمومی/ زیرمفهومی (IS-A)، جزییت/شمول (Part of)، علت و معلولی،Material-Product، Event-Role و... . در این میان سه رابطه‌ی اول سهم بزرگتری از روابط بین مفاهیم را تشکیل می‌دهند. در ضمن روابط ویژگی‌های سلسله‌مراتبی برای صفات و قیود موجود نمی‌باشد. روش‌های تشابه معنایی به چهار دسته‌ی اصلی طبقه‌بندی می‌شوند.
روشهای مبتنی بر شمارش یالها
برای اندازه‌گیری تشابه معنایی بین دو کلمه، فاصله‌ی (یالهای مسیر بین دو کلمه در گراف) بین موقعیت دو کلمه در درخت سلسله‌مراتب کلمات، اندازه‌گیری می‌شود. یکی از مشکلاتی که روشهای مبتنی بر شمارش یالها در محاسبه‌ی میزان شباهت کلمات دارند، این است که در این روشها وزن‌دهی یکسان به تمامی یالها (لینک‌ها) در تمامی گراف، مشابهت دو کلمه را به صورت دقیق نمی‌رساند، چراکه هر دو کلمه همسایه دارای فاصله‌ی یکسانی هستند و این روش تفاوت بین یالهایی که بین دو کلمه وجود دارد، را نادیده می‌گیرد. در ادامه به تعدادی از این روش ها اشاره شده است.
در [WU94] مشابهت دو کلمه براساس مفاهیم مشترک و نیز استفاده از مسیر محاسبه شده است.
Formule sim.jpg
بطوری‌که پایینترین ابرمفهوم مشترک و می‌باشد. تعدادگره‌های مسیر تا می‌باشد. تعداد گره‌های مسیر تا می‌باشد. نیز تعداد گره‌های مسیر تا گره‌ی ریشه می‌باشد.
رزنیک گونه‌ای از روش مبتنی بر شمارش یال را ارائه کرده است، بطوری که توانسته است با تفاضل طول مسیر از ماکزیمم طول مسیر ممکن، فاصله را به میزان شباهت تبدیل کند.
Formule sim edge.jpg
بطوری‌که s(w1)و s(w2) بیانگر مجموعه‌ی مفاهیمی است که دربرگیرنده‌ تعاریف (Sense)w1و w2 هستند. 1c متعلق به مجموعه‌ی و 2c متعلق به مجموعه‌ی می‌باشد. MAX ماکزیمم عمق سلسله‌ مراتب (هستان¬شناسی) می‌باشد، هم‌چنین طول مسافت کوتاهترین مسیر از 1c به 2c می‌باشد.
در مقاله‌ای از روشی مشابه استفاده شده و میزان مشابهت دو مفهوم را بر طبق رابطه‌ی زیر پیشنهاد داده است: Formule sim max.jpg
به‌طوری ‌که Dماکزیمم عمق در سلسله‌مراتب WordNet می‌باشد.
روشهای آماری مبتنی بر اطلاعات
این روش تفاوت بین محتوای اطلاعاتی بین دو کلمه را به صورت تابعی از احتمال حضور آن دو کلمه در یک انبوه اسناد، اندازه‌گیری می‌کند.
یکی از بهترین روش‌های آماری مبتنی بر اطلاعات بوسیله رزنیک ارائه شده است. در ابتدا احتمال وجود کلمه (در یک انبوه متن بزرگ) در سلسله‌مراتب محاسبه می‌شود، سپس از تئوری اطلاعات استفاده می‌شود. تئوری اطلاعات بیان می‌دارد که محتوای اطلاعاتی هر کلمه برابر است با منفی لگاریتم احتمال حضور کلمه در انبوه متن. تشابه دو کلمه به اندازه‌ی اطلاعات محتوای کلمه خاصی است که هردوی این کلمات به صورت مستقیم یا غیرمستقیم فرزندان آن هستند. تابع P را تعریف می‌کنیم:
به طوری‌ که به ازای هر ، احتمال مواجه ‌شدن با کلمه c باشد. اگر در ساختار هستان‌شناسی تنها یک گره‌ی بالایی وجود داشته باشد، آنگاه احتمال آن 1 می‌شود. محتوای اطلاعاتی کلمات c برابر است با -logP(c). بنابراین:
Formule sim max kuchak.jpg
به‌طوری که :
Formule pc.jpg
روشهای مبتنی بر ویژگی‌ها
در این دسته از روش‌ها میزان شباهت بین دو کلمه به عنوان تابعی از ویژگی‌های (بطور مثال تعاریفGlossary کلمات) آن کلمات در WordNet و یا براساس رابطه‌ی آنها با کلمات مشابه در ساختار سلسله‌مراتب کلمات، محاسبه می‌شود. ویژگی‌های مشترک باعث افزایش میزان مشابهت شده و برعکس ویژگی‌های غیرمشترک باعث کاهش میزان مشابهت مفاهیم خواهد شد . هم‌چنین در [07LIU] یک روش محاسبه‌ی شباهت معنایی براساس چندین ویژگی ارائه شده است. یکی از خوبی‌های این روش آن است که بسیار به روش تمایز مفاهیم توسط انسان نزدیک است ولی از سویی دیگر در این روش‌ها به توصیف فراگیر و در سطح جزئی از مفاهیم، نیاز است.

روشهای ترکیبی
جیانگ و کنارث مدل ترکیبی ارائه کرده‌اندکه براساس مدل شمارش یالها بوده و از محتوای اطلاعاتی به عنوان یک فاکتور تصمیم استفاده کرده است . محتوای اطلاعاتی (IC) کلمع c را می‌توان با مقدار بیان داشت. قدرت لینک (LS) هر یال برابر است با تفاضل محتوای اطلاعاتی کلمه فرزند و کلمه پدر در ساختار سلسله‌مراتبی.
Formule ls.jpg
به طوری‌که کلمه فرزند ci زیرمجموعه‌ای از کلمه پدر خود p می‌باشد. پس از درنظرگرفتن سایر فاکتورها ازجمله چگالی محلی، عمق گره‌ی کلمه و نوع یال (لینک)، تابع فاصله به صورت زیر بیان می‌شو.
Formule dist.jpg
رودریگز روش دیگری برای تعیین نهادهای مشابه را براساس WordNet ارائه کرده است. برای مثال در آن، روابط زیرمفهوم/ابرمفهوم، جزئیت/شمولیت درنظر گرفته شده است. اندازه‌ی مشابهت براساس نرمال‌سازی مدل توِرسکی و توابع اشتراک وتفاضل و برطبق رابطه‌ی زیر صورت می‌گیرد:
Formule sab.jpg
به ‌طوری‌که aو b نهادهای کلاس بوده، Aو Bمجموعه‌ی توضیحات aو b (یعنی مجموعه‌ی مترادف‌ها، روابط IS-A(و یا Part-Whole) و α تابعی است که اهمیت نسبی مشخصات غیرمشترک را تعریف می‌کند. برای سلسله‌مراتب IS-A، αبرحسب عمق نهادهای کلاس تعریف می‌شود.
Formule aab.jpg

روش‌های اندازه گیری شباهت بین جملات

اندازه‌گیری شباهت بین جملات یکی از مهمترین کارها در حوزه پردازش متن می‌باشد که می‌تواند تاثیر بسزایی در بسیاری از کاربردهای متن داشته باشد. در بازیابی اطلاعات، معیارهای شباهت برای انتساب امتیاز رتبه‌‌‌‌‌‌‌بندی بین متن و عبارت پرس‌‌‌‌‌‌‌و‌‌‌‌‌‌‌جو در یک پیکره استفاده می‌شود. سیستم‌های پاسخ‌‌‌‌‌‌‌گو هم نیازمند تعیین شباهت بین جفت سوال-پاسخ و یا سوال-سوال می‌باشند. همچنین سیستم‌‌‌‌‌‌‌های خلاصه‌‌‌‌‌‌‌سازی مبتنی بر گراف هم برای اندازه گیری وزن لبه ها از معیارهای شباهت استفاده می‌‌‌‌‌‌‌کنند. فرآیند محاسبه شباهت بین جملات فرایند بسیار دشوار و پیچیده‌‌‌‌‌‌‌ای می‌‌‌‌‌‌‌باشد. علی غم اینکه بسیاری از کاربرد‌‌‌‌‌‌‌ها از معیارهای شباهت استفاده می‌کنند، اما بیشتر روش‌‌‌‌‌‌‌ها جملات را فقط بر مبنای سطح ظاهری مقایسه می‌‌‌‌‌‌‌کنند تا بر اساس معنا.
در این بخش روشهای اندازه گیری شباهت بین جملات بررسی شده است. در مقاله ای روش‌های معروف اندازه‌‌‌‌‌‌‌گیری شباهت جملات بررسی و مقایسه شده‌‌‌‌‌‌‌اند. این روشها به سه دسته اصلی تقسیم‌‌‌‌‌‌‌بندی می‌‌‌‌‌‌‌شوند: معیار اشتراک کلمه، معیار TFIDF و معیار‌‌‌‌‌‌‌های زبان شناسی.

معیار اشتراک کلمات

معیار‌‌‌‌‌‌‌‌های مبتنی بر اشتراک کلمات میزان شباهت را بر اساس کلمات مشترک بین دو جمله محاسبه می‌‌‌‌‌‌‌‌نمایند. از جمله‌‌‌‌‌‌‌‌ی این روشها می توان به سه روش اشتراک ساده کلمات، اشتراک IDF و اشتراک عبارتی اشاره کرد.
معیار اشتراک کلمات ساده و اشتراک IDF
در مقاله ای دو معیار پایه مبتنی بر اشتراک کلمات برای تعیین شباهت بین جملات تعریف شده است. تابع اشترک ساده کلمات 〖sim〗_overlap به صورت نسبت کلماتی که در هر دو جمله ظاهر می‌‌‌‌‌‌‌‌شوند به طول جملات تعریف می شود. تابع اشتراک IDF هم به صورت نسبت کلماتی که در هر دو جمله ظاهر می‌‌‌‌‌‌‌‌شوند که توسط معکوس تکرار سندشان (IDF) وزن دهی شده باشند، تعریف می‌‌‌‌‌‌‌‌شود. عدم توجه به ترتیب کلمات و نقش و موقعیت معنایی کلمات و توجه صرف به شکل نحوی کلمات از اشکلات عمده و اساسی این دو روش می‌‌‌‌‌‌‌‌باشد.
معیار اشتراک عبارتی
در منبعی، معیار همپوشانی بر اساس رابطه بین طول عبارات و تعداد رخدادشان در یک مجموعه متن تعریف شده است. این روش برای برطرف کردن مشکل روش‌‌‌‌‌‌‌‌های ساده مبتنی بر هم پوشانی کلمات ارائه شده است. این روش‌‌‌‌‌‌‌‌ها به صورت کیفی از کلمات عمل می‌‌‌‌‌‌‌‌کنند و تفاوتی بین عبارات تک کلمه ای و چند کلمه‌‌‌‌‌‌‌‌ای قائل نیستند. با توجه به اینکه یک همپوشانی عبارتی n-کلمه ای بسیار کمتر از یک همپوشانی تک کلمه‌‌‌‌‌‌‌‌ای اتفاق می افتد، محاسبه همپوشانی برای m تا همپوشانی عبارتی n کلمه‌‌‌‌‌‌‌‌ای به صورت تابع زیر نشان داده می‌‌‌‌‌‌‌‌شود:
Formule overlap.jpg
که m تعداد عبارت های i-کلمه‌‌‌‌‌‌‌‌ای هست که در هر دو جمله ظاهر شده‌‌‌‌‌‌‌‌اند. Ponzetto هم تابع بالا را به صورت نرمال شده و به شکل زیر ارائه نمود:
Formule simoverlap.jpg
عدم توجه به نقش دستوری کلمات در جمله و توجه صرف به شکل نحوی عبارات از جمله اشکلات مهم و تاثیر گذار این روش می‌‌‌‌‌‌‌‌باشد.

معیارهای TFIDF

در ذیل به یک نمونه از روش‌‌‌‌‌‌‌‌های این دسته که مبتنی بر محاسبه وزن TF-IDF می‌‌‌‌‌‌‌‌باشد اشاره شده است. البته می‌‌‌‌‌‌‌‌توان از روش‌‌‌‌‌‌‌‌های دیگر وزن‌‌‌‌‌‌‌‌دهی به کلمات هم در قالب این روش‌‌‌‌‌‌‌‌ها استفاده نمود.
شباهت برداری TF-IDF
مدل فضای برداری یک سند را به صورت برداری از تمامی ویژگی‌‌‌‌‌‌‌‌ها شامل کلمات تشکیل دهنده، نمایش می‌‌‌‌‌‌‌‌دهد. در این روش وزن کلمات بر اساس معیار TFIDF که پیشتر هم توضیح داده شد، محاسبه می گردد [33]. در این مدل میزان شباهت بین دو بردار با اندازه‌‌‌‌‌‌‌‌گیری فاصله کسینوسی بین دو بردار محاسبه می‌‌‌‌‌‌‌‌شود. بردار جملات در این مدل فقط شامل کلمات موجود در هر دو جمله می‌‌‌‌‌‌‌‌باشد (در صورت استفاده از بردار تمامی کلمات موجود در تمامی جملات، تعداد زیادی از درایه‌‌‌‌‌‌‌‌های بردار صفر خواهد بود). شباهت استاندارد TFIDF، 〖sim〗_(TFIDF,vector) به صورت فاصله کسینوسی بین دو بردار محاسبه می‌‌‌‌‌‌‌‌گردد.
در این مدل هم مشکل نقش دستوری کلمات، مبتنی بودن بر نحو کلمات و عدم توجه به ترتیب کلمات وجود دارد و از ضعف‌‌‌‌‌‌‌‌های اساسی این روش می‌‌‌‌‌‌‌‌باشد.

معیارهای زبان شناسی

معیارهای زبانشناسی از دانش زبانشناسی مانند ارتباط معنایی بین کلمات و ترکیبات نحوی آنها برای تعیین میزان شباهت معنایی بین جملات استفاده می‌‌‌‌‌‌‌‌نمایند. تاکنون روش‌‌‌‌‌‌‌‌های معنایی مختلفی ارائه شده‌‌‌‌‌‌‌‌اند که از ارتباط معنایی بین کلمات برای تعیین میزان شباهت بین جملات استفاده می‌‌‌‌‌‌‌‌کنند. در مقاله ای اطلاعات جامع و کافی در مورد روش‌‌‌‌‌‌‌‌های مبتنی بر شباهت معنای بین کلمات ارائه شده است. در ادامه به یکی از این روش‌‌‌‌‌‌‌‌ها اشاره شده است.
بر طبق نتایج ارائه شده در کاری دیگر، در مجموعه داده‌‌‌‌‌‌‌‌های با پیچیدگی کم، روش‌‌‌‌‌‌‌‌های مبتنی بر معیارهای زبانشناسی بسیار بهتر از دو دسته‌‌‌‌‌‌‌‌ی دیگر بودند و در مجموعه داده‌‌‌‌‌‌‌‌های با پیچیدگی زیاد هم این دسته بهتر از سایر روش‌‌‌‌‌‌‌‌ها بوده ولی با اختلاف دقت کم‌‌‌‌‌‌‌‌تر.
روش ارائه شده در این مقاله هم در این دسته قرار می‌‌‌‌‌‌‌‌گیرد و با استفاده از روش بر چسب‌‌‌‌‌‌‌‌زنی معنایی، شباهت بین جملات با اندازه‌گیری شباهت بین کلمات در نقش‌‌‌‌‌‌‌‌های معنایی یکسان، محاسبه می‌‌‌‌‌‌‌‌شود.
معیار شباهت معنایی بین جملات
در منبعی یک روش برداری-معنایی برای تعیین شباهت بین جملات اشاره شده است. در این روش، جملات به صورت بردار ویژگی‌‌‌‌‌‌‌‌های کلمات موجود در جفت جمله ها تبدیل می‌‌‌‌‌‌‌‌شوند. وزن کلمات از ماکزیمم شباهت معنایی بردار ویژگی‌‌‌‌‌‌‌‌های کلمات جمله و کلمات موجود در جمله مربوطه بدست می‌‌‌‌‌‌‌‌آید. البته در بعضی از روش‌‌‌‌‌‌‌‌ها این شباهت تنها در برچسب‌‌‌‌‌‌‌‌های مشخصی از سخن (اسم، فعل و ...) بررسی می‌‌‌‌‌‌‌‌شود . پس از بدست آمدن این وزن‌‌‌‌‌‌‌‌ها، شباهت معنایی بین هر جفت جمله توسط فاصله کسینوسی بین بردار جملات محاسبه می‌‌‌‌‌‌‌‌گردد.
در کاری دیگر هم روش مشابهی ارائه شده است. در این روش شباهت بین دو جمله s_1 و s_2 با محاسبه ماکزیمم شباهت بین هر یک از کلمات s_1 با کلمات موجود در بخش‌‌‌‌‌‌‌‌های واژگانی سخن(POS) یکسان در جمله s_2 آغاز می‌‌‌‌‌‌‌‌شود. سپس همین عملیات برای کلمات موجود در جمله s_2 با کلمات موجود در بخش‌‌‌‌‌‌‌‌های واژگانی یکسان در جمله s_1 تکرار می‌‌‌‌‌‌‌‌شود. شباهت بدست آمده برای هر کلمه در idf آن ضرب می‌‌‌‌‌‌‌‌شود. نهایتا شباهت بین دو جمله به صورت رابطه زیر محاسبه می‌‌‌‌‌‌‌‌گردد:
Formule simsem.jpg
که در آن maxSim(w,s_i) حداکثر میزان شباهت بین کلمه w و کلمات موجود در نقش‌‌‌‌‌‌‌‌های واژگانی یکسان جمله s_i می باشد. دلیل استفاده از POS در این روش این است که بسیاری از روش های محاسبه شباهت بین کلمات مبتنی بر شبکه واژگان قادر نیستند که شباهت بین کلمات را در برچسب های متفاوت واژگانی سخن محاسبه نمایند.
از برچسب زنی معنایی در محاسبه شباهت جملات بسیار کم استفاده شده است. در منبعی از نقش‌‌‌‌‌‌‌‌های معنایی برای افزایش دقت سیستم‌‌‌‌‌‌‌‌های پرسش و پاسخ استفاده شده است. در منبعی دیگر در ابتدا نقش‌‌‌‌‌‌‌‌های معنایی جملات محاسبه شده، سپس فرکانس کلمات در این نقش‌‌‌‌‌‌‌‌ها محاسبه می‌‌‌‌‌‌‌‌شود و در ادامه از روش کسینوسی برای تعیین فاصله بین بردار جملات استفاده می‌‌‌‌‌‌‌‌شود. در مقاله ای دیگر هم از نقش-های معنایی در ساخت ماتریس اولیه ای برای خلاصه‌‌‌‌‌‌‌‌سازی جملات استفاده شده است و سپس با استفاده از روش‌‌‌‌‌‌‌‌های دیگر جملات مهم انتخاب شده‌‌‌‌‌‌‌‌اند. در این روش به مشکلات استفاده از نقش‌‌‌‌‌‌‌‌های معنایی اشاره نشده است.
شباهت مبتنی بر ترتیب کلمات
در بسیاری از روش‌‌‌‌‌‌‌‌های ذکر شده توجهی به ترتیب کلمات نمی‌‌‌‌‌‌‌‌شود. در این روش‌‌‌‌‌‌‌‌ها دو جمله "the sale manager hits the office worker" و "the office manager hits the sale worker" یکسان در نظر گرفته می‌‌‌‌‌‌‌‌شوند که کاملا اشتباه می‌‌‌‌‌‌‌‌باشد.
در [35] معیاری شباهت ترتیب کلمات ارائه شده است که برابر با تفاوت نرمال شده ترتیب کلمات بین دو جمله می‌‌‌‌‌‌‌‌باشد. فرمول محاسبه شباهت ترتیب کلمات به صورت رابطه زیر می‌‌‌‌‌‌‌‌باشد:
Formule simwo.jpg
که r_1 و r_2 به ترتیب بردار ترتیب کلمات جملات s_1 و s_2 می‌‌‌‌‌‌‌‌باشند. بردار ترتیب کلمات، برداری از ویژگی‌‌‌‌‌‌‌‌ها می‌‌‌‌‌‌‌‌باشد که ویژگی‌‌‌‌‌‌‌‌های آن برآمده از مجموعه کلماتی است که در جفت جملات ظاهر شده‌‌‌‌‌‌‌‌اند. شاخص موقعیت هر کلمه در هر یک از جملات به عنوان وزن آن کلمه در نظر گرفته می‌شود.
لازم به ذکر است این روش هم در صورتی که جملات دارای عبارت های توصیفی مختلفی باشند نمی‌‌‌‌‌‌‌‌تواند ترتیب کلمات را درست تشخیص دهد و یا مثلا در دو جمله "Juhn kills Bob" و"Bob is killed by Juhn" که کاملا یکسان ولی با ترتیب های مختلف هستند دچار اشتباه می‌‌‌‌‌‌‌‌شود.

بازیابی اطلاعات

سيستم بازيابي اطلاعات در مجموعه سند هايي که به فرمتهاي گوناگون در پايگاه داده وجود دارد (حال اين پايگاه داده ممکن است پايگاه دادة رابطه اي مستقل يا پايگاه دادة شبکه‌اي ابر متن مثل اينترنت باشد)، به دنبال اطلاعات مطلوب کاربر مي‌گردد. جستجوي اطلاعات به دو صورت امکان پذير است:
مرور کلي  : در مواردي است که خواستة کاربر دقيق نباشد يا اينکه علايق کاربر گسترده باشد.
جست و جو کردن  : در مواردي است که خواستة کاربر دقيق باشد.
در شکل زير شمايي از يک سيستم بازيابي اطلاعات پايه آمده است:
Shekle 2.7.jpg

مراحل بازيابي اطلاعات

در بازيابي اطلاعات چندين مرحلة مهم وجود دارد:
1- ايندکس‌بندي
2- خطي سازي سند
• حذف نشانه‌ها و فرمت
• نشان گذاري
3- فيلتر کردن
4- ريشه‌يابي
5- وزن دادن
6- رتبه بندي

شاخص‌گذاری (ايندکس‌بندي)

در طي ايندکس‌بندي، سندها براي استفاده توسط سيستم بازيابي اطلاعات آماده مي‌شوند. اين به معني تبديل و آماده سازي مجموعة خام از اسناد به نمايش قابل دسترس و ساده از اسناد است. اين تبديل- از متن سند به يک نمايش از متن – به عنوان ايندکس بندي شناخته مي‌شود.
تبديل يک سند به فرم ايندکس بندي شده شامل استفاده از :
1. يک کتابخانه يا مجموعه اي از عبارات منظم
2. پارسرها
3. يک کتابخانه از کلمات ايست و ربط (اضافه)
4. فيلترهاي متفرقة ديگر
اين اعمال به طور طبيعي در 5 مرحله صورت مي‌گيرد: حذف فرمت و قالب و نشانه‌ها، توکن بندي، فيلتر کردن، ريشه يابي و وزن گذاري. اگر هيچ گونه حذف نشانه هاي زبان‌هاي مياني مانند HTML و وزن گذاري نياز نباشد آنگاه اين تبديل تنها شامل تشخيص توکن ها، فيلتر کردن و ريشه يابي مي‌شود. اين نوع از ايندکس بندي متناوباً در پايگاه داده‌هايي که صرفاً فايلهاي متني و اطلاعات خام را مرتب مي‌کنند يافت مي‌شود، با اين وجود در وب بدليل اينکه سندها در فرمتهاي مختلف هستند پنج مرحلة فوق نياز است.
شماي کلي از تبديل يک متن به کلمات ايندکس شده در شکل زير ديده مي‌شود.
Shekle 2.8.jpg

خطي‌سازي سندها

خطي سازي سند عملي است که به موجب آن يک سند به رشته اي از عبارت‌ها (terms) تبديل مي‌گردد. همانطور که در ادامه مي‌آيد اين عمل در دو مرحله انجام مي‌گيرد:
1. حذف قالب‌ها و نشانه‌ها: در طي اين فاز تمامي تگ‌ها، نشانه گذاري‌ها و قالب بنديهاي خاص از سند حذف مي‌شوند. بنابراين براي يک سندHTML تمامي تگ‌ها و متن‌هاي داخل اين تگ‌ها حذف مي‌گردند. اين عمل به طور طبيعي شامل تمامي صفات عناصر، اسکريپت ها، خطوط توضيحي و متون قرار داده شده داخل آنها مي‌باشد. بعضي از موتورهاي جستجوي تجاري ممکن است متن داخل تگ عنوان، image ALT attribute، صفات خلاصة جدول(table summary attribute) و تگ فرا توضيح (Meta Desciption tag) را حفظ کنند. ديگر سيستم‌ها ممکن است از صفات عناصر يا متاديتاها اصلاً محافظتي نکنند و حتي بعضي ديگر ممکن است اين‌ها را نگهداري کنند و با اطلاعات متاديتاها کاربر نهائي را کمک کنند، اما اين اطلاعات را براي رتبه بندي اسناد مورد استفاده قرار ندهند.
2. توکن بندي (Tokenization): در طي اين فاز بقية متن پارس (تجزيه) مي‌شود و تمامي حروف کوچک و بزرگ به يک نوع تبديل شده و نقطه گذاري‌ها حذف مي‌شوند.قوانين هايفن گذاري بايستي اعمال شوند، به طور مثال در بعضي سيستم‌ها ممکن است اين هايفن ها حفظ شوند در حاليکه در بقيه ممکن است هايفن ها حذف شده و يا به عنوان فضاي خالي و يا توکن ربط در نظر گرفته شوند.بعضي از موتورهاي جسنجو مانند گوگل، در سمت کوئري به نظر مي‌رسد که هايفن ها را به عنوان قسمتي از جستجوي دقيق محلي (localized EXACT search) در نظر مي‌گيرند( به طور مثال در حالت FINDALL در کوئري به فرمK1-K2 + K3، بخش K1-K2 از اين کوئري به عنوان يک کوئري دقيق محلي (localized EXACT query) تفسير مي‌شود.
در طي خطي سازي تمامي دستورالعمل‌هاي CSS (Cascading Style Sheet) حذف مي‌شوند، اين بدان معني است که بدون داشتن فهمي روشن از پروسة خطي سازي متن، انتقال‌هاي دلخواه متن با استفاده از CSS، تگ‌هاي تودرتو يا جداول، في الواقع مي‌تواند مضر باشد بطوريکه آنچه که کاربران به عنوان محتواي مربوط درک مي‌کنند با آنچه که موتور جستجو به عنوان مربوط مي‌خواند و نمره دهي مي‌کند تفاوت پيدا مي‌کند. در واقع پس از خطي سازي سند:
1. جريان مؤثر متن بايستي دنبالة منسجمي از لغات را داشته باشد.
2. اين دنباله متن بايستي معاني، تم‌ها، موضوعات و زير فهرستهاي مورد نظر متن اصلي را شامل باشد.
3. موقعيت لغات در اين دنباله متني توسط خطوطMarkup که در Source Code واقع است مشخص مي‌گردد (مانند HTML Tags).
تمامي اين‌ها اين واقعيت را تاکيد مي‌کند که درک کاربر از مرتبط بودن ودرک ماشين از مرتبط بودن دو چيز متفاوت است. اغلب اوقات روشي که موتورهاي جستجو يک متن را درک و تفسير مي‌کنند با روشي که که کاربران و مرورگرها آن متن را مي‌خوانند تفاوت دارد و اين دليل آن است که خطي سازي سند – به عنوان بخشي از آناليز فاصله (GAP analysis) – قبل و بعد از بهينه سازي سند اهميت دارد. در برخي موارد، خطي سازي سند تلاش براي محاسبة چگالي کلمه بوسيلة اسکن يک سند را بيهوده مي‌کند.

فيلتر کردن

فيلترکردن به عمل تصميم گيري براي اينکه کدامين کلمات (terms) بايستي براي نمايش يک سند انتخاب شوند، اطلاق مي‌گردد که اين مي‌تواند براي موارد زير مورد استفاده قرار گيرد:
1- توضيح متن سند
2- تشخيص يک سند از اسناد ديگر در مجموعه اي از اسناد.
خيلي از اوقات کلمات با استعمال زياد، به دو علت نمي‌تواند به عنوان انتخاب مورد استفاده قرار گيرند. اول آنکه تعداد سندهايي که به کوئري مربوط هستند نسبت کوچکي از مجموعه اسناد هستند. کلمه اي که در جداسازي اسناد مربوطه از اسناد نامربوط مؤثر است، کلمه اي است که به احتمال زياد در تعداد کمي از اسناد آمده است؛ اين بدان معني است که کلماتي که تعداد تکرارشان زياد است براي تشخيص سند ضعيف هستند. دليل دوم آن است که کلماتي که در متن‌هاي مختلفي تکرار مي‌شوند، عنوان يا زير عنوان يک سند را نمي‌توانند تعريف کنند.
به همين دلايل است که کلمات با استعمال زياد و يا کلمات ايست (Stop Word) از رشتة کلمات حذف مي‌شوند، اگرچه حذف لغات ايست از يک سند کاري وقت گير است. يک روش بهينه آن است که تمامي کلماتي که به طور مشترک در مجموعة اسناد ظاهر شده‌اند و تاثيري بر بازيابي اسناد مربوط ندارند، حذف شوند.
اين کار مي‌تواند با داشتن کتابخانه اي از کلمات ايست- ليست کلمات ايست (Stop List) براي حذف – انجام گيرد. اين ليست‌ها (از کلمات ايست) مي‌تواند عمومي (اعمال شونده به تمامي مجموعه اسناد) ويا مشخص (ساخته شده براي مجموعه اسناد مشخص) صورت گيرد. اينکه چه حدي از تکرار کلمات مشخص مي کتد که کدام کلمات بايستي از مجموعه اسناد حذف شوند، وابسته به پياده سازيهاي مختلف است. به طور مثال در بعضي از سيستمهاي بازيابي اطلاعات کلماتي که در بيش از 50% از مجموعه اسناد ظاهر شده اندف حذف مي‌شوند. در بعضي از سيستم‌ها کلماتي که در ليست کلمات ايست نيستند اما در بيش از 50% از مجموعه اسناد آمده‌اند به عنوان " کلمات منفي" (Negative Terms) در نظر گرفته مي‌شوند و آن‌ها نيز به خاطر جلوگيري از پيچيدگي در وزن دهي حذف مي‌شوند. اين مورد اخير در بعضي از سيستمهاي مبتني بر MySQL که از وزن‌هايIDFP (Probabilistic Inverse Document Frequency) استفاده مي‌کنند، استفاده مي‌گردد.

حذف کلمات زائد

کلمات ايست لغاتي هستند که در جملات کاربرد ربطي دارند و زياد استعمال مي‌شوند مثل «اگر»، «و»، "or"، "the”. اين کلمات علي رغم اينکه بسيار استفاده مي‌شوند اما از لحاظ معنايي داراي اهميت کمي بوده و به همين دليل عموماً در فعاليت‌هاي مربوط به حوزه پردازش زبان طبيعي در فاز پيش پردازش حذف مي‌شوند. براي حذف اين کلمات عموماً ليستي از اين کلمات از پيش تهيه مي‌شود و سپس در صورت رخداد اين کلمات در متن، از سند حذف مي‌شوند. براي زبان انگليسي چندين ليست از اين کلمات منتشر شده است که به طور ميانگين شامل 500 کلمه مي‌باشند.

ريشه‌يابي کلمات

ريشه‌يابي به فرآيند کاهش دادن لغات به ريشه هاي آن‌ها اطلاق مي‌گردد. بنابراين "computer"و"compute"و"computing' به"compute" که ريشة اصلي است کاهش مي‌يابند. تمامي سيستم‌هاي بازيابي اطلاعات نوع يکساني از «ريشه ياب» را مورد استفاده قرار نمي‌دهند. در انگليسي معروف‌ترين ريشه ياب، الگوريتم ريشه ياب «مارتين پورتر » است.
در طول ساليان گذشته، بسياري مزايا و معايب استفاده از ريشه‌يابي را متذکر شده‌اند. به عنوان مثال؛ هيچ شکي نيست که ريشه‌يابي کردن تضمين مي‌کند که سندهايي که همگي شامل اشتقاق‌هاي متفاوتي از کلمة موجود در پرس و جو هستند، در مجموعه جواب نهايي هستند. ريشه‌يابي همچنين سايز فايل وارونه را کاهش مي‌دهد. از طرفي ديگر ريشه‌يابي در حدّ بالا عملي نيست و باعث آزار کاربران مي‌گردد. همان‌طور که Avi Rappoport متخصص در امور بازيابي اطلاعات مي‌گويد: «در بسياري از موارد، موتور جستجو در وهله اول نمي‌تواند مطابقت‌هاي دقيق را نشان دهد؛ چون متن ريشه‌يابي شده در ايندکس ذخيره شده است، اين امر ممکن است که باعث ذخيره فضاي ديسک شود اما باعث آزار کاربران مي‌گردد. اين مشکل بيشتر در مورد افعال رخ مي‌دهد. بهتر و آسان‌تر آن است که ريشه‌يابي در کوئري انجام شود و براي نگارش‌هاي مختلف کلمه جستجو شود تا آنکه تنها نگارش ريشه‌يابي شده ذخيره گردد ». ريشه‌يابي کلمات با توجه به رشد پردازش زبان طبيعي رشد کاربردهاي فراواني پيدا کرده است. به طور کلي دو کاربرد عمده براي ريشه‌يابي کلمات مرسوم است:
• ريشه‌يابي کلمات در ماشين‌هاي مترجم.
• ريشه‌يابي کلمات در سيستم‌هاي بازيابي اطلاعات
در سيستم‌هاي بازيابي اطلاعات معمولاً يک پايگاه دادة بسيار بزرگ وجود دارد که بايستي پردازش و بازيابي اطلاعات بر روي آن‌ها صورت گيرد. هرچه شبکه هاي معنايي استخراج شده از اين اطلاعات دقيق‌تر و گسترده تر باشد، امکان فراهم شدن اطلاعات استخراج شده بيشتر، راحت‌تر است. يکي از کاربردهاي ريشه‌يابي در امکان فراهم کردن شبکه هاي معنايي گسترده تر در سيستم‌هاي پردازش متن و بازيابي اطلاعات است.
کلمات در هر زبان به دو دستة جامد و مرکب تقسيم مي‌شوند. به کلماتي که از ديگر کلمات مشتق شده‌اند، کلمات مرکب گفته مي‌شود. کلمات جامد کلماتي هستند که در زبان از هيچ کلمه اي مشتق نشده‌اند. يافتن ريشة کلمات را اصطلاحاً ريشه‌يابي کلمات مي‌گوييم. به عنوان مثال در زبان فارسي، «آموزگار» کلمة مرکبي است که از ترکيب «آموز» و «گار» تشکيل شده است يا در زبان انگليسي،”teacher” از کلمات"teach" و"er" تشکيل شده است.

وزن‌دهي

وزن‌دهي مرحلة نهائي در اکثر برنامه هاي ايندکس بندي براي بازيابي اطلاعات است. کلمات براساس مدلي وزن‌دهي مي‌شوند که اين مدل ممکن است بر اساس وزن‌دهي محلي و يا سراسري و يا ترکیبی از هر دو باشد.
اگر وزن‌دهي محلي مورد استفاده باشد، آنگاه وزن کلمه ف تعداد تکرار (فرکانس) کلمه مي‌باشد (tf). حال اگر وزن سراسري مورد استفاده باشد وزن کلمه با مقدار IDF بيان مي‌گردد. اصلي‌ترين و اساسي‌ترين الگوي وزن‌دهي مدلي است که در آن از هر دوي وزن محلي و وزن سراسري استفاده مي‌شود (وزن کلمه=tf * IDF) که به طور معمول از آن به عنوان وزن‌دهي tf*IDF ياد مي‌شود. در ادامه به مدل‌هاي وزن‌دهي و تشريح آن‌ها نيز مي‌پردازيم. در شکل زير مراحل ايندکس بندي با مثال مشخص شده است.
Shekle 2.9.jpg

معيارهاي صحت و کيفيت در بازيابي اطلاعات

قبل از آنکه به بررسي مدلهاي وزن‌دهي و تئوري بردار کلمه بپردازيم دو معيار Precision و Recall که جزو معيارهاي ارزيابي صحت و کارايي سيستم‌هاي بازيابي اطلاعات به شمار مي‌روند، مي‌پردازيم:
Precision: نسبت سندهاي بازيابي شده مرتبط به تمامي سندهاي بازيابي شده مي‌باشد:
Formule precision.jpg
Recall: نسبت سندهاي بازيابي شده مرتبط به تمامي سندهاي مرتبط مي‌باشد:
Formule recall.jpg
F-measure: ميانگين همساز وزن‌دهي شده از precision و recall مي‌باشد:
Formule f.jpg
که F1 نيز ناميده مي‌شود چون که precision و recall به يکسان وزن‌دهي شده‌اند.
رابطه کلي براي مقدار حقيقي نامنفي α برابر است با :
Formule falpha.jpg
Mean Average Precision: ميانة ميانگين دقت‌ها مي‌باشد پس از آنکه سندهاي مرتبط بازيابي شد. (بر روي مجموعه اي از کوئري‌ها).
Formule avep.jpg
بطوريکه رتبه، تعداد سند بازيابي شده، تابع باينري بر روي ارتباط رتبة داده شده و دقت در cut-off rank داده شده مي‌باشند.

الگوهاي وزن‌دهي

هدف از الگوهاي وزن‌دهي به کلمات، طبقه بندي کلمات ايندکس بندي شده بوسيلة وزن دادن به آن‌ها بر اساس تأثير آن‌ها در بهبود Recall و precision در امر بازيابي است.
در وزن‌دهي به کلمات مدل‌هاي مختلفي وجود دارد، که در بازيابي اطلاعات سنتي، شاخص‌ترين آن‌ها مدل‌هاي بولي، احتمالي و فضاي برداري مي‌باشند. ولی معمولاً در تحقيقات امروزی، تمرکز بر روي مدل فضاي برداري و تغيير يکي از معروف‌ترين معيارهاي موجود در اين مدل، يعني TF-IDF مي‌باشد.

وزن‌دهي با فرکانس کلمات

الگوهاي وزن‌دهي بر مبناي فرکانس کلمات، خواص تکرار کلمات در مجموعة اسناد را معين مي‌کنند. وزن نهايي کلمات با سه فاکتور بيان مي‌گردد:

• Lij: وزن محلي کلمة I در سند j.
• Gi: وزن سراسري کلمة i.
• Nj: فاکتور نرمال سازي براي سند j.
وزن کلمة i در سند j توسط عبارت زير بيان مي‌گردد :
Formule dij.jpg
وزن‌هاي محلي تابعي از تکرار هر کلمه در يک سند است. قانون آن است که کلمه اي که در يک سند بيشتر تکرار شود، آن کلمه براي آن سند مهم‌تر است. در جدول زير تعدادي از رابطه‌هاي متداول وزن محلي آمده است.
Jadvale 2.4.jpg
به طوري که فرکانس کلمة i در سند j ، فرکانس متوسط کلماتي که در سند j وجود دارند و فرکانس ماکزيمم در بين کلمات موجود در سند j مي‌باشند.
ساده‌ترين رابطه‌ها BNRY و FREQ مي‌باشد. با اين وجود، BNRY بين کلماتي که متناوباً در يک سند تکرار مي‌شوند با آن‌هايي که فقط يک‌بار تکرار شده‌اند، فرقي نمي‌گذارد. در حالي که FREQ به کلماتي که متناوباً در سند تکرار شده‌اند اگرچه براي سند مهم نباشند، وزن بيشتري مي‌دهد. به منظور کاهش فرق گذاري FREQ بين کلمات با تناوب بالا و کلمات کمتر تکرار شده دو راه حل وجود دارد:
1- استفاده از لگاريتم: LOGA و LOGN. LOGN نسخة نرمال شده از LOGN است. فاکتور نرمال سازي 1+log aj است که وزن کلمة (موجود يا ناموجود) با فرکانس متوسط در سند j را نشان مي‌دهد. LOGN براي آن دسته از الگوهاي وزن‌دهي استفاده مي‌شود که از فاکتور سوم استفاده نمي‌کند (فاکتور نرمال سازي سند).
2- ATF1: به کلماتي که در سند ظاهر شده‌اند، وزن استاندارد 0.5 داده مي‌شود. سپس به کلماتي که تناوب تکرار بالا در سند دارند، وزني اضافي داده مي‌شود.
وزن‌هاي سراسري تابعي از تعداد تکرار هر کلمه در کل مجموعة اسناد است. قانون آن است که کلماتي که تنها در عدة کمي از سندها ظاهر مي‌شوند تمايزدهنده هاي بهتري نسبت به کلماتي هستند که در تعدادي زيادي از اسناد ظاهر شده‌اند. جدول زير تعدادي از رابطه‌هاي متداول وزن سراسري را نشان مي‌دهد.
Jadvale 2.5.jpg
به طوري که تعداد اسناد در کل اسناد، تعداد اسنادي که کلمة i در آن‌ها ظاهر شده است و فرکانس تکرار کلمة i در سرتاسر مجموعه اسناد= مي‌باشند. هر کلمة i در يک سند با احتمال p ممکن است ظاهر گردد. از آنجا که احتمال با فرکانس نسبي محاسبه مي‌گردد بنابراين داريم p = ni/N. با توجه به اينکه کلمة با تعداد تکرار بالا تمايز دهندة خوبي نيست، IDFB وزن کمي توسط رابطه زير به کلمات با احتمال حضور بالا مي‌دهد.
پرونده:Formule logyekpom
IDFP ارزيابي مشابهي با محاسبة زير انجام مي‌دهد.
پرونده:Formule logyekmenhap
تفاوت اين دو آنجاست که IDFP به کلماتي که در بيش از نيمي از اسناد مجموعه ظاهر شده‌اند وزني منفي مي‌دهد (1-p/p < 1) در حالي که کمترين وزني که يک کلمه در IDFB ممکن است داشته باشد صفر است.
ENPY انتروپي اطلاعات هر کلمه را محاسبه مي‌کند. اگر يک کلمه در هر سند يک‌بار ظاهر شود، وزن به خود مي‌گيرد. هر ترکيب ديگري از فرکانس‌هاي کلمه در اسناد، وزني بين صفر و يک در ENPY مي‌گيرد. IGFF به کلماتي که در تعداد کمي از اسناد متناوباً ظاهر شده‌اند، وزن‌هاي بزرگي مي‌دهد. کمترين مقدار ممکن براي وزن در IGFF، يک است که به کلماتي که فرکانس تکرار آن‌ها در اسنادي که ظاهر شده‌اند فقط يک‌بار است داده مي‌شود.
فاکتور نرمال سازي براي تفاوت‌ها در اندازة اسناد در نظر گرفته مي‌شود. در اينجا قانون اين است که کلمه اي که در يک سند کوچک و يک سند بزرگ به يک اندازه تکرار شده است، احتمالاً براي سند کوچک‌تر مهم‌تر است.
نرمال‌سازي بردارهاي اسناد تضمين مي‌کند که اسناد، مستقل از بزرگي و اندازة‌شان بازيابي مي‌شوند. جدول زير تعدادي از رابطه‌هاي متداول نرمال سازي را نشان مي‌دهد.
Jadvale 2.6.jpg
به طوري که lj تعداد کلمه‌هاي يکتا در سند j و slope = 0.2(اين مقدار به صورت تجربي مشخص شده است).
براي هر سند، COSN بر بزرگي بردار سند وزن‌دهي شده تقسيم مي‌گردد. بنابراين، بزرگي بردارهاي سند وزن‌دهي شده در نهايت بصورت زير خواهد بود:
Formule sigma.jpg
COSN در اسناد بزرگ‌تر، به کلمات يکتا وزن کلمة کوچک‌تري مي‌دهد بنابراين در بازيابي، اسناد کوچک‌تر نسبت به اسناد بزرگ‌تر برتري دارند.
PUQN سعي در رفع اين مشکل دارد. قاعده اصلي که توسط اين روش استفاده مي‌شود؛ سعي در کاهش دادن تفاوت بين احتمال آنکه يک سند مربوط باشد و احتمال آنکه يک سند بازيابي شود، مي‌باشد. اين تفاوت ممکن است به خاطر اندازة سند ايجاد شده باشد و PUQN سعي در تصحيح اين عامل دارد:
در ابتدا فاکتور نرمال سازي متفاوتي استفاده مي‌شود. (مثلاً 1/Lj)
مجموعه اي از اسناد بازيابي شوند.
منحني‌هاي بازيابي و ارتباط در مخالفت با طول سند کشيده مي‌شوند.
نقطه اي که دو منحني با هم برخورد مي‌کنند نقطة لولايي ناميده مي‌شود.
اسنادي که در سمت چپ نقطة لولايي قرار دارند، احتمال آنکه مرتبط باشند از احتمال آنکه بازيابي شوند بيشتر است. حال lj با (1 – slope) pivot + slope lj جايگزين مي‌شود.
هر الگوي وزن‌دهي، رابطه‌هاي متفاوتي را براي محاسبة اين سه فاکتور با هم ترکيب مي‌کند. به طور نوعي ممکن است رابطه‌هاي مورد استفاده براي وزن‌دهي بردارهاي کوئري با رابطه‌هاي مورد استفاده براي بردارهاي سند فرق داشته باشند.

تئوري بردارِكلمه و وزنِ كلمات كليدي در مدل فضاي برداري سالتون

مدل فضای برداری سالتون ، مشهور ترین مدل کنونی برای نمایش بردار اسناد و متون جهت پردازش می باشد. به همین جهت در این تحقیق، به توضیحاتی اجمالی درباره آن خواهیم پرداخت و از این مدل برای نمایش بردارهای اسناد استفاده خواهیم کرد. چند مدل معروف دیگر در این زمینه، جهت آشنایی بیشتر در ضمیمه ب ارائه شده اند.
سيستمهاي بازيابي اطلاعات با در نظر گرفتن موارد زير به كلمات وزن مي دهند:
اطلاعات محلي از سندهاي مجزا.
اطلاعات سراسري از مجموعة سندها.
به علاوه سيستمهايي كه به لينك ها وزن مي دهند، به منظور درك روشنِ درجة اتصال بين سندها از اطلاعات گرافِ وب استفاده مي كنند.
در مطالعات بازيابي اطلاعات، مدلِ وزن دهي كلاسيك، همان مدل فضاي برداري سالتون است كه به طور معمول به "مدل بردار كلمه " مشهور است. وزن دهي در اين مدل از رابطة زير محاسبه مي شود:
Formule vazne kalame.jpg
كه در آن:
tfi = فركانس(تعداد ِكلمه) يا تعداد باري كه كلمة i در يك سند ظاهر شده است.
dfi = فركانسِ سند يا تعداد سندهايي كه كلمة i در آنها ظاهر شده است.
D = تعداد سندهاي موجود در پايگاه داده
برخي مدلها كه بردار كلمات را از اسناد و كوئري ها استخراج مي كنند از تساوي بالا بدست آمده اند.
وزن‌هاي محلي
در رابطه فوق، wi با افزايش tfi افزايش مي يابد كه اين امر باعث خطاپذيري اين مدل با سوءِاستفاده از تكرار كلمات است. يك نمونه از چنين سوءِ استفاده اي مشكلي به نام هرزنامه کلمات کلیدی در اينترنت است. هرزنامه روشي است كه برخي از صفحات براي احراز رتبة بالاتر در موتورهاي جستجو پيش ميگيرند و آن بدين صورت است كه با تكرار بيش از حد كلمات، بطور عمومي سعي در برهم زدن تعادل و در نتيجه فريب موتورهاي جستجو را دارند. بنابراين
در بين سندهاي با طول يكسان، آنهايي كه نمونه هاي بيشتري ازكلمة پرس و جو شده را دارند در فرآيند بازيابي مطلوبترند. در سندهاي با طول متفاوت، از آنجائيكه سندهاي با طول بيشتر احتمال بيشتري براي داشتن نمونه هاي بيشتر از كلمه پرس و جو شده را دارند، بنابراين سندهاي با طول بيشتر مطلوبترند.
وزن‌هاي سراسري
در رابطه فوق عبارتِ به عنوان فركانسِ سند معكوس يا شناخته مي شود. اين در واقع اندازة حجم اطلاعاتِ(و انتروپي) مرتبط با كلمه در مجموعة اسناد است. در طول ساليان تغييرات زيادي در رابطه فوق اعمال شده است.در اصطلاح، عبارتِ "مدلtf*idf" به معناي مدلي است كه بر مبناي رابطه فوق بنا شده است. رابطه فوق نشان مي دهد كه با افزايش كاهش مي يابد. بنابراين كلماتي كه در سندهاي متعددي ظاهر مي شود(مثل كلمات با استعمال زياد و كلمات ايست و حروف ربط) وزن كوچكي پيدا مي كنند در حاليكه كلمات غير مشترك كه تنها در عدّة معدودي از سندها مي آيند، وزن بيشتري مي گيرند و به اين خاطر است كه كلمات متداول( مثلِ "با"، "از"، " به" "For", "to", "from",) براي جداسازي سندهاي مرتبط از سندهاي غير مرتبط چندان مفيد نيستند. دو سري در كار بازيابي مفيد نيستند؛ كلماتي كه وزن قابل قبول دارند آنهايي نيستند كه خيلي متداول و يا خيلي كمياب باشند، به عبارتي ديگر بردار كلماتِ آنها بسيار نزديك به يا بسيار دور از بردارِ كوئري نيستند.
ملاحظه. در نمايش فضاي برداري، هنگامي كه كلمات غير مشترك در اسناد و كوئري ها يافت مي شوند بردارِ كلمات متناظر(بردار كوئري و سند) بسيار به هم نزديكند.
بعد از نمره دهي و مرتب سازي نتايج، گرايش سيستم به آن است كه به اين اسناد رتبة بالايي بدهد، در حالي كه نتايج جستجوي كمي بازگردانده مي شود. اين گرایش نشان دهنده آن است كه، رتبه بنديِ مطلق نتايج كه از اين بردار كلمات ناشي مي شود، هميشه وجه مشخصة خوبي براي ارتباط نيست؛ به زبان ساده 10 بودن در بين 5'000'000 از نتايج همانند 1 بودن در بين 5نتيجه نيست.
چگالي كلمات كليدي
از تساوي وزن کلمه آشكار است كه وزن كلمات كليدي تحت عوامل زير تحت تأثير است:
شمار كلمات كليدي
حجم اسناد منتخب از پايگاه داده
بنابراين اين تصور عمومي كه وزن كلمات توسط" ميزان چگاليِ كلمات كليدي" مي تواند قابل محاسبه باشد كاملأ گمراه كننده است.
چگالي كلمات كليدي توسط تساويِ زیر تعريف مي گردد:
Formule chegali kalamat kelidi.jpg
كه همانند رابطه فوق تعداد دفعاتي كه كلمة i اُم در يك سند يافت مي شود و تعداد كلمات يك سند مي باشد.به عبارتي ديگرچگالي كلمة كليدي فقط نسبت كلمة كليدي به كلّ كلمات است.
اين نسبت تمركز كلمات در يك سند را بيام مي كند بنابراين چگالي كلمة كليدي يك سندِ500 كلمه اي كه در آن كلمة "ايران" 5 بار تكرار شده است برابر است باKDi=5/500=0.01=1%.
بايد توجه داشت كه اين مقدار در مورد موقعيت نسبي و نيز پراكندگي نسبي كلمه را در سند هيچ توضيحي نمي دهد. اين مؤلفه ها ارتباطِ سند و نيز سمانتيكِ موضوعي را تحت تأثير قرار مي دهند.
ایجاد ماتریس واژگان- جمله
در اولین گام مقدار هر درایه برابر است با تعداد تکرار هر واژگان در هر جمله که ماتریس اولیه را تشکیل می‌دهد. مقادیر این ماتریس همانطور که در ادامه بیان خواهد شد وزن گذاری خواهند شد.
نکته قابل بیان در این قسمت ذکر این مطلب است که ماتریس رخداد تنها شامل واژگانی هست که به لحاظ نحوی نقش اسمی‌دارند و همچنین به ازاء نقش معنایی متفاوت و براساس آنچه میلساکاکی در رتبه بندی اهمیت اجزاء معنایی بیان نمود مقادیر هر درایه پس از ایجاد ماتریس هم وقوعی در یک α_j^i ضرب خواهد شد (چراکه در یک جمله عبارت با نقش معنایی عامل مهم‌تر از عبارت با نقش معنایی تاثیرپذیر است). دلیل این سطح بندی اهمیت دادن و انتساب وزن بیشتر به واژه ها با نقشهای مهم تر است. روشهای متعدد، از فرمولهای محاسبه‌یِ فراوانی مختلف برای جایگزینی درایه های ماتریس رخداد بهره می‌برند. برخی از این روشها در جدول زیر ذکر شده اند:
Jadvale 2.7.jpg

زیررده‌ها

این رده تنها حاوی زیرردهٔ زیر است.