رده:بازیابی اطلاعات

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

بازیابی اطلاعات (Information Retrieval) به فن آوری و دانش پیچیده جستجو و استخراج اطلاعات، داده ها، و فراداده ها در انواع گوناگون منابع اطلاعاتی مثل بانک اسناد، مجموعه ای از تصاویر، و وب گفته می شود. با افزایش روز افزون حجم اطلاعات ذخیره شده در منابع قابل دسترس و مختلف، فرآیند بازیابی و استخراج اطلاعات اهمیت ویژه ای یافته است. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد. بر خلاف پایگاه داده ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیر مجموعه های آن مانند شبکه های اجتماعی از ساختار مشخصی پیروی نمی کنند و عموما دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات در چنین شرایطی، کمک به کاربر برای یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختار نیافته می باشد.
امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای داده های خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیداً وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستم های پردازشگر زبان مانند، بازیابی کننده های اطلاعات، خلاصه سازها، مترجم ها و ... احساس می شود.

محتویات

ابهام و انواع آن

يكي از مشكلات خاص در زمينه پردازش زبان طبيعي موضوع ابهام است كه با توجه به سطوح مختلف زبان داراي انواع مختلفي است. در واقع پردازش‌هاي زبان طبيعي به نوعي مي‌توانند به عنوان رفع كننده‌ي ابهام در يكي از اين سطوح ديده شوند. در ادامه به معرفي سطوح مختلف ابهام در زبان‌هاي طبيعي پرداخته شده است.

ابهام آوایی

در زبان‌هاي طبيعي هر يك از كلمات از تركيب آوا و صداهاي مختلف تشكيل شده است و تلفظ كلمات مختلف بر اساس آنها صورت مي‌‌گيرد. آواشناسي در واقع علمي است كه در آن به بررسي تلفظ كلمات و تركيب آواهاي مختلف مي‌‌پردازد. ابهام آوايي در واقع زماني رخ مي‌‌دهد كه يك كلمه بيش از يك تلفظ داشته باشد و يا چندين كلمه تلفظ يكساني داشته باشند. به عنوان مثال در زبان انگليسي كلمات write، right و rite همگي داراي تلفظ يكسان هستند. در زبان فارسي نيز دو كلمه " قضا" و " غذا" داراي تلفظ يكساني هستند، در حالي كه از لحاظ معنايي كاملا متفاوت هستند. برخي از برنامه‌هاي كاربردي پردازش زبان طبيعي مانند سيستم‌هاي تشخيص گفتار نيازمند رفع اينگونه ابهام هستند.

ابهام ریخت‌شناسی

ريخت‌شناسي علمي است كه به شناخت، تحليل و توصيف ساختار داخلي كلمات مي‌‌پردازد. در بسياري از موارد كلمات از لحاظ ساختار داخلي مي‌‌توانند مبهم باشند. به عنوان مثال در زبان فارسي تركيب برخي اسامي با " ان" باعث توليد اسم جمع مي‌‌شود. حال تشخيص اينكه " ان" مربوط به خود كلمه است و يا نشانه جمع آن كلمه است، ابهامي است كه بايد از طريق شناسايي الگوي داخلي اين كلمه آن را رفع كرد. اينكه كلمه " آبادان" جمع است يا مفرد ابهامي است كه در اين سطح به آن پرداخته مي‌‌شود.

ابهام نحوی

درك و فهم دقيق جملات در زبان‌هاي طبيعي با توجه به ساختار تركيبي كلمات در آن‌ها و اينكه اين ساختار مي‌‌تواند مبهم باشد نيازمند رفع ابهام هستند. به عنوان مثال نقش دستوري كلمات از مواردي است كه همواره در آن ابهام وجود دارد و كلمات زيادي وجود دارند كه مي‌-توانند در جايگاه‌هاي مختلف نقش‌هاي دستوري متفاوتي بگيرند. كلمه ديد در جمله "من دوستم را ديدم" به عنوان فعل ظاهر شده است در حالي كه در جمله "ديدم ضعيف است" نقش اسم را پذيرفته است. اين نوع ابهام، ابهام نحوي در سطح لغت مي‌باشد.
نوعي ديگري از ابهام نحوي در سطح جمله ديده مي‌شود. به عنوان مثال در جمله " آن مرد دختر را با تلسكوپ ديد" با توجه به اينكه چند معني متفاوت از آن برداشت مي‌شود، ابهام وجود دارد. اين ابهام به ابهام اتصال عبارت حرف اضافه معروف است كه باعث مي‌شود دو مفهوم متفاوت براي جمله حاصل شود.
1) آن مرد با استفاده از تلسكوپ دختر را ديد.
2) آن مرد دختري كه تلسكوپ دارد را ديد.
این جمله به تنهایی برای انسان نیز دارای ابهام است، ولی در صورتی که در کنار جملات دیگر دیده شود ممکن است ابهام آن برای انسان رفع شود. در مقایسه جمله "آن مرد دختر را با بستنی دید" برای انسان دارای ابهام نمی‌باشد، زیرا بستنی وسیله دیدن نیست و در نتیجه تنها یک برداشت از این جمله باقی می‍‌ماند. این در حالیست که برای رایانه هر دو جمله در یک سطح از ابهام قرار دارند.

ابهام معنایی

يك كلمه مي‌تواند بر اساس ساختار داخلي خود و از لحاظ معنايي مبهم بوده و معاني مختلفي از آن استنباط شود. اين پديده باعث مي‌شود تا اين كلمات در هنگام ظاهر شدن در جمله باعث بروز ابهام شوند. به عنوان مثال در زبان فارسي كلمه شير داراي معاني مختلفي است (شير به معناي نوعي حيوان، به معناي نوعي نوشيدني غذايي و همچنين به معناي يكي از ابزارآلات ساختماني). اين نوع ابهام براي انسان با توجه به دانش كلي پيرامون جمله حاوي كلمه مبهم به راحتي قابل حل است. اگر بتوان تمام اين دانش را نيز براي رايانه فراهم كرد، اين نوع ابهام توسط رايانه قابل حل است. اما بخش بسيار كمي از اين اطلاعات را مي‌‌توان بصورت قابل درك براي رايانه فراهم كرد. به عنوان مثال اطلاعاتي همچون كلمات مجاور كلمه مبهم و معني دقيق آنها، ادات سخن و يا اطلاعات آماري، تنها دانشي هستند كه براي رفع ابهام معنايي مي‌‌توان به رايانه ارائه داد. به عنوان مثال در صورتي كه كلمه جنگل در نزديكي كلمه مبهم "شير" در يك جمله ظاهر شود به احتمال زياد معني اول آن مورد نظر بوده است.
ابهام معنايي كلمات يكي از مشكلات اساسي در پردازش زبان طبيعي است كه رفع آن با توجه به نكاتي كه گفته شد، براي رايانه امري دشوار است. ابهام ‌زدايي معنايي كلمات يكي از زمينه-هاي تحقيقاتي در پردازش زبان طبيعي است كه در آن به حل ابهام معنايي پرداخته مي‌شود و هدف اصلي آن رفع ابهام معنايي كلمات است.
در بسياري از برنامه‌هاي كاربردي پردازش زبان طبيعي، همچون بازيابي اطلاعات و ترجمه ماشيني، ابهام زدايي معنايي امري ضروري و واجب است. ترجمه يك جمله مبهم توسط مترجم ماشيني مستلزم رفع ابهام چه در سطح جمله و چه در سطح كلمه است. در غير اين صورت ترجمه حاصل يا اشتباه است و يا داراي كيفيت پائيني است كه باعث كاهش دقت مترجم مي-شود. همچنين بازيابي اطلاعات مربوط به پرس‌وجوي مبهم توسط موتور جستجوگر ممكن است اطلاعات نامرتبط بيشتري به عنوان نتيجه ارائه دهد. در اينجا نيز به منظور افزايش دقت موتور جستجوگر نياز به ابهام زدايي معنايي الزامي به نظر مي‌رسد. در اين پروژه به بررسي ابهام زدايي معنايي كلمات پرداخته شده است و يك روش مبتني بر يادگيري بي‌مربي براي رفع ابهام كلمات انگليسي در هنگام ترجمه آنها به زبان فارسي ارائه شده است.

ابهام مباحثه

اين نوع ابهام در واقع به ابهاماتي مربوط مي‌‌شود كه از طريق تركيب اجزاء زبان بوجود مي‌‌آيند. به عنوان مثال عاملي كه مي تواند بوجود آورنده اين نوع ابهام در جمله باشد ارجاعات هستند. ضماير نمونه‌اي از ارجاعات جمله هستند كه مي‌توانند باعث ابهام شوند. به عنوان مثال در جمله "پدر علي باغبان است، من او را دوست دارم" ضمير" او" باعث ايجاد ابهام شده است. اينكه ضمير" او" به علي اشاره مي‌كند و يا به پدر علي، دو تعبير متفاوت از جمله است.

ابهام زدايي معنايي كلمات

كلمات اجزا اوليه و اساس ساختار زبان‌هاي طبيعي هستند، بنابراين درك و فهم كلمات براي كار با زبان‌هاي طبيعي لازم و ضروري است. بسياري از كلمات در يك زبان مي‌توانند با وجود شكل ظاهري يكسان معاني متفاوتي داشته باشند. به عنوان مثال در زبان فارسي كلمه "شير" داراي چندين معني متفاوت است(شير به معناي نوعي حيوان، به معناي نوعي نوشيدني غذايي و همچنين به معناي يكي از ابزارآلات ساختماني). اين پديده باعث ايجاد ابهام براي فهم جمله و يا متني ميشود كه آن كلمه در آن بكار برده شده است.
وجود معاني مختلف براي كلمه مبهم باعث شده است ابهام زدايي خودكار كلمه مبهم و انتخاب معني درست آن با توجه به متني كه در آن بكار رفته است، يکي از مراحل مهم و در عين حال چالش‌انگيز در زمينه پردازش زبان طبيعي به شمار آيد. ابهام زدايي معنايي كلمات به انتخاب درست معني كلمه مبهم با توجه به متني كه در آن بكار برده شده است اطلاق مي‌شود. ابهام زدايي معنايي كلمات به تنهايي هدف نمي‌باشد بلكه به عنوان يك كار مياني در سيستم‌هاي ديگر از جمله ترجمه ماشيني و يا بازيابي اطلاعات مورد استفاده قرار ميگيرد و باعث افزايش دقت آنها مي‌شود. ابهام زدايي معاني كلمات در حقيقت نوعي عمل دسته‌بندي است كه در آن معاني مختلف به عنوان دسته‌ها در نظر گرفته مي‌شود. وظيفه الگوريتم هاي ابهام زدايي در واقع انتساب هر وقوع يك كلمه مبهم به دسته مناسب بر اساس متني است كه كلمه در آن بكار برده شده است.
در حالت كلي، الگوريتم‌هاي ابهام‌زدايي معنايي كلمات، كلمات مبهم در متن را به همراه معاني مختلف آنها به عنوان ورودي دريافت كرده و معني درست كلمه را با توجه به جايگاه استفاده از آن در متن به عنوان خروجي ارائه مي‌دهند. ورودي بر اساس برنامه كاربردي مورد نظر مي‌تواند متفاوت باشد. به عنوان مثال در يك مترجم ماشيني انگليسي به فارسي، ورودي ترجمه‌هاي مختلف فارسي كلمات مبهم انگليسي هستند. عوامل مختلفي عمل ابهام زدايي معاني كلمات را با مشكل مواجه مي‌سازد. يكي از اين عوامل تعريف معاني مختلف براي يك كلمه مبهم مي‌باشد. در فرهنگ لغت هر كلمه شامل ليستي از معاني جدا از هم است كه ممكن است از يك فرهنگ لغت به فرهنگ لغت ديگر متفاوت باشد. در بسياري از موارد معاني مختلف به يكديگر مرتبط مي‌باشند و جداسازي آنها از يكديگر سخت و مبهم است. اولين مرحله در ابهام زدايي معنايي كلمات، جمع آوري معاني مختلف كلمه مبهم است. ليست معاني مختلف ممكن است تمامي معاني يك كلمه را شامل شود و يا بسته به دامنه معنايي متني كه در آن بكار رفته است تنها بخشي از معاني مرتبط با آن دامنه معنايي انتخاب شود. معاني مختلف يك كلمه مبهم مي‌تواند از منابع مختلفي استخراج شوند. به عنوان مثال معاني موجود در فرهنگ لغات و يا توضيحات و طبقه‌بندي در فرهنگ‌هاي جامع مي‌توانند منابعي به منظور استخراج معاني مختلف كلمه مبهم در نظر گرفته شوند.
هيچ يك از اين منابع دانش كامل نبوده و هر يك از آنها داراي كاستي‌هاي خاص خود مي‌باشند. به عنوان مثال طبقه‌بندي موجود در فرهنگ جامع تفكيك درشت دانه‌اي را فراهم مي‌سازند و به همين دليل كلمات با درجه عموميت بالا را به علت اينكه معاني مختلف آن در يك طبقه قرار مي‌گيرند، نمي توان به راحتي ابهام زدايي كرد. حتي ليست موجود در فرهنگ لغات و يا هستان-شناسي‌ها كه كاربرد فراواني در پردازش زبان طبيعي دارند، داراي مشكلاتي مي‌باشند. علاوه بر اين اطلاعات موجود در آنها ممكن است نسبت به يكديگر متفاوت باشد و اين باعث مي‌شود سيستم‌هايي كه از فرهنگ لغات متفاوت استفاده مي‌كنند قابليت مقايسه با يكديگر را نداشته باشند.
مشكل ديگري كه محققان در زمينه ابهام زدايي معنايي كلمات و استخراج معاني ممكن براي كلمه مبهم با آن مواجه مي‌باشند، مسئله دانه‌بندي معاني است. در برخي موارد ممكن است تفاوت‌هاي اساسي در معاني مختلف عامل تفكيك آنها باشد. اصطلاحاً به اين نوع تفكيك ، تفكيك درشت دانه‌اي اطلاق مي‌شود كه باعث نتايج كاري مقايسه‌پذيرتر مي‌شوند. اين در حالي است كه در برخي كاربردها اين سطح از تفكيك معاني به اندازه كافي پاسخگو نمي‌باشد. در اين حالت نياز به تفكيك ريز دانه‌تري است تا بتوان بر اساس آن و با جزئيات بيشتر عمل ابهام‌زدايي را انجام داد. براي انسان، متني كه كلمه مبهم در آن ظاهر مي‌شود به عنوان منبع دانشي فراتر از يك جمله و يا پاراگراف است كه باعث مي‌شود انسان در درك و فهم زبان مشكل چنداني نداشته و به راحتي بتواند معناي درست كلمات جمله را فهميده و در نهايت مفهوم كل جمله را درك كند. مدل كردن تمام اين دانش بصورت اطلاعاتي كه براي برنامه رايانه‌اي قابل استفاده و ارجاع باشد در حقيقت يكي از اهداف محقق نشده در هوش مصنوعي است. كمبود اينگونه اطلاعات براي رايانه و عدم توانايي در فراهم سازي آنها باعث شده است تا از اطلاعات جايگزين ديگري همچون اطلاعات آماري كه امكان استخراج آن براي رايانه وجود دارد براي ابهام زدايي استفاده شود.
عدم وجود استاندارد خاص و همچنين توافق بين زبان‌شناسان براي تمايز و تعاريف معاني مختلف يك كلمه، همچنين عدم توانايي رايانه در جمع‌آوري اطلاعات جامع قابل استفاده پيرامون كلمات مبهم همان‌طور كه گفته شد از جمله مشكلاتي است كه همچنان براي ابهام‌زدايي معنايي كلمات وجود دارد و باعث شده است تحقيقات در اين زمينه ادامه داشته و روش-هاي مختلفي براي مقابله با آن ارائه شود.
همان‌طور كه گفته شد، ابهام‌زدايي معنايي كلمات به تنهايي هدف نمي‌باشد بلكه به عنوان يك مرحله مياني و تكميل كننده در بسياري از برنامه‌هاي كاربردي پردازش زبان طبيعي به منظور افزايش دقت آنها بكار گرفته مي‌شود. برنامه‌هاي كاربردي كه در آنها نياز به درك و فهم زبان است، با توجه به ابهام در زبان و بخصوص ابهام در سطح كلمات زبان، ابهام زدايي معنايي را به عنوان يكي از مراحل مياني و لازم مورد توجه قرار مي‌دهند. در زير نمونه‌اي از برنامه‌هاي كاربردي در حوزه پردازش زبان طبيعي كه در آنها نياز به ابهام‌زدايي معنايي كلمات وجود دارد آورده شده است.
1) ترجمه ماشيني : در هنگام خواندن يك متن به دفعات با كلماتي روبرو مي¬شويم كه براي آنها در زباني ديگر بيش از يك معني معادل وجود دارد. اين نوع چند معنايي و يا به عبارت ديگر ابهام، براي سيستم‌هاي مترجم ماشيني چالشي بزرگ به¬شمار مي‌آيد و رفع آن به دقت و كارايي اين برنامه‌ها مي‌افزايد. در اين حالت به يك پردازش جهت ابهام زدايي نياز است كه توسط آن بهترين معني ممكن براي ترجمه انتخاب شود. به عنوان مثال در يك مترجم ماشيني انگليسي به فارسي، كلمه paper مي‌تواند به كاغذ، روزنامه و مقاله ترجمه شود. بنابراين براي ترجمه درست جمله‌اي كه شامل اين كلمه مبهم مي‌باشد نياز به ابهام‌زدايي معاني وجود دارد.
2) بازيابي اطلاعات : ابهام معنايي ممكن است در پرس‌وجوهاي ارائه شده به يك موتور جستجوگر وجود داشته باشد. بنابراين اگر عمل ابهام‌زدايي در اين پرس‌وجوها صورت نگيرد ممكن است اسناد غير مرتبط با آنچه كاربر انتظار دارد بازيابي شود. به عنوان مثال براي پرس‌‍وجويي كه در آن كلمه شير وجود دارد سيستم كدام معني از آن را بايد بازيابي كند؟ (نوعي حيوان، نوعي نوشيدني و يا يكي از ابزارآلات ساختماني). با اين حال در بسياري از موارد با توجه به پرس‌وجوي كاربر امكان ابهام زدايي وجود دارد. به عنوان مثال در پرس‌وجوي" فوايد نوشيدن شير"، با توجه به كلمه نوشيدن مي‌‌توان معني درست كلمه شير را پيدا كرد.
3) پردازش متن : ابهام‌زدايي معنايي كلمات براي پردازش‌هايي كه بر روي متون صورت مي‌گيرند نيز لازم هستند. چك‌كردن متون از لحاظ نوشتار يكي از اين پردازش‌ها است. به عنوان مثال در برخي زبان‌ها لغات در برخي جايگاه‌ها نياز به نشانه‌هاي جدا‌كننده دارند و يا برخي حروف بايد به شكل بزرگ آنها نوشته شوند. براي اين منظور ابتدا بايد معني درست كلمات شناخته شود تا بر اساس آن اقدامات لازم براي تصحيح نوشتار آنها انجام پذيرد. علاوه بر آن بررسي متون از لحاظ ساختار نحوي و تصحيح خطا در اين زمينه نيازمند ابهام‌زدايي معنايي است.
4) پردازش گفتار : در برخي موارد كلمات مبهم بر اساس معاني مختلف ممكن است تلفظ‌هاي متفاوتي داشته باشند. بر اين اساس براي بيان خودكار آنها نياز است تا ابتدا معناي درست اين كلمات تشخيص داده شود تا تلفظ درست آنها پيدا شود.
با وجود اينكه در هيچ كدام از برنامه‌هاي كاربردي ذكر شده ابهام زدايي معنايي كلمات به صورت مستقيم اعمال نمي‌شود، با اين حال مشخص است كه ابهام زدايي براي آنها كاملا ضروري است و بصورت غير مستقيم در تمام آنها اعمال مي‌شود. تحقيق بر روي ابهام زدايي معنايي بصورت مستقيم مي‌تواند به روشن شدن جنبه‌هايي منتج شود كه بتوان از آنها در ابهام زدايي غير مستقيم استفاده كرد.

روش‌هاي ابهام زدايي معنايي كلمات

در اين فصل طبقه‌‌‌‌بندي روش‌‌‌‌هاي مختلف ابهام زدايي معنايي بين شده و مثالي براي هر يك ارائه شده است. همچنين در انتهاي فصل خلاصه‌‌‌‌اي از روش‌‌‌‌هاي اعمال شده در زبان فارسي نيز ارائه شده است.
روش‌‌‌‌هاي موجود براي ابهام‌‌‌‌زدايي معنايي كلمات مي‌‌‌‌تواند بر اساس معيار‌‌‌‌هاي مختلف دسته‌‌‌‌بندي شوند. براي نمونه يكي از معيار‌‌‌‌هايي كه روش‌‌‌‌هاي مختلف ابهام‌‌‌‌زدايي معاني كلمات بر اساس آن دسته‌‌‌‌بندي مي‌‌‌‌شوند، منبع دانشي است كه با استفاده از آن اطلاعات مورد نياز پيرامون معاني كلمه مبهم گرد‌‌‌‌آوري مي‌‌‌‌شود. بر اساس اين معيار روش‌‌‌‌هاي موجود براي ابهام زدايي معنايي كلمات به سه دسته كلي زير تقسيم بندي مي‌‌‌‌شوند:
• روش‌‌‌‌هاي مبتني بر دانش
• روش‌‌‌‌هاي مبتني بر پيكره متني
• روش‌‌‌‌هاي تركيبي

روش‌‌‌‌هاي مبتني بر دانش

در اين روش‌‌‌‌ها اطلاعات مورد نياز پيرامون معاني مختلف كلمات از منابع دانشي لغوي استخراج مي‌‌‌‌شود و در آنها از پيكره‌‌‌‌هاي متني استفاده‌‌‌‌اي نمي‌‌‌‌شود. فرهنگ‌‌‌‌لغات، فرهنگ‌‌‌‌هاي جامع، هستان‌‌‌‌شناسي‌‌‌‌ها و غيره، منابع دانش لغوي مي‌‌‌‌باشند كه در اين روش‌‌‌‌ها مورد استفاده قرار ميگيرد. اين منابع شامل اطلاعاتي همچون تعاريف و طبقه‌‌‌‌بندي معنايي كلمات در فرهنگ ‌‌‌‌لغات‌‌‌‌ قابل خواندن توسط ماشين و فرهنگ جامع و يا روابط سلسله‌‌‌‌مراتبي كلمات در هستان‌‌‌‌شناسي‌ها (شبکه واژگان) مي‌‌‌‌باشند.
ابهام زدايي بر اساس تعاريف موجود در فرهنگ‌‌‌‌ لغات
اطلاعات موجود در فرهنگ لغات مي‌‌‌‌تواند شاخص خوبي براي بدست آوردن معني درست كلمه در متن باشد. لسك براي اولين بار روش ساده‌‌‌‌اي براي ابهام‌‌‌‌زدايي معنايي كلمات بر اساس اطلاعات موجود در فرهنگ ‌‌‌‌لغت ارائه داد. تنها منبع دانش مورد نياز در اين روش تعريف موجود در فرهنگ ‌‌‌‌لغت براي هر يك از معاني كلمات مي‌‌‌‌باشد. ايده اوليه در اين روش بر اساس تعداد همپوشاني لغات موجود در تعريف معاني كلمات در فرهنگ لغت بنا شده بود. به عنوان مثال براي دو كلمهw_1 و w_2 ، به ازاي هر يك از جفت معاني مختلف آنها در فرهنگ لغت، تعداد همپوشاني كلمات موجود در تعريف آنها محاسبه شده و در نهايت جفت معني با همپوشاني بيشتر به عنوان معاني درست انتخاب مي‌‌‌‌شوند. دقت 50 تا 70 درصدي براي اين الگوريتم گزارش شده است .
در سال‌‌‌‌هاي بعد نسخه‌‌‌‌هاي مختلفي از الگوريتم اوليه لسك و با تغييراتي براي بهبود آن توسط محققان ديگر ارائه شد. در الگوريتم اوليه زماني كه بيشتر از دو كلمه براي ابهام زدايي در نظر گرفته شود، تعداد حالات ممكن براي در نظر گرفتن جفت معاني مختلف رابطه تواني با افزايش تعداد كلمات دارد و اين يكي از نقاط ضعف اين الگوريتم محسوب مي‌‌‌‌شد.
در روشی دیگر با استفاده از روش شبيه‌‌‌‌سازي ذوب فلزات الگوريتمي براي مقابله با اين مشكل ارائه داد. در اين روش ابتدا معني با بيشترين استفاده براي هر يك از كلمات متن انتخاب و تعاريف آنها از فرهنگ‌‌‌‌لغت استخراج مي‌‌‌‌شود. هر كلمه كه حداقل يك بار در اين مجموعه تعاريف ظاهر شده باشد امتيازي برابر با تعداد رخدادش در آن مجموعه دريافت مي‌‌‌‌كند. مجموع اين اعداد افزونگي متن را نشان مي‌‌‌‌دهد. در ادامه تابعي كه مقدار آن عكس افزونگي متن است تعريف مي‌‌‌‌شود و هدف بدست آوردن تركيبي از معاني است كه اين تابع را حداقل كند. اين عمل با عوض كردن تصادفي معني يكي از كلمات و محاسبه دوباره تابع تا زماني كه تغييري حاصل نشود ادامه پيدا مي‌‌‌‌كند. اين الگوريتم دقتي حدود دقت الگوريتم اوليه دارا بود.
نسخه ديگري از الگوريتم لسك كه به نسخه ساده‌‌‌‌سازي شده معروف مي‌‌‌‌باشد، عمل ابهام‌‌‌‌زدايي را براي هر يك از كلمات متن بطور جداگانه انجام مي‌‌‌‌دهد. بر اساس اين الگوريتم تعداد كلمات مشترك بين معاني مختلف كلمه مبهم و متن حاوي آن محاسبه شده و معني كه تعريف آن بيشترين اشتراك را با متن از لحاظ تعداد كلمه دارد به عنوان معني درست انتخاب مي‌‌‌‌شود. شكل 3-3 شبه‌‌‌‌كد مربوط به اين الگوريتم را نشان مي‌‌‌‌دهد. به عنوان مثال كلمه انگليسي "Ash" داراي دو معني مختلف مي باشد.
در صورتي كه بخواهيم اين كلمه را ابهام زدايي كنيم با توجه به اين روش به تعداد همپوشاني تعداد كلمات مشترك بين معاني و جملات نگاه مي‌‌‌‌كنيم. همانطور كه در جدول 3-2 آورده شده است جمله اول با تعريف دوم داراي يك كلمه مشترك مي‌‌‌‌باشد و اين در حالي است كه با تعريف اول اشتراكي ندارد. بنابراين معني دوم اين كلمه انتخاب مي‌‌‌‌شود. و به همين ترتيب براي جمله دوم معني اول انتخاب مي‌‌‌‌شود.
آزمايشاتي كه براي اين الگوريتم انجام شد نشان داد كه هم از لحاظ دقت و هم از لحاظ كارايي اين الگوريتم به مراتب بهتر از الگوريتم اوليه لسك مي‌‌‌‌باشد.
ابهام زدايي بر اساس تشابه معنايي
كلمات براي بوجود آوردن پيوستگي معنايي متن نياز دارند كه خود نيز از لحاظ معنايي داراي وابستگي باشند. اين يكي از خصوصيات طبيعي زبان و همچنين يكي از محدوديت‌‌‌‌هاي مهم براي ابهام زدايي معاني محسوب مي‌‌‌‌شود. كلماتي كه در يك متن و در كنار هم ظاهر مي‌‌‌‌شوند معمولا از لحاظ معنايي به يكديگر وابسته مي‌‌‌‌باشند و به همين دليل يكي از ملاك‌‌‌‌هاي خوب براي بدست آوردن معني درست كلمات، انتخاب معاني با فاصله معنايي كمتر است.
اين محدوديت در كل يك متن صادق است ولي معمولا براي ابهام زدايي روش‌‌‌‌هاي مختلف محدوديتي از لحاظ فاصله بين كلمات در نظر مي‌‌‌‌گيرند و تنها كلماتي كه در نزديكي و مجاورت كلمه مبهم وجود دارند را در نظر مي‌‌‌‌گيرند و به مابقي متن توجهي ندارد. براي بدست آوردن تشابه معنايي دو كلمه معيار‌‌‌‌هاي مختلفي وجود. بيشتر اين معيار‌‌‌‌ها بر اساس روابط موجود درشبكه‌‌‌‌هاي معنايي مي‌‌‌‌باشند كه اولين بار در مورد توجه قرار گرفت.
در روشي بر اساس پنج معيار‌‌‌‌ تشابه معنايي پيشنهاد شد كه در آن با توجه به فاصله معنايي كلمه مبهم با كلمات مجاورش (يكي از سمت چپ و يكي از سمت راست)عمل ابهام زدايي انجام مي‌‌‌‌گرفت. بر اساس اين روش معني كه كمترين فاصله معنايي با كلمات مجاور را دارا بود به عنوان پاسخ صحيح انتخاب مي‌‌‌‌شد.
استفاده از وابستگي‌‌‌‌هاي نحوي در جملات يكي ديگر از محدوديت‌‌‌‌هايي است كه مي‌‌‌‌شود براي اعمال تشابه معنايي در نظر گرفت. به عبارت ديگر به‌‌‌‌جاي در نظر گرفتن كلمات مجاور مي‌‌‌‌توان كلماتي كه از لحاظ نحوي با كلمه مبهم در ارتباط هستند براي محاسبه فاصله معنايي در نظر گرفته شوند.
ابهام زدايي بر اساس اولويت‌‌‌‌هاي انتخابي
اولويت‌‌‌‌ انتخابي معياري است كه در آن معاني ممكن براي يك كلمه مبهم محدود مي‌‌‌‌شوند. اين محدوديت‌‌‌‌ها بر اساس متني است كه كلمه مبهم در آن قرار مي‌‌‌‌گيرد و در حقيقت روابط ممكن بين طبقات معنايي كلمات مي‌‌‌‌باشد (خوردن-غذا ، نوشيدن-مايعات). اين روابط بصورت قوانين معنايي هستند كه از انتخاب معاني نادرست كلمات مبهم جلوگيري مي‌‌‌‌كنند. به عنوان مثال در جمله علي شير مي‌‌‌‌نوشد، با توجه به متن، معني كلمه شير به عنوان نوعي حيوان نمي‌‌‌‌تواند مورد نظر باشد، زيرا فعل نوشيدن نياز به نوعي مايع به عنوان مفعول مستقيم خود دارد. در نتيجه در اين متن شير به عنوان نوعي ماده غذايي مورد نظر مي‌‌‌‌باشد.
از آنجايي كه اين نوع روابط بصورت ذاتي و ادراكي است، استخراج و استفاده از آنها براي ابهام زدايي معاني عمل دشواري است. رابطه بين ابهام‌‌‌‌زدايي معاني و اولويت‌‌‌‌هاي انتخابي رابطه‌‌‌‌اي دو طرفه مي‌‌‌‌باشد. به عبارت ديگر يادگيري صحيح اين محدوديت‌‌‌‌ها نياز به اطلاعات دقيق پيرامون كلمه مبهم دارد و برعكس، ابهام زدايي معاني با در اختيار داشتن تعداد بيشتر اولويت‌‌‌‌هاي انتخابي مي‌‌‌‌تواند بصورت دقيقتر انجام گيرد.
در اين رابطه دوطرفه براي ارتقاء كيفيت ابهام زدايي بايد روشي پيدا كرد كه با استفاده از آن بتوان اولويت‌‌‌‌هاي انتخابي را بر اساس آن بدست آورد. در اين رابطه افراد مختلف روش‌‌‌‌هاي متفاوتي را براي استخراج خودكار اين روابط ارائه داده‌‌‌‌اند.
ابهام زدايي بر اساس فرهنگ جامع
استفاده از فرهنگ‌‌‌‌جامع و اطلاعات موجود در آن مي‌‌‌‌تواند ابزار خوبي براي ابهام‌‌‌‌زدايي باشد. از جمله اين اطلاعات مي‌‌‌‌توان به طبقه‌‌‌‌بندي مفهومي اشاره كرد. اين طبقه‌‌‌‌بندي به عنوان مثال در لانگ‌‌‌‌من كه يك فرهنگ جامع با طبقه‌‌‌‌بندي موضوعي است فراهم شده است. ايده اساسي در اين روش‌‌‌‌ها اين است كه با توجه به طبقه مفهومي كلمات يك متن مي‌‌‌‌توان به طبقه مفهومي خود متن پي برد و از روي اين اطلاعات معني درست كلمات را پيدا كرد.
در اين روش‌‌‌‌ها از طبقه بندي مفهومي لغات كه از منابع دانشي همچون فرهنگ جامع راجت استخراج مي‌‌‌‌شوند، استفاده مي‌‌‌‌كنند و اساس كار آنها بر مبناي 3 ايده‌‌‌‌ي زير مي‌‌‌‌باشد.
-لغات در كلاس‌‌‌‌هاي مفهومي متفاوت، در متون متفاوتي قرار مي‌‌‌‌گيرند.
- معاني مختلف يك كلمه مبهم تمايل دارند در كلاس‌‌‌‌هاي مفهومي متفاوتي ظاهر شوند. به عنوان مثال معاني مختلف كلمه‌‌‌‌ شير به كلاس‌‌‌‌هاي مفهومي جداگانه‌‌‌‌اي تعلق دارند(كلاس مفهومي حيوانات، كلاس مفهومي ابزار آلات ساختماني و كلاس مفهومي نوشيدني‌‌‌‌ها).
-اگر كسي بتواند يك تفكيك كننده براي كلاس‌‌‌‌هاي مفهومي مختلف بسازد، تفكيك كننده‌‌‌‌اي براي معاني مختلف كلمه كه به آن كلاس‌‌‌‌ها متعلق مي‌‌‌‌باشند نيز ساخته است. بنابراين شاخص‌‌‌‌هاي مفهومي كلاس‌‌‌‌هاي راجت مي‌‌‌‌توانند شاخص خوبي براي اعضاء آن كلاس باشند.
در کاری دیگر روش ساده‌‌‌‌اي ارائه شده است كه در آن از اين حقيقت بهره برده است كه كلمات موجود در متن و كلاس مفهومي آنها ميتواند معياري براي مشخص كردن كلاس مفهومي كل متن و در نتيجه كلمه مبهم داخل آن باشد.
هر كلمه در فرهنگ جامع راجت داراي كد موضوع خاص مي‌‌‌‌باشد. در صورتي كه هر كلمه داراي چند كد موضوع خاص باشد فرض شده است كه هر كد موضوع متناسب با معني خاصي از آن كلمه مي‌‌‌‌باشد. در اين روش فرض شده است t(s_k) كد موضوع براي معني s_kام كلمه مبهم w در متن c است. كلمه w مي‌‌‌‌تواند با شمارش تعداد كلمات در هر يك از كلاس‌‌‌‌هاي مفهومي با كد موضوع t(s_k) ابهام زدايي شود. براي اين منظور كد موضوع با بيشترين شمارش را به عنوان كد موضوع كلمه مبهم انتخاب مي كنيم.
در سال 1992، الگوريتمي پيشنهاد شد كه در آن سعي شده بود تا كلمات شاخص براي كلاس‌‌‌‌هاي مفهومي مختلف شناسايي، وزن دهي و مورد استفاده قرار گيرند. اين كار طي 3 مرحله زير صورت مي‌‌‌‌پذيرفت.
1• جمع آوري متوني كه بيان كننده كلاس‌‌‌‌هاي مفهومي راجت باشند. هدف از اين مرحله جمع‌‌‌‌آوري كلماتي است كه معمولا در متون مختلف كلاس‌‌‌‌هاي مفهومي راجت يافت مي‌‌‌‌شوند. براي اين منظور از 100 كلمه مجاور كلمات عضو كلاس‌‌‌‌هاي راجت در پيكره متني استفاده شد.
2• مشخص كردن كلمات شاخص در متون انتخاب شده و تخصيص وزن مناسب براي هر يك از آنها. كلمه شاخص، كلمه‌‌‌‌اي است كه از لحاظ تعداد تكرار بيشتر در متون كلاس مورد نظر ديده شود. براي وزن‌‌‌‌دهي به اين كلمات از رابطه زیر استفاده مي‌‌‌‌شود كه در حقيقت از تقسيم احتمال رخداد كلمه در كلاس مفهومي به احتمال رخداد كلمه در كل پيكره حاصل مي‌‌‌‌شود. در جدول زیر نمونه-اي از اين كلمات براي كلاس اشياء/ماشين‌‌‌‌آلات آورده شده است. قابل ذكر است كه اين كلمات متعلق به كلاس مفهومي مورد نظر نيستند بلكه تنها كلماتي هستند كه بيشتر تمايل دارند با كلمات كلاس مفهومي مورد نظر بيايند.
weight(w)=(Pr⁡(w|RCat))/(Pr⁡(W))
3• استفاده از كلمات شاخص و وزن آنها براي پيش‌‌‌‌بيني كلاس مفهومي مناسب كلمات مبهم كه در متون جديد ديده مي‌‌‌‌شوند. وجود يكي از كلمات شاخص، كه در مرحله قبل و از روي داده‌‌‌‌هاي يادگيري بدست آمد، در متن حاوي كلمه مبهم، نشان دهنده تعلق كلمه به آن كلاس خاص مي‌‌‌‌باشد. به عبارت ديگر هر چه تعداد كلمات شاخص مربوط به يك كلاس مفهومي خاص در متن بيشتر باشد احتمال اينكه متن نيز مربوط به آن كلاس مفهومي باشد نيز بيشتر است.
براي بدست آوردن كلاس يك متن جديد ، ابتدا وزن‌‌‌‌هاي كلمات شاخص هر كلاس كه در آن متن ظاهر شده‌‌‌‌اند را جمع كرده و كلاسي كه بيشترين وزن را داراست به عنوان كلاس مفهومي آن متن در نظر مي‌‌‌‌گيريم.
در اينجا متن مورد نظر مي‌‌‌‌تواند به عنوان مثال كلمه مبهم به همراه 50 كلمه در دو سمت آن باشد. عمل ماكزيمم‌‌‌‌گيري تنها بر روي كلاس‌‌‌‌هايي اعمال مي شود كه معاني مختلف كلمه مبهم به آنها تعلق دارند و در نهايت معني متعلق به كلاس مفهومي با بيشترين وزن به عنوان معني مناسب انتخاب مي‌‌‌‌شود.
كارايي اين سيستم زماني است كه كلمات مبهم داراي مفاهيم گسترده باشد. به عبارت ديگر معاني مختلف آن در كلاس‌‌‌‌هاي معنايي متفاوتي قرار گيرد. اين ويژگي ببيشتر براي اسامي ديده مي‌‌‌‌شود. اين روش بر روي 12 كلمه مورد ارزيابي قرار گرفته است و بطور ميانگين ميزان كارايي سيستم با توجه به اين 12 كلمه 92% مي‌‌‌‌باشد. نمونه‌‌‌‌اي از كلمات شاخص براي دو كلاس مفهومي متفاوت در جدول فوق آورده شده است.
عملكرد اين روش در مواردي كه در ادامه ذكر مي‌‌‌‌شود ضعيف و نامناسب مي‌‌‌‌باشد.
• تفكيك‌‌‌‌هاي مستقل از موضوع : در بسياري از موارد معاني ممكن است مستقل از موضوع باشند به عبارت ديگر نتوان براي يك معني كلاس مفهومي خاصي در نظر گرفت.
• عدم تفكيك معاني در يك كلاس مفهومي: كلمات مبهمي كه معاني مختلف آن متعلق به يك كلاس مفهومي مي‌‌‌‌باشند با استفاده از اين روش نمي‌‌‌‌توانند به خوبي ابهام زدايي شوند
• افعال: مشكل مستقل بودن از موضوع در افعال بيشتر ديده مي‌‌‌‌شود و براي ابهام زدايي آنها نياز است از اطلاعات بيشتري استفاده شود. با اين حال اين روش براي برخي از افعال كه در دامنه گسترده‌‌‌‌تري از مفاهيم قرار مي‌‌‌‌گيرند مي‌‌‌‌تواند مناسب باشد.
• اصطلاحات: روش بالا كه روشي بر اساس موضوع مي باشد براي اصطلاحات كارايي خوبي ندارد. كلمات يك اصطلاح معمولا به فرم ثابتي در جملات بيان مي‌‌‌‌شوند و نياز به اطلاعات بيشتري علاوه بر اطلاعات متني براي ابهام زدايي دارند.
از آنجايي كه فرهنگ‌‌‌‌هاي جامع همچون فرهنگ‌‌‌‌ لغات به عنوان يك منبع دانش و براي استفاده انسان‌‌‌‌ ساخته شده است، نمي‌‌‌‌تواند اطلاعات كاملي از رابطه بين كلمات را دارا باشد. بسياري از سلسله‌‌‌‌ مراتب معنايي در آنها و همچنين نحوه طبقه‌‌‌‌بندي مفهومي مورد توافق همگان نبوده و اختلاف نظر‌‌‌‌ها در اين زمينه وجود دارد. با اين حال فرهنگ‌‌‌‌هاي جامع شبكه‌‌‌‌اي قوي از وابستگي‌‌‌‌هاي كلمات و همچنين مجموعه‌‌‌‌اي از طبقه‌‌‌‌بندي‌‌‌‌هاي مهفومي را دارا مي‌‌‌‌باشند كه در بسياري از برنامه‌‌‌‌هاي كاربردي پردازش زبان مورد استفاده قرار مي‌‌‌‌گيرند. اين در حالي است كه از اين منبع دانش در ابهام زدايي زياد استفاده نشده است.
ابهام زدايي بر اساس شبکه واژگان
همانطور كه گفته شد، شبکه واژگان يك منبع دانش لغوي است كه علاوه بر معاني مختلف كلمات و تعاريف آنها روابط معنايي مختلف بين كلمات را نيز بر اساس ساختار سلسله‌‌‌‌مراتبي فراهم آورده است. امروزه با توجه به كامل بودن و در دسترس بودن شبکه واژگان روش‌‌‌‌هاي بسياري در زمينه ابهام زدايي معنايي كلمات با استفاده از شبکه واژگان پيشنهاد شده است. گزارشي كه ارائه شده است، نشان مي‌‌‌‌‌دهد در صورتي كه از شبکه واژگان به عنوان منبع لغت استفاده شود و اولين معني از آن براي هر كلمه انتخاب شود، با توجه به اينكه معاني كلمات در شبکه واژگان بر اساس كاربرد مرتب شده‌‌‌‌اند، دقتي برابر با 57% حاصل مي‌-شود. در روشی از روابط معنايي در شبکه واژگان به منظور تقويت الگوريتم لِسك استفاده شده است. در اين روش علاوه بر تعريف معني كلمه، تمام تعاريف كلماتي كه داراي رابطه Hypernymy با كلمه مورد نظر هستند نيز در نظر گرفته مي‌‌‌‌‌شوند.
روابط سلسله‌‌‌‌مراتبي در شبکه واژگان مي‌‌‌‌‌تواند به منظور محاسبه ميزان تشابه معنايي كلمات مورد استفاده قرار گيرد. روش‌‌‌‌هاي بسياري نيز از اين معيار براي ابهام‌‌‌‌زدايي معنايي كلمات استفاده كرده‌‌‌‌اند. به عنوان مثال در کاری دیگر روش‌‌‌‌هاي مختلفي براي محاسبه تشابه معنايي كلمات بر اساس روابط سلسله‌‌‌‌مراتبي شبکه واژگان استفاده شده و الگويتم ابهام‌‌‌‌زداي معنايي بر اساس آنها ارائه شده است. در اين الگوريتم تشابه معنايي بين تمام معاني مختلف كلمات جمله محاسبه شده و در نهايت بر اساس معيار‌‌‌‌هاي وزن‌‌‌‌دهي به معاني، معني مناسب انتخاب مي‌‌‌‌‌شود.
ابهام زدايي بر اساس شبکه واژگان
همانطور كه گفته شد، شبکه واژگان يك منبع دانش لغوي است كه علاوه بر معاني مختلف كلمات و تعاريف آنها روابط معنايي مختلف بين كلمات را نيز بر اساس ساختار سلسله‌‌‌‌‌مراتبي فراهم آورده است. امروزه با توجه به كامل بودن و در دسترس بودن شبکه واژگان روش‌‌‌‌‌هاي بسياري در زمينه ابهام زدايي معنايي كلمات با استفاده از شبکه واژگان پيشنهاد شده است. گزارشي كه ارائه شده است، نشان مي‌‌‌‌‌‌دهد در صورتي كه از شبکه واژگان به عنوان منبع لغت استفاده شود و اولين معني از آن براي هر كلمه انتخاب شود، با توجه به اينكه معاني كلمات در شبکه واژگان بر اساس كاربرد مرتب شده‌‌‌‌‌اند، دقتي برابر با 57% حاصل مي‌-شود. در مقاله ای از روابط معنايي در شبکه واژگان به منظور تقويت الگوريتم لِسك استفاده شده است. در اين روش علاوه بر تعريف معني كلمه، تمام تعاريف كلماتي كه داراي رابطه Hypernymy با كلمه مورد نظر هستند نيز در نظر گرفته مي‌‌‌‌‌‌شوند.
روابط سلسله‌‌‌‌‌مراتبي در شبکه واژگان مي‌‌‌‌‌‌تواند به منظور محاسبه ميزان تشابه معنايي كلمات مورد استفاده قرار گيرد. روش‌‌‌‌‌هاي بسياري نيز از اين معيار براي ابهام‌‌‌‌‌زدايي معنايي كلمات استفاده كرده‌‌‌‌‌اند. به عنوان مثال در کاری دیگر روش‌‌‌‌‌هاي مختلفي براي محاسبه تشابه معنايي كلمات بر اساس روابط سلسله‌‌‌‌‌مراتبي شبکه واژگان استفاده شده و الگويتم ابهام‌‌‌‌‌زداي معنايي بر اساس آنها ارائه شده است. در اين الگوريتم تشابه معنايي بين تمام معاني مختلف كلمات جمله محاسبه شده و در نهايت بر اساس معيار‌‌‌‌‌هاي وزن‌‌‌‌‌دهي به معاني، معني مناسب انتخاب مي‌‌‌‌‌‌شود.

روش‌‌‌‌‌هاي مبتي بر پيكره متني

در اين روش‌‌‌‌‌ها از متون و پيكره‌‌‌‌‌هاي متني براي استخراج اطلاعات مورد نياز براي عمل ابهام زدايي استفاده مي‌‌‌‌‌شود. اطلاعات موجود در پيكره‌‌‌‌‌هاي متني خود دو دسته مي‌‌‌‌‌باشند. اولين دسته اطلاعاتي هستند كه توسط يك عامل خارجي به آنها اضافه شده است. منظور از عامل خارجي معمولا انسان مي‌‌‌‌‌باشد. متني كه معناي صحيح هر كلمه در آن وجود دارد به اصطلاح متن برچسب‌‌‌‌‌گذاري شده معنايي ناميده مي‌‌‌‌‌شود . علاوه بر معناي صحيح كلمات موارد ديگري از جمله، وجه سخن كلمات، ريشه كلمات و يا ارتباطات نحوي كلمات مي‌‌‌‌‌تواند به عنوان اطلاعات ديگر به متن اضافه شود. تهيه و آماده‌‌‌‌‌سازي اينگونه متون معمولا كاري سخت و پر‌‌‌‌‌هزينه است. به همين دليل ابهام زدايي معنايي كلمات با كمبود اينگونه متون مخصوصا در زبان‌‌‌‌‌هايي غير از زبان انگليسي روبرو است. از اينگونه اطلاعات و منابع در روش‌‌‌‌‌هاي با مربي استفاده مي‌‌‌‌‌شود.
نوع ديگري از اطلاعات كه مي‌‌‌‌‌توان از پيكره‌‌‌‌‌هاي متني استخراج كرد اطلاعاتي است كه مربوط به خود پيكره بوده و نيازي به برچسب‌‌‌‌‌گذاري اوليه آنها نيست. به عنوان مثال فراواني توزيعي معاني مختلف يك كلمه مبهم و يا اطلاعات آماري ديگري همچون هم‌‌‌‌‌وقوعي كمات با يكديگر مي‌‌‌‌‌تواند براي ابهام زدايي از پيكره‌‌‌‌‌هاي متني بزرگ استخراج شوند. اينگونه اطلاعات معمولا در روش-هاي بي‌‌‌‌‌مربي شده مورد استفاده قرار مي‌‌‌‌‌گيرند.
بر اساس اينكه در روش‌‌‌‌‌هاي مبتني بر پيكره متني از چه اطلاعاتي استفاده شود، اين روش‌‌‌‌‌ها به دو دسته كلي طبقه‌‌‌‌‌بندي مي‌‌‌‌‌شوند: روش‌‌‌‌‌هاي با‌‌‌‌‌مربي و روش‌‌‌‌‌هاي بي‌‌‌‌‌مربي.
روش‌‌‌‌‌هاي با مربي
در 15 سال اخير، روش‌‌‌‌‌هاي تجربي و آماري رشد بسيار زيادي در زمينه پردازش زبان طبيعي داشته‌‌‌‌‌اند. اولين مسائلي كه روش‌‌‌‌‌هاي آماري و يادگيري ماشين در پردازش زبان طبيعي براي حل آنها مورد استفاده قرار گرفت مسائلي بود كه در آنها نوعي ابهام زدايي و به عبارت ديگر انتخاب درست يكي از كانديدها صورت مي‌‌‌‌‌پذيرفت. به علت اينكه ذات اينگونه مسائل از نوع مسائل دسته‌‌‌‌‌بندي است، استفاده از روش‌‌‌‌‌هاي آماري و يادگيري ماشين براي آنها بسيار كارا مي‌‌‌‌‌باشد. به عنوان نمونه در ابهام زدايي‌‌‌‌‌ معنايي كلمات، معاني مختلف كلمه مبهم نشان دهنده كلاس‌‌‌‌‌ها مي‌‌‌‌‌باشند و هدف انتساب درست كلمه مبهم به يكي از اين دسته‌‌‌‌‌ها با توجه به متني است كه كلمه مبهم در آن بكار رفته است. روش‌‌‌‌‌هاي نظارت شده بر اساس اينكه از كدام روش يادگيري ماشين در آنها استفاده شده باشد خود نيز به سه گروه مبتي بر مثال، مبتني بر قواعد و روش‌‌‌‌‌هاي آماري دسته‌‌‌‌‌بندي مي‌‌‌‌‌شوند.
روش‌‌‌‌‌هاي مبتني بر مثال
در برنامه‌‌‌‌‌هاي كاربردي يادگيري زبان ناديده گرفتن شرايط استثنا باعث از دست رفتن اطلاعات مفيدي مي‌‌‌‌‌شود كه ممكن است در آينده مورد نياز باشند. بر همين اساس ايده اصلي در اين روش‌‌‌‌‌ها استفاده از تمامي اطلاعات موجود در پيكره متني براي عمل ابهام زدايي مي‌‌‌‌‌باشد. به عبارت ديگر در اين روش‌‌‌‌‌ها تا حد امكان اطلاعات موجود در پيكره متني در مرحله يادگيري كد شده و نهايتا در زمان تست از آنها به خوبي استفاده مي‌‌‌‌‌شود. اين روش‌‌‌‌‌ها بر پايه مقايسه مي‌‌‌‌‌باشند و عمل ابهام زدايي را بر اساس معيار‌‌‌‌‌هاي مقايسه-اي بين مثال‌‌‌‌‌هاي برچسب‌‌‌‌‌گذاري شده موجود در مرحله يادگيري و مثال جديد انجام مي‌‌‌‌‌دهند. روش‌‌‌‌‌هاي مختلفي براي بدست آوردن ميزان تشابه دو مثال وجود دارد. به عنوان مثال در صورتي كه مثال‌‌‌‌‌ها را در فضاي بردار متن فرض كنيم يكي از روش‌‌‌‌‌هاي بدست آوردن ميزان تشابه آنها استفاده از مدل فضاي بردار مي‌‌‌‌‌باشد. عامل مهم و تاثير‌‌‌‌‌گذار در اين روش‌‌‌‌‌ها انتخاب درست ويژگي‌‌‌‌‌هاي نشان دهنده هر مثال و در نهايت انتخاب معيار مقايسه مناسب مي‌‌‌‌‌باشد.
در منبعی دیگر روشي مبتني بر مثال و بر اساس تشابه در فضاي متن ارائه شد. در اين روش تمام كلمات موجود در پيكره يادگيري بر اساس اينكه در چه متوني تكرار شده‌‌‌‌‌اند بوسيله يك بردار نشان داده مي‌‌‌‌‌شوند. به عبارت ديگر كلمات در فضاي متن در نظر گرفته مي‌‌‌‌‌شوند.
به ازاي هر متن بايد وزن كلمه در آن متن در نظر گرفته شود. اين وزن مي‌‌‌‌‌تواند تعاريف مختلفي داشته باشد. در زير روش‌‌‌‌‌هاي مختلف براي محاسبه آن آورده شده است.
• وزن يك در صورت وجود ، وزن صفر در صورت عدم وجود كلمه در متن.
w_ij= {█(1 if w_i∈ c_j@0 if w_i∉ c_j )┤
• تعداد تكرار كلمه موجود در متن.
w_ij=count(w_i in c_j )
•حاصلضرب تعداد تكرار كلمه در متن و درصد متوني كه كلمه در آنها ديده شده است.
w_ij=(1+log⁡(tf_ij ) )×(log⁡〖(N/〖df〗_i )〗)
در مرحله يادگيري الگوريتم، پيكره متني تبديل به ماتريسی مي‌‌‌‌‌شود كه در آن تمام كلمات به بردار متن تبديل شده‌‌‌‌‌اند. هر ستون نشان دهنده يك متن(مثال) و هر رديف نشان دهنده يك كلمه مي‌‌‌‌‌باشد. در مرحله بعدي الگوريتم متني(مثال) شامل يك كلمه مبهم به الگوريتم داده مي‌‌‌‌‌شود و الگوريتم در ابتدا اين متن را به برداري در فضاي كلمات تبديل مي‌‌‌‌‌كند. در صورتي كه بردار حاصل شده را در ماتريس بدست آمده در مرحله يادگيري ضرب كنيم، برداري در فضاي متن براي مثال جديد بدست مي‌آيد.

عمل ضرب داخلي بردارها مي‌‌‌‌‌تواند از روش‌‌‌‌‌هاي مختلفي محاسبه شود. در زير دو نمونه از اين روش‌‌‌‌‌ها آورده شده است.
ضرب داخلي كه توسط رابطه زیر محاسبه مي‌‌‌‌‌شود.
q_j=∑_(i=1)^T▒〖w_iq×w_ij 〗
در صورتي كه بردارهايي كه در ضرب شركت مي‌‌‌‌‌كنند(ستون‌‌‌‌‌هاي ماتريس و بردار اوليه متن(q)) نرمال باشند(طولي برابر يك داشته باشند) مي‌‌‌‌‌توان از فرمول كسينوسي استفاده كرد. اين مقدار با استفاده از رابطه زیر محاسبه مي‌‌‌‌‌‌شود.

q ⃗=q.A=(cos⁡(q,c_1 ),…,cos⁡(q,c_N ) ) ,cos⁡(q,c_j )=∑_(i=1)^T▒(w_iq×w_ij)/‖q‖‖c_j ‖ ‖x‖= √(∑_i▒〖x_i〗^2 )
در مرحله نهايي با توجه به اينكه هم معاني مختلف كلمه مبهم و هم متني كه كلمه مبهم در آن بكار رفته است توسط برداري در فضاي متن نمايش داده شده‌‌‌‌‌اند، مي‌‌‌‌‌توان با مقايسه آنها معني را كه بردار آن به بردار متن جديد نزديكتر است به عنوان جواب انتخاب كرد.
اين روش در سِنس‌‌‌‌‌اِول 3 و بر اساس چهار زبان مختلف شركت داشته و در زبان انگليسي و در بخش درشت دانه‌‌‌‌‌اي دقتي برابر با %72 بدست آورده است.
روش‌‌‌‌‌هاي مبتني بر قواعد
در اين روش‌‌‌‌‌ها در مرحله يادگيري سيستم ويژگي‌‌‌‌‌هاي تفكيك‌‌‌‌‌كننده براي معاني مختلف كلمات مبهم در متن را شناسايي كرده و در نهايت بر اساس اين ويژگي‌‌‌‌‌ها قواعدي را بر اساس ميزان تفكيك سازي آنها استنتاج كرده و از آنها براي ابهام زدايي استفاده مي‌‌‌‌‌كند. هنگامي كه سيستم مثال جديدي را مي‌‌‌‌‌بيند، قوانين متناسب با مثال را انتخاب كرده و بر اساس پيش‌‌‌‌‌بيني اين قواعد معني درست كلمه مبهم را پيدا مي‌‌‌‌‌كند.
استفاده از ليست تصميم يكي از روش‌‌‌‌‌هاي است كه در آن قوانين مختلف در مرحله يادگيري از پيكره‌‌‌‌‌ استخراج و وزن‌‌‌‌‌دهي مي-شوند. اين قوانين بصورت سه‌‌‌‌‌تايي (شرايط، معني، وزن) هستند. معيار‌‌‌‌‌هاي وزن‌‌‌‌‌دهي متفاوتي توسط محققان ارائه شده است. به عنوان مثال در منبعی معياري بر اساس احتمال لگاريتمي ارائه شد تا بر اساس آن اهميت هر يك از قواعد بدست آيد. اين معيار در رابطه زیر آورده شده است.
weight(S_k,f_i )= log⁡〖(p(S_k,f_i))/(∑_(j≠k)▒〖〖 p(S〗_j,f_i)〗)〗
در اين فرمول وزن هر معني از كلمه مبهم (S_k) نسبت به يك ويژگي خاص (f) سنجيده مي‌‌‌‌‌شود.
براي اين روش و بر اساس ارزيابي‌‌‌‌‌هاي موجود در سِنس‌‌‌‌‌اِول براي 36 كلمه مورد ارزيابي دقتي در حدود 78 % گزارش شده است.

روش‌‌‌‌‌هاي آماري
امروزه استفاده از روش‌‌‌‌‌هاي آماري با توجه به گسترش منابع اطلاعاتي همچون پيكره‌‌‌‌‌هاي متني برچسب‌‌‌‌‌گذاري شده و همچنين سادگي و كيفيت بالاي آنها بسيار مورد توجه قرار گرفته است. در اين روش‌‌‌‌‌ها معمولا پارامترهاي آماري همچون احتمالات شرطي و توزيع‌‌‌‌‌هاي احتمالاتي بر اساس اطلاعات موجود در پيكره‌‌‌‌‌هاي متني در مرحله يادگيري محاسبه مي‌‌‌‌‌شوند. در مراحل بعدي اين اطلاعات براي رفع ابهام از مثال‌‌‌‌‌هاي جديد مورد استفاده قرار مي‌‌‌‌‌گيرند.
الگوريتم بيز يكي از ساده‌‌‌‌‌ترين الگوريتم‌‌‌‌‌ها در اين حوزه مي‌‌‌‌‌باشد كه از قانون بيز و نوع ساده‌‌‌‌‌سازي شده آن استفاده مي‌‌‌‌‌كند. علي‌‌‌‌‌رغم ساد‌‌‌‌‌گي اين الگوريتم مي‌‌‌‌‌توان نشان داد كه نتايج حاصل از آن با نتايج ديگر روش‌‌‌‌‌ها برابري مي‌‌‌‌‌كند.
طبقه‌‌‌‌‌بندي بيز با وجود سادگي و مفروضات نادرست، در موارد زيادي براي عمل ابهام زدايي معنايي مورد استفاده قرار گرفته است. در فاز يادگيري ما متني را در اختيار داريم كه در آن معناي درست كلمات مبهم در آن مشخص شده است(پيكره برچسب گذاري شده). ايده اصلي در اين روش استفاده از تعداد زيادي كلمات مجاور كلمه‌‌‌‌‌اي مبهم مي‌‌‌‌‌باشد. هر كلمه در متن داراي اطلاعات مفيدي براي پيدا كردن معناي صحيح مي باشد بنابراين مي‌‌‌‌‌توان از آن براي ابهام زدايي استفاده كرد. در اين روش سعي شده است تا حد امكان اين اطلاعات جمع‌‌‌‌‌آوري شوند. براي بيان اين روش نماد‌‌‌‌‌هاي زير را در نظر مي‌‌‌‌‌گيريم:
•(〖S_1…S〗_k) مجموعه معاني مختلف كلمه مبهم.
•(〖C_1…C〗_i) متون حاوي كلمه مبهم در پيكره.
•(〖V_1…V〗_j) كلماتي كه به عنوان ويژگي‌‌‌‌‌هاي متني براي كلمه مبهم در متن در نظر گرفته مي‌‌‌‌‌شوند.
در اين روش از رابطه زیر استفاده مي‌‌‌‌‌شود. اين فرمول همواره بهينه است زيرا احتمال وقوع خطا را به كمترين مقدار ممكن خود نزديك مي‌‌‌‌‌كند. به عبارت ديگر به دليل اينكه همواره در شرايط مختلف معني (دسته) انتخاب مي‌‌‌‌‌شود كه بيشترين احتمال شرطي را داراست ميزان خطا به حداقل ممكن مي‌‌‌‌‌رسد.
Decide s ́ if p(s ́│c)> P(s_k│c) for s_k≠ s ́
با توجه به اينكه معمولا ما مقدار P(s_k│c)را نداريم از قانون بيز استفاده مي كنيم. p(c) براي تمام كلمات و همچنين براي تمام معاني مختلف يك كلمه در رابطه 3-7 ثابت مي‌‌‌‌‌‌باشد و در رابطه از آن صرف نظر مي شود.
P(s_k│c)= (p(c│s_k ))/p(c) ×p(s_k )= p(c│s_k )×p(s_k )
در اين روش دو فرض در نظر گرفته مي‌‌‌‌‌شود. اول اينكه ترتيب خطي قرارگيري كلمات و ساختار جملات در متن مورد توجه قرار نمي‌‌‌‌‌گيرد . اصطلاحا به اين مدل كيسه كلمات گفته مي‌‌‌‌‌شود به اين معني كه براي كلمات جاي خاصي در متن در نظر گرفته نمي‌شود. دومين فرضي كه در اين روش از آن استفاده مي‌‌‌‌‌شود اين است كه وجود و يا عدم وجود يك كلمه در متن مستقل از كلمات ديگر مي‌‌‌‌‌باشد. اين فرض به روشني يك فرض نادرست است. چرا كه به عنوان مثال كلمه رئيس جمهور بيشتر تمايل دارد تا در يك متن حاوي كلمه انتخابات قرار گيرد تا متني كه شامل كلمه شاعر است! اما اين ساده‌‌‌‌‌سازي با وجود كمبودهايي كه دارد در بسياري از موارد كارآمد مي‌‌‌‌‌باشد. در رابطه زیر مراحل مختلف اين ساده‌‌‌‌‌سازي آورده شده است.
s ́ =〖argmax〗_(s_k ) p(s_k│c)=〖argmax〗_(s_k ) (p(c│s_k ))/p(c) ×p(s_k )
=〖argmax〗_(s_k ) p(c│s_k )×p(s_k )
=〖 argmax〗_(s_k ) [log⁡〖p(c│s_k )〗+logp(s_k )]
s ́ = 〖argmax〗_(s_k ) [log⁡∏_(v_j ∈ c)▒〖p(v_j│s_k ) 〗+log (c(s_k))/(c(w))]
p(c│s_k )=p({v_j│v_j in c}│s_k )= ∏_(v_j in c)▒〖p(v_j│s_k ) 〗
p(v_j│s_k )=(c(v_j,s_k))/(∑_t▒〖c(v_t,s_k)〗)
p(s_k)=(c(s_k))/(c(w))
تساوي اول در رابطه فوق قانون بيز در جابجايي احتمال شرطي مي‌‌‌‌‌باشد. براي بدست آوردن مقدار p(c│s_k ) از ساده‌‌‌‌‌سازي صورت گرفته در ادامه كه بر اساس فرض غير وابسته بودن كلمات در متن استنتاج شده است، استفاده شده است.
احتمالات شرطي p(v_j│s_k ) و همچنين احتمال p(s_k) پارامتر‌‌‌‌‌هاي آماري هستند كه مي‌‌‌‌‌توانند با استفاده از اطلاعات آماري موجود در پيكره متني برچسب گذاري شده محاسبه ‌‌‌‌‌شوند. نحوه محاسبه اين دو احتمال به ترتيب در بخش نهایی رابطه‌‌‌‌‌هاي فوق آورده شده‌‌‌‌‌ است.

روش‌‌‌‌‌هاي بدون مربي
نتيجه تحقيقات در زمينه ابهام زدايي معنايي كلمات، پياده‌‌‌‌‌سازي الگوريتم‌‌‌‌‌هايي است كه بر اساس منابع دانش مختلف عمل مي‌‌‌‌‌‌كنند. به عنوان مثال روش‌‌‌‌‌هايي كه در آنها از فرهنگ‌‌‌‌‌هاي لغت، فرهنگ‌‌‌‌‌هاي جامع، سلسله‌‌‌‌‌مراتب مفهومي و يا پيكره‌‌‌‌‌هاي متني برچسب-گذاري شده استفاده مي‌‌‌‌‌‌شود. متاسفانه تهيه اينگونه منابع كه لازمه بسياري از روش‌‌‌‌‌ها مي‌‌‌‌‌‌باشند، نيازمند صرف هزينه زياد است. به عنوان مثال بزرگترين محدوديت روش‌‌‌‌‌هاي با‌‌‌‌‌مربي نيازمندي آنها به پيكره‌‌‌‌‌هاي متني بزرگ با برچسب‌‌‌‌‌گذاري معنايي به منظور يادگيري سيستم است كه تهيه آنها كاري پرهزينه و وقت‌‌‌‌‌گير است. به همين دليل روش‌‌‌‌‌هاي بامربي با وجود دقت بالا معمولا با مشكل كمبود اينگونه متون روبرو بوده و در بسياري از موارد امكان گسترش و اعمال اين روش‌‌‌‌‌ها براي تمام حوزه‌‌‌‌‌هاي معنايي و زبان‌‌‌‌‌هاي مختلف ميسر نمي‌‌‌‌‌باشد.
ابهام زدايي بدون مربي بصورت كامل در صورتي كه هدف ما برچسب گذاري معاني باشد امكان پذير نيست. به عبارت ديگر الگوريتمي كه مشخص كند هر كلمه در متن چه معنايي دارد، نمي‌‌‌‌‌تواند كاملا بدون مربي صورت پذيرد، چرا كه اين كار نيازمند اطلاعاتي در مورد معاني مختلف كلمه است. بنابراين در صورتي اين ابهام زدايي مي‌‌‌‌‌‌تواند كاملا بصورت بدون مربي انجام گيرد كه متن حاوي كلمه مبهم را به گروه‌‌‌‌‌هاي مختلف خوشه‌‌‌‌‌بندي كرده و در نهايت بدون برچسب گذاري آنها اين گروه‌‌‌‌‌ها را متمايز كنيم. در روش‌‌‌‌‌هاي با مربي در حقيقت يكي از معاني كه از پيش براي كلمه مبهم تعريف شده‌‌‌‌‌اند به آن انتساب داده مي‌‌‌‌‌شود در حالي كه در اين گونه روش‌‌‌‌‌ها اين مجموعه، يعني معاني از پيش تعيين شده براي كلمه مبهم در دسترس نمي‌‌‌‌‌باشد. عملي كه در اين روش‌‌‌‌‌ها انجام مي‌‌‌‌‌شود تمايز معاني مختلف كلمه مبهم است. اين تمايز مي‌‌‌‌‌تواند با استفاده از روش‌‌‌‌‌هاي توزيعي و يا روش‌‌‌‌‌هاي معادل ترجمه‌‌‌‌‌اي انجام شود. اين روش‌‌‌‌‌ها بسيار انعطاف‌‌‌‌‌پذير هستند و نيازي به فرهنگ لغت، سلسله مراتب مفهومي و يا هر منبع دست‌‌‌‌‌نويس ديگري ندارند. اين روش‌‌‌‌‌ها بدليل اينكه توسط منابع دانش و همچنين مثال‌‌‌‌‌هاي ساخته شده توسط انسان راهنمايي نمي‌‌‌‌‌شوند به اين نام شناخته مي‌‌‌‌‌شوند.
اين اصطلاح خود نيز در مقالات مختلف به معاني متفاوتي تعبير مي‌‌‌‌‌شود. برخي آنرا به روش‌‌‌‌‌هايي اطلاق مي‌‌‌‌‌كنند كه از متون برچسب‌‌‌‌‌گذاري شده براي يادگيري استفاده نمي‌‌‌‌‌كنند، در نتيجه روش‌‌‌‌‌هايي كه از منابعي همچون ديكشنري استفاده مي‌‌‌‌‌كنند جزء اين دسته مي‌‌‌‌‌باشند. اين تعريف در واقع تعريفي است كه در سِنس‌‌‌‌‌اِول از روش‌‌‌‌‌هاي بدون مربي شده است.
ممكن است اين سؤال مطرح شود كه چرا از اين روش‌‌‌‌‌ها با وجود مشكلات آن استفاده مي‌‌‌‌‌شود؟ يكي از دلايل اين امر عدم وجود يك منبع معنايي ثابت و هماهنگ براي كلمات است. هر فرهنگ لغت تفسير و سازماندهي خاص خود را براي معاني مختلف كلمات دارد. بنابراين تمامي روش‌‌‌‌‌هايي كه از بك منبع معنايي خاص استفاده مي‌‌‌‌‌كنند تنها بر روي همان داده‌‌‌‌‌ها تمركز كرده و امكان وفق-پذيري ندارند. علت ديگر استفاده از اين روشها عدم وابستگي آنها به زبان خاص مي‌‌‌‌‌باشد و در واقع براين باورند كه ابهام زدايي نبايد به منبع دانشي خاص وابسته باشد و بايد به راحتي به زبان‌‌‌‌‌هاي ديگر انتقال داده شود.
روش‌‌‌‌‌هاي توزيعي
كلماتي كه در متون مشابه بكار برده مي‌‌‌‌‌‌شوند داراي معاني مشابهي هستند. اين فرضي است كه روش‌‌‌‌‌هاي توزيعي از آن به منظور ابهام زدايي استفاده مي‌‌‌‌‌‌كنند. مشخصه اصلي اين روش‌‌‌‌‌ها اين است كه در آنها كلمات بر اساس معاني از پيش تعيين شده طبقه‌‌‌‌‌بندي نمي‌‌‌‌‌شوند بلكه بر اساس متني كه حاوي كلمه است و مشاهدات موجود در پيكره خوشه‌‌‌‌‌بندي مي‌‌‌‌‌‌شوند. اين روش‌‌‌‌‌ها معاني را به كلمات انتساب نمي‌‌‌‌‌دهند بلكه امكان تمايز بين معاني را با خوشه‌‌‌‌‌بندي كردن متون نشان مي‌‌‌‌‌‌دهد. به عبارت ديگر هر يك از خوشه‌‌‌‌‌ها بيان كننده كلمه است كه در معني خاصي بكار برده شده است.
الگوريتمي ارائه شده که عمل ابهام زدايي را به دو مرحله تقسيم مي‌‌‌‌‌‌كند. در مرحله اول متون مختلف حاوي كلمه مبهم بر اساس اشتراك مؤلفه‌‌‌‌‌هاي توزيعي به خوشه‌‌‌‌‌هاي متفاوت اختصاص داده مي‌‌‌‌‌‌شوند. در واقع با اين كار تفكيكي بين معاني مختلف كلمه مبهم صورت مي‌‌‌‌‌‌گيرد. در مرحله دوم به هر يك از خوشه‌‌‌‌‌ها معني مناسب با كلمه مبهم در متون آن خوشه انتساب داده مي‌‌‌‌‌‌شود. نتايج مرحله اول در اين الگوريتم تعدادي خوشه است كه مبين معاني مختلف كلمه مبهم است كه در متون مختلف ديده شده است.
روش‌‌‌‌‌هاي معادل ترجمه‌‌‌‌‌اي
در اين روش‌‌‌‌‌ها از پيكره‌‌‌‌‌هاي متني دو زبانه موازي استفاده مي‌‌‌‌‌‌شود كه در آنها هر كلمه يا عبارت در زبان مقصد با معادل مناسب خود در زبان مبدا منتسب شده است به عنوان مثال در مقاله ای مدلي ارائه شده است تا توسط آن از بين دو معني در زبان مقصد، براي كلمه در زبان مبدا يكي را انتخاب كند. اين روش بر مبناي كلمه شاخص نزديك كلمه مبهم است. روشي شبيه ليست تصميم به منظور شناسايي كلمات شاخصي كه به بهترين شكل عمل تفكيك سازي معاني مختلف كلمه مبهم را انجام دهد، بكار برده مي‌‌‌‌‌‌شود.

روش‌‌‌‌‌‌هاي تركيبي

در اين روش‌‌‌‌‌‌ها تركيبي از روش‌‌‌‌‌‌هايي كه در روش‌‌‌‌‌‌هاي قبلي مورد استفاده قرار گرفته است بكار برده مي‌‌‌‌‌‌‌شود. به عنوان مثال در [42] روشي ارائه شده است كه در آن ابتدا از اطلاعات موجود در پيكره متني كلماتي كه با كلمه مبهم (w) بيشترين تكرار را با توجه به روابط نحوي تعريف شده دارند (به عنوان مثال رابطه فعل و مفعول) به عنوان كلمات همسايه انتخاب مي‌‌‌‌‌‌‌شوند (N_w={n_1,n_2,…,n_k}) و به هر يك از آنها بر اساس اطلاعات آماري امتياز متناسب داده مي‌‌‌‌‌‌‌شود:
({dss(w,n_1),dss(w,n_2),…,〖dss(w,n〗_k)})
در ادامه و بر اساس اطلاعات موجود در شبکه واژگان و روش‌‌‌‌‌‌هاي محاسبه وابستگي معنايي كلمات، ميزان تشابه (wnss) هر يك از كلمات همسايه (N_w) با معاني مختلف كلمه مبهم (〖ws〗_i∈senses(w)) محاسبه شده و در نهايت بر اساس رابطه زیر امتياز هر معني مشخص مي‌شود.
Score(〖ws〗_i)=∑_(n_j∈N_w)▒〖〖dss(w,n〗_j)×(wnss(〖ws〗_i,n_j))/(∑_(〖ws〗_z∈senses (n_j))▒〖wnss(〖ws〗_z,n_j)〗)〗

روش‌‌‌‌‌‌هاي اعمال شده در زبان فارسي

برخي از روش‌‌‌‌‌‌هاي ابهام زدايي معنايي كلمات در زبان فارسي نيز مورد استفاده قرار گرفته‌‌‌‌‌‌اند و در مواردي به منظور افزايش دقت ترجمه ماشيني در سيستم‌‌‌‌‌‌هاي مترجم ماشيني اعمال شده‌‌‌‌‌‌اند. در مقاله ای روشي پيشنهاد شده است كه با استفاده از روش توسعه داده شده لِسك عمل ابهام زدايي معنايي را به منظور انتخاب درست معني كمات در زبان مقصد (فارسي) انجام مي‌‌‌‌‌‌‌دهد. در اين روش بجاي استفاده از فرهنگ لغت به منظور استخراج معاني از شبکه واژگان و روابط معنايي موجود در آن استفاده شده است. روش پيشنهادي در اين تحقيق بر اساس 113 جمله مورد ارزيابي قرار گرفته و در بهترين حالت به دقت 87% دست پيدا كرده است. همچنين در منبعی دیگر روشي مبتني بر دانش ارائه شده است كه با استفاده از قواعد تعريف شده براي سيستم عمل ابهام زدايي را انجام مي‌‌‌‌‌‌دهد. اين قواعد بر اساس هشت عامل مختلف تعريف شده‌‌‌‌‌‌اند ( به عنوان مثال نقش دستوري كلمه مبهم). سيستم براي هر يك از كلمات مبهم منبع دانش خود را براي تطبيق با آن جستجو مي‌‌‌‌‌‌كند. در صورتي كه كلمه در منبع دانش سيستم موجود باشد با استفاده از قانون مناسب ابهام زدايي صورت مي‌‌‌‌‌‌پذيرد در غير اين صورت عمل ابهام زدايي با استفاده از اطلاعات باهمايي و هم‌وقوعي انجام مي‌‌‌‌‌‌شود.
در مرجعی روشي بر اساس درخت تصميم ارائه شده است كه قوانين آن بصورت خودكار از پيكره متني دو زبانه استخراج مي‌‌‌‌‌‌‌شوند. در درخت تصميم گره‌‌‌‌‌‌هاي مياني بيان‌‌‌‌‌‌كننده يك ويژگي و يال‌‌‌‌‌‌ها نشان‌‌‌‌‌‌دهنده مقادير مختلف براي آن ويژگي است. همچنين برگ‌‌‌‌‌‌هاي موجود در درخت تصميم نشان دهنده معاني ممكن براي كلمه مبهم مورد نظر است. ادات سخن كلمه مبهم و نقش دستوري آن از ويژگي‌‌‌‌‌‌هايي است كه در اين روش مورد استفاده قرار گرفته است. با بدست آوردن مقادير ويژگي‌‌‌‌‌‌ها براي كلمات مبهم در متن و با استفاده از پيكره موازي دو زبانه و همچنين الگوريتم ID3 مرحله يادگيري و ساخت درخت تصميم انجام مي‌‌‌‌‌‌‌پذيرد. بر اين اساس براي تمام كلمات مبهم موجود در دادگان يادگيري درخت تصميم ساخته شد و در مرحله نهايي از آنها به منظور ابهام زدايي استفاده مي‌‌‌‌‌‌‌شود.
در آزمايشات انجام شده بر روي اين روش كه بر اساس 81 كلمه مبهم صورت پذيرفته است، دقتي معادل 81% گزارش شده است. استفاده از اطلاعات آماري كه از پيكره‌‌‌‌‌‌هاي متني بزرگ استخراج مي‌‌‌‌‌‌‌شوند نيز در زبان فارسي مورد توجه بوده است. در کاری دیگر از اطلاعات آماري جمع‌‌‌‌‌‌آوري شده از پيكره متني تك زبانه و همچنين روابط نحوي بين كلمات به منظور ابهام زدايي استفاده شده است. در روش ارائه شده براي هر كلمه مبهم بر اساس ادات سخن آن، كلمه‌‌‌‌‌‌اي در جمله در نظر گرفته مي‌‌‌‌‌‌‌شود. به عنوان مثال در صورتي كه كلمه مورد بررسي اسم باشد، اين كلمه مي‌‌‌‌‌‌‌تواند اولين اسم بعد از آن و يا فعل قبل آن باشد. در ادامه معاني مختلف كلمه مبهم و كلمه متناسب با آن در جمله، از فرهنگ لغت استخراج شده و تعداد رخداد هم‌‌‌‌‌‌زمان آنها محاسبه مي‌‌‌‌‌‌‌شود. در انتها با استفاده از مدل آماري معرفي شده در اين روش معني مناسب براي كلمه مبهم بر اساس تعداد رخداد‌‌‌‌‌‌هاي آن بدست مي‌‌‌‌‌‌‌آيد. دقت گزارش شده در اين روش 79% مي‌‌‌‌‌‌‌باشد كه بر اساس 764 كلمه مبهم مورد استفاده در آن است.

تشابه بین مفاهیم

همانطور که اشاره شد، تعیین شباهت متن معنایی، یا جمله یا واژگان یکی از مسائل مهم در گروه‌بندی مفاهیم مشابه است. تا کنون روش‌های مختلفی برای اندازگیری میزان تشابه بین مفاهیم استخراج شده از متن تعریف شده‌اند.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.