رده:برچسب‌گذار نقش ادات سخن

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

برچسب‌گذاری نقش ادات سخن

برچسب ‌زنی ادات سخن عمل انتساب برچسب ‌های نحوی به واژه ‌ها و نشانه ‌های تشکیل دهنده یک متن است به صورتی که این برچسب ‌ها نشان دهنده نقش کلمات و نشانه ‌ها در جمله باشد. درصد بالایی از واژگان از نقطه نظر برچسب ‌زنی نحوی دارای ابهام هستند زیرا کلمات در جایگاه-های مختلف برچسب ‌های نحوی متفاوتی دارند. بنابراین برچسب زنی نحوی، عمل ابهام زدایی از برچسب ‌ها با توجه به زمینه (متن) مورد نظر است. برچسب ‌ ‌زنی نحوی عملی اساسی برای بسیاری از حوزه ‌های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می ‌باشد.

مروری بر کارهای انجام شده

برچسب‏‌زن TnT (Trigrams'n'Tags)
برچسب‏‌زن TnT برنتس یک نشانه گذار POS آماری است، که قابلیت یادگیری زبان ‌های متفاوت و تقریبا هر مجموعه نشانه ‌ای را دارا است. این سامانه دارای روش ‌های مختلفی برای برخورد با لغات ناشناس است. این برچسب‏زن، در واقع یک پیاده‌سازی از الگوریتم ویتربی برای مدل ‌های ماکوف مرتبه دوم است. دقت این برچسب‏زن برای زبان ‌های مختلف تقریبا بین 96% تا 97% است. لازم به ذکر است که دقت حاصل از این برچسب‏زن به شدت به پیکره مورد استفاده و همچنین متنی که برای ارزیابی به آن داده می ‌شود بستگی دارد. برچسب‏‌زن HunPoS
HunPoS [3] یک پیاده‌سازی مجدد متن باز از TnT است که مبتنی بر مدل ‌های مخفی مارکوف می ‌باشد(HMM) که با مدل زبان trigram کار می ‌کند و اجازه می ‌دهد که کاربر با توجه به ویژگی ‌های خاص زبان برچسب‏زنی را دقیق ‌تر کند.
این برچسب‏زن مشابه TnT بوده و تنها در نحوه محاسبه احتمال emission/lexical متفاوت می-باشد. در HunPoS برآورد احتمال emission/lexical مبتنی بر نشانه جاری و قبلی انجام می-شود. تفاوت دیگری که آن را از TnT متمایز می ‌کند متن باز بودن آن است و این در حالی است که TnT اینگونه نیست. این سامانه مشابه TnT دارای مکانیز تشخیص لغات ناشناس مبتنی بر پسوند است. همچنین HunPoS دارای مکانیزم تحلیل گر Morphological است.

برچسب‏‌زنی مبتنی بر حافظه (Memory-Based POS Tagging)
برچسب‏‌زنی مبتنی بر حافظه POS [5] با استفاده از ویژگی ‌هایی نظیر نشانه ‌های ممکن برای یک لغت و محتوای با عرض مشخص (نشانه ‌های لغات قبلی که بدون ابهام هستند) کار می ‌کند. این سامانه از روش یادگیری ماشین مبتنی بر حافظه استفاده می ‌کند. یادگیری مبتنی بر حافظه با نام ‌های دیگری همچون یادگیری Lazy، یادگیری Example-Based و یا یادگیری Case-Based شناخته می ‌شود. یادگیری ‌های مبتنی بر حافظه معمولا درختی شبیه ساختار داده نمونه ‌های یادگرفته شده ایجاد می ‌کند و در حافظه نگه می ‌دارد و وقتی یک نمونه اضافه می ‌شود، با استفاده از معیار ‌های اندازی گیری شباهت، فاصله ‌آن با نمونه ‌ها موجود بررسی شده و آن را طبقه‌بندی کرده و در محل مناسب خود در ساختمان داده تولید شده قرار می ‌دهند. برای یادگیری مبتنی بر حافظه دو الگوریتم اصلی وجود دارد.
أ‌. Wieghted MBL: IB1-IG
ب‌. Optimized weighted MBL: IGTREE
روش IB1-IG، یک الگوریتم یادگیری مبتنی بر حافظه است که در طول یادگیری، پایگاه داده ‌ای از نمونه ‌ها تولید می ‌کند. بعد از آنکه نمونه پایه تولید شد، طبقه‌بندی نمونه ‌های جدید با انطباق آن ‌ها با تمامی نمونه ‌های موجود پایه و محاسبه فاصله نمونه جدید X با نمونه موجود در حافظه Y انجام می ‌شود.
با توجه به اینکه جستجو برای یافتن نزدیک ترین همسایه ‌ها در IB1-IG نیاز به صرف زمان دارد و این در حالی است که برچسب‏زن ‌های POS بایستی سریع کار کنند از این رو IGTREE از جستجو در درخت ‌های تصمیم استفاده می ‌کند. در IGTREE، حافظه نمونه دوباره طراحی شده با این هدف که شامل اطلاعات مشابه قبل باشد.
برآورد حداکثر احتمال وقوع (Maximum Likelihood Estimation)
در این روش با توجه به پیکره برای هر لغت حداکثر احتمال وقوع برچسب آن محاسبه شده و به آن لغت مربوط می ‌گردد. در ساده‌ترین مدل پیاده‌سازی، برچسبی که بیشترین تکرار را برای یک لغت داشته باشد، به عنوان نشانه منتخب بر گزیده می ‌شود. میزان دقت این روش در لغات ناشناس بسیار پایین است و این به دلیل عدم انتخاب نشانه برای آن لغت است. در ارزیابی دیگری برای لغات ناشناس از برچسب اسم مفرد (N_SING) استفاده شده است، به این دلیل که این نشانه بیشترین تعداد تکرار را در پیکره داشته است و در پیکره بی ‌جن خان 967546 بار تکرار شده است. این روش باعث بهبود چشمگیری در میزان دقت در لغات ناشناس می ‌شود.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.