رده:شبکه واژگان

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

شبکه واژگان پايگاه داده‌اي لغوي براي زبان انگليسي بشمار مي‌ آيد كه در سال 1985 ميلادي پياده سازي آن شروع شد و مراحل تكامل آن همچنان ادامه دارد. اين منبع لغت حاصل تحقيقات انجام شده در آزمايشگاه علوم شناختي دانشگاه پرينستون و در ارتباط با مدل سازي دانش لغوي انسان است و بطور همزمان مزاياي يك فرهنگ جامع و فرهنگ لغت را دارا است. شبکه واژگان در واقع شبکه معنايی از تمام كلمات زبان انگليسی است که در حال حاضر بصورت متن باز قابل استفاده است.
Shekle 1.10.jpg
اطلاعات موجود در شبکه واژگان بر اساس يك تقسيم بندي معنايي به نام سينست مرتب گرديده اند. هر سينست شامل ليستي از لغات مترادف است و توسط يك اشاره گر معنايي با سينست هاي ديگر در ارتباط است. اين اشاره گر در واقع روابط معنايي خاص را نشان مي‌ دهد. علاوه بر اطلاعات ذكر شده، هر سينست داراي يك تعريف براي توضيح مفهومش و همچنين مثالي براي نشان دادن كاربرد واقعي آن است. معاني مختلف هر كلمه (سينست) بر اساس ادات سخن دسته بندي مي‌ شوند و هر كدام به يكي از چهار نقش اسم، فعل، صفت و قيد تعلق مي‌گيرند.
همانطور كه گفته شد روابط معنايي مختلفي بر اساس ادات سخن بين كلمات شبکه واژگان برقرار است. جدول زیر نمونه اي از روابط معنايي بين اسامي و افعال در شبکه واژگان را نشان مي‌ دهد. همچنين جدول زیر قسمتي از ساختار سلسله مراتبي شبکه واژگان را به تصوير كشيده است.
Jadvale 1.18.jpg
امروزه كامل بودن و در دسترس بودن شبکه واژگان باعث شده است تا در بسياري از برنامه هاي كاربردي در زمينه پردازش زبان طبيعي از شبکه واژگان به عنوان منبع دانش لغوي استفاده شود. در زمينه بازيابي اطلاعات، شبکه واژگان به عنوان يک فرهنگ لغت معنايی جامع برای گسترش پرس وجوها و بهبود کارايی موتور هاي جستجوگر مورد استفاده قرار گرفته است. خلاصه سازي متون يكي ديگر از مواردي است كه شبکه واژگان به منظور افزايش دقت در آن مورد استفاده قرار گرفته است. همچنين الگوريتم هاي بسياري بر اساس روابط سلسله-مراتبي در شبکه واژگان به منظور محاسبه ميزان تشابه معنايي بين كلمات ارائه شده و در برنامه هاي كاربردي مختلفي در زمينه پردازش زبان طبيعي مورد استفاده قرار گرفته است.
ابهام زدايي معنايي كلمات يكي از مسائل پردازش زبان طبيعي است كه شبکه واژگان نقش پر رنگ تري در آن ايفا مي‌ كند. اين نقش از جنبه هاي مختلفي قابل بررسي است. علاوه بر استفاده از شبکه واژگان در روش هاي مختلف، از آن به عنوان منبع لغت استاندارد در ارزيابي ها مورد استفاده قرار گرفته است. شبکه واژگان باعث شده است تا منبع لغتي يكسان با دانه بندي مشترك براي تمام سيستم ها فراهم شود و ارزيابي ها بر اساس آن صورت پذيرد. همچنين متون برچسب گذاري شده كه مي‌ توانند به عنوان دادگان يادگيري در سيستم هاي مختلف ابهام زدا مورد استفاده قرار گيرند، بر اساس معاني موجود در شبکه واژگان ساخته شده اند. به عنوان مثال سمكُر پيكره متني برچسب گذاري شده براي زبان انگليسي است كه در آن برچسب ها شماره معاني مختلف كلمات در شبکه واژگان است.
بعد از اجراي موفقيت آميز پروژه شبکه واژگان انگليسي، تلاش هاي بسياري به منظور ساخت شبکه واژگان براي ديگر زبان ها صورت پذيرفته است و امروزه بسياري از زبان ها داراي منبع دانش لغوي مشابه شبکه واژگان هستند . به عنوان مثال پروژه اي با عنوان مولتي شبکه واژگان، زبان هايي همچون ايتاليايي، اسپانيايي، پرتغالي و روماني را پشتيباني مي‌ كند.
برای ايجاد شبکه واژگان انگليسی كلمات به صورت کاملا دستی در کنار يكديگر سازماندهی شده اند. اما پس از آن در سالهای اخير تلاش هايی در جهت ايجاد خودکار و نيمه خودکار شبکه واژگان براي زبان هاي ديگر همچون ژاپنی, تايلندی، چينی، فارسی و ... انجام گرفته است.
شكل 3-2 رابطه معنايي IS-A(Hypernym) براي يكي از معاني كلمه انگليسي “Dog” را در شبکه واژگان نشان مي‌ دهد.
Shekle 1.11.jpg
شبکه واژگان یا WordNet فرهنگی از واژگان است که براساس تئوری‌های زبانی-روانی بوده و مدل‌ها و معانی کلمات را تعریف می‌کند. در تعریف مدل‌های کلمات، شبکه واژگان نه تنها تداعی معانی واژگان را شامل می‌شود، بلکه تداعی معنی-معنی را نیز در بر می‌گیرد. شبکه واژگان بیشتر بر معنی کلمات تکیه دارد تا فرم کلمات، البته در شبکه واژگان ریخت‌شناسی صرف افعال نیز مد نظر قرار گرفته است. شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synset ها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )،جزئیات (Part of)، شمول (Has-A) را دربر می‌گیرند. روابط معنایی بین Synset ها با توجه به طبقه‌بندی‌های گرامری همانند آنچه در جدول زیر دیده می‌شود متفاوت است [LIN08]. شبکه واژگان هم‌چنین تعاریف متنی از مفاهیم را فراهم می‌سازد (Glossary) که شامل تعاریف و مثال‌ها می‌باشد. شبکه واژگان را می‌توان به عنوان یک مجموعه‌ی مرتب جزئی از منابع عبارات مترادف، برشمرد.
Jadvale 1.19.jpg
=== کارهای انجام شده در آزمایشگاه فناوری وب ===
در این بخش روش پیشنهادی برای ساخت شبکه واژگان فارسی به صورت خودکار، شرح داده شده است. روشی که در این پروژه پیشنهاد شده است بر مبنای استفاده از شبکه واژگان انگلیسی می‌باشد. با توجه به اینکه شبکه واژگان انگلیسی با صرف ساعت‌ها زمان و توسط انسان تولید شده است، بسیار دقیق و قابل اعتماد بوده و می‌تواند مبنای خوبی برای ساخت سایر شبکه واژگان قرار گیرد. ایده اصلی این پروژه بر این محور استوار است که مفاهیم و موجودات پیرامون ما دربین زبان‌های مختلف یکسان می‌باشند. به عنوان مثال رابطه زیر را در زبان انگلیسی داریم:
Shekle 1.12.jpg
که یک رابطه IS-A می‌باشد. بعبارت دیگر هر "Lion" یک "Animal" هم می باشد. اینکه هر شیر یک حیوان می باشد، یک مفهوم مستقل از زبان است. یعنی در همه جا و هر زبان، یک شیر یک حیوان هم می‌باشد. بنابراین، می‌توان گفت تمامی مفاهیمی که در زبان انگلیسی وجود داشته (که در شبکه واژگان انگلیسی هم تعریف شده است)، در زبان فارسی هم موجود می‌باشد. به دیگر سخن، سینست‌ها که در حقیقت همان مفاهیم می‌باشند در زبان فارسی هم به همان شکل باید وجود داشته باشند. کافی است در مثال ذکر شده برای کلمه "Lion" ترجمه "شیر" و برای "Animal" ترجمه "حیوان" انتخاب گردد. در این صورت رابطه‌ی IS-A ایی که در شبکه واژگان انگلیسی می‌باشد، در زبان فارسی هم برقرار خواهد بود و به صورت زیر می باشد:
Shekle 1.13.jpg
بنابراین درصورتی که ما بتوانیم برای هر کلمه انگلیسی، ترجمه مناسب آن در زبان فارسی برای سینست بکار رفته را پیدا کنیم، ضمن اینکه می‌توانیم سینست‌های فارسی را تا حد زیادی تولید کنیم، می‌توانیم از روابطی که بین این سینست ها در زبان انگلیسی تعریف شده است نیز استفاده نماییم. چرا که این روابط در زبان فارسی هم برقرار می باشند و درحقیقت مفاهیم و موجودیتها و روابط بین آنها مستقل از زبان هستند.
البته باید به این نکته توجه کرد که مسلما تعداد زیادی از کلمات امکان دارد که در زبان فارسی معادل نداشته باشند و یا بلعکس. اما اگر بتوان از همان ظرفیت‌های موجود استفاده کرد و دقت را تا حد ممکن بالا برد، در این صورت می‌توانیم یک شبکه واژگان با حداقل 40-50 هزار کلمه داشته باشیم که نسبت به تنها شبکه واژگان فارسی موجود که تنها شامل 10،000 کلمه می‌باشد، پیشرفت چشم‌گیر و قابل ملاحظه‌ای می‌باشد.
در ادامه فازهای کلی پروژه پیشنهادی نشان داده شده است. این پروژه دارای فازهای اصلی زیر می‌باشد:
Shekle 1.14.jpg
فاز 1 : در فاز اول باید تمامی کلمات انگلیسی و روابط بین آنها و به طور کلی ساختار شبکه واژگان انگلیسی در یک پایگاه داده محلی جمع آوری شود.
فاز 2: در این فاز ترجمه فارسی هر کلمه انگلیسی به استفاده از رابط های مترجم گوگل استخراج می گردد.
فاز 3: در این فاز باید در حقیقت با استفاده از سینست های انگلیسی، سینست های مناسب فارسی را تولید نماییم. برای اینکار باید سعی شود تا برای هر کلمه انگلیسی در سینست مربوطه، ترجمه مناسب فارسی آن انتخاب شود. هر کلمه انگلیسی می تواند چندین ترجمه فارسی داشته باشد. مهمترین چالش این فاز انتخاب ترجمه مناسب می باشد. برای اینکار می توان از روش های ابهام زدایی استفاده نمود.
در ادامه این فاز ها با جزییات توضیح داده شده اند.
فاز اول
در این فاز روابط شبکه واژگان انگلیسی استخراج شده و در پایگاه داده طراحی شده با MySql ذخیره می‌گردد. همچنين رویه‌های ذخیره شده‌ای برای استخراج و بازیابی روابط کلمات طراحی شده‌اند. برای ذخیره سازی اطلاعات، پایگاه داده زیر طراحی شده است :
Shekle 1.15.jpg
بعد از طراحی بانک اطلاعاتی، با استفاده از API هایی جاوای شبکه واژگان انگلیسی، ساختار شبکه واژگان به بانک طراحی شده منتقل می گردد. جدول PeWord و Translation مربوط به ترجمه کلمات فارسی می باشد که در فاز بعدی با بهره گیری از مترجم گوگل پر می شوند.
فاز دوم
در این فاز با استفاده از وب سرویس مترجم گوگل، ترجمه فارسی کلمات انگلیسی استخراج شده و در جداول Translation و PeWord ذخیره می گردد. شمای کلی این فاز در تصویر زیر آورده شده است:
Shekle 1.16.jpg
همچنین در این فاز ترجمه گلوسری‌های نماینده سینست های انگلیسی هم با استفاده از مترجم جمله گوگل و با استفاده از وب سرویس بدست می آید. این ترجمه در جدول Synset و در فیلد PeGloassary ذخیره می گردد. از این ترجمه در فاز بعدی و برای ابهام زدایی و انتخاب کلمات مناسب استفاده می شود.
فاز سوم
در این فاز باید سینست‌های فارسی تولید گردد. یک راه برای ساخت این سینست ها استفاده از انسان برای دسته بندی کلمات می باشد که بسیار پر هزینه و گران می باشد. از طرف دیگر استفاده از فرهنگ های واژگان فارسی مانند فرهنگ لغت دهخدا و یا معین هم چندان مفید نمی باشد. این فرهنگ‌های لغا هم‌خانواده‌ها و یا همان سینست‌ها را تا حدودی دربردارند؛ اما مشکل آنها این است که سایر روابط معنایی نظیر روابط IS-A ، Part-Of و ... در آنها وجود ندارند. بنابراین در صورتیکه بخواهیم از این فرهنگ‌ها برای ساخت سینستها به صورت مستقیم استفاده نماییم، برای تعیین روابط دیگر با دقت بالا، مجدداً مجبور هستیم از انسان استفاده نماییم که این روش بسیار زمان‌بر و پرهزینه می‌باشد.
در این پروژه روشی پیشنهاد شده است که نسبت به دو روش پیشین بسیار کم هزینه‌تر و ارزان‌تر بوده و از دقت مناسبی نیز برخوردار می‌باشد. ایده اصلی این پروژه این است که از ساختار تعریف شده شبکه واژگان انگلیسی برای تولید شبکه واژگان فارسی به صورت خودکار استفاده نماییم. تنها کاری که باید درست انجام شود این است که سینست‌های انگلیسی به صورت درست و صحیح به معادل فارسی مناسبشان ترجمه گردند. پس در واقع نیاز به رفع ابهام بین ترجمه‌های مختلف یک کلمه انگلیسی با توجه به سینست آن داریم. در صورت انتخاب ترجمه مناسب برای کلمات سینست‌های انگلیسی مسلماً سایر روابط که بین سینست‌ها معتبر بوده و در فارسی (یا حتی سایر زبان‌ها) نیز برقرار می‌باشد. برای اینکار از مترجم گوگل کمک گرفته شده است.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.