رده:وب معنایی

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

وب معنايي (Semantic web) را مي‌‌شود فضايي جهاني از جنس محاسبات هوشمند ماشيني تصوّر کرد که در آن تمامي کتاب‌ها، کتاب‌خانه‌ها دانشها، دانش‌نامه‌ها و دانشگان‌ها (پايگاه‌هاي دانش‌ - Knowledge bases) به صورتي معني‌گرا و با توانايي درک مفهومي همديگر در کنار هم قرار خواهند گرفت. آقاي Tim Berners-Lee ، که معروف به پدر وب است، آينده وب را بصورتي بيان کرده که بر خلاف وب کنوني فقط توسط انسانها قابل فهم نباشد بلکه توسط ماشين ها نيز قابل درک و پردازش است. ايده وب معنايي نيز از همين نکته منشا مي گيرد. در زير سه تعريف مختلف از وب معنايي ارائه شده است : پروژه اي با هدف ايجاد رسانه اي جهاني براي رد و بدل کردن اطلاعات بصورتي که براي کامپيوتر قابل فهم و پردازش باشد.
وب فعلي براي استفادة انسان ايجاد شده تا قادر به مشاهده اطلاعات مورد نیاز خود و فهم آنها باشد. وب معنایی در کنار این مهم، تعامل ماشین با محتویات وب و درک خودکار مفاهیم آن را مورد توجه قرار داده است. در این وب، محتویات بایستی بگونه ای قابل فهم برای ماشین نمایش داده شوند. عمده کارها در این حوزه به دو دسته استخراج مفاهیم و استخراج روابط تقسیم می‌شوند.
بسیاری از کاربردها در استخراج اطلاعات، اکتساب دانش، فهم زبان طبیعی و بازیابی اطلاعات نیازمند درک در سطح مفهوم، معنا، رابطه و روابط معنایی می‌باشد. هر کدام از موجودیتهای ذکر شده دارای ویژگیها و تعاریف مشخص می‌باشند. رابطه معنایی به روابط بین مفاهیم موجود در ذهن که به آن مفاهیم ادراکی یا به روابط بین کلمات که روابط لغوی نامیده می‌شوند، اشاره دارد.
روابط معنایی در حوزه متن می‌توانند در سطوح پایین و بین واژگان و یا در سطوح بالاتر بین عبارات، جمله ها، پاراگرافها و حتی بالاتر از بخشهای یک متن مثلا بین دو سند یا مجموعه ای از اسناد رخ دهد. سطوح ذکر شده دارای یک محدوده تعریف ساختاری می‌باشند؛ اما سطح دیگری در حوزه زبان شناسی که علیرغم اهمیت بالا، کمتر در حوزه زبان شناسی رایانه‌ای به آن پرداخته شده است سطح گفتمان نام دارد؛ که محدوده تعریف آن نه ساختار بلکه معنا است. در این سطح، مقیاس نه یک جمله یا پاراگراف یا سند بلکه واحد معنایی است؛ و ممکن است بین چند جمله، چند پاراگراف و یا تمام متن باشد.

محتویات

مروری بر مفاهیم رابطه و رابطه معنایی

مفاهیم و روابط، پایه‌ی اصلی دانش و اندیشه هستند. هنگامی‌که به اشیاء پیرامون خود می‌نگریم به جای انبوهی از رنگ ها، اشیائی را درک کرده که به طور خودکار برچسب طبقه‌ای به آنها اختصاص می‌دهیم. سیستم ادراکی ما به صورت خودکار جهان را به مفاهیم و طبقات بخش بندی می‌کند. این مفاهیم بلوک‌های اصلی دانش هستند. روابط نیز همانند سیمانی عمل می‌کند که پیوند دهنده‌ی مفاهیم به ساختار دانش است. ما بیشتر وقت خود را صرف شناسایی روابط بین اشیاء، رویدادها و فرآیند ها می‌کنیم تا جهان برای ما دارای ساختاری قابل فهم و قابل پیش بینی باشد. زندگی و کار ما بستگی به دقت و غنای ساختار این دانش و روابط آن دارد.
شافین و هرمان بیان داشتند: « روابط بین ایده ها به عنوان پایه‌ی اندیشه، زبان و حافظه در نظر گرفته می‌شده است». همانگونه که متافیزیک توصیف شده ارسطو براساس انواع مختلف روابط تشریح می‌شود. هیوم اظهار می‌دارد که یک ارتباط بین ایده‌های پشت سر هم در ذهن وجود دارد- حتی در رویاهای ما- و ظهور یک ایده در ذهن به طور خودکار ایده‌های همراه را به یاد می‌آورد. او معتقد است که تمام اجزاء استدلال انسانی به روابط ایده ها و واقعیت ها تقسیم می‌شوند که این استدلال‌های واقعی بر رابط علت و معمولی پایه شده است. او در پژوهشی با عنوان «طبیعت بشر» هفت نوع رابطه: شباهت(مقایسه)، هویت، روابط زمان و مکان، نسبت مقدار یا تعداد، درجه‌ی کیفیت، تقابل و در نهایت علت و معلولی را مشخص کرده است.
زبان شناسان در ساختار سنت گرایانه معتقد هستند که مفاهیم به خودی خود قابل تعریف نیستند؛ بلکه در ارتباط با سایر مفاهیم دیگر تعریف می‌شوند. گرین، بین و میانگ در اعلام داشتند که روابط معنایی در ارائه دانش به طور روانی، زبانی و محاسباتی نقش حیاتی دارند و مبداء بسیاری از سیستم‌های نمایش دانش یک تمایز اساسی بین موجودیت و روابط می‌باشند. گرین در بیان می‌دارد «روابط با مواردی همچون ترکیب موجودیتهای ساده و ایجاد موجودیت‌های پیچیده تر، مقایسه‌ی موجودیت ها، گروه بندی موجودیت ها، اجرای فرآیند موجودیتی بر روی موجودی دیگر و مواردی از این نظیر درگیر می‌باشند. در واقع بسیاری از چیزها که در نگاه اول بسیار ساده به حساب می‌آیند، پس از آزمایشات دقیق تر مشخص می‌شود که دارای ساختار درونی و یا به عبارت دیگر روابط درونی هستند».
مفاهیم و روابط معمولا در زبان و متن توصیف می‌شوند. زبان نه تنها برای ارتباط مفاهیم و روابط بلکه برای نمایش، ذخیره و استنتاج با روابط و مفاهیم استفاده می‌شود. در ادامه به ماهیت روابط معنایی از دیدگاه زبانشناسی و روانشناسی با تکیه بر روابط توصیف شده درمتن پرداخته می‌شود. کاربردهای روابط معنایی در علوم اطلاعات به ویژه در ساختار هستان شناسی، استخراج اطلاعات، بازیابی اطلاعات، پرسش و پاسخ و خلاصه سازی متن مورد بحث قرار می‌گیرد.
تحقیق و توسعه در علوم اطلاعات بر عبارات و مفاهیم متمرکز است؛ اما این تمرکز به طور فزاینده‌ای به سمت تشخیص، پردازش و مدیریت روابط پیش خواهد رفت تا کارایی بیشتری از تکنیک‌های علوم اطلاعات حاصل شود. پیش اطلاعاتی در زمینه پردازش زبان طبیعی، متن کاوی و توسعه‌ی پرس و جو پیش زمینه‌ی خوبی برای این بحث فراهم می‌آورند زیرا که روابط معنایی بخش مهمی‌از این کاربردها هستند.

روابط معنایی در زبان و منطق

روابط معنایی همباش معنادار بین دو یا تعداد بیشتری از مفاهیم، موجودیتها یا گروهی از موجودیت هاست. که می‌توان آن را بصورت یک پیوند مستقیم بین مفاهیم/ موجودیت‌های شرکت کننده در یک رابطه دید. مفاهیم/ موجودیت ها بخش جدایی ناپذیر از یک رابطه هستند به طوریکه نمی‌توان یک رابطه به تنهایی وجود داشته باشد. همباش بین مفاهیم/ موجودیت ها را می‌توان در انواع متعدد رده بندی نمود، ادراکی، انتزاعی و متمایز از سایر پیوندها که در نتیجه می‌توان به آن «معنا» اختصاص داد. معنا یا انواع پیوندها گاها و نه همیشه معانی مفاهیم دربرگیرنده آن مشتق می‌گردد. روانشناسان و زبان شناسان همواره تلاش دارند تا بتوانند انواع گونه‌های اصلی روابط و خصوصیات شان را تعیین نمایند.
دو مفهوم مرتبط شده با یک رابطه معمولا به صورت سه تایی مفهوم- رابطه- مفهوم نمایش داده می‌شود: [مفهوم 1]--> (رابطه)--> [مفهوم 2]. پیوند نیز برچسب گذاری می‌شود تا نوع یا معنای رابطه مشخص شود. یک رابطه نشان دهنده‌ی محدودیت‌های گزینشی در دو مکان خالی است که با اعمال آنها نوع مفهوم و یا رابطه‌ای که می‌تواند این فضاها را پُر کند مشخص می‌نماید. یک مشارکت کننده معتبر در رابطه ممکن است نیازمند به ویژگی‌های معنایی خاص یا تعلق به دسته‌ی معنایی خاصی داشته باشد. به عنوان مثال در رابطه‌ی [علی] --> (هست پدر) --> [حسن]، موجودیتی که با نام «علی» نشان داده شده است متعلق به رسته انسان ها بوده و دارای صفت جنسیت از نوع مذکر است. رابطه محدودیتهایی بر روی مفاهیم، موجودیتها، مجموعه‌ای از موجودیت ها یا توده‌ای از مفاهیم اعمال می‌نماید.
با وجود اینکه اکثر روابط از نوع دودویی هستند و دو جای خالی دارند، یک رابطه ممکن است سه یا بیشتر مکان خالی داشته باشد. به طور مثال رابطه‌ی «خرید» ممکن شامل 4 مشارکت کننده باشد: خریدار، فروشنده، چیزی که فروخته می‌شود و قیمت. تعداد مکان‌های خالی یک رابطه بُعد یا توان آن نامیده می‌شود. خرید یک رابطه‌ی 4 بعدی است و چهار مشارکت کننده‌ی این رابطه به نقش‌های «عامل» (خریدار)، «منبع» (فروشنده)، «پذیرش» (چیز خریداری شده) و «قیمت» انتساب می‌شوند تا بتوان آنها را از هم متمایز کرد. به هر حال می‌توان رابطه‌های با توان بالاتر از دو را به مجموعه‌ای از روابط ابتدایی تر تجزیه کرد. به عنوان مثال رابطه‌ی «خرید» را می‌توان به یک مفهوم خرید تبدیل کرد که با روابط دودویی به هر یک از 4 مشارکت کننده‌ی عامل، منبع، پذیرش و قیمت متصل می‌شود.
سوا یک رابطه‌ی «پیوند» عمومی‌را به عنوان ابتدایی ترین نوع رابطه ارائه داد که سایر روابط می‌توانند به عنوان مفاهیمی‌تعریف شوند که با رابطه «پیوند» ترکیب شده اند. به طور مثال، رابطه‌ی «خوردن» در [علی] --> (می‌خورد) --> [سیب] می‌تواند تجزیه شود به مفهوم «خوردن» و روابط «عامل» و «پذیرش» : [علی]-->(عامل)-->[خوردن] -->(پذیرش)-->[سیب]. در ادامه رابطه ی«عامل» می‌تواند به مفهوم «عامل» و رابطه‌ی «پیوند» کاهش یابد:[جان]-->( «پیوند») -->[عامل]-->( «پیوند»)-->[خوردن].
روابط معنایی می‌توانند به روابط بین مفاهیم ذهن (روابط ادراکی) یا روابط بین کلمات (روابط واژگانی) یا بخش‌های متنی اشاره کنند. به هر حال، مفاهیم و روابط به طور ناگسستنی با زبان و متن در ارتباط هستند و تحلیل معنایی مفاهیم و روابط جدا از زبانی که آنها را توصیف می‌کند بسیار دشوار است. ویتگنستین بیان می‌دارد «وقتی به زبان فکر می‌کنم، ’معانی‘چیزی اضافه تر از عبارات کلامی‌که از ذهن می‌گذرند نیستند: زبان خودش ماشین ذهن است» . گاها تمایز بین روابط اداراکی و روابط واژگانی مهم نبوده و از روابط واژگانی مفاهیم-مفاهیم که با کلمات مشخص می‌شوند، از عبارت «روابط معنایی- واژگانی» استفاده می‌شود که گاهی از آنها به «روابط حسی» نام برده می‌شود.
علاوه بر کلمات، روابط معنایی می‌توانند در سطحی بالاتر از متن مثلا بین عبارات، بندها، جملات، بخش‌های بزرگ تری از متن، یک سند و یا مجموعه‌ای از اسناد رخ دهد. تحلیل روابط معنایی در دو سطح انجام می‌پذیرد: در سطح متن و نزدیک به کلمات که معنا را بیان می‌دارند یا در سطح منطق که تمرکز بر معنای توصیف شده از متن یا مفاهیم ذهن است.
در ادامه به بررسی برخی از خصوصیات روابط پرداخته می‌شود. مورفی فهرستی از مشخصه‌های عمومی‌برای «روابط معنایی-واژگانی» بیان کرده که توسط متخصصان زبانشناس مشخص شده اند:
1- بارآوری: روابط جدید به سادگی تولید می‌شوند؛
2- دودویی بودن: برخی از روابط به عنوان مثال «تضاد» دودویی هستند از آنجایی که هر کلمه تنها یک متضاد می‌تواند داشته باشد، اما برخی روابط دیگر مانند «ترادف» به مجموعه‌ای از کلمات اشاره دارد (به طور مثال یک کلمه می‌تواند مترادف‌های بسیاری داشته باشد)؛
3- تغییر پذیری: روابط بین کلمات با تغییر معنی کلمه‌ی به کار رفته یا متن، تغییر پذیر است؛
4- پیش الگو و یگانگی: برخی زوج کلمات نمونه‌های بهتری از یک رابطه هستند تا موارد دیگر و برخی زوج کلمات دارای وضعیت خاصی هستند مثالهای متعارفی از یک رابطه هستند (بویژه متضاد ها)؛
5- نیمه معنایی : مشخصه‌هایی غیر معنایی مانند رسته بندی گرامری، هم وقوعی در متن، تشابه در ریخت شناسی و ... بر اینکه آیا یک رابطه می‌تواند بین دو کلمه برقرار باشد، تاثیرگذار هستند؛
6- شمارش ناپذیری: روابط معنایی کلاسی باز بوده و قابل فهرست بندی یا شمارش نیستند؛
7- پیشبینی پذیری: روابط معنایی از قوانین و الگوهای کلی پیروی می‌کنند؛
8- عمومیت: انواع روابط معنایی در زبان‌های گوناگون یکسان بوده و مفاهیم مرتبط با روابط معنایی نیز در زبان‌های مختلف یکسانند.
روابط معنایی می‌توانند یک یا چند ویژگی منطقی زیر را داشته باشند:
1-بازتابی بودن: رابطه R بر روی موجودیت e_1 انعکاس پذیر است اگر [e_1 ]→R→[e_1]برقرار باشد، مانند رابطه جزء-کل.
2-تقارن: برای دو موجودیت e_1 و e_2 رابطه R قرینه است اگر [e_1 ]→R→[e_2] موجب شود[e_2 ]→R→[e_1] ، مانند رابطه مترادف بودن.
3-تعدی: برای سه موجودیت e_1، e_2 و e_3 رابطه R انتقال پذیر است اگر [e_1 ]→R→[e_2] و [e_2 ]→R→[e_3] موجب شوند[e_1 ]→R→[e_3] ، مانند رابطه Is-A .
4-یک-به-یک(One-to-One): رابطه R یک-به-یک است اگر [e_1 ]→R→[e_2] و [e_3 ]→R→[e_2]موجب شوند[e_1 ]=[e_3].
یک رابطه از طریق شباهت یا معکوس بودن، می‌تواند با رابطه دیگر در ارتباط باشد. رابطه R معکوس رابطه S است اگر هر دو یک زوج شرکت کننده (پر کننده جاهای خالی) بپذیرند؛ اما جهت رابطه معکوس باشد. بعبارت دیگر [e_1 ]→R→[e_2]موجب شود[e_2 ]→S→[e_1]. مانند رابطه پدر-فرزندی. همچنین یک رابطه می‌تواند زیر رابطه یا نوع خاصی از یک رابطه باشد و بصورت ساختار سلسله مراتبی دیده شود. انواع روابط معنایی و خواص آنها نقش مهمی‌در درک و استدلال انسان ها دارند. اسپلمن و همکاران در اظهار دارند که روابط ادراکی و نقش الزام آوری که آنها بر روی اشیاء مشارکت کننده اعمال می‌نمایند محور اصلی موضوعات پیرامون علوم شناختی مانند درک گفتمان، استنتاج، حل مسایل و استدلال قیاسی می‌باشند.
شافین و هرمن در (1984) خاطر نشان نمودند که تنوع روابط برای هر دو مدل عام ادراک و مدل‌های معنایی مهم می‌باشند. در مورد مدلهای عام ادراکی، روابط در خصوصیات منطقی شان تفاوت دارند که منجر به استنتاج‌های مختلف می‌شود. روابط مختلف منجر به اختیار گرفتن مجموعه‌های متعدد از معیارهای تصمیم برای تصمیم ساز می‌شود. روابط همچنین نقش مهمی‌در استدلال قیاسی و کاربرد تمثیل و استعاره دارند که شامل یک نگاشت بین دامنه‌ای در سیستم ادراکی است. درک جامع از روابط معنایی در زبان و متن را می‌توان در منابع یافت.

واقعیت روانشناختی روابط معنایی

اینکه آیا روابط معنایی واقعی هستند، یا فقط موضوعات نظری انتزاعی مطرح شده توسط روانشناسان یا زبانشناسان هستند؛ موضوع این بخش می‌باشد. آیا واقعا روابط معنایی درک، تشخیص و پردازش می‌شوند؟ شواهد قابل توجی از آزمایشات روانشناسی وجود دارد که نشان می‌دهد برای انسان ها، واقعیات روانشناختی واقف روابط معنایی هستند. انجام یک سری تحقیقات توسط شافین و همکارش و همچنین هالیوآک و همکارش بیانگر آن است که انسان ها قادر به تمایز بین انواع مختلف روابط معنایی، شناسایی انواع روابط مشابه، بیان روابط در غالب کلمات، تشخیص موارد مبهم در روابط و ایجاد روابط جدید هستند. نتایج حاصل آزمایش‌هایی بود که در آن از افراد خواسته شده بود تا: روابط را به گروههای روابط مشابه طبقه بندی نمایند؛ تشابه زوج ترم‌هایی که روابط مختلف را نشان می‌دهند را براساس آزمایشهای مقایسه‌ای تعیین نمایند.
روانشناسان دریافتند که برخی از روابط معنایی، برای مثال رابط تضاد، برای کودکان و بزرگسالان ساده تر از برخی روابط معنایی دیگر قابل درک و پردازش است . لاندیس و همکاران با انجام مطالعه‌ای بر روی نرخ فهم کودکان در درک چند نوع از روابط معنایی (متضاد، کل-جزء ، روابط نحوی، مترادف) دریافتند که توانایی در فهم روابط متضاد و کل-به جزء بالاتر از سایر روابط معنایی می‌باشد .
بررسی‌های محققان حوزه علوم انسان شناسی و روانشناسی حکایت از توافقات قابل توجه بین فرهنگی در موضوع «معنا» و کاربرد آن در روابط معنایی دارد .
روانشناسان روابط معنایی را در توضیح وابستگی و ساختار مفاهیم و رسته ها مهم می‌دانند. یک رسته تنها مجموعه‌ی تصادفی از موجودیت ها نیست بلکه موجودیت‌های یک رسته باید به نوعی به یکدیگر مرتبط باشند(ارتباط داشته باشند). رسته یک مفهوم منسجم است که باید معنی دار باشد. روانشناسان مدلهای نظری متعددی برای توضیح انسجام و ساختار ادراکی(انسجام مفهومی) مورد مطالعه قرار داده اند. مطالعات اولیه بر روی تشابه ویژگی ها تمرکز داشت اما این به تنهایی برای توضیح اینکه چرا در تعیین عضویت در رسته ها برخی از ویژگی ها مهمتر از سایرین هستند، کافی نبود. محققین اکنون بر این باورند که روابط بین ویژگی‌های اعضای یک رسته و پیکربندی ویژگی ها مهم به شمار می‌آیند. برای مثال مارکویچ در به این موضوع اشاره دارد که روابط تغییر، کل-جزء، تابع و ... در تعیین رده بندی عضویت رسته ها مهم هستند. رابطه تغییر، به خصوص «اندازه»، در تعریف بسیاری از رسته ها استفاده می‌شود به طوری که در بسیاری از رسته ها تنها محدوده‌ی خاصی از «اندازه» قابل قبول است. برخی روانشناسان از مدل رسته بندی مبتنی بر توضیح یا مبتنی بر تئوری که انسجام مفهومی ‌را درنظر می‌گیرد، پشتیبانی می‌کنند. این مدل برپایه تئوری‌هایی است که انسان از روابط بین ویژگی ها در یک مفهوم و روابط بین مفاهیم دارد . برخی دیگر از محققان براین باورند که رسته ها انسجام خود را نه از طریق ویژگی‌های همپوشان بلکه از شبکه مجتمع از روابط سببی و نظری که ویژگی ها در آن مشارکت دارند به دست می‌آورند.
آیا روابط معنایی مفاهیم هستند؟ شافین بیان می‌کند که یک رابطه خصوصیات اصلی یک مفهوم را دارد و نتیجه می‌گیرد که روابط معنایی مفاهیم انتزاعی هستند. مشخصه‌هایی که وی بین مفاهیم رابطه‌ای و مفاهیم غیرانتزاعی مشترک هستند را بدین ترتیب بیان داشت: الف) روابط می‌توانند به عناصر یا ترکیبات پایه تجزیه شوند، ب) یک رابطه‌ی جدید می‌تواند ترکیب یا بسطی از سایر روابط باشد، ج) روابط دارای ساختار سطح بندی شده هستند(بعنوان مثال برخی نمونه ها از روابط-که با زوج واژه نمایش داده می‌شوند- برای یک رابط خاص بارزتر هستند تا سایر روابط).
زبانشناسان و روانشناسان بیان می‌دارند که روابط تضاد، ترادف، هست(IS-A)، جزء-کل و روابط حالت که عموما به عنوان روابط پایه محسوب می‌شوند، قابل تجزیه به عناصر ساده تر رابطه‌ای هستند. مورفی در مقالات خود اذعان دارد که غالب روابط واژگانی-‌معنایی دارای عناصر مشابه و یا مغایر هستند . برای مثال مترادف ها دارای معنای یکسان ولی در واژگان مختلف هستند در حالیکه متضاد ها در موضوع یکسان اما دارای مواضع متضاد هستند.
دسته بندی نمونه‌های رابطه نیز از لحاظ درجه‌ی عضویتشان متفاوتند؛ برخی از روابط را می‌توان به طور کلاسیک در غالب مشخصه‌های لازم و کافی تعریف کرد، اما تعریف برخی دیگر در قالب مفاهیم «فازی» و براساس تابع عضویت حاصل می‌شود. روابط معنایی، همانند مفاهیم، می‌توانند با روابط گسترده تر یا محدودتر بصورت طبقه بندی سازمان داده شوند.

روابط معنایی در حافظه‌ی معنایی

همانگونه که روابط معنایی در متن بیان می‌شود، این روابط در ساختار دانش مغز نیز وجود دارند. روانشناسان علاقمند به تحقیق در حوزه حافظه‌ی معنایی در تلاشند تا طبیعت ساختار این دانش و روابط معنایی را توصیف نمایند. حافظه‌ی معنایی همانند یک انباره ذهنی از دانش زبانی ما هست.
حافظه‌ی معنایی همانند یک شبکه مدلسازی می‌شود که گره‌های آن نمایانگر مفاهیم و یال‌های جهت دار برچسب گذاری شده نمایانگر روابط هستند. این مدل شبکه‌ی معنایی نخستین بار توسط کیلیان و کالینز ارائه شد. در تئوری کیلیان واژه‌ها در حافظه به شکل اشاره گرها به سایر واژه‌ها ذخیره می‌شوند و هر یک از اشاره گرها بیانگر معنای یک کلمه است. استفاده از حافظه‌ی معنایی برای درک و بازیابی آموخته ها به عنوان یک فعالیت انتشاری مدل می‌شود- فعالیتی که از یک گره به گره‌های همسایه از طریق یال منتشر می‌شود. بحث عمده در زمینه حافظه‌ی معنایی مسئله‌ی «ساختار در مقابل فرآیند» است: آیا روابط معنایی به صورت پیش ذخیره در حافظه‌ی معنایی قرار دارند یا به صورت پویا از بازنمایی مفاهیم محاسبه می‌شوند؟ شواهد تجربی نشان می‌دهد که حداقل برخی روابط، به عنوان مثال روابط مالکیت، فقط در زمان نیاز محاسبه می‌شوند.
روابط درون مفهومی ‌و روابط برون مفهومی ‌را متمایز دانست. روابط درون مفهومی، که روابط رخدادی نیز نامیده می‌شوند، بر پایه‌ی پیوند بین کلمات، مفاهیم و رخدادهایی هستند که مشاهده و یا تجربه شده اند (برای مثال کارد برای بریدن است) و فرض براین است که به طور مستقیم در حافظه ذخیره می‌شوند. روابط برون مفهومی، یا روابط مبتی بر مشخصه بین مفاهیم روابطی هستند بر پایه‌ی مشخصه‌های مشترک یا روابط مشخصه بین مفاهیم؛ این روابط به طور صریح در حافظه ذخیره نمی‌شوند بلکه فرض بر این است که از مشخصه‌های مفهومی ‌و با استفاده از روش‌های شناختی ذخیره شده در مغز، محاسبه می‌شوند.
این دو نوع از روابط اثرات متفاوتی بر بازیابی حافظه و تشخیص قیاسی دارند. مورفی بیان داشته است که روابط جانشینی (نمونه‌ای) در اصل روابط مبتنی بر ویژگی هستند که با استفاده از قواعد علوم شناختی تولید می‌شوند چراکه نمونه‌های جدید این روابط به راحتی و در هر زمانی می‌توانند تولید شوند. هرمن احتمال دیگری را پیشنهاد داده است: رابطه‌ی بین دو واژه در حافظه‌ی معنایی ممکن است به عنوان روابط ساده تر یا عناصر رابطه‌ای بین جنبه‌های معنایی این دو کلمه نمایان شود. او بعدها یک مدل فرم-جایگزین از درک روابط پیشنهاد می‌دهد که در آن روش‌های متفاوت از نمایش روابط در حافظه‌ی معنایی برای درک روابط بکار گرفته شده است؛ که هر فرم، روش جایگزینی برای پردازش روابط تحت شرایط گوناگون ارائه می‌دهد. دانش عمومی‌در حافظه‌ی انسان نیز با ساختارهای سازمان یافته‌ای از روابط به نام شِما (schema) مدل شده است.

مروری بر انواع روابط معنایی

این بخش به بررسی انواع روابط معنایی که توسط محققان شناسایی شده اند، می‌پردازد: روابط معنایی-واژگانی، روابط حالت(مورد) و روابط بالای متن. دو روش عمده برای ساخت لیستی از روابط معنایی وجود دارد: رویکرد مینیمالیستها و رویکرد تفصیل نگر(دقیق). مینیمالیستها تعداد محدودی از روابط کلی را بر پایه‌ی قوانین فلسفی و منطقی تعریف می‌نمایند که غالبا روابط تغییر، طبقه بندی و صف بندی می‌باشد. سایر محققان فهرست‌های جامع تری از روابط ارائه داده اند که عموما بر پایه‌ی روابط معنایی-‌‌واژگانی و واژگان موجود در متن هستند. مدل‌های مبتنی بر واژگان اغلب روابط را به دسته‌هایی از روابط با هسته معنایی یا کارکرد مشابه گروه بندی می‌نمایند.
اکثر محققان دو گروه عمده از روابط را تشخیص داده اند: روابط جانشینی و روابط همنشینی. این تمایز را می‌توان در نوشته‌های سُاُسور به وضوح مشاهده کرد. روابط جانشینی روابط بین یک زوج از واژگان یا عباراتی هستند که می‌توانند در جملات مشابه در موقعیتی مشابه قرار گیرند. این کلمات معمولا نمونه‌هایی از اجزای واژگانی-کلامی ‌مشابه هستند، که به طبقه‌ی معنایی مشابه تعلق داشته و تا حدی از نظر دستوری قابل تعویض هستند. نمونه‌های این روابط شامل روابط هست (IS-A) ، جزء-کل و روابط مترادف است. این روابط بخشی از حافظه‌ی معنایی ما بوده و به طور معمول در اصلاح نامه استفاده می‌شوند. روابط همنشینی به روابط بین کلماتی که دارای رخداد یکسان در متن هستند (اغلب در موقعیت نحوی نزدیک) اشاره دارد. روابط همنشینی روابط خطی یا دنباله ای بین دو کلمه یا عبارت در هنگام ساخت یک جمله هستند.
لانکاستر روابط همنشینی را نوعی روابط گذرا یا روابط استقرایی توصیف می‌کند. گرین نشان داد روابط جانشینی روابط کلاس بسته و قابل شمارش هستند، در حالیکه روابط همنشینی روابط کلاس باز و غیر قابل شمارش به حساب می‌آیند به طوریکه با ایجاد یک فعل جدید، رابطه‌ای جدید بوجود آمده و به مجموعه اضافه می‌شود.
همنشینی بین دو کلمه می‌تواند به بخشی از حافظه‌ی معنایی تبدیل شود در صورتی که هم وقوعی به کررات در متن یا موضوع گفتمان تکرار شود. همانطور که بعدا بیان خواهد شد، محققان با اجرای آنالیز زبانی مبتنی بر مجموعه نوشته ها دریافتند که کلمات مرتبط به هم جانشینی، به ویژه متضاد ها، به تناوب در متن تکرار می‌شوند.
محققان بسیاری تلاش نمودند تا روابط معنایی را شمارش نمایند. ایوانز و همکارانش مجموعه‌ای از روابط معنایی-واژگانی را که تا قبل از سال 1980 توسط محققان انسان شناسی، زبانشناسی، روانشناسی و علوم رایانه مورد مطالعه قرار گرفته بود، بررسی نموده‌اند. فهرستی از روابط معنایی را می‌توان در تحقیقات شافین و هرمن، میانگ و مک هال، نیلامگان، نیلامگان و مایترا، اسمیت و سوا یافت. ویکری خلاصه تاریخچه‌ای از روابط انجمنی(روابط جانشینی) در بازیابی اطلاعات را که در طول چند دهه‌ی قبل از سال 2000 را فراهم آورده است.

روابط معنایی-واژگانی

روابط معنایی-واژگانی گروه مهمی‌از روابط هستند چراکه ساختار واژگان، اصطلاحنامه ها، طبقه بندها و هستان شناس را فراهم می‌کنند. بحث ساختار در مقابل فرآیند در حافظه‌ی معنایی، در معناشناسی واژگانی نیز وجود دارد. آیا روابط معنایی به عنوان بخشی از معنای واژه در حافظه‌ی معنایی ذخیره می‌شوند، یا اینکه کلمات در غالب ویژگی‌هایشان بیان می‌شوند و روابط بین کلمات به صورت پویا از معانی کلمات استنباط می‌شود؟
لیونز و تنی چند از دیگر زبانشناسان ساختاری معتقدند هیچ واژه‌ای را نمی‌توان مستقل از سایر واژه‌ها تعریف کرد. رابطه‌ی یک واژه با سایر واژه‌ها بخشی از معنای آن واژه‌ است. بنابراین واژگان یک زبان را می‌توان به عنوان شبکه ای از رأس ها و یال‌های برچسب دار در نظر داشت که هر رأس نمایانگر یک کلمه و یال‌های برچسب دار نشان دهنده‌ی ارتباط بین واژه‌ها هستند. همانطور که لیونز بیان می‌دارد:
« نمی‌توانیم ابتدا واژگان را تعیین نموده و در مرحله آنالیز، بررسی نماییم که چه ترکیبی یا روابطی بین آنها برقرار است؛ بلکه بایستی همزمان واژگان و روابط متقابلشان تعیین گردند».
سُاُسور که معمولا از وی به عنوان بنیانگذار ساختار زبانی مدرن یاد می‌شود معتقد است: «که زبان سیستم لازم و ملزومی‌(وابسته ای) از واژگان است که در آن ارزش هر واژه منحصرا از حضور پیوسته‌ی سایر واژگان نتیجه می‌شود».
سایر زبانشناسان مدعی هستند که نمایش لغوی یک واژه اساسا مجموعه‌ای از مشخصه‌های معنا دار بر روی معانی اولیه هستند و روابط معنایی از مشخصه‌های معنادار و از طریق برخی قواعد پایه سرچشمه می‌گیرند.
اصلی ترین روابط معنایی-واژگانی، روابط جانشینی هست (Is-A)، روابط جزء-کل، روابط مترادف و متضاد هستند که در ادامه بیشتر بحث خواهند شد. اما به هر حال، روابط همنشینی را که هم وقوعی فراوان بین یک زوج از واژه‌ها هستند و بخشی از دانش زبانی به حساب می‌آیند می‌توان جزو روابط معنایی- واژگانی تلقی کرد؛ که بهترین توضیح این جمله فرث می‌باشد: « یک واژه براساس همراهانش شناخته می‌شود». زوج واژگانی که وقوع آنها در جمله محتمل‌تر است، به طور کلی «باهم‌گذاری» نامیده می‌شوند؛ اما به هر حال برخی دیگر از نویسندگان تعریف دقیق‌تری از این واژه ارائه داده‌اند. درجات مختلفی برای ارتباط همنشینی کلمات با یکدیگر وجود دارد. بالاترین این درجه «ضرب المثل ها» یا «اصطلاحات» هستند، بطور مثال اصطلاح «برای کسی تره خرد نکردن» که معنای آن بطور مستقیم از معنای کلمات تشکیل دهنده‌ی آن عبارت به دست نمی‌آید. دیگر ترتیب واژه‌ها ممکن است رابطه‌ی ضعیف تری با یکدیگر داشته باشند به گونه‌ای که علیرغم اینکه معنای آنها وابسته به سایر اجزای تشکیل دهنده‌ی جمله می‌باشد اما معنای کامل دقیقا درک نمی‌شود.
برخی زوج واژگان به مقداری همبستگی قوی دارند که حضور یکی از آنها در جمله متضمن حضور دیگری در متن است. ملکُک نظریه‌ی توابع زبانی (LFها) را در چهارچوب تئوری «معنا-متن» ارائه نموده است. وانر از توابع زبانی تحت عنوان روابط واژگانی «نهادینه» نام می‌برد. یک تابع واژگانی یک نگاشت یا یک رابطه بین دو واژه T_1و T_2 می‌باشدبه نحویکه« LF(T_1)=T_2»؛ بعنوان مثال«(شاعر)=(فردوسی) LF». ارزش و مقدار یک تابع واژگانی می‌تواند مجموعه‌ای از واژه‌ها باشد. بعنوان مثال در یک متن مشخص «(خیابان،دانشگاه،شاعر)=(فردوسی)LF». مشخص است که روابط حاکم بر توابع واژگانی، جهت دار و غیر متقارن هستند. ملکُک 27 مورد توابع واژگانی جانشینی و 37 مورد توابع واژگانی همنشینی را فهرست کرده است. نمونه‌های توابع واژگانی جانشینی می‌توان تشابه و تضاد اشاره داشت.
جامع‌ترین شبکه معنا-واژگانی که مختص زبان انگلیسی است WordNet نام دارد. WordNet یک پایگاه داده لغوی شامل بر 150 هزار اسم، فعل، صفت و قید می‌باشد که مجموعه‌هایی را بر اساس هم معنایی به نام مجموعه ترادف (synset) تشکیل داده اند که هر مجموعه بیان کننده‌ی یک مفهوم زبانی است. هر مجموعه ترادف یک مفهوم لغوی را که بر اساس تئوری زبان شناسی و حافظه لغوی انسان طراحی شده است نمایش می‌دهد. ایجاد این پایگاه داده موجب شده تا دید وسیع تری نسبت به چگونگی پیدایش لغت نامه از روابط معنایی-واژگانی بدست آید. به عنوان مثال اسم ها معمولا توسط روابط هست-یک و یا جزء-کل ساخته می‌شوند. اسم ها توسط پیوندی به صفت و توسط پیوندی دیگر به افعال متصل می‌شوند. صفت ها معمولا توسط رابطه تضاد به یکدیگر متصل می‌شوند. رابطه‌ی بین افعال با یکدیگر از طریق پیوند«troponymy» بوده که جزئیات حالت را بیان می‌کند، مثل کلمه «Nibble» که به معنای شمرده غذا خوردن است در حالیکه «Gorge» به معنای با حرص و ولع خوردن می‌باشد. سایر روابط بین افعال که در WordNet رمزگذاری شده اند شامل مالکیت‌های لغوی (به طور مثال خمیازه کشیدن که با خود منظورخوابیدن را بهمراه دارد)، روابط سببی (مانند نشان دادن/دیدن، تغذیه/خوردن، داشتن/مالک بودن) و روابط متضاد هستند.
به دنبال موفقیت WordNet این بار EuroWordNet که یک پایگاه داده‌ی چندزبانی است، ساخته شد. این پایگاه داده‌ی زبان‌های اروپایی متعددی را پوشش می‌دهد. EuroWordNet به دنبال الگوی WordNet طراحی شد ولی شامل روابط واژگانی-معنایی بسیار غنی تری بود. به طور مثال روابط سببی به دو زیرگروه تقسیم می‌شوند: روابط سببی غیر-پیش فرض(یعنی یک رخداد ممکن است سبب بروز رخداد دیگری شود ولی الزاما اینگونه نیست به طور مثال جستجو--> یافتن) و روابط سببی با پیش فرض(رابطه‌ی سببی که الزاما برقرار است، به طور مثال کشتن-->مرگ). روابط تقریبا-متشابه، تقریبا-متضاد و پنج نوع رابطه‌ی جزء-کل نیز در پایگاه داده‌ی EuroWordNet اضافه شده‌اند. علاوه بر این برای نمایش روابط بین مفاهیم، می‌توان مجموعه روابطی با ویژگی‌های «اتصال» یا «انفصال» مشخص نمود. به طور مثال یک هواپیما به طور معمول مشتمل بر چندین جزء تشکیل دهنده است: بال ها، دماغه، دم هواپیما و کابین هواپیما( ویژگی اتصال)، اما یک هواپیما ممکن است تنها دارای یکی از چندین راه ممکن برای نیروی جلوبرنده باشد مانند ملخ یا موتور جت (ویژگی انفصال).

روابط مورد(حالت)

روابط موردی که نقش‌های حالت، روابط موضوعی و یا نقش‌های تتا نیز نامیده می‌شوند روابط همنشینی اصلی بین فعل اصلی در یک عبارت و سایر اجزای نحوی در آن عبارت اطلاق می‌شود. بنابر گرامر حالت، فعل موجب انتساب نقش معنایی به سایر اجزای اصلی موجود در عبارت می‌شود (موضوع، شیء مستقیم، شیء غیر مستقیم، حرف اضافه و غیره). به طور مثال در جمله‌ی «علی ساعتی برای حسن خرید»، روابط موردی بین فعل «خریدن» و سایر اجزای اصلی عبارت شامل:
خریدن-->(عامل) -->[علی]
-->(مورد) -->[ساعت]
-->(گیرنده)-->[حسن]
فیلمور یک سلسله موارد حالت با هشت نقش معرفی نمود: عامل، آزمون کننده، ابزار، شیء، منبع، هدف، مکان و زمان. این در حالیست که ماتریس حالت ارایه شده توسط کوک دارای پنج نقش بود: عامل، آزمون کننده، پذیرا، شیء و حالت مکان. مجموعه‌ی نقش‌های حالت متعددی توسط نویسندگان مختلف ارایه شده است. در حالیکه سامرز 24 نقش معنایی پیشنهاد داده است، لانگاسر 10 نقش و میانگ و همکارانش 46 نقش حالت ارایه داده‌اند.
در این بین دوتی معتقد بود که نقشهای وصفی گسسته نیستند و مرزهای فازی دارند و یک نقش معنایی فعل خاص می‌تواند در اندازه‌ی بیشتر یا کمتری به یک نقش حالت تعلق داشته باشد. پس می‌توان یک نقش حالت را به عنوان دسته یا نوعی از نقش معنایی که دارای خوشه‌هایی از نقش‌های بسیار خاص و مجموعه ویژگی‌های همپوشان است، در نظر گرفت. هر نقش معنایی می‌تواند به ویژگی‌هایی تجزیه شود که دوتی آنها را «استلزامات کلامی» نامید.
تئوری گرامر حالت به سایر بخش‌های کلام همچون اسم ها و صفت ها نیز قابل بسط می‌باشد. چارچوب‌های حالت فعلی قابل اعمال برای اسامی‌ساخته شده از فعل و اسم‌های مصدر(فعل) -با اضافه کردن یکی از چند پسوند ممکن- می‌باشد. چارچوب‌های حالت برای چنین اسامی‌را می‌توان از چارچوب‌های موردی فعل‌های مشتق شده از آن استخراج کرد.

روابط میان بخش‌های بزرگتر متن

در این قسمت به بررسی روابط معنایی بین واحدهای بزرگتری از متن پرداخته می‌شود. روابط بین جملات را می‌توان از دیدگاه منطقی یا متنی تحلیل کرد. روابط منطقی بین جملات با موضوعاتی در زمینه‌های معناشناسی صوری، فلسفه و منطق و نمایش دانش سر و کار دارند. غالبا جملات و عبارات بصورت گزاره‌ای و خبری نمایش داده می‌شوند و استنتاج براساس گزاره، مسند و دیگر انواع منطقها انجام می‌پذیرد. اصلی ترین روابطه مورد استفاده، رابطه استلزام یا منطق استلزامی، پیش پندار، هم ارزی و خلاف گویی- ضدو نقیص می‌باشند. در این بین مهمترین رابطه، رابطه‌ی استلزامی‌است که بیان می‌دارد اگر جمله S_1 درست باشد، جمله S_2 درست خواهد بود.
ون دایک روابط معنایی دیگری ارائه داد: زمان، مکان، سبب، هدف، نتیجه، شرایط، امتیاز و موضوع. کرمبیز روابط معنایی بین گزاره ها را در عناوین زمان، تطابق، علت-معلولی، صحت و اعتبار، پیوند، نقلِ قول و ... گروه‌بندی می‌نماید.
در سطح متن، جمله وعبارت توسط روابط وابستگی و پیوستگی به یکدیگر مرتبط می‌شوند. پیوستگی فرآیند چگونگی ترکیب اجزاء متن جهت ایجاد یک شکل واحد را توصیف می‌نماید و تمرکز در بررسی و مطالعه نحوه ترکیب جملات و شکل گیری پاراگراف یا چگونگی کنار هم قرار گرفتن پاراگرافها و تشکیل یک بخش و یا ترکیب بخشها جهت ایجاد یک متن می‌باشد.
در سطح متنی، جملات و عبارات با استفاده از روابط وابستگی و پیوستگی به یکدیگر مرتبط هستند. هالیدی و حسن روابط بین جملات و عبارات همجوار را بررسی نموده و آن را «روابط به هم پیوسته» نامیدند. آنها بر این نکته تاکید داشتند که وابستگی یک رابطه‌ی معنایی می‌باشد و زمانی رخ می‌دهد که تفسیر برخی عناصر در موضوع گفتمان به عناصر دیگری وابسته است. تمرکز تحقیقات آنها بر روی ابزارهای زبانی بود که نویسندگان به منظور تاثیر بر «گره‌های وابستگی» بین دو عنصر نزدیک (معمولا واژگان و عبارات) در متن از آن استفاده می‌کنند. آنها ابزارهای وابستگی را به دو گروه ابزارهای گرامری (ارجاعات، جانشینی، بریده گویی-انداختن کلمات- و عطف) و ابزارهای لغوی (استفاده از لغت نامه و تکرار کلمات) تقسیم کردند.
وابستگی اغلب اوقات با روابط پیوستگی در تضاد است. پیوستگی به روشی اشاره دارد که گروهی از عبارات یا جمله ها به متن مرتبط می‌شوند. وابستگی بر روابط محلی بین دو واحد متنی مجاور تاکید دارد، در حالیکه پیوستگی بر شبکه‌هایی از واحد‌های مرتبط و ساختارهای بزرگتر در متن تمرکز دارد. در زبان شناسی و زبان شناسی محاسباتی، گفتمان گاهی اشاره به عبارات، گاهی جملات و بعضا چندین جمله دارد. در حالیکه نحو به ساختار داخل جمله ها می‌پردازد، گفتمان به ساختار بین جمله ها اشاره دارد. اداء به ابتدایی‌ترین و ساده‌ترین واحد گفتمان گفته می‌شود که قابل تجزیه به واحدهای ساده‌تر نباشد.
مراتب و انواع مختلفی از پیوستگی بین واحدهای معنایی وجود داردU، که از آن جمله می‌توان به حالات پیوسته، متراکم و نگهدار، گذر ملایم و در نهایت انتقال سخت اشاره داشت که در جدول زیر ذکر شده‌است. در این جدول C_b (U_i) به موجودیت با بالاترین رتبه در U_(i-1)که در U_i درک شده است اشاره دارد و C_p (U_i) به موجودیت با بیشترین رتبه درU_i اشاره دارد.
Jadvale 3.1.jpg
مدل محاسباتی مراتب گذر بین دو واحد معنایی از فرمول زیر محاسبه می‌گردد:
Formule transition.jpg
که در آن وزن از رابطه زیر محاسبه می‌شود:
Formule wtrans.jpg
و ارزش هر گذر موجودیت از یک واحد معنایی به واحد معنایی مجاور به نحو زیر تعیین می‌گردد:
Formule entity transition.jpg
پیوستگی بطور عام (شامل وابستگی و پیوستگی) در حوزه پردازش زبان طبیعی بسیار با اهمیت است؛ بویژه در کاربردهایی مثل خلاصه سازی متن، دسته بندی متن،ترجمه ماشینی و رفع ابهام.
در سطح‌های بالاتر متن، روابط سطح گفتمان مطرح می‌شود. ون دایک اظهار می‌دارد که نحو و معنا می‌توانند بر روی دنباله‌ای از عبارات، جمله‌ها و یا تمام متن اعمال شوند. یک مدل ساختار گفتمانی تاثیرگذار در علوم اطلاعات از «تئوری ساختار معانی بیانی» تامسون و مان به دست آمده است که در آن با استفاده از مجموعه‌ای از روابط معانی بیانی، ساختار متن مدل می‌شود. روابط معانی بیانی شامل شواهد، جزئیات، انگیزه، علل ارادی، ارزیابی و پس زمینه می‌باشد. هر رابطه دو بخش از متن را به هم مرتبط می‌سازد که یک بخش معمولا هسته و دارای مرکزیت بیشتر محسوب شده و بخش دیگر پیرو یا در حقیقت جانبی است. تعداد کمی‌از روابط، به عنوان مثال توالی و تقابل «چند هسته‌ای» هستند که هر دو بخش مرتبط شده به یکدیگر، هسته محسوب می‌شوند. ساختار معانی بیانی بازگشتی می‌باشد، به طوریکه یک متن به توالی از بخش‌ها تجزیه شده که با روابط معانی بیانی به یکدیگر متصل می‌شوند. هر یک از این بخش ها نیز مجددا به بخش‌های کوچکتری تجزیه شده که با همان روابط معانی بیانی یا سایر روابط معانی بیانی دیگر به هم متصل می‌شوند.
ون دایک معتقد است هر متن دارای یک ساختار نحوی سطح بالا است که «اَبَرساختار» نام دارد که یک سری الگوهای مبتنی بر قاعده بر آن حاکم است . وی الگوی سلسله مراتبی زیر را برای مقالات خبری پیشنهاد داده است:
موقعیت: حادثه (شامل «حادثه‌ی اصلی» و «حادثه فرعی»)، زمینه یا سابقه(شامل متن (شرایط و حوادث قبلی) و تاریخچه)
توضیحات: واکنش‌های کلامی‌و نتیجه گیری (شامل انتظارات و ارزیابی).
اگرچه ون دایک این واحد ها را بعنوان واحد نحوی در نظر گرفت ولی برچسبهای هر واحد نقشهای معنایی را پیشنهاد داد؛ این بخش ها دارای رابطه‌ی معنایی با مفهوم کلی متن می‌باشند. وی فرض وجود اَبَرقاعده را مطرح کرده است که گزاره‌های سطح پایین را به اَبَرگزاره‌های سطح بالا یا گزاره‌های نشأت گرفته از مفهوم متن مرتبط می‌سازد. مباحث بیشتر در مورد ساختار گفتمان را می‌توان در مقالات منتشر شده توسط بل یافت. ساختار‌های سطح کلان داستان ها که طرح‌ و دستورزبان داستان نام دارد توسط نویسندگان فراوانی مورد مطالعه قرار گرفته و برای کاربردهایی مثل تدریس درک مفهوم، تحلیل ادبی و داستان نویسی در مدارس مورد استفاده قرار می‌گیرد[111]. بررسی‌هایی از این نظریه را می‌توان در نوشته‌های لَنگ یافت.
در سطح سند، روابط بین اسناد می‌تواند ساختاری (مثل یک مقاله در یک مجله، یا یک فصل از یک کتاب) یا انجمنی (مثل مقالات یک نویسنده، مقالات استناد شده، سامانه‌های لینک شده) باشد. اسناد می‌توانند روابط معنایی متعددی به یکدیگر مرتبط شوند؛ دو مقاله ممکن است دارای عنوان یکسانی باشند یا یک نسخه ممکن است نسخه‌ی خلاصه شده از دیگری باشد یا دنباله‌ای از مقاله دیگر و یا رد نظریه نتایج حاصل از مقاله‌ی دیگر باشد و مانند آن.
نوعی دیگر از روابط معنایی در سطح سند را می‌توان در استناد یک نوسینده به سندهای دیگر و دلیل وی برای ذکر کردن آنها جستجو نمود. لیو با مرور بسیاری از استنادها موفق به تولید فهرستی از تمام دلایل ممکن نویسندگان برای استناد به کار دیگران شد. در همین حال گرین اظهار می‌دارد که اطلاعات اندکی در مورد گستره روابط معنایی بین استنادها و متون استنادی وجود دارد. تاکنون تحقیقات اندکی در ضمینه‌ی شناسایی روابط معنایی گوناگون در اسناد انجام شده است. روابط معنایی اصلی در سطح اسناد به نظر بیشتر توسط اصطلاحنامه ها و الگوهای طبقه‌بندی ارایه شده است.
نوع مهم دیگر ارتباط معنایی در علوم اطلاعات، «رابطه ربطی» است، یعنی ارتباط یک متن با پرس و جو ها یا اطلاعات مورد نیاز کاربر. محققاق موفق به شناسایی عوامل متعددی-علاوه بر ارتباط موضوعی-شدند که بر قضاوت کاربر در مرتبط بودن اسناد تاثیرگذار هستند. آنچه مورد توافق است بیان این مطلب است که عوامل زیادی بر تعیین روابط معنایی تاثیرگذار هستند که تاکنون عمیقا مطالعه نشده‌اند.

بررسی روابط معنایی منتخب

در این بخش، 5 رابطه‌ی جانشینی مشهور که بیشتر در اصطلاحنامه و هستان شناس‌ها استفاده می‌شوند ذکر می‌گردد از جمله رابطه علت و معلولی که روابط همنشینی مهمی‌در ساختار دانش بشری هستند. این روابط معمولا به عنوان روابط اولیه‌ی در نظر گرفته می‌شوند. همانطور که در ادامه نشان داده خواهد شد این دسته روابط پیچیده و قابل تجزیه به زیرگروه‌ها با خصوصیات مختلف می‌باشند.

روابط hyponym-hyperonym

این رابطه با نام رابطه هست یک، نوعی از، کلاس و زیر کلاس، تابع و متغیر، جنس و گونه نیز شناخته می‌شود. در حالیکه ‌هایپونیم اشاره به یک مفهوم جزئی تر و محدودتر دارد، ‌هایپرنیم اشاره به مفهوم و اصطلاح کلی‌تر و وسیع‌تر دارد. این رابطه در بر دارنده‌ی مفهوم کلاس است، به طور مثال تمام کلاس اولی ها دانش آموز هستند و مجموعه‌ی کلاس اولی‌ها زیر گروهی از دانش آموزان هستند. در معنای «کلاس‌اولی ها» معنای «دانش آموز» نهفته است. تعاریف منطقی مختلفی از رابطه‌ی‌ هایپونیمی ‌ارائه و مورد بحث قرار گرفته شده است. یک رابطه‌ co-hyponym است اگر دو رابطه ‌هایپونیم مرتبط با هم به ‌هایپرونیم یکسان اشاره داشته باشند.
لیونز روابط ‌هایپونیمی ‌را مهمترین رابطه‌ی اساسی جانشینی از لحاظ ساختار واژگان دانست. رابطه‌ی جزء-کل، رابطه‌ی سلسله مرتبی است که اغلب در اصطلاحنامه ها، هستان شناسی و طبقه بندها کاربرد دارند و در حوزه وسیعی از دامنه ها و دسته بندی‌های گرامری رخ می‌دهند.


روابط Troponymy

تروپونیمی ‌به روابط وسیع تر- باریک تر بین افعال اشاره دارد. این رابطه براساس چگونگی انجام و رفتار فعل تعریف می‌شود و در ابتدا توسط فِلبام پیشنهاد داده شد. مثال آن دو کلمه «دویدن» و «پرواز کردن» است؛ اگرچه هر دو کلمه نوعی حرکت و جابجایی را نشان می‌دهند اما وضعیت و چگونگی انجام آنها متفاوت است. در حالیکه اولی بر حرکت توسط پا و بر روی زمین اشاره دارد، دومی‌حرکت در هوا و توسط بال را نشان می‌دهد. این روابط شامل ابعاد مختلفی هستند. مثلا افعال حرکتی در ابعاد سرعت (مثلا دویدن یا راه رفتن) و یا حمل و نقل متفاوتند. افعال برخوردی در بعد شدت نیرو متفاوتند( مثلا خورد کردن یا ضربه زدن). تروپونیم ها علاوه بر چگونگی ارتباط، شامل روابط نتیجه و عملکرد نیز هستند.
فلبام و شافین با یک آزمون روانشناسی دریافتند که افراد قادر به شناخت و پردازش روابط تروپونیمی‌هستند. شرکت کنندگان در این آزمون مشکلی در ضمینه‌ی برچسب گذاری زوج فعلها با رابطه‌ی تروپونیمی‌نداشتند.

روابط Meronym-Holonym

این رابطه که به رابطه جزء-کل شناخته شده است به رابطه بین یک مفهوم/موجودیت با مفاهیم/موجودیتهای سازنده اش اشاره دارد. تمایز بین روابط «جزء-کل» و «هست- یک» برای مفاهیم عینی شفاف و روشن است اما برای مفاهیم انتزاعی غیر قطعی است. درحالیکه روابط «هست-یک» داخل مفاهیم وجود دارد، روابط «جزء-کل» بین مفاهیم هستند.
در روابط «هست-یک» یک موجودیت برخی ویژگیها را از موجودیت دیگر به ارث می‌برد اما در در روابط«جزء-کل» جزء، ویژگی از کل به ارث نمی‌برد. لیونز نشان داد که «جزء-کل » یک رابطه غیرتراگذر در سطح عبارات زبانی است. مثلا از عبارات: «در دسته دارد» و «خانه در دارد» نمیتوان نتیجه گرفت: «خانه دسته دارد». کُروز تلاش کرد تا به نحوی این مساله را حل نماید. او ادعا کرد زمانیکه گفته می‌شود X یک جزء از y است، منظور این است که X یک عنصر عمده و مهم از y است.

مترادف

دو عبارت کاملا مترادف هستند اگر تمام معانی شان در تمام متن‌ها با دامنه‌ی خاص همانند باشند. هم معنی بودن از دیدگاه منطقی و زبان شناسی قابل تحلیل و بررسی است. این رابطه در حالت کلی به مفاهیم/ کلماتی اطلاق می‌شود که در ظاهر متفاوت اما در معنا و باطن یکسان و مشابهند. نکته قابل ذکر این است که مترادفها بر اساس حالات معینی از کلمات تعریف می‌شوند. مثلا کلمه شیر یک متن به معنای شیر خوردنی می‌باشد و در جای دیگر به معنای شیر آب.

تضاد

تضاد، یا تقابل یکی از روابط بسیار مطالعه شده در علوم شناختی، روانشناسی و زبان شناسی است. برخی روانشناسان معتقدند که این دسته از روابط بهتر و زودتر توسط انسان شناخته و یاد گیری می‌شوند. برخی زبان شناسان معتقدند که واژه‌های متضاد غالبا در متن و جمله هم وقوع هستند و در اکثر مواقع با حروف ربط «و» و «یا» می‌آیند. مثلا «فقیر یا غنی»، «بزرگ و کوچک»؛ انواع متعدد روابط متضاد درتحقیقی توسط مورفی لیست شده‌اند. رابط تضاد، رابطه‌ای غیر بازتابی، متقارن و غیرتراگذر است. کلمات متضاد هم وقوع با رخداد زیاد نسبت به متضادهای هم وقوع با رخداد کمتر، بعنوان متضادهای خوب شناخته می‌شوند.


روابط علت-معلولی

تعریف این نوع رابطه پیچیده و بسیار سخت است و از دیدگاههای فلسفی و روانشناسی قابل بررسی است. مَکِی برای تعریف این رابطه از روابط لازم و کافی استفاده کرد. زمانیکه گفته می‌شود رخداد e_1 شرط کافی است برای رخداد e_2، هر زمانکه e_1 به وقوع پیوندد e_2 نیز همیشه به وقوع خواهد پیوست. اما اگر e_1 رخ ندهد e_2 ممکن است رخ بدهد یا ندهد. هنگامیکه بیان می‌شود e_1 شرط لازم نه کافی برای e_2 است، اگر e_1 رخ ندهد یقینا e_2 رخ نخواهد داد، اما هر زمانکه e_1 رخ دهد e_2 می‌تواند رخ دهد یاخیر. با این تعاریف مَکِی بیان می‌دارد که سبب یک جزء لازم نه کافی برای یک رخداد است.
ارسطو چهار نوع علیت را معرفی می‌نماید: علیت مادی (مواد تشکیل دهنده یک شیء موجب موجودیت آن است)، علیت صوری (ریخت یا ساختار یک شیء موجب موجودیت آن می‌شود)، علیت کارا ( یک موجودیت با عمل مکانیکی بر روی یک شیء موجب تغییر، حرکت و یا توقف آن می‌شود) و علیت غایت(تاثیر مورد انتظار در آینده، موجب اتخاذ عملکرد فعلی است؛ که متضمن وقوع رخداد در آینده می‌گردد).
بَری یِر یک طبقه بندی از روابط علت-معلولی عام بدینگونه ارائه داده است: وابستگی وجودی (شامل: ایجاد، ممانعت، تخریب و نگهداری) و وابستگی تاثیر(شامل: حفظ، تغییر( افزایش و کاهش)). وارن و همکارانش موفق به شناسایی چهار نوع رابطه‌ی علت-معلولی در متون داستانی شدند: حرکت، علیت روانشناختی، علیت فیزیکی و توانمندی.

روابط معنایی در ساختار دانش

روابط معنایی در دانش نامه

یک دانشنامه مجموعه‌ای از واژه‌هاست که از مجموعه‌ی کوچکی از روابط معنایی به منظور نشان دادن واژه‌های کنترلی برای هر مفهوم و روابط بین واژه‌ها/مفاهیم، استفاده می‌نماید. طراحی دانشنامه به منظور پشتیبانی از نمایه‌گذاری موضوعی پایدار و بازیابی اطلاعات کارآ می‌باشد. رابطه‌ی بین واژه‌ها به نمایه‌گذارها و جستجوگران کمک می‌نماید تا بتوانند دانشنامه را به منظور شناسایی گونه‌های مختلف واژه‌های مرتبط پیمایش نمایند.
استاندارد شماره‌ی Z39.15-1993 موسسه‌ی ملی استاندارد امریکا (ANSI/NISO) با عنوان «راهنمای ساخت، قالب بندی و مدیریت دانشنامه‌ی یک زبانی» (NISO-1994) و استاندارد شماره‌ی 2788 موسسه بین المللی استانداردسازی با عنوان «راهنمای پایه گذاری و توسعه‌ی دانشنامه‌ی یک زبانی» سه نوع رابطه‌ی معنایی را معرفی نموده‌اند: هم ارزی، سلسله مراتبی و انجمنی. موسسه‌ی ملی استاندارد امریکا هفت نوع روابط مترادف استاندارد را فهرست می‌کند: واژه‌هایی با منشاء زبانی متفاوت، نام‌های مشهور علمی، اسم‌های تجاری عام، نام‌های گوناگون، واژه‌های منسوخ شده، اصطلاحات عامیانه/لهجه‌های مرسوم و انواع گونه‌های گویشی. این استاندارد همچنین گونه‌های مختلف روابط هم ارزی را مشخص می‌کند: گونه‌های زبانی و شبه-مترادف ها. روابط سلسه مراتبی شامل روابط هست-یک‌های عام، روابط کل-جزء و روابط نمونه‌ای. روابط جزء-کل شامل ارگان‌های یک بدنه، موقعیت‌های جغرافیایی، رشته‌های‌های موضوعی و ساختار‌های سلسله مراتبی سازمانی، سیاسی، اجتماعی و یا صنفی هستند. همچنین 9 گونه از روابط انجمی‌ارائه شده است.
محققان متعددی روابط انجمنی در دانشنامه ها را تحلیل نموده‌اند. ایشیسون و همکاران چهارده دسته بندی ارائه کرده اند در حالیکه لَنکِستر و رایت هر کدام ده دسته بندی فهرست کرده‌اند. در تحلیلهای انجام پذیرفته در موضوعات پزشکی67 مورد رابطه به غیر از روابط عام و روابط نمونه‌ای تعیین شده است که اکثرا روابط انجمنی هستند. بحث در مورد روابط دانشنامه را می‌توان در تحقیقات کِلارک و میلس‌تِد یافت.


روابط معنایی در زبان‌های نمایه سازی

در مبحث نمایه‌گذاری متن، واژه‌های کنترلی دانشنامه، فهرست عنوان‌گذاری موضوعی یا شمای طبقه بندی به منظور انعکاس موضوع اصلی یا مفهوم به متن ارجاع داده می‌شوند. واژه‌های شاخص، غالبا از پیش هماهنگ شده نیستند، به عبارت دیگر، واژه‌های شاخص به عنوان واژه‌های جداگانه ارجاع داده می‌شوند و دلالتی براینکه دو مفهوم بیشتر به طبقه‌ی خاصی در متن مرتبط باشند، وجود ندارد. به طور مثال، اگر یک متن با واژه‌های «بازیابی اطلاعات»،«واسط کاربر» و «ارزیابی» نمایه‌گذاری شده باشد، دلالتی بر این نیست که واژه «ارزیابی» با « بازیابی اطلاعات» یا « واسط کاربر » در ارتباط باشد. در حین بازیابی، ممکن است کاربر تقاضای پرس و جو دوتایی « بازیابی اطلاعات و ارزیابی» را داشته باشد که سیستم را ملزم می‌دارد تا با دو جستجوی جداگانه و سپس ترکیب دو متن بازیابی شده، متنی را که حاوی هر دو این واژه‌هاست استخراج نماید. هیچ تضمینی وجود ندارد که متن بازیابی شده شامل بحث «ارزیابی بازیابی اطلاعات» باشد.
در برخی زبان‌های نمایه‌سازی، واژه‌های شاخص از پیش هماهنگ شده هستند. به بیان دیگر، نمایه‌گذاری انسانی مشخص کننده وابستگی بین دو مفهوم یا بیشتر در مفهوم متن است، که براساس نحو زبان و ترتیب خاص قرار گرفتن واژه‌ها صورت می‌پذیرد. اگرچه نوع رابطه پیوستگی بطور صریح مشخص نشده است ولی از محتوا قابل درک است. نمونه‌هایی از این موارد کتابخانه‌ی موضوعی مجلس سنا آمریکاست. این نوع نمایه‌گذاری کاربر را قادر می‌سازد تا تعداد دو یا بیشتر واژه‌ی شاخص جستجو را انجام دهد.
دو سیستم نمایه‌گذاری که صریحا از روابط استفاده می‌کنند، سیستم طبقه بندی رابطه ای فارادن و مدل «Syntol» هستند. در حالیکه سیستم فارادن نه نوع روابطه همزمانی، فعالیت خود به خودی، پیوستگی، هم ارزی، بُعدی (زمان، مکان، موقعیت)، حالت ربط و ضمیمه، وضوح و شمردگی، واکنش، وابستگی تابعی را شامل می‌شود؛ پروژه‌ی «Syntol» از 4 گروه اصلی روابط هماهنگ کننده، پشت سر هم، خبری و پیوستگی استفاده می‌کند که خود روابط پیوستگی به زیر گروه‌هایی تقسیم می‌شوند.

روابط معنایی در هستان‌شناسی

یک دانشنامه شامل مفاهیم/واژه‌های اصلی در یک دامنه‌ی خاص بهمراه روابط مشخص بین مفاهیم/واژه‌ها تنها با استفاده از تعداد محدودی رابطه می‌باشد. این مجموعه‌ محدود در کاربردهایی مثل بازیابی اطلاعات کافی است، زیرا تمرکز دانشنامه بر روی نمایه‌گذاری و جستجو است، اما در موارد کاربرد پیچیده‌تر و هوشمند که نیاز به استنتاج مبتنی بر دانش و نمایش دقیق دامنه‌ی دانش است، کافی نمی‌باشند.
یک نمایش دقیق از دامنه‌ی دانش، هستان‌شناسی ‌ نام دارد. تعاریف متعددی از هستان‌شناسی برپایه دیدگاه‌های مختلف ارایه شده است. تعریف زیر مطرح شده توسط برنزلی و همکارانش می‌باشد که به برخی جنبه‌های مختلف هستان‌شناسی‌ اشاره دارد:
«در فلسفه، هستان‌شناسی تئوری در مورد طبیعت وجودی است، چه گونه‌هایی از اشیاء وجود دارند؛ هستان‌شناسی به عنوان یک رشته‌ی علمی، در این موارد مطالعه می‌نماید. محققان وب و هوش مصنوعی، هرکدام اصلاحات مخصوص به خود را پذیرفتند، برای آنها هستان‌شناسی، یک سند یا پرونده‌ای است که تحت ضوابطی روابط میان واژه‌ها را تعریف می‌کند. یک نمونه‌ی مشخص از هستان‌شناسی برای وب طبقه‌بندی و مجموعه‌ی قوانین استنتاجی است».
هستان‌شناسی با حرف O نشان داده می‌شود به شاخه‌ای از فلسفه اشاره دارد که به سرچشمه هستی اشاره دارد، چه دسته‌بندی‌هایی از اشیاء وجود دارد؟ ویژگی‌های این اشیاء چیست؟ این تعریف با «معرفت شناسی» که با طبیعت و منشاء دانش سر و کار دارد در تضاد است. هستان‌شناسی که با o نمایش داده می‌شود، به چارچوب مفهومی‌یا دامنه خاصی از دانش که توسط گروهی از افراد به اشتراک گذاشته شده است - به طور مثال چیزهایی که در ذهن مردم وجود دارد- اشاره دارد. همچنین می‌تواند به نمایش سمبولیک این چارچوب مفهومی‌بصورت «تئوری منطق» اشاره داشته باشد که در یک برنامه‌ی رایانه‌ای مورد استفاده قرار می‌گیرد. یکی از تعاریف عموما اشاره شده توسط گروبر ارایه شده است: «هستان‌شناسی یک تعریف صریح و شفاف از مفهوم می‌باشد».
هستان‌شناسی بصورت یک طبقه‌بند از مفاهیم به هم مرتبط توسط روابط هست-یک، کل-جزء، خصیصه-ارزش و برخی اوقات غنی شده توسط برخی روابط دیگر همچون قوانین مکمل و قیود که «بدیهیات» نامیده می‌شود، بیان می‌گردد. یک تفاوت عمده‌ی بین هستان‌شناسی و دانش‌نامه، مجموعه‌ی غنی تر روابط مورد استفاده در هستان‌شناسی است. تعاریف متعدد هستان‌شناسی توسط محققان مورد تحلیل و بررسی قرار گرفته است.
هستان‌شناسی بسته به دامنه، کاربرد، شمای نمایش مورد استفاده شده، قوانین فلسفی اتخاذ شده توسط نویسنده و ابزارها و شیوه‌های ایجاد در انواع و گونه‌های متعدد ارایه شده است. آنهایی که به منظور جستجوی بر خط مورد استفاده قرار می‌گیرند، بیشتر واژه‌گرا هستند و ممکن است شامل روابط غیر طبقه‌بندی نباشند. در حالیکه گونه‌های دیگر که استنتاج را پشتیبانی می‌کنند به شکل نمایش منطق ارایه شوند. گومز-پرز و همکارانش که مروری اجمالی برگونه‌های مختلف هستان‌شناسی داشته‌اند. ایشان پیشنهاد دارند که حتی یک دانشنامه را نیز می‌توان یک « هستان‌شناسی کم وزن» تلقی کرد.
امروزه هستان‌شناسی بعنوان ستون فقرات وب معنایی دیده می‌شود. ویژگی‌های وب معنایی توسط برنرلی و همکارانش اینگونه بیان می‌شود: « تعمیمی‌از وب کنونی که در آن اطلاعات به درستی معنا داده شده‌اند و با عث بهبود تعامل انسان ها و ماشین می‌شود». کنسرسیوم شبکه جهانی وب تعریف:«مهیا کننده‌ی یک چارچوب که به داده اجازه اشتراک و استفاده‌ی مجدد درکاربردها، سازمانها و جامعه را می‌دهد» برای وب معنایی ارایه داده است.
کنسرسیوم شبکه جهانی وب، چارچوب توصیف منابع(RDF) و زبان هستان‌شناسی وب(OWL) را به منظور نمایش هستان‌شناسی با الگوی زبان نشانه‌گذار توسعه‌پذیر(XML) طراحی و توسعه دادند. OWL به منظور مشخص کردن انواع روابط بین نمونه مفاهیم « ویژگیها » نامیده می‌شود، می‌تواند مورد استفاده قرار گیرد. روابط بین مشخصه‌های تعریف شده توسط کاربر بدین قرار تعیین شده‌اند: هم ارزی (خاصیت ترادف)، وارون (به طور مثال:(«فرزند دارد» وارونه‌ی «والد دارد») و زیر-ویژگی(نوعی رابطه ی‌هایپونیمی). ویژگیهای تعریف شده توسط کاربر می‌توانند با مشخصه‌های تعدی، تقارن، تابعی (به این معنا که هر نمونه از این ویژگی نمی‌تواند بیش از یک ارزش داشته باشد) و تابع معکوس برچسب گذاری شوند.

چند نمونه هستان‌شناسی مشهور

هستان‌شناسی CYC که مشتمل بر 40000 مفهوم و 300000 رابطه درون مفهومی‌و قیود است که جهت استدلالات ادراکی ساخته شده است. هستان‌شناسی ادغام شده SUMO که توسط موسسه مهندسان برق و الکترونیک(IEEE) ارایه شده است و شامل 20000 واژه و 60000 رابطه درون مفهومی‌و قیود است.
سیستم یکپارچه زبان پزشکیUMLS مشتمل بر 135 گونه معنایی، 54 رابطه‌ی معنایی و حدودا 250000 مفهوم می‌باشد.
هستان‌شناسی توصیفی برای مهندسی علوم شناختی و زبان‌شناسیDOLCE که با هدف بدست آوردن طبقه‌بندیهای هستان‌شناسی بر روی زبان طبیعی و ادراک انسانی است و نقطه آغازین برای مقایسه و تحلیل هستان‌های طراحی شده است.
WordNet، که شامل حدودا 150000 نام ، فعل، صفت و قید انگلیسی است که به 115000 گروه مترادف ها تقسیم بندی شده و هر گروه معرف یک مفهوم زبانی پایه است.

بررسی بر روشهای استخراج روابط

در بخشهای قبل مروری بر تعریف رابطه از دیدگاههای متفاوت و انواع مختلف رابطه بیان شد. سپس روابط معنایی تعریف و انواع آن مطرح گردید و در نهایت به کاربرد استخراج روابط در نمایش دانش در هستان‌شناسی اشاره شد. در این قسمت مروری بر روشهای استخراج روابط ارایه خواهد شد و رویکردهای اصلی استخراج رابطه بر مبنای طبقه بندی با ناظر و نیمه ناظر مورد مطالعه می‌گیرد. روشهای با ناظر غالبا عمل استخراج روابط را بصورت یک مساله طبقه بندی دودویی فرمول بندی می‌کنند.
مهمترین روش‌ها در این رویکرد به دو روش مبتنی بر ویژگی و مبتنی بر کرنل ختم می‌شود. مهمترین برتری روش‌های مبتنی بر کرنل ارایه راه حل مؤثر برای کشف فضای وسیعی از مشخصه ها در زمان محاسباتی چند‌جمله‌ای، بدون نیاز به نمایش صریح ویژگیها است. اخیرا روشهای نیمه ناظر و خودراه‌انداز مورد توجه قرار گرفته اند. در همین زمینه سیستمهای (DIPRE) و (Snowball) بررسی خواهند شد. همچنین (KnowItAll) و (TextRunner)که به منظور استخراج روابط در مقیاس بزرگتر ارایه شده اند و دارای یک طبقه بند خودآموز برای روابط باینری هستند، ارزیابی می‌شوند.

روشهای استخراج رابطه با ناظر

در این روش استخراج روابط، بعنوان یک فرآیند طبقه بندی ارایه می‌گردد. برای سادگی، روابط در نظر گرفته شده محدود به روابط دودویی بین دو موجودیت فرض می‌شوند و روابط بالاتر در ادامه بررسی خواهند شد. با فرض داشتن جمله s=w_1 〖,w〗_2,…,e_1,…,w_j,…e_2,….,w_n و دو موجودیت e_1 و e_2 تابع نگاشت f بصورت زیر تعریف می‌شود:
Formule frts.jpg
که T(S) ویژگیهای استخراج شده از جمله S است. تابع نگاشت f تصمیم می‌گیرد که آیا موجودیتها در جمله با یکدیگر در ارتباط هستند یا خیر. در این رویکرود هدف اصلی کشف روابط بین موجودیتها می‌باشد . تابع می‌تواند یک طبقه بند شبیه پرسپترون یا ماشین بردار پشتیبان باشد. این طبقه بند بعد از آنالیز متنی مثل برچسب گذاری ادات سخن یا تجزیه وابستگی جملات برچسب خورده، می‌تواند با استفاده از یک سری مشخصه‌های ممتاز آموزش ببیند. بسته به ماهیت ورودیهای طبقه بند، رویکرد استخراج روابط با ناظر به دو گروه 1) مبتنی بر مشخصه و 2) مبتنی بر کرنل تقسیم می‌شوند.

روشهای مبتنی بر مشخصه (Feature based)

با داشتن نمونه‌هایی از روابط مثبت و منفی، مشخصه‌های نحوی و معنایی متن می‌توانند استخراج شوند. این مشخصه‌های استخراج شده بعنوان یک شاخص جهت تصمیم‌گیری در مورد اینکه موجودیتها در جمله در ارتباط هستند یا خیر استفاده می‌شوند. مشخصه‌های نحوی استخراج شده از متن می‌توانند شامل 1)خود موجودیتها 2) انواع موجودیتها 3)ترتیب کلمات بین دو موجودیت 4) تعداد کلمات بین موجودیتها 5)مسیر درخت تجزیه شامل دو موجودیت باشند. مشخصه‌های معنایی شامل مسیر بین دو موجودیت در درخت وابستگی است. هر دو گروه مشخصه‌های معنایی و نحوی بصورت بردار مشخصه جهت آموزش یا طبقه بندی به طبقه بند ارایه می‌شوند. درحالیکه برخی محققین از مشخصه‌های ذکر شده برای تعلیم مدل log-linear جهت طبقه بندی موجودیتها استفاده می‌کنند؛ ژائو و همکارش و همچنین ژئودانگ و همکارانش از ماشین بردار پشتیبانِ آموزش دیده روی مشخصه‌های ذکر شده با استفاده از کرنلهای خطی و چند جمله‌ای، برای طبقه بندی انواع مختلف روابط بین موجودیتها استفاده کرده‌اند. برخی مشخصه ها نشانه‌های خوبی برای تعیین روابط بین موجودیتها هستند، در حالیکه برخی دیگر چندان اهمیتی ندارند. نکته مهم در همین رابطه نحوه انتخاب همین ویژگیهای برجسته می‌باشد. روشهای مبتنی بر مشخصه از تکنیک انتخاب اکتشافی بهره می‌برند. مشخصه ها برای افزایش کارآیی در یک فرآیند سعی و خطا انتخاب می‌شوند. از آنجاییکه در کاربردهای پردازش زبان طبیعی به صورت عام و استخراج روابط بصورت خاص داده‌های ورودی بصورت نمایشی ساخت یافته ارایه می‌شوند، دست یابی به مشخصه‌های مرتبطِ بهینه، دشوار است. برای جبران و رفع مساله انتخاب مجموعه مشخصه‌های برجسته جهت استخراج روابط، کرنل‌های خاصی طراحی شدند که ویژگیهای مهم را از داده‌های ورودی مانند درخت تجزیه کم عمق استخراج می‌نمایند.

روشهای مبتنی بر کرنل

این روشها غالبا بر پایه کرنل رشته‌ای هستند. کرنل رشته‌ای اشاره شده برای طبقه بندی متن مورد بحث قرار گرفته است. با فرض داشتن دو رشته x و y ، تشابه آنها براساس زیردنباله‌های مشترک بین آنها محاسبه می‌شود. هرچه تعداد زیردنباله‌های مشترک بیشتر باشد تشابه بین دو زیررشته بیشتر خواهد بود. رشته در جاییکه هر بُعد متناظر با حضور یا عدم حضور یک زیردنباله است می‌تواند به یک فضا با بُعد بالاتر نگاشت یابد. مثلا برای یک رشته x=abc می‌تواند در فضای بعد بالاتری از زیردنباله‌هایش بصورت زیر بیان شود:
Formule qxabc.jpg
که γ فاکتور کاهش، جهت جریمه زیر دنباله‌های بلند و غیر مجاور است که γ∈(0,1]. بعنوان مثال جریمه ∅_ac (x)، بیشتر از ∅_ab (x) و ∅_bc (x) می‌باشد؛ زیرا زیررشته ac در رشته abc بصورت غیرمجاور رخ داده است. در حالت کلی تر می‌توان فرض نمود که u یک زیردنباله باشد که توسط شاخصهای i=i_1,i_2,…,i_(u-1) در رشته حاضر شده‌اند. بدیهی است که طول u برابر است با l(i)=i_|u| -i_1+1. از آنجاییکه زیررشته u بیش از یک بار می‌تواند در در داخل رشته x ظاهر شود، مختصات رشته x در تناظر با u در فضای بعد بالاتر می‌تواند بصورت زیر بیان شود:
Formule qu.jpg
اگر U مجموعه تمام زیردنباله‌های ممکن بر روی رشته‌های x و y باشند، تشابه کرنلی بین x و y بصورت زیر محاسبه خواهد شد:
Formule kxy.jpg
بیان کلی‌تر روابط فوق‌ این است که اگر x و y دو شیء باشند، k(x,y) تشابه ساختاری بین آنها را محاسبه نماید. x و y دو شیء مثل رشته، توالی از کلمات، درخت تجزیه و ... می‌توانند باشند.
در استخراج روابط اگرx^- وx^+ دو شیء باشند که نمونه‌هایی مثبت و منفی از روابط موجودیت را نمایش می‌دهند و y یک نمونه آزمایش باشد، k(x^+,y)>k(x^-,y) دلالت بر این دارد که yشامل یک رابطه هست، یا خیر. اشیاء x^- ،x^+ و y می‌توانند نمونه‌هایی از 1) توالی کلمات پیرامون موجودیتهای در دست بررسی و یا 2)درخت تجزیه شامل موجودیتهای مورد بحث، باشند. بستگی به انتخاب نمایش داده، دو نوع روش مبتنی بر کرنل بررسی می‌شوند:1) کرنلهای درختی و 2) کرنل مبتنی بر مشخصه‌ها.
روش کرنل مبتنی بر مشخصه‌ها
در این روش مفاد پیرامون موجودیتهای تحتِ بررسی، جهت تعیین وجود رابطه مورد استفاده قرار می‌گیرند. بونِس و همکارانش از مفاد کلمات پیرامون موجودیتهای اسمی‌‌برای استخراج تراکنشهای پروتئینی از خلاصه مقالات MEDLINE استفاده کردند. با فرض داشتن جمله S=w_1 〖,w〗_2,…,e_1,…,w_j,…e_2,….,w_n، که شامل دوموجودیت e_1 و e_2 می‌باشد؛ جمله را می‌توان بصورت زیر نمایش داد:
Formule s.jpg
که s_b،s_m و s_a بخشی از مفاد کلمات قبل، بین و بعد از موجودیتهای مرتبط هستند. حال برای یک جمله آزمایشی مثل S_1 که شامل دو موجودیت e ́_1 و (e_2 ) ́ می‌باشد، تشابه قسمتهای قبل، بین و بعد آن با آنهایی که در جمله S آمده است با استفاده از روش «کرنل زیررشته»، محاسبه می‌شود. بونِس سه زیرکرنل معرفی نموده است که هرکدام برای تطابق جداگانه بخشهای قبل، بین و بعد موجودیتها مورد استفاده قرار می‌گیرند و کرنل نهایی حاصل‌جمع همه زیرکرنلها است. این روش اجتماع کرنلهای زیردنباله، همراه با استفاده از طبقه بند ماشین بردار پشتیبان موجب افزایش پارامترهای ارزیابی دقت و فراخوانی شد. بونِس و همکارانش، برچسب‌های ادات سخن و گونه‌های مختلف موجودیت را به کلمات موجود در زمینه الحاق کردند تا نتایج نسبت به روش کرنل درخت وابستگی که توسط کُلِت ارایه شده بود، بهبود یابد.
روش مبتنی بر درخت کرنل
در مقابل روشهای قبلی، زِلِنکو و همکارانش به جای استفاده از رشته در معادله، ساختار درخت تجزیه کم عمق را به کار بردند. آنها با استفاده از درخت کرنلها و ادغام با روشهای مبتنی بر ماشین بردار پشتیبان و پرسپترون منتخب ، روابطی نظیر مکان، سازمان و موارد دیگر را استخراج کردند. لذا کرنلی برای محاسبه تشابه بین ساختارهای درخت تجزیه کم عمق دو موجودیت طراحی گردید. اولین قدم با ساختن درخت تجزیه کم عمق جمله مورد نظر آغاز می‌شود. دلایل استفاده از درخت تجزیه کم عمق به جای درخت تجزیه کامل، قوی و در عین حال قابل اطمینان بودن این درخت است. هر نود درخت شامل 1) نقش موجودیت مثل اسم، مکان، سازمان و موارد دیگر 2)نوع قطعه، مثل عبارت اسمی، فعلی و موارد دیگر 3) متن(کلمه‌ای) که نود را پوشش می‌دهد؛ می‌باشد.
Shekle 3.1.jpg
در شکل فوق مثالی از درخت تجزیه و یک رابطه مثبت مشاهده می‌شود. رابطه مثبت، پایین ترین زیر درختی است که از روی درخت تجزیه ساخته می‌شود و شامل موجودیتهای مرتبط است. رابطه منفی، مثالی است که در آن علیرغم وجود دو یا چند موجودیت رابطه‌ای بین شان برقرار نباشد. در مثال فوق، بین حسین و سما طوس یک رابطه برقرار است، در حالیکه بین حسن و حسین رابطه‌ای وجود ندارد. در نهایت با داشتن یک سری روابط مثبت و منفی و یک تابع کرنل مناسب، یادگیری می‌تواند با استفاده از طبقه بندهایی مثل ماشین بردار پشتیبان و پرسپترون منتخب انجام بپذیرد.
تابع کرنلی که زِلِنکو و همکارانش معرفی کردند، تغییر یافته کرنلی است که در معادله (2.4) بیان گردید. اگر m و n تعداد نودهای مثالهای درختهای تجزیه کم عمق باشند، پیچیدگی زمانی محاسبه تابع کرنل برابر O(mn^3) می‌باشد که (m ≥ n) است. کرنل مورد استفاده توسط کُلِت و سورِنس، بسیار شبیه کرنل زِلِنکو است. تنها ویژگی منحصر به فرد آن استفاده از درخت وابستگی به جای درخت تجزیه کم عمق است. همچنین نودهای درخت وابستگی شامل اطلاعات بیشتری مثل خصوصیات کلمه، برچسب ادات سخن، برچسب عبارت نوع موجودیت، سطح موجودیت و موارد دیگر می‌باشد.

روشهای استخراج روابط نیمه ناظر

یادگیری نیمه ناظر به موضوع مهمی ‌در زبان شناسی رایانه‌ای تبدیل شده است. برای خیلی از کاربردهای پردازش زبان، که نیازمند استخراج روابط می‌باشند، با کمبود داده‌های برچسب خورده مواجه هستیم، در حالیکه داده‌های برچسب نخورده زیادی در دسترس است. از طرفی ممکن است فرآیند برچسب گذاری داده ها فرآیندی وقت گیر و هزینه بر باشد؛ در این موارد استفاده از تکنیکهای خودراه‌انداز (یا نمونه برداری مجدد ) بسیار مطلوب است.
در این قسمت الگوریتم ها و روشهای مطرح مورد استفاده در استخراج روابط، براساس روشهای نیمه ناظر مانند آنچه یارُسکی، بِلوئِم و همکارش ارایه کرده اند بررسی خواهد شد. ایده اصلی در هر دو الگوریتم، استفاده از خروجیهای یک یادگیرنده ضعیف، بعنوان داده‌های آموزش تکرار بعدی است. هم آموزش یک نمونه ضعیف یادگیری با ناظر است که فرآیند یادگیری از روی مجموعه داده‌های برچسب خورده اندک و مجموعه داده‌های برچسب نخورده فراوان انجام می‌پذیرد. برای اطمینان از حصول کارآیی، الگوریتم‌های هم یادگیر، داده‌های ورودی را بعنوان یک مجموعه از دیدها (نماها) در نظر می‌گیرند که بایستی دو شرط اساسی داشته باشند:1) هر نما برای یادگیری مفهوم هدف به اندازه‌ی کافی باشد و 2) هر نما اساسا مستقل از کلاسهای داده شده یکدیگر باشند.
چارچوب کلی الگوریتم یارُسکی در شکل زیر آمده است. یارُسکی از این الگوریتم در جهت برطرف سازی ابهام از کلمات استفاده نمود:
Shekle 3.2.jpg

سیستم DIPRE

بِرین در سال 1998 یک سیستم استخراج روابط به نام DIPRE برای کشف رابطه بین (نویسنده،کتاب) از منابع وب ارایه داد. DIPRE با تعداد کمی‌از زوج نمونه‌های (نویسنده،کتاب) که دانه (seed ) نیز نامیده می‌شد، کار را شروع می‌کرد. فرض می‌شود سیستم تنها با یک seed بصورت زوج (باستانی پاریزی،تاریخ کرمان) عملیات را شروع کند. سیستم شروع به جستجو و چرخیدن در صفحات اینترنت به منظور یافتن صفحاتی که شامل هر دو نمونه seeds باشند، می‌کند. برای یادگیری الگو، DIPRE از یک چندتایی که شامل 6 عنصر(مرتبه، نویسنده، کتاب، پیشوند، پسوند و میانه) می‌باشد، استفاده می‌کند. اگر رشته نویسنده قبل از کتاب رخ دهد مقدار مرتبه 1 است در غیر اینصورت 0 است. پیشوند و پسوند شامل 10 کاراکتر در سمت راست و چپ کتاب هستند. میانه، رشته‌ای است که بین نویسنده و کتاب رخ می‌دهد. بعد از اینکه تمام چندتایی ها از صفحات وب جستجو شده استخراج شدند؛ سیستم، چندتایی ها را براساس تطابق مرتبه و میانه گروه بندی می‌نماید. برای هر گروه از چندتاییها، طولانی ترین پیشوند مشترک رشته‌های پسوند و طولانی ترین پسوند مشترک رشته‌های پیشوند استخراج می‌شوند. هر گروه یک الگو به فرم زیر را ایجاد می‌نماید:
(طولانی ترین پسوند مشترک رشته‌های پیشوند، نویسنده، میانه، کتاب، طولانی ترین پیشوند مشترک رشته‌های پسوند) برای مثال ممکن است الگوی بدست آمده بصورت:
(نویسنده، باستانی پاریزی، نوشتن، تاریخ کرمان،1340 ) باشد. مرحله بعدی عمومیت بخشیدن به الگو است. در مثال ذکر شده الگو بصورت (نویسنده، ؟، نوشتن، ؟، 1340 ) در می‌آید. DIPRE از این الگو برای جستجوی مجدد وب استفاده می‌کند تا رابطه جدیدتری استخراج گردد. DIPRE رابطه جدید را به مجموعه seeds ها اضافه می‌نماید و این کار تا رسیدن به یک نقطه پایان -مثلا عدم وجود رابطه جدید- ادامه می‌یابد. فرم عمومی‌الگوریتم DIPRE در شکل زیر آمده است:
Shekle 3.3.jpg

سیستم Snowball

این سیستم معماری مشابه DIPRE دارد. هدف تعیین رابطه از نوع (محل،سازمان) بر روی متن‌های معمولی است. Snowball نیز با یک مجموعه رابطه seeds شروع می‌شود و یک مقدار اطمینان 1 به آنها ضمیمه می‌نماید. طبقه بند موجود در Snowball یک سیستم تطابق الگوی مشابه DIPRE است، هرچند که Snowball از تطابق عینی و دقیق استفاده نمی‌کند. Snowball هر چندتایی را بصورت یک بردار نمایش داده و از توابع تشابه برای گروه بندی چندتایی ها استفاده می‌کند. چندتایی ها در این سیستم به فرم (پیشوند، سازمان، میانه، مکان و پسوند) هستند. پیشوند، پسوند و میانه بردارهای ویژگی واژه‌های علامت گذاری شده در زوج نمونه ها هستند.
برای مثال برای زوج (مشهد، فردوسی) برای یک رشته مثل«به دانشگاه فردوسی در مشهد برای ملاقات برو» سیستم الگوی زیر را استخراج خواهد کرد:
Formule w1boro.jpg
که در آن w_i وزن واژه است که براساس تکرار نرمال شده واژه در موقعیت داده شده محاسبه می‌گردد. برای مثال وزن ملاقات در پسوند بصورت زیر است:
پرونده:Formule vazne pasvand molaghat
این وزن در هر تکرار به‌روز می‌شود. برای گروه بندی چندتایی‌های که (محل،سازمان) یکسان دارند اما پیشوند، پسوند و میانه‌های متفاوت دارند، Snowball یک تابع تشابه بصورت زیر تعریف می‌نماید:
Formule match.jpg
سپس به هر الگو یک مقدار اعتماد و اطمینان نسبت داده می‌شود که کیفیت الگوی جدید پیشنهاد شده را می‌سنجد:
Formule confidence.jpg
Ppositive تعداد دفعاتی است که الگوی جدید زوج (مکان، سازمان) را که در تکرارهای قبلی یادگیری دیده شده است را بازیابی می‌نماید. Pnegative تعداد دفعاتی است که الگوی جدید زوجی را بازیابی می‌نماید که سازمان آن یکسان اما با مکان‌های متفاوت در تکرارهای قبل ظاهر شده است.

سیستم‌های KnowItAll و TextRunner

برخلاف سیستم‌های Snow ball و DIPRE، سیستم KnowItAll یک سیستم استخراج اطلاعات وب در مقیاس بزرگ است که نمونه‌های یادگیری خودش را براساس یک مجموعه کوچک از الگوهای استخراج یافته با دامنه مستقل برچسب می‌زند. زمانیکه یک الگو برای رابطه مشخصی معرفی می‌شود، این الگوهای عمومی ‌یک سری قوانین استخراج روابط معین را جاری می‌سازند که برای یادگیری استخراج قوانین با دامنه مشخص بکار می‌رود. سپس این قوانین بر روی صفحات وب- از طریق پرس و جو موتورهای جستجو اعمال می‌شوند و به نتایج استخراج شده یک احتمال بر اساس مدل اطلاعات متقابل نقطه به نقطه نسبت داده می‌شود.
برای مثال KnowItAll یک الگوی استخراج عام مثل “<Np_1> such as <Np_2>” جهت معرفی Np_2 بعنوان یک عضو داوطلب از کلاس Np_1 ارایه می‌کند. سپس سیستم از فراوانی اطلاعات استفاده می‌کند تا تعیین کندکدام تعریف بیشترین شباهت را به اینکه عضو این کلاس باشد دارا است. سپس KnowItAll یک سری الگوهای استخراج روابط مشخص مثل«پایتختِ (کشور)»را یادگیری می‌نماید؛ که منجر به استخراج شهرها می‌شود و به همین ترتیب الگوریتم ادامه پیدا می‌کند.
روشهای DIPRE، Snowball و KnowItAll همگی سیستمهایی با روابط مشخص هستند که مجموعه روابط مورد نظر در ابتدا توسط یک کاربر انسانی نام گذاری می‌شوند. TextRunner روشی برای فائق آمدن بر این مساله ارایه داد. به جای اینکه روابط بصورت ورودی مورد نیاز باشند، TextRunner روابط، کلاسها و موجودیتها را از روی متن پیکره به شکل خودناظر یادگیری می‌نماید[142].
همانگونه که در شکل زیر مشخص است فرآیند در 7 مرحله انجام می‌پذیرد. در اولین گام یک تجزیه کننده کم عمق برای عبارات اسمی‌ برای هر جمله از صفحه وب فراخوانی می‌شود. در قدم بعد، گزینه های ممکن برای رابطه، تولید می‌شوند. در ادامه تجزیه کننده نحوی و تجزیه کننده وابستگی اجرا می‌شوند و فیلتر رابطه از درخت تجزیه، درخت وابستگی و یک سری قیدها برای برچسب زنی روابط استفاده می‌کند. زمانیکه روابط برچسب خوردند، سیستم هر رابطه را به یک نمایش بردار مشخصه نگاشت می‌دهد. توجه باید داشت که همه مشخصه ها مستقل از دامنه هستند. پس از استخراج مشخصه ها، سیستم از این مجموعه بردارهای مشخصه برچسب خورده خودکار، بعنوان مجموعه آموزش دهنده طبقه بند باینری-مثل ماشین بردار پشتیبان یا الگوریتم بیز استفاده می‌کند.
Shekle 3.4.jpg

ارزیابی سیستم های بیان شده

می‌توان بصورت مختصر یک جمع‌بندی از روشهای گفته شده بدین شرح داشت: روشهای استخراج روابط با ناظر غالبا بر روی مدلهای کرنل متمرکز شده اند. در حالیکه کرنل مبتنی بر مشخصه، نسبتا ساده است اما کرنلهای درختی نیازمند نمایش غنی تری از ورودیها به شکل درخت تجزیه کم عمق و درخت وابستگی هستند. در مقابل روشهای مبتنی بر کرنل، روشهای مبتنی بر مشخصه از مجموعه مشخصه‌های استخراج شده دقیق تری برای استخراج روابط استفاده می‌کنند. بصورت کلی محدودیتهای روش‌های با ناظر را می‌توان اینگونه بیان کرد:1) این روشها به سختی قابل توسعه برای روابط جدید بین موجودیتها هستند،2) توسعه روابط بین موجودیتها با مراتب بالا دشوار است،3) از لحاظ محاسباتی نسبتا سنگین هستند و مقیاس پذیری خوبی از خود در برابر افزایش حجم داده‌های ورودی نشان نمی‌دهند و 4) همانگونه که تشریح شد غالبا نیازمند پیش پردازشهایی بر روی داده‌های ورودی هستند؛ بنابراین طی این مراحل مستعد خطاپذیری هستند و می‌توانند کارآیی سیستم را کاهش دهند.
اشکال اصلی DIPRE سیستم نامطلوب و سخت آن برای تطابق الگوها می‌باشد. بطوریکه دو الگو در DIPRE متفاوت هستند اگر تنها در یک نقطه اختلاف داشته باشند. Snowball سیستم مطابقت منعطف تری دارد، اما بر روی یک تشخیص دهنده موجودیت اسمی‌بنا شده است. البته این موضوع مساله‌ای برای موجودیت‌های استاندارد مثل شخص، سازمان، مکان و... ایجاد نمی‌کند اما مشکل زمانی بوجود می‌آید که قصد داریم سیستم را با موجودیتهای جدید و انواع رابطه توسعه دهیم. TextRunner نیز مشکل مشابهی دارد، زمانیکه سیستم به تجزیه کننده وابستگی دارد. DIPRE می‌تواند بر روی هر زبانی پیاده سازی شود چراکه بستگی به هیچ ابزار پردازش زبان طبیعی مانند تشخیص دهنده نام، تجزیه کننده، قطعه کننده و... ندارد.

شناسایی خودکار روابط معنایی

شناسایی و استخراج خودکار روابط معنایی از متن فرآیند دشواری است. نرخ دقت بسیار گوناگون بوده و به عوامل متعددی بستگی دارد: نوع رابطه‌ی معنایی که باید شناسایی شود، حوزه یا حیطه‌ی موضوع، نوع متن/سند مورد پردازش، میزان متن موجود برای یادگیری، اینکه از استنتاج مبتنی بر دانش استفاده شده باشد، و دقت پردازش نحوی متن. علاوه بر این به دلیل آنکه انواع گوناگونی از روابط معنایی در سطوح مختلف متن وجود دارد، هیچ سیستمی نمی‌تواند روابط معنایی در تمام سطوح را بطور دقیق شناسایی نماید و این یک چالش اساسی برای استفاده گسترده از روابط معنایی در علوم اطلاعات است.
در ادامه، شناسایی و استخراج خودکار روابط معنایی بین واژگان و عبارات و مفاهیمی که نمایش می‌دهند، بررسی خواهد شد. شناسایی روابط سطح بالاتر نظیر روابط پیوستگی ( شامل حل ابهام ضمیر و مرجع مشترک)، روابط بلاغی (نوعی از روابط گفتمان در سطح عبارات داخل یک جمله یا جملات مجاور) و ساختار اَبر متنی بسیار مهم می‌باشند. اپلت تعریف کلی از تکنولوژی استخراج اطلاعات ارائه داد. سه کاربرد اصلی شناسایی خودکار روابط در متن برای استخراج اطلاعات، اکتساب دانش/ایجاد هستان‌شناسی و بازیابی اطلاعات هستند. در ادامه تکنیکهای اصلی مورد استفاده برای استخراج روابط برای ساخت هستان‌شناسی و استخراج اطلاعات مورد ارزیابی قرار می‌گیرد.
در کاربردهای استخراج اطلاعات، مفاهیم و روابط به منظور پُر کردن الگوهای (قالب های) از پیش تعریف شده ای که نمایانگر انواع مختلفی از اطلاعات در مورد یک رخداد، موجودیت یا فرآیند هستند از متن استخراج می‌شوند. در دهه‌ی 1980 میلادی و همچنین در آغاز دهه‌ی 90 میلادی، محققان هوش مصنوعی از پردازش زبان طبیعی سطح بالا و استخراج مبتنی بر دانش استفاده کردند تا بتوانند مفاهیم و روابط را از متن استخراج کرده و آن را به صورت مدل نمایش دانش یا نمایش معنایی ارائه دهند.
متاسفانه چنین سیستم های پیچیده ای را می‌توان تنها برای دامنه های محدودی ساخت. در دهه‌ی 1990 ، محققان دریافتند که شیوه های ساده‌ی استخراج اطلاعات با استفاده از پردازش متنی کم عمق و تطابق الگو با استفاده از الگوهای ساده، دارای کارایی برابری هستند. اما به هر حال ایجاد یک مجموعه‌ی مناسب از الگوهای استخراجی برای یک کاربرد، نیاز به تلاش دستی قابل توجهی داشت. تحقیقات بعدی بر استخراج الگوهای خودکار متمرکز شد، که مستلزم مجموعه‌ی یادگیری بزرگی از متون و قالب های پرشده به طور دستی است. برای آنکه از فناوری استخراج اطلاعات به طور گسترده استفاده شود، تکنیک های استخراج خودکار الگو که با مجموعه های یادگیری کوچک قابل اجرا هستند، باید توسعه یابند تا در کنار محیط تعاملی کاربر مناسب، به کاربر نهایی کمک نماید تا نمونه های یادگیری را ایجاد و فرآیند ساخت الگو را راهبری نمایند.
در حالیکه کاربردهای استخراج اطلاعات بدنبال استخراج همه‌ی نمونه های مفاهیم و همچنین روابط مرتبط با حوزه یا کاربرد هستند، ایجاد خودکار هستان‌شناسی بر روی دانش به خوبی سازمان یافته‌ متمرکز است؛ بعبارت دیگر، مفاهیم و روابطی که با یک فراوانی در مجموعه متنی رخ می‌دهند. بنابراین، تکنیک های آماری روی پیکره شامل آمارهای هم وقوعی، یادگیری ماشین و تکنیکهای داده کاوی را می‌توان در کنار تکنیک های تطابق الگو برای استخراج فراوانی وقوع سه تایی های مفهوم-رابطه-مفهوم از پیکره بکار برد. از این سه تایی ها می‌توان به منظور ایجاد پایگاه دانش حقایق و یا مرتبط نمودن آنها بمنظور تشکیل شبکه‌ی معنایی یا یک هستان‌شناسی استفاده نمود.

شناسایی خودکار روابط معنایی با استفاده از تطابق الگو

شناسایی خودکار روابط معنایی در متن شامل جستجو الگوهای زبانی معین در متن است که نمایانگر وجود یک رابطه‌ی خاص است. به طور مثال، یک الگوی خطی ساده برای تشخیص برخی اطلاعات علت-معلولی به صورت زیر است:

«{علت} هست سبب {معلول}»

نشانه های داخل کروشه نمایانگر مکانهایی هستند که می‌بایست توسط واژگان/عبارات در متن پُر شوند. مکانها نمایانگر آن هستند که کدام بخش از جمله نمایانگر علت و کدام بخش دیگر نمایانگر معلول در رابطه‌ی علت-معمولی است. جمله‌ی زیر شامل یک تطابق برای الگوی بالاست:

«سیگارکشیدن سبب (علت) سرطان ریه است»

بنابراین الگوی استخراج، یک توالی از نشانه هاست که هر نشانه نمایانگر یک واژه‌ی لفظی است که باید در متن تطابق داده شود و یک علامت جانشین که می‌تواند با هر کلمه یا مکان خالی پُر شود. در مورد هر نشانه محدودیت های انتخابی زیر را می‌توان مشخص نمود: طبقه‌ی نحوی (به طور مثال ادات سخن)، نوع عبارت، نقش نحوی (به طور مثال فاعل، مفعول مستقیم و....) و اینکه فعل مجهول است یا معلوم. محدودیت های معنایی را همچنین می‌توان با استفاده از طبقه بندی مفاهیم از یک هستان‌شناسی یا نوع یک موجودیت مشخص نمود به طور مثال نام سازمان، نام شخص، تاریخ یا مبلغ پول. تطابق الگو به منظور شناسایی بخش هایی از متن که با هر الگو مطابقت داده می‌شوند، اجرا می‌شود.
یک جزء اصلی هر سیستم استخراج اطلاعات، مجموعه‌ی الگوهای استخراج شده از آن است. ساخت الگوها می‌تواند به طور دستی یا به صورت خودکار و با استفاده از تحلیل نمونه متن های مناسب و پاسخ های مرتبط که نشان دهنده اطلاعاتی هستند که باید استخراج شوند، انجام پذیرد. پاسخ ها بطور معمول توسط تحلیلگران انسانی که به همین منظور آموزش داده شده اند، ساخته می‌شود. ایجاد الگو، مستلزم ساخت الگوهایی است که اطلاعاتی یکسان از متن با آنچه تحلیل گر انسانی انجام میدهد استخراج نماید. الگوها نمی‌بایست خیلی عمومی‌باشند تا از استخراج اطلاعات از قسمت های غیر مرتبط متنی یا اطلاعات ناصحیح جلوگیری شود. در ساخت الگو دو رویکرد را می‌توان مورد توجه قرار داد: 1)رویکرد از بالا به پایین، که در آن ابتدا الگوهای کلی ساخته شده و سپس به تدریج خاص تر می‌شوند تا خطاها کمتر شود2)رویکرد پایین به بالا، که در آن ابتدا الگوهای خاص ساخته شده و سپس به تدریج با یکدیگر ترکیب می‌شوند تا تعداد الگوها کاهش یابد یا اینکه الگوهای عام تر ایجاد شوند.
همانگونه که قبلا هم اشاره شد قبل از هر عملی در ایجاد یا تطابق الگو، ابتدا پیش پردازش هایی بر روی متن مورد نظر اجرا شود که این مراحل می‌تواند شامل علامت گذاری، ریشه یابی، تبدیل واژگان به شکل اصلی شان، برچسب گذاری نحوی، تجزیه سطحی و برچسب گذاری معنایی باشد. برخی سیستم های استخراج اطلاعات از دانشنامه یا هستان‌شناسی به منظور استنتاج کلاس های معنایی علایم و نشانه های متنی و همچنین برای تعمیم دادن دو یا تعداد بیشتری از مفاهیم به یک مفهوم وسیع تر، استفاده می‌کنند.


ساخت خودکار الگوهای استخراجی

به دلیل آنکه ساخت دستی الگوهای استخراجی مناسب، کاری دشوار و زمان بر است، نیاز هست تا ساخت الگو به طور خودکار یا با استفاده از کمک ماشین صورت گیرد. محققان موفق شدند تا روش های موثری برای خودکارسازی ساخت الگوها ایجاد کنند. به منظور اجرای خودکار ساخت الگوها، نیاز است تا سیستم بتواند از روش های اکتشافی خوش تعریف برای: ساخت الگوهای اولیه، عمومی سازی و خاص سازی الگوها بر اساس نمونه‌های مثبت و منفی، انتخاب یکی از شیوه های عمومی سازی یا خاص سازی براساس شرایط و تصمیم گیری در مورد ترتیب به کارگیری شیوه ها، استفاده کند.
یادگیری الگوها برای استخراج اطلاعات از سندهای ساخت یافته همانند استقراء پوشا صفحات وب نامیده می‌شود. بطور کلی پوشاننده در داده کاوی، برنامه ای است برای استخراج محتوای یک منبع اطلاعاتی خاص و ترجمه آن به شکل رابطه ای. برخی از این سیستم های مشهور استخراج الگو عبارتند از IEPAD ، PALKA ، AutoSlog ، CRYSTAL ، WHISK ،XWRAP ، OXPath که توسعه ای بر XPath است و زبانی برای استخراج الگوهای داده ای در مقیاس بزرگ است [151]،RAPIER ، DEiXTo ، Textrous!که یک مورد کاربرد بیوانفورماتیک با استخراج مفاهیم و روابط معنایی از مجموعه سندهای علمی مرتبط با بهره گیری از روش آنالیز معنایی پنهان است ، PIMiner که یک سیستم استخراج روابط بین برهم کنشهای پروتئینی است که بصورت برخط است و قادر به پردازش نزدیک به 50 هزار خلاصه مقاله در همین موضوع در کمتر از 7 دقیقه است و یا موارد دیگر که از شبکه واژگان برای استخراج روابط و بازیابی اطلاعات استفاده می‌کنند نام برد.

متن کاوی برای روابط معنایی

متن کاوی برای روابط معنایی با استخراج روابط جدید و ناآشکار بین موجودیت های مفهومی مختلف از یک مجموعه‌ی بزرگ داده های متنی سر و کار دارد. با وجود اینکه برخی روابط معنایی را می‌توان با استفاده از ساختارهای نحوی خوش تعریف، به وضوح بیان نمود، سایر روابط معنایی را نمی‌توان، و فقط یک توالی چند مرحله ای مبتنی بر استدلال از آنالیز معنایی مجموعه‌ی متنی می‌تواند آنها را استخراج کند. اکثریت سیستم های استخراج معنا از یک منبع دانش محیط کاربرد موجود (مثلا اطلاعات معنایی) و همچنین از کلمات نشانه و برچسب های نحوی مهیا شده توسط تجزیه کننده‌ی نحوی، بهره می‌گیرند.
رویکردهای متعددی برای استخراج معنایی خودکار از متن نوشتجات ارایه شده است. گیرجو و همکارانش بر اکتشاف روابط معنایی، به خصوص روابط جزء-کل در متن کار کردند. آنها از ویژگی های معنایی و نحوی غنی استفاده کردند تا روابط مفید و ناآشکارا در متن را کشف کنند. الگوریتم یادگیری درخت تصمیم گیری C4.5 برای یادگیری محدودیت های معنایی به منظور شناسایی روابط جزء-کل استفاده شد، در حالیکه WordNet به عنوان اساس دانش محیط کاربرد به کار می‌رفت تا مفاهیم هدف را شناسایی و ابهام زدایی کند ( به طور مثال اجزای جزء و کل). گیرجو همچنین در پایان نامه دکتری خود در مورد استخراج روابط عِلّی تحقیق کرد. سیستم Artequakt قادر است تا به طور خودکار اطلاعات مرتبط با هنرمندان را از وب استخراج کرده، یک پایگاه دانش را ایجاد کرده و از آن به منظور تولید بیوگرافی شخصی استفاده نماید. سیستم Artequakt پیوندی است بین ابزار استخراج دانش با هستان‌شناسی به منظور شناسایی روابط موجودیت ها که از اعلان های روابط هستان‌شناسی استفاده می‌نماید، به طور مثال "{شخص}-- مکان تولد-- {مکان}، که در آن {شخص} و {مکان} مفاهیم هستند و "مکان تولد" رابطه‌ی معنایی بین آنهاست. دایویک شیوه ای برای استنتاج روابط معنایی WordNet با استفاده از داده های استخراج شده از نوشتجات انگلیسی-نروژی تحقیق کرد که مشتمل بر حدود 2.6 ملیون واژگان بود. این شیوه بر پایه‌ی این فرضیه بود که که واژگانِ از لحاظ معنایی بسیار مرتبط با یکدیگر، مجموعه ترجمه های قویا همپوشان دارند و واژگان با گستره‌ی وسیع معنایی دارای تعداد بیشتری ترجمه نسبت به واژگان با معانی کمتر هستند. در پیاده سازی واژگان با مجموعه‌ی ترجمه هاشان از محتوی متنی به عنوان ورودی دریافت و چیزی همانند دانش‌نامه شامل مجموعه معانی، مترادف ها، هایپرونیم ها و هیپونیم ها برمیگرداند. کالزولاری و همکارش به کسب اطلاعات معنایی از لغت نامه های دارای قابلیت خوانده شدن توسط ماشین توجه کردند که در آنها اطلاعات معنایی به طور ضمنی موجود است. هدف آنها شکل دهی مجدد به تعاریف متن آزاد در فرم زبان طبیعی به شکل ساختار اطلاعاتی هم ارز و معادل در یک پایگاه دانش لغوی بود.
در حوزه پزشکی، برچسب گذاری معنایی که از دانش دامنه استفاده می‌کند، در جهت متن کاوی موثر، اهمیت بالایی دارد. بسیاری از مطالعات از سیستم UMLS (سیستم زبان یکپارچه پزشکی) به عنوان پایه‌ی دانش دامنه استفاده می‌کنند. بِلِیک و همکارش در مورد روابط معنایی بین مفاهیم پزشکی در میان متون پزشکی کنکاش کردند. آنها به منظور کاهش تعداد ویژگی های داده کاوی، واژه های موجود در متن را به مفاهیم موجود در سیستم UMLS نگاشت دادند. آنها بر روی درمان سرطان سینه با استفاده از قاعده کاوی تمرکز کردند تا زوج مفاهیم مرتبط مانند «منیزیم- میگرن» را بیابند. تلاش ایشان به طور خاص به کاوش برای یافت وجود روابط بین مفاهیم پزشکی متمرکز بود (بعبارتی یافت زوج مفاهیم مرتبط در درمان سرطان سینه) تا تعیین روابط معنایی مشخص برای زوج مفاهیم مرتبط. لی و همکارانش با انجام یک سری آزمایشات کوچک با استفاده از نمونه‌ی چکیده های پزشکی MEDLINE زوج مفاهیم مرتبط در درمان سرطان روده‌ی بزرگ را شناسایی کردند [166]. سپس روابط معنایی بین مفاهیم هر زوج، با استفاده از شبکه‌ی معنایی سیستم UMLS استنتاج می‌شوند. در 68% موارد، استنتاج روابط معنایی بین مفاهیم از شبکه‌ی معنایی سیستم UMLS به طور خودکار صورت گرفت، هر چند که این شیوه نتوانست تمایز بین تعداد کمی از روابط قائل شود. پروژه‌ی ارائه‌ی دانش معنایی (SKR ) در کتابخانه‌ی ملی پزشکی موفق به توسعه‌ی برنامه ای برای استخراج اطلاعات معنایی قابل استفاده از میان متون بیوپزشکی شد. دو برنامه‌ی MetaMap و SemRep دو جزء اصلی برای استخراج اطلاعات معنایی هستند. MetaMap، عبارات اسمی در متن های آزاد را به مفاهیم در اَبردانشنامه‌ی UMLS نگاشت می‌دهد، در حالیکه SemRep با استفاده از شبکه‌ی معنایی در UMLS روابط احتمالی بین آن مفاهیم را استنتاج می‌نماید. عبارت ورودی «فرسایش غده هیپوفیز» را در نظر گرفته؛ روش SemRep به دنبال قوانین معنایی است (بعبارت دیگر استخراج الگو)، که نشان می‌دهد حرف اضافه «of» با رابطه شبکه‌ی معنایی «موقعیت-location_of» تطابق دارد، و همچنین خاطرنشان می‌کند که یکی از روابط در شبکه‌ی معنایی با این گزاره به صورت:{بخشی از بدن، عضو، یا جزئی از عضو –در موقعیت- روش درمانی یا پیشگیرانه} می‌باشد. مفهوم یافت شده توسط MetaMap در ابردانشنامه برای «فرسایش»، «برداشت» است. نوع معنایی این مفهوم عبارت است از روش درمانی یا پیشگیرانه؛ در حالیکه نوع برای «غده‌ی هیپوفیز» عبارت است از بخشی از بدن یا عضو. به دلیل آنکه این نوع معنایی تطابق با رابطه‌ی پیدا شده توسط حرف اضافه «of» (در مکان) مطابقت دارد، {غده‌ی هیپوفیز – در مکان – برداشت} به عنوان یک رابطه‌ی معنایی جدید استخراج می‌شود.
سرینیواسان و همکارش با استفاده از SemRep و ترکیب آن با شاخص MeSH واژگان را نمایه سازی نمود تا روابط معنایی بالقوه را در مجموعه های بزرگ چکیده های MEDLINE بیابند. ریدفلش و همکارانش به ساخت ARBITER (ارزیابی و بازیابی اصطلاحات متصل شونده) مبادرت نمودند، درحالیکه از UMLS بعنوان دامنه‌ی دانش استفاده کردند و بر نشانه هایِ نحوی (چون اتصال فعل منفرد) استوار بود که توسط تجزیه کننده‌ی نحوی فراهم شده بود به منظور شناسایی و استخراج روابط معنایی اتصال مولکولی از رکوردهای MEDLINE [169] . رینفلش و همکارانش همچنین یک نرم افزار پردازش زبان طبیعی با نام SemGen، برای شناسایی و استخراج روابط علّی و معلولی بین بیماری ها و پدیده های ژنتیکی از رکوردهای MEDLINE ارایه دادند. آنها با استفاده از جملات نمونه، موفق به دستیابی به دقت 76 درصدی شدند.

ساخت خودکار چارچوب های حالت

در ایجاد خودکار چارچوب های حالت با استفاده از متن کاوی از آمار های رخداد همزمان استفاده می‌شود. این فرآیند سه مرحله‌ی اصلی دارد:
• ایجاد «چارچوب های زیرطبقه بندی»، بعبارت دیگر شناسایی ترکیبی از سازنده های نحوی یا نشان وندهای مورد انتظار فعل
• شناسایی محدودیت های انتخابی برای هر جزء نحوی به عنوان مثال، چه کلاس معنایی از اسم ها می‌توانند مفعول مستقیمی برای فعل باشند
• اختصاص دادن یک نقش حالت به هر جزء نحوی
به طور معمول، محاسبات آماری که از مجموعه‌ی متن استخراج می‌شود، اولین قدم در یافت واژگان/عبارات و نوع واژگان/عباراتی است که گرایش به رخداد همزمان با هر فعل را دارند. لذا برخی پیش پردازش های نحوی مانند برچسب گذاری نقش نحوی (ادات سخن) در ابتدا اجرا می‌شوند. ارتباط بین افعال و نوع هم وقوعی سازنده های نحوی می‌تواند به منظور ساخت چارچوب های زیرطبقه بندی استفاده شود. سر اسم های سازنده عبارات می‌توانند به یک کلاس معنایی تعمیم سازی شوند تا بتوان از آنها برای شناسایی محدودیت های انتخابی استفاده کرد. این تعمیم سازی معنایی با کمک دانشنامه یا هستان‌شناسی انجام می‌پذیرد. اگر دانشنامه در دسترس نباشد، اسم های موجود در مجموعه‌ی متن را می‌توان بر اساس متنی که تمایل به ظهور در آن وجود دارد، خوشه بندی کرد. به طور مثال، خوشه های اسمی که تمایل به هم وقوعی به شکل مفعول مستقیم در افعال یکسان ظاهر شوند، می‌توانند تعیین شوند. خوشه های اسمی را می‌توان به عنوان کلاس معنایی پذیرفت و یا بعنوان اندازه گیری شباهت بین اسم ها مورد استفاده قرار گیرد که محدودیت های انتخابی را تعمیم دهند.
انتساب خودکار برچسب های نقش های حالت به چارچوب درگاههای حالت بسیار دشوار است. خوشه سازی افعال موجود در متن نیز می‌تواند به منظور تعیین مجموعه افعال که تمایل به رخداد همزمان با اسامی یکسان را دارند، انجام شود. این کار کمک می‌کند تا خوشه هایی از افعال با معانی مشابه تعیین شوند که کمکی خواهد بود برای شناسایی نقش های معنایی منتسب شده توسط افعال. رویکرد قابل توجه دیگر استفاده از یک شیوه‌ی یادگیری ماشین به منظور یادگیری ویژگی های ترکیبات اسم-فعل برای هر نقش حالت است. ترکیبات اسم- فعل جدید، می‌توانند برچسب نقش حالت را بر اساس تشابه با ترکیبات اسم-فعل اولیه برای هر نقش حالت معین نمایند. وانر از این روش برای استخراج با هم گذاری های اسم-فعل ازمتن، و طبقه بندی آنها به یک یا بیش از 20 تابع واژگانی استفاده نمود. یک مرکز به ازاء هر تابع واژگانی با استفاده از نمونه های یادگیری فعل-اسم برای هر تابع واژگانی و مفهوم کلاسها در EuroWordNet به عنوان ویژگی ها، محاسبه می‌شود.

چند نمونه از کاربردهای روابط معنایی

روابط معنایی در بازیابی اطلاعات

تا چندی قبل، تحقیقات و توسعه در بازیابی اطلاعات، بر تطابق واژه و مفهوم متمرکز بود. با این حال، برخی از محققان، امکان استفاده از روابط معنایی به منظور افزایش فراخوانی و دقت را مورد توجه قرار دادند. افزایش فراخوانی—افزایش تعداد متون بازیابی شده‌ی مرتبط—معمولا از طریق گسترش پرس و جو و یا به بیان دیگر با اضافه کردن واژگان جایگزین به پرس وجو، حاصل می‌شود. به طور معمول، روابط جانشینی ، مخصوصا مترادف ها برای گسترش پرس و جو استفاده می‌شوند، هرچند که می‌توان از روابط همنشینی نیز استفاده نمود. واژگانی که از لحاظ معنایی به هر واژه‌ی پرس و جو مرتبطند، با استفاده از عملگر انفصال بولین «OR»، به پرس و جوی جستجو اضافه می‌شوند.
افزایش دقت—یعنی کاهش میزان بازیابی متون غیر مرتبط—از طریق انطباق روابط حاصل می‌شود. این کار شامل تعیین معیارهای افزوده در بازیابی است، به بیان دیگر متون بازیابی شده نه تنها بایستی شامل واژه ها/مفاهیم مشخص شده در پرس و جو باشند، بلکه باید بیان دارنده روابط یکسان بین مفاهیم توصیف شده در پرس و جو باشند. این روابط که به یک معنا هستند با استفاده از عملگر اتصال بولین «AND » به جستجو اضافه می‌شوند. به طور معمول از روابط همنشیینی در تطابق رابطه استفاده می‌شود.
نوع دقیق تر بازیابی اطلاعات به شکل پرسش/ پاسخ است- یعنی پاسخ دادن به سوال کاربر با استفاده از حقایق یا عبارات متنی استخراج شده از اسناد. این کار مستلزم شناسایی روابط معنایی خاص بین مفاهیم متن و مفاهیم در سوال کاربر است. رابطه‌ی معنایی مناسب برای تشخیص پاسخ های بالقوه در متن با توجه به نوع سوال تعیین می‌شود (به طور مثال سوالات تعریفی، سوالات فهرستی و غیره).
خلاصه سازی خودکار متن مهمترین اطلاعات را از یک متن یا مجموعه ای از متون استخراج می‌کند و سپس می‌توان نسخه‌ی خلاصه شده برای یک کاربر خاص یا وظیفه خاص را تولید کرد. این امر به کاربرکمک می‌کند تا با نگاه مختصری به مجموعه‌ی بازیابی شده بتواند میزان مرتبط بودن و مفید بودن پاسخ را تعیین کند. روابط معنایی برای تشخیص مفاهیم وعبارات مرتبطی که در متن بصورت خلاصه بیان شده اند بسیار مورد استفاده است؛ همچنین برای تجزیه و تحلیل ساختار گفتمانی متن که بعدها می‌تواند به شناسایی مفاهیم مرکزی در متن کمک نماید، مفید واقع شود.
خلاصه سازی چند سنده می‌تواند: نمای کلی از مجموعه‌ی اسناد را فراهم آورد، اطلاعات مشترک بین متون را مورد اشاره قرار دهد، اطلاعات منحصر به هر متن و اظهارات متناقض موجود در مجموعه را نمایان سازد. روابط معنایی بین مفاهیم و اظهارات میان متون برای خلاصه سازی چند سنده مفید هستند.

روابط معنایی در توسعه پرش و جو

گسترش پرس و جو با اصطلاحات مرتبط، در بهبود فراخوان در بازیابی اطلاعات بسیار تاثیرگزار است، همانطور که در افزایش دقت در بازیابی اطلاعات موثر خواهد بود. اصطلاحات(واژگان) مرتبط را می‌توان از ساختار دانش مانند یک دانشنامه، یک طبقه بندی، یک شبکه‌ی معنایی، یا یک هستان‌شناسی و یا لیست غیر رسمی اصطلاحات وابسته انتخاب کرد.
همانطور که اشاره شد، ساختارهای دانش همانند اصطلاح نامه و هستان‌شناسی ها تنها بین تعداد کمی از انواع روابط معنایی تمایز قائلند، از جمله: رابطه ترادف، رابطه‌ی سلسله مراتبی (هست-یک و جزء-کل) و رابطه‌ی انجمنی (اصطلاحات مرتبط). چنین ساختارهای دانشی معمولا به طور دستی یا گاها به طور نیمه خودکار ساخته می‌شوند. از سوی دیگر، فهرست غیر رسمی اصطلاحات وابسته غالبا با استفاده از تجزیه و تحلیل پیکره و آمارهای هم وقوعی ساخته می‌شوند (دو اصطلاح در صورتی با یکدیگر وابسته هستند که در یک متن یکسان به طور همزمان رخ دهدند یا اینکه رخداد همزمان آنها در یک متن چیزی بیش تر از تصادف باشد). بسط پرس و جو می‌تواند به صورت خودکار و بدون دخالت کاربر و یا به طور دستی و با استفاده از انتخاب اصطلاحات مرتبط از دانشنامه صورت گیرد. مفید بودن توسعه پرس و جو به عوامل متعددی بستگی دارد از جمله: اندازه و نوع مجموعه‌ی متون، اینکه آیا جستجو به صورت «متن آزاد» انجام می‌گیرد یا در یک زمینه‌ی شاخص گذاری شده با استفاده از واژگان کنترل شده ، اینکه آیا اصطلاحنامه عمومی است یا در حوزه‌ی خاص، و اینکه آیا سیستم دودویی است یا سیستم جستجوی بهترین- تطابق، و غیره. اکثر مطالعات در مقیاس بزرگ، بر روی پیکرهTREC و با استفاده از سیستم بهترین-تطابق مستقل از متن و بسط پرس و جوی خودکار، اجرا شده اند. اما توسعه پرس و جوی دستی در یک سیستم جستجوی دودویی، با جستجوی واژگان کنترلی و استفاده از اصطلاح نامه مرتبط با دامنه-خاص، توسط نسل کتابداران انجام شده است.

بسط پرس و جو با استفاده از اصطلاحات وابسته

بسط پرس و جو خودکار با بهره گیری از اصطلاحاتِ وابسته حاصل از پیکره با استفاده از آمارهای هم وقوعی نتایج مناسبی بهمراه نداشت. به گونه ای که حتی اسپارک جونز حتی با کاهش کارآیی در بازیابی مواجه شد. پیت و همکارش در تحقیقاتشان نشان داند که تاثیر اصطلاحاتِ وابسته محدود است، چراکه بنظر می‌آید اصطلاحات مشابه شناسایی شده توسط داده های هم وقوع متناوبا در پایگاه داده رخ می‌دهند و اصلاحات با رخداد فراوان در اعمال تمایز بین اسناد مرتبط و غیر مرتبط بسیار ضعیف عمل می‌کنند.
چن و همکارش برای ساخت فهرست اصطلاحاتِ وابسته، « الگوریتم خوشه‌ای» و سنجش وابستگی متفاوتی را ارائه دادند. کار آنها دقیقا بر روی بسط پرس و جوی خودکار نبود زیرا فایل اصطلاحاتِ وابسته آنها بمنظور نمایش اصطلاحاتِ مرتبط برای انتخاب توسط کاربر مورد استفاده قرار گرفت. اما به هر حال، آنها نشان دادند که یک الگوریتم هم وقوعی کلمه می‌تواند واژگانی را که به لحاظ معنایی مرتبطند را ایجاد نماید.
گرفنس از اصطلاحاتِ وابسته مرتبه دوم استفاده نمود، بدان معنا که ایشان دو اصطلاح را مرتبط می‌دانست در صورتیکه هر کدامشان تمایل به هم وقوعی با یک اصطلاحِ سومی با رابطه‌ی نحوی مشابه را داشته باشند. گرفنس توانست اندک بهبودی در کارایی بازیابی در مجموعه اسناد چکیده پزشکی بدست آورد.
پژوهشگران حوزه بازیابی اطلاعات که در سلسله کنفرانس های TREC شرکت می‌کردند، آزمایشاتی در مقیاس های بزرگ انجام دادند تا سودمندی توسعه پرس و جو برای جستجوی متنِ کامل در مجموعه اسناد ناهمگن بزرگ را با استفاده از بررسی سیستم های بازیابی اطلاعات بهترین-تطابق کسب نمایند. محققان از آزمایشات TREC آموختند که موثرترین شیوه گسترش پرس و جو با استفاده از اصطلاحاتِ وابسته، بازخورد شبه-ارتباط می‌باشد(که بازخورد کور یا محلی نیز نامیده می‌شود) که شامل استفاده از پرس و جوی اصلی (اولیه) برای بازیابی فهرست رتبه بندی اولیه‌ای از اسناد است. واژگان در متون رده‌بالا به نوعی وزن دهی شده و به پرس و جوی اصلی اضافه می‌شوند، سپس فرآیند بازیابی با این پرس و جوی بسط یافته ادامه می‌یابد. با این شیوه، واژگان اضافه شده با کل پرس و جو مرتبطند تا تنها به واژگان تکی در پرس‌و‌جو.
برخی تحقیقات بر انتخاب واژه ها و متون متمرکز شده اند. غالبا، تنها کلمات با رخداد بالا مورد استفاده قرار می‌گیرند. باکلی و همکارانش از اسناد اولیه با رتبه-بالا، دسته های از متون را که با مفاهیم پرس و جو های مختلف متناظر بودند را شناسایی نمودند و سپس واژگان با رخداد بالا را از هر دسته انتخاب نمودند و آنها را تا حدودی وزن گذاری کردند. زو و همکارش، به منظور افزایش دقت بازخورد شبه‌ارتباط، به جای کل اسناد، فهرست رتبه بندی از عبارات منتخب را بازیابی کردند. ایشان در مطالعه‌ی بعدی از معیاری دیگر را استفاده نمودند: واژگانِ انتخابی از عبارات ِمنتخب رده‌بالا بایستی با واژگانِ پرس و جو در آن عبارات هم وقوع باشند و البته واژگانی که با تعداد بیستری از واژگان پرس و جو هم وقوعند، اَرجح ترند. می‌توان با اندک جسارتی بیان داشت که با در نظر گرفتن رابطه‌ی معنایی بین اصطلاحاتِ وابسته در عبارات/پاراگرافهایِ رده-بالا و واژگانِ پرس و جویِ یافت شده در این اسناد، نتایج نسبتا مطلوب تری حاصل می‌شود.

گسترش پرس و جو با استفاده از روابط معنایی- واژگانی

از روابط معنایی-واژگانی به منظور تمایز بین انواع مختلف اصطلاحاتِ وابسته برای استفاده در توسعه پرس و جو می‌توان بهره برد. برخی محققان بررسی نمودند که چه نوع از روابط معنایی برای گسترش پرس و جو مفید خواهند بود.
فاکس از 73 کلاس روابط واژگانی برای گسترش پرس و جو استفاده کرد. کلماتِ واژگانی مرتبط، برای هر پرس و جو به طور دستی تعیین می‌شوند. برخی از این روابط (به طور مثال، روابط بین سگ و پارس کردن، یا شیر و آفریقا) همنشینی و برخی جانشینی هستند. با استفاده از SMART که یک سیستم بازیابی بهترین-تطیبق است وی دریافت که موفق ترین راه بازیابی اطلاعات، استفاده از تمامی رده بندی روابط، به جز رابطه‌ی تضاد است. در پژوهشهای بعدی ونگ و همکارانش از 44 رابطه استفاده کردند، با الگوی وزن دهی متفاوت، استفاده از مجموعه اسناد متفاوت و همچنین ساخت یک اصطلاحنامه‌یِ رابطه ای کردند- که بطور واضح توسط فاکس انجام نشد. نتایج حاصل با نتایج تحقیقات فاکس قابل قیاس بود و نشان داد که رابطه‌ی ترادف و رابطه‌ی والد-فرزندی(گسترده‌تر-محدود) ، تنها روابطی نیستند که می‌توان در توسعه پرس و جو بکار برد.
رادا و همکارش با استفاده از پایگاه داده‌ی MEDLINE و MeSH دریافتند که بسط پرس و جوی خودکار با استفاده از روابط واژگان گسترده-محدود و همچنین روابط غیر سلسله مراتبی، در صورتیکه روابط معنایی با دقت انتخاب شوند موجب بهبود اثربخشی بازیابی خواهند شد. در مطالعه‌ی دیگری که بر روی پایگاه داده‌ی پزشکی Excerpta و اصطلاحنامه‌ی غنی شده EMTREE انجام پذیرفت رادا و همکارانش دریافتند تنها زمانیکه پرس و جو صراحتا به یک رابطه‌ی غیر سلسله مراتبی اشاره داشته باشد، سیستم بازیابی می‌تواند از یک رابطه‌ی خاص در اصطلاحنامه به منظور افزایش رتبه سند استفاده نماید.
وان و همکارانش از یک اصطلاحنامه‌یِ رابطه ای برای نمایه گذاری خودکار یک سیستم بازیابی اطلاعات چینی استفاده کردند. آنها گزارش دادند که اصطلاحنامه‌ی رابطه ای آنها، که از 11 نوع رابطه‌ی معنایی استفاده می‌کرد موجب افزایش تاثیرگزاری بازیابی به لحاظ متوسط دقت در هر دو نمایه گذاری دستی و خودکار شده است. اما به هر حال، آزمایشات آنها تنها بر روی پایگاه داده‌ی کوچکی و شامل تنها 555 متن خلاصه چینی در حوزه رایانه و علوم اطلاعات بود. با این حال، اصطلاحنامه می‌توانست به طور تعاملی استفاده شود- بدان معنا که کاربران می‌توانستند اصطلاحات را برای توسعه پرس و جو انتخاب نمایند. ابو سالم نیز از یک اصطلاحنامه‌ی رابطه‌ای تعاملی استفاده کرد تا فراخوانی را در سیستم بازیابی عربی بهبود بخشد.
گرینبرگ تاثیر روابط اصطلاحنامه‌ای متعدد را بر روی توسعه پرس و جو با استفاده از واژگان کنترلی ProQuest بر روی پایگاه داده‌ی Inform /ABI بررسی کرد، که در آن جستجو از طریق سیستم بازیابی دودویی صورت پذیرفت. وی دریافت که مترادف ها و واژگان محدودتر، موجب افزایش فراخوانی مرتبط همراه با با کاهش دقت غیرقابل توجهی خواهد شد. این در حالیست که واژگان مرتبط و گسترده تر موجب افزایش فراخوانی مرتبط و کاهش بسیار محسوس دقت می‌شوند.
وُرهیس با استفاده از مجموعه‌ داده های تست TREC-2 و سیستم بازیابی بهترین- انطباق، یک بسط پرس و جو را با انواع گوناگون روابط معنایی کدگذاری شده در WordNet اجرا کرد. حتی در بهترین-حالت که واژگان بسط یافته با دست انتخاب می‌شدند، توسعه پرس و جو نتوانست نتایج بازیابی را برای پرس و جوهای بلند که نسبتا کامل بودند را بهبود بخشد. از سوی دیگر پرس و جو های کوتاه، که شامل یک جمله برای توصیف موضوع مورد علاقه هستند، نتایج قابل توجهی را با بسط دادن به دست آوردند.
ماندالا و همکارانش بسط پرس و جو را با ترکیبی از سه اصطلاحنامه‌ی متفاوت- WordNet، اصطلاحنامه‌ی مبتنی بر هم وقوعی و اصطلاحنامه‌ی مبتنی بر روابط توصیف کننده - انجام دادند. روابط توصیف کننده شامل چهار رابطه‌ی نحوی هستند: روابط فاعل-فعل، فعل-مفعول، صفت-اسم و اسم-اسم. همچنین واژگان بسط یافته بر اساس تشابه شان با تمام واژه های موجود در پرس و جوی اصلی و با تمام واژگان سه اصطلاحنامه وزن دهی می‌شوند. با استفاده از مجموعه‌ی داده های تست TREC-7 ، آنها دریافتند که توسعه پرس و جو با ترکیبی از سه اصطلاحنامه نتایج متوسط دقت بهتری نسبت به زمانی که توسعه داده نمی‌شد یا تنها یک اصطلاحنامه به کار می‌رفت، به همراه داشته است.
کریستنسن و همکارش با کار بر روی سیستم بازیابی اطلاعات دودویی و پایگاه داده‌ی متنِ کامل روزنامه‌ی فنلاندی دریافتند که بسط یک پرس و جو با مترادف ها، با اندکی کاهش در دقت، به طور قابل ملاحظه ای فراخوانی را بهبود خواهد بخشید. وی با آزمودن روابط واژگان گسترده تر(والد)، واژگان محدودتر(فرزند)، واژگان مرتبط و مترادف و نتیجه گیری از اینکه بسط پرس و جوی خودکار از همگی این روابط استفاده می‌کنند، موجب بهبود دو برابری فراخوانی فقط با اندکی کاهش دقت شد. ککالاین و همکارش با استفاده از سیستم بازیابی متن-کامل بهترین-تطابق (INQUERY) و پایگاه داده‌ی روزنامه‌ی فنلاندی، نشان دادند که کارایی بسط پرس و جو به چگونگی ساختار پرس و جو بستگی دارد. بسط پرس و جو با ساختار قوی پرس و جو دارای عملکرد قابل قبولی خواهد بود؛ در حالیکه در پرس و جو ها با ساختار ضعیف آسیب پذیرند.
روشن و مبرهن است که بسط پرس و جو با واژگان مرتبط برای بهبود تاثیر بازیابی اطلاعات تعیین کننده است و اینکه علاوه بر روابط هست-یک و روابط واژگان والد-فرزندی(گسترده‌تر-محدود)، روابط جانشینی نیز در توسعه پرس و جو مفید هستند. نتایج تجربی حاصل، پیشنهاد نمی‌کند که بین انواع مشخص روابط جانشینی به جهت سودمندی تمایز قایل شد. لذا این امکان وجود دارد که انواع مختلف روابط معنایی به منظور بسط پرس و جو های مختلف، مفید واقع شوند.
رادا و همکارانش پیشنهاد دادند که اگر یک رابطه‌ی جانشینی مشخص در پرس وجو اشاره شده باشد، این رابطه در بسط پرس و جو مفید واقع خواهد بود.

تطابق روابط برای افزایش دقت

تطابق روابط در بازیابی اطلاعات می‌تواند توسط روابط معنایی و یا روابط نحوی انجام پذیرد. یک رابطه‌ی نحوی، رابطه‌ی بین دو کلمه است که از ساختار نحوی جمله استخراج می‌شود درحالیکه رابطه‌ی معنایی تنها تا قسمتی به ساختار نحوی جمله وابسته است. چنانکه یک رابطه معنایی می‌تواند در به شکلهای مختلف نحوی توصیف شود، تطابق روابط معنایی شامل تطابق در میان روابط نحوی گوناگون بوده است و می‌تواند تطابق های بیشتری نسبت به تطابق روابط نحوی حاصل کند.
اکثر تحقیقاتِ تطابق رابطه بر روی روابط نحوی متمرکزند. برخی از محققان، اندک بهبود در تاثیر بازیابی را زمانیکه در فرآیند بازیابی، روابط نحوی در اسناد و پرس وجوها مدنظر گرفته شوند را گزارش کرده اند. به نظر می‌رسد نتایج بازیابی حاصل از تطابق رابطه‌ی نحوی در مقایسه با نتایج قابل اکتساب با بهره گیری از عباراتِ شاخصِ تولید شده از روش های آماری- مانند آنچه توسط فیگان شده- بهتر نباشد.
برخی دیگر از محققان، پردازش نحوی برای تولید درخت وابستگی را اعمال نموندند که نشان می‌داد چه واژگانی، واژگانِ دیگر را توصیف (تغییر) می‌دهند و برخی دیگر از این درخت وابستگی برای استخراج روابط بطور مستقیم استفاده نمودند. اسمیت و همکارش دریافتند که رابطه‌ی پیش توصیف کننده (مانند صفت-اسم) نسبت به سایر روابط، اثربخشی بیشتری در بازیابی اطلاعات دارد.
برخی دیگر از محققان اقدام به توسعه‌ی سیستم های بازیابی اطلاعات مفهومی‌کردند که از پردازش زبانی پیچیده و استنتاج مبتنی بر دانش برای استخراج اطلاعات از متن جهت ذخیره در سیستم ارائه‌ی دانش یا نمایش معنا استفاده می‌کردند. نمونه هایی از این سیستم ها، سیستم RIME، سیستم بازیابی حق ثبت و مالکیت ، سیستم SCISOR و سیستم FERRET می‌باشد. بازیابی اطلاعات در این سیستم ها با استفاده از مقایسه‌ی اطلاعات در مخزن با نمایش معنایی پرس و جوی کاربر، انجام می‌شود. این سیستم ها نیازمند دامنه‌ی دانش وسیعی هستند که بیشتر آن در چارچوب های حالت که مشخص کننده‌ی نقش های شرکت کننده در رخدادند، ذخیره شده اند-اینکه چه نوع موجودیت هایی می‌توانند این نقش ها را پر کنند و اینکه هر شرکت کننده در جمله چه توابع نحوی را خواهد داشت. به دلیل آنکه دامنه‌ی دانش می‌بایست به طور دستی ساخته می‌شد، چنین سیستم هایی لزوما به دامنه های کوچک محدود بودند.
پروژه DR-LINK به بررسی روش های کلی استخراج روابط معنایی برای بازیابی اطلاعات با استفاده از نسخه های با قابلیت خواندن توسط ماشین لغت نامه‌ی معاصر انگلیسی لانگمن (نسخه‌ی دوم) و اصطلاحنامه‌ی بین المللی راجت (نسخه‌ی سوم) پرداختند. چارجوب های حالت به طور نیمه دستی برای تمام ورودیهای فعلی و معنایی (مفهومی) در لغت نامه‌ی لانگمن ساخته شد. با این حال، محققان تعداد محدودی تطابق رابطه بین اسناد و پرس و جوها یافتند.
لوُ نیز نتوانست با تطابق روابط حالت، نتایج خوبی بدست آورد. روابط حالت بین کلماتی وجود دارند که در یک عبارت در نزدیکی یکدیگر واقع شوند. روابط معنایی بین واژگانی که در چنین مجاورتی رخ می‌دهند را احتملا بتوان با استفاده از هم وقوعی شان حدس زد؛ شناسایی روابط معنایی صریح محتملا تاثیری در کارآیی بازیابی ندارد.
گِی و همکارش بر شناسایی روابط معنایی بین اجزای اسم های مرکب تمرکز کردند. پایه‌ی دانشی که آنها استفاده کردند شامل چارچوب های حالت و وابستگی های بین موجودیت ها و رخدادها بود. با وجود آنکه سیستم آنها در 76% مواقع اسم های مرکب را به درستی تفسیر می‌کرد، اما به نظر نمی‌آمد که بهبود قابل توجهی در کارایی بازیابی اطلاعات حاصل شود.
لیو در تطابق رابطه‌ی جزئی را بررسی کرد. به جای سعی در تطابق تمام سه تایی مفهوم-رابطه-مفهوم، او هر مفهوم مجزا را با نقش معنایی که آن مفهوم در جمله دارد، تطابق داد. به جای تلاش برای یافت تطابق «کلمه2→ (رابطه)→کلمه 1)» ، سیستم وی تطابق را برای «کلمه2→ (رابطه)» و « (رابطه) →کلمه1» به طور مجزا جستجو می‌کرد. لِیو از نقش های حالت استفاده کرد و توانست نتایج مثبتی برای پرس و جو های بلند به دست آورد (به طور مثال چکیده هایی که به عنوان پرس و جو استفاده می‌شد). خُو و همکارانش یک شیوه‌ی خودکار برای شناسایی روابط عِلّی در متن توسعه داند و تلاش نمودند تا روابط عِلّی در متن را با روابط عِلّی در پرس وجو تطابق دهد. در جمله‌ی یکسان، تطابق رابطه‌ی عِلّی نسبت به تطابق تقریب کلمه، عملکرد بهتری نداشت. تطابق رابطه‌ی عِلّی زمانی بهترین عملکرد را خواهد داشت که یکی از اعضای رابطه‌ی عِلّی (علت یا معلول) به عنوان یک کلمه‌ی جانشین نمایش داده شود، که بتواند با هر کلمه ای تطابق داده شود.
برخی محققین با بررسی تجربیات و آزمایشات TREC، نتیجه گیری نمودند که پردازش ها‌ی پیچیده زبان طبیعی برای بازیابی متنِ-کامل مفید نخواهد بود. آنها بیان می‌دارند که استخراج عبارات نحوی نرمال شده (به طور مثال زوج های توصیف کننده-جزء اصلی) نتایج بهتری نسبت به عبارات آماری تعریف شده توسط تقریب و مجاورت، ندارند. اسپارک جونز اظهار داشت که شواهد کافی در دست ندارند که اصطلاحنامه در ساخت دستی پرس و جو کمک نمایند چراکه عوامل متعدد در این امر دیگری درگیر هستند. وی اعلام می‌دارد که استفاده از اصطلاح‌نامه‌ی‌ ماهرانه ساخت یافته ثابت نشده است که نتایج بهتری نسبت به استفاده از پایگاه داده واژگانِ وابسته داشته باشد.
به طور کلی، استفاده از روابط معنایی خاص برای بسط پرس و جو و تطابق رابطه به نظر نمی‌آید جهت بازیابی سند مفید باشد. شاید بازیابی سند برای اینکه از ظرافت روابط معنایی استفاده نماید، بیش از حد زمخت باشد و همین موضوع آن را برای بازیابی اطلاعات لطیف‌تر مانند پرش و پاسخ، مناسب می‌سازد.

پرسش و پاسخ با اسناد متنِ کامل

فناوری پرسش و پاسخ برپایه‌ی اسناد متنِ کامل هنوز جای رشد دارد. رویکردهای کنونی در TREC بر تطابق واژگان و استخراج عبارات متمرکزند. وُرهیز رویکرد کلی به موضوع پرسش و پاسخ را متشکل از سه مرحله ترسیم نموده است: الف) تعیین نوع پاسخ مورد انتظار از پرسش، ب)بکارگیری شیوه های بازیابی اطلاعات به منظور استخراج متون یا عباراتی که محتملا حاوی پاسخ هستند و ج) اجرای تطابق پالایش شده تر به منظور استخراج پاسخ یا حذف کردن متن غیر مرتبط.
برخی از محققان تکنیک های استخراج اطلاعات همانند تطابق الگو را به منظور استخراج پاسخ نهایی از میان عبارات متنی کوتاه شده، به کار برده اند. پارانج و همکارانش از WordNet برای امتیازدهی عبارات متنی با استفاده از استنتاج بیزی استفاده نمودند و سپس از الگوهای عبارات باقاعده مختلفی به منظور انتخاب بخش های مختلف متن برای سوالات مختلف، استفاده کردند. آراباگو و همکارانش نیز WordNet و استخراج اطلاعات با استفاده از تطابق الگو را بکار بردند. گایزاسکاس و همکارانش نتایج عبارات رده-بالایِ استخراج شده توسط یک سیستم بازیابی اطلاعات را به یک سیستم استخراج اطلاعات دادند که جملات را به فرم گزاره های استدلال منطقی تبدیل می‌کرد.
الگوهای مختلفی به منظور استخراج پاسخ از سوالات گوناگون استفاده شد. لیتُسکی سه تایی مفهوم-رابطه-مفهوم را از هر دو متن و پرسش، استخراج کرد و از تطابق های رابطه ای به عنوان یکی از معیارهای رده بندی جملات استفاده کرد.

روابط معنایی در خلاصه سازی خودکار متن

تاکنون مرورهای کلی مناسبی در زمینه استفاده از انواع مختلف روابط در خلاصه سازی متن، فراهم شده است. خلاصه سازی شامل سه نوع عملیات فشرده سازی است: انتخاب اطلاعات برجسته یا غیر تکراری، گردآوری اطلاعات و کلیت بخشی یا چکیده سازی. هر یک از این عملیاتها از روابط بین واژگان/ مفاهیم و بین عبارات متن استفاده می‌کنند. سه رویکرد اصلی در خلاصه سازی متن شناسایی شده است:
1. رویکرد ویژگیهای سطح رویه، که بر آمارهای فراوانی واژه، موقعیت جمله در یک متن و حضور واژه ای از عنوان یا پرس و جوی کاربر و واژه های نشانه که مشخص کننده‌ی جملات خلاصه سازی یا مفاهیم مهم هستند، تکیه دارد.
2. رویکرد سطح موجودیت، که مدلسازی واژگان/مفاهیم در متن و روابطشان به عنوان یک شبکه‌ی معنایی، روابط بین مفاهیم بر اساس تشابه و مجاورت در متن، هم وقوعی، روابط اصطلاح‌نامه ای، مرجع-مشترک، روابط نحوی و روابط منطقی است.
3. رویکرد سطح گفتمان، که ساختار متن را مدل می‌نماید.
برخی محققان سیستم های استخراج اطلاعات را برای خلاصه سازی متن بکار گرفته اند. برخی دیگر از پردازش زبان طبیعی سطح بالا استفاده کردند تا یک نمایش معنایی از متن ایجاد نموده و سپس با استفاده از استخراج مبتنی بر دانش (مشابه رویکرد استفاده شده در سیستم بازیابی اطلاعات مفهومی)، خلاصه سازی متن را اجرا نمودند. خلاصه سازی متن می‌تواند بر روی یک سند، تحت نام خلاصه سازی تک سنده و یا بر روی مجموعه ای از اسناد، تحت نام خلاصه سازی چند سنده انجام پذیرد.
همانطور که رادُ و همکارانش اشاره داشتند، اکثر سیستم های خلاصه سازی، اقدام به استخراج جمله یا عبارات می‌کنند، یعنی شناسایی جمله یا عبارتی در متن که حاوی اطلاعات مهمی بر پایه‌ی ویژگیهای در سطح رویه باشد. برخی دیگر یک مدل آماری برای نسبت دهی امتیاز احتمالی به هر جمله در متن، بر اساس حضور ویژگی های سطح رویه، ارایه دادند. این مدل بر پایه‌ی مجموعه ای از متون یادگیری ساخته شد که در آن جملات به طور دستی برچسب گذاری شده بودند تا جملات خلاصه‌ی خوب را نشان دهد. شیوه های استخراج عبارات، بر روی خلاصه سازی چند متنی نیز اعمال شده است.
رویکردهای سطح موجودیت که توسط هُوی و همکارش که از WordNet به عنوان اصطلاحنامه استفاده کردند تا واژه ها را عمومیت دهند و همچنین توسط بوگورایو و همکارش که از روابط پیوستگی (شامل منابع مراجع) بین واژه ها استفاده کردند، اتخاذ گردیدند . بارزیلی و همکارش، واژه ها‌ی متن را بر اساس روابط پیوستگی ترادف، هست-یک، تضاد و کل-جزء (عضوِ)، به صورت یک زنجیر لغوی به هم متصل کردند. برخی از روابط واژگانی از WordNet استخراج شده بود. سپس جملات بر اساس زنجیرهای « قوی» و با استفاده از تعدادی روشهای اکتشافی، استخراج شدند.
رویکرد سطح موجودیت در خلاصه سازی چند سنده نیز استفاده شده است. سالتون و همکارانش شبکه ای از پاراگراف های مرتبط را بر پایه‌ی معیارهای شباهت بازیابی اطلاعات، ایجاد نمودند. واحد های متنی که قویا به واحد های متنی دیگر مرتبط بودند، به عنوان کاندیدای برجسته و مناسبی جهت استخراج محسوب می‌شوند. مانی و همکارش، شبکه ای از واژگان و واحدهای متنی را بر پایه‌ی روابط پیوستگی ساختند. از روش انتشار وزن (فعال سازی) بمنظور شناسایی گره های برجسته بر پایه‌ی اتصال و میزان استحکام پیوندها استفاده شده است؛ آنگاه شباهت ها و تفاوت های بین اسناد بر اساس گره های برجسته‌ی هر سند، محاسبه می‌شود.
مارکو یک تجزیه کننده بلاغی برای شناسایی روابط کلامی در متن، به منظور شکل دهی یک درخت ساختار کلامی، که بتواند در شناسایی عبارات مهم استفاده شود را ایجاد نمود. هر رابطه‌ی کلامی دو بخش متنی را متصل می‌کند- بخشی از متن را که میتوان همچون گره هسته و مرکزی در نظرگرفت و نمایش دهنده‌ی اطلاعات اصلی و محوری هستند و بخش متنی دیگر را مانند گره‌ فرعی در نظر گرفت که نمایش دهنده‌ی اطلاعات سطح پایین ترند است. امتیازاتی برای گره های درخت کلامی محاسبه شده و در استخراج عبارات یا جملات متناظر از خلاصه ها استفاده می‌شود.
تافل و همکارش از ساختار متنی سطح بالا استفاده نمودند؛آنها بر قسمت هایی از متن تمرکز کردند که به آن ساختار استدلالی متن نامیده می‌شد. بخش های اسناد همچنین توسط «روابط کلامی عام» مشخص شدند-روابطی از قسمت متن با توجه به محتوای کل متن. آنها از نقش های زیر استفاده کردند: پیش زمینه، عنوان، کارهای مرتبط، هدف/مساله، راه حل/روش، نتیجه و نتیجه گیری/ادعا. همچنین چکیده‌ی تولید شده توسط آنها از این قالب استدلالی استفاده کرد و جملات از قسمت سندِ متناظر انتخاب شدند تا قالب چکیده را تکمیل نمایند.
استرالوسکی و همکارانش از یک ساختار گفتمانی از خلاصه های اخبار برای ادغام اطلاعات مرتبط با پرس و جو با اطلاعاتِ مرتبط ولی «خارج-از-متن» استفاده نمودند. آنها برای شناسایی این اطلاعات خارج از متن، از روابط اخبار اصلی پس زمینه استفاده کردند.
رادو تئوری ساختار بین-سندی را معرفی نمود که از آن به منظور توصیفِ ساختارِ کلامی مجموعه متونِ مرتبط می‌توان استفاده کرد [244]. تئوری ساختار بین-سندی، از گراف چند سنده برای نمایش سطوح مختلف متن ( کلمات، عبارات، جملات، پاراگراف و متن) به طور همزمان استفاده نمود؛ که شامل پیوندهایی است برای نمایش روابط معنایی بین سندی موجود در میان واحد های متنی، همانند هم ارزی، بین-مرجعی، تضاد و پیش زمینه‌ی تاریخی. بر اساس نیاز کاربر و با نگاه داشتن برخی یال ها و حذف برخی دیگر، خلاصه های گوناگونی را می‌توان تولید کرد.
تکنیکهای استخراج اطلاعات در خلاصه سازی متن نیز مورد استفاده قرار گرفتند. سیستم SUMMONS از استخراج اطلاعات برای خلاصه سازی چند سنده استفاده می‌نماید، ابتدائا اطلاعات از هر متن جهت پُر کردن قالب استخراج می‌شوند.
سیستم RIPTIDES نیز از یک سیستم استخراج اطلاعات برای پرکردن قالب ها به منظور خلاصه سازی در یک دامنه‌ی بلایای طبیعی، استفاده می‌کرد. اطلاعات مرتبط بالقوه‌ی اضافی که در قالب یافت نمی‌شوند نیز از جملات انتخابی استخراج می‌شوند و به خلاصه اضافه می‌شود تا خروجی مطلوب حاصل شود.
رویکردهای مبتنی بر دانش برای خلاصه سازی که از نمایش معنایی متن استفاده می‌کنند توسط سیستم‌های SUSY، SCISOR و TOPIC به کار گرفته شدند.
سیستم TOPIC متن را به یک الگوی نمایش منطقی وابسته به مجموعه اصطلاحات تبدیل می‌نماید. با این شیوه نمایش، «عملگرهای مناسب» مفاهیم، روابط و ویژگی ها را استخراج می‌نماید و با ترکیب یک گراف متنی سلسه مراتبی روابط گفتمانی و مفهومی‌ را وارد می‌نماید.

مهندسی هستان‌شناسی

در این بخش برخی از مسائل مربوط به روش‌شناختی که در ایجاد هستان‌شناسی‌ها، بخصوص تولید دستی آنها، استفاده مجدد از هستان‌شناسی‌ها، و استفاده از روش‌های نیمه‌خودکار مطرح می‌شوند را به اختصار مورد بحث قرار می‌دهیم.

ساخت هستان‌‌شناسی به روش دستی

در اینجا، برای بحث درباره ایجاد دستی هستان‌‌شناسی‌‌ها، به‌‌طور عمده از کار Noy و McGuinness پیروی می‌‌کنیم. مراحل اصلی در فرآیند توسعه هستان‌‌شناسی را می-توانیم بدین ترتیب برشماریم:
1. تشخیص حوزه
2. درنظر گرفتن استفاده مجدد
3. برشمردن لغات
4. تعریف طبقه‌‌بندی
5. تعریف خصیصه‌‌ها
6. تعریف جنبه‌‌ها
7. تعریف نمونه‌‌ها
8. بررسی و تشخیص عیب‌‌ها
مثل هر فرآیند توسعه دیگر، فرآیند توسعه هستان‌‌شناسی‌‌ها نیز در عمل، یک فرآیند کاملا خطی نیست. لازم است این مراحل بطور متناوب مورد اجرا قرار گیرند، و ممکن است در هر مرحله‌‌ای نیاز به "بازگشت به عقب" داشته باشیم. در اینجا به بحث مدیریت پیچیده این فرایند نمی‌پردازیم. در عوض، هر یک از مراحل را بطور مجزا مورد بحث قرار می‌‌دهیم.

تشخیص حوزه

توسعه یک هستان‌‌شناسی برای یک حوزه، به‌‌خودی خود هدف نمی‌‌باشد. این عمل، نیازمند تعریف مجموعه‌‌ای از داده‌‌ها و ساختارهای آنها برای استفاده برنامه‌‌های دیگر می‌‌باشد. به بیان دیگر، یک هستان‌‌شناسی مدلی از یک حوزه خاص است که برای هدف خاصی ساخته شده است. در نتیجه، چیزی بعنوان یک هستان‌‌شناسی درست برای یک حوزه خاص وجود ندارد. یک هستان‌‌شناسی ضرورتا یک مدل انتزاعی از یک حوزه خاص می‌‌باشد، و همواره جایگزین‌‌هایی برای این مدل انتزاعی وجود دارد. اینکه چه چیزی در این مدل قرار می‌‌گیرد باید با توجه به اینکه این هستان‌‌شناسی برای چه کاربردی ایجاد می‌‌شود، و اینکه چه تغییراتی برای آینده پیش‌‌بینی می‌‌شود مشخص گردد. پرسش‌‌های اساسی که در این مرحله باید پاسخ داده شود عبارتند از: این هستان‌‌شناسی چه حوزه‌‌ای را پوشش می‌‌دهد؟ برای چه هدفی مورد استفاده قرار خواهد گرفت؟ قرار است چه نیازها، و چه نوع پرسش‌‌هایی را پاسخ دهد؟ چه کسی از آن استفاده، و چه کسی آن را نگهداری خواهد کرد؟

درنظر گرفتن استفاده مجدد

با رواج هرچه بیشتر وب معنایی، هستان‌‌شناسی‌‌ها بیش از پیش در دسترس قرار خواهند گرفت. در حال حاضر بندرت لازم است که تعریف یک هستان‌‌شناسی را کاملا از ابتدا شروع کنیم. تقریبا همیشه یک هستان‌‌شناسی که توسط دیگران توسعه داده شده وجود دارد که می‌‌توان از آن بعنوان نقطه شروع در ایجاد هستان‌‌شناسی مورد نظر خود استفاده کرد.

برشمردن لغات

یکی از اولین گام‌‌ها در تعریف واقعی یک هستان‌‌شناسی، گردآوری یک لیست بدون ساختار، شامل تمام لغات و عبارات مرتبط که انتظار می‌‌رود در هستان‌‌شناسی مورد نظر ظاهر گردد، می-باشد. معمولا اسم‌‌های موجود در این لیست، مبنای نامگذاری کلاس‌‌های هستان‌‌شناسی قرار می-گیرند و فعل‌‌ها یا عبارت‌‌های فعلی موجود نیز برای نامگذاری خصیصه‌‌ها استفاده می‌‌شوند (بعنوان مثال: is part of و has component)
ابزارهای سنتی مهندسی دانش نظیر تحلیل شبکه‌‌ای می‌‌توانند بطور مؤثری، هم برای بدست آوردن مجموعه لغات، و هم برای ایجاد ساختار اولیه این لغات، استفاده شوند.

تعریف طبقه‌‌بندی

پس از تشخیص لغات مرتبط، این لغات باید در یک طبقه‌‌بندی سلسله‌‌مراتبی سازماندهی شوند. درباب اینکه آیا این سازماندهی باید به روش بالا به پایین، یا پایین به بالا انجام شود، دیدگاه‌‌های متفاوتی وجود دارد. بهرحال کسب اطمینان از اینکه سلسله‌‌مراتب حاصل، یک ساختار طبقه‌‌بندی مبتنی بر مفاهیم کلاس، ابرکلاس و زیرکلاس‌‌ها می‌‌باشد مهم است. به بیان دیگر، اگر A یک زیرکلاس از B باشد، آنگاه هر نمونه از A باید یک نمونه از B نیز باشد. فقط بدین ترتیب می‌‌توان مطمئن شد که معنای اجزای پایه‌‌ هستان‌‌شناسی‌‌ها، نظیر owl:subClassOf و rdfs:subClassOf، بدرستی درنظر گرفته شده است.

تعریف خصیصه‌‌ها

این مرحله معمولا در حین اجرای مرحله قبل انجام می‌‌شود. طبیعی است که سازماندهی خصیصه‌‌هایی که کلاسها را به هم مرتبط می‌‌کنند، در همان زمان که این کلاس‌‌ها را در قالب یک سلسله‌‌مراتب سازماندهی می‌‌نماییم، انجام شود. به یاد داشته باشید که معنای رابطه subClassOf مستلزم آن است که هرگاه A یک زیرکلاس B است، هر عبارتی که درباره خصیصه‌‌های نمونه‌‌های B صادق است، باید درباره نمونه‌‌های A نیز برقرار باشد. بواسطه این رابطه وراثت، منطقی است که هر خصیصه‌‌، به بالاترین کلاس موجود در سلسله‌‌مراتب کلاس‌‌ها که دارای آن خصیصه است الصاق گردد.
در ضمن الصاق خصیصه‌‌ها به کلاس‌‌ها، خوب است دامنه و برد هریک از خصیصه‌‌ها نیز اعلان شود. در اینجا از دیدگاه روش‌‌شناختی، تنشی بین "عام بودن" و "خاص بودن" وجود دارد. از یک سو، مطلوب است که دامنه و برد خصیصه‌‌ها را تا حد امکان عام و کلی تعریف نمود تا این خصیصه‌‌ها، از طریق وراثت، توسط زیرکلاس‌‌ها استفاده شوند. از سوی دیگر، می‌‌توان دامنه و برد را تا حد امکان خاص و محدود تعریف کرد تا بتوان ناسازگاری‌‌ها و سوءبرداشت‌‌های موجود در هستان‌‌شناسی را، با تشخیص موارد تخطی از دامنه و بردهای تعریف شده، تشخیص داد.

تعریف جنبه‌‌ها

لازم به ذکر است که علیرغم همه این مراحل، هستان‌‌شناسی مورد نظر تنها به قابلیت بیانی که توسط شمای RDF ارائه می‌‌شود نیاز دارد و از هیچیک از عناصر پایه موجود در OWL استفاده نمی‌‌کند. در این مرحله، این وضعیت با تعریف جنبه‌‌ها، و غنی کردن خصیصه‌‌هایی که پیشتر تعریف شده‌‌اند، تغییر می‌‌کند. این جنبه‌‌ها از این قرار می‌‌باشند:
 کاردینالیته. با استفاده از این جنبه، تعداد مقادیر مختلفی که هریک از خصیصه‌‌ها می-توانند یا باید داشته باشند، مشخص می‌‌گردد. هرچه برای خصیصه‌‌های بیشتری به تعریف اینگونه جنبه‌‌ها پرداخته شود، بهتر است. مواردی نظیر "حداقل یک مقدار" (خصیصه‌‌های ضروری)، و "حداکثر یک مقدار" (خصیصه‌‌های تک-مقداری) از نمونه‌‌های رایج این facet می‌‌باشند.
 مقادیر ضروری. اغلب، کلاس‌‌هایی بواسطه خصیصه‌‌هایی که مقادیر خاصی می‌‌پذیرند تعریف می‌‌شوند و این مقادیر ضروری را می‌‌توان با استفاده از owl:hasValue در OWL بیان نمود. گاهی اوقات نیازمندی‌‌های خصیصه، ساده‌‌تر می‌‌باشد: یک خصیصه باید مقادیری (و نه لزوما یک مقدار خاص) از یک کلاس خاص داشته باشد. در اینجا می‌‌توان از owl:someValuesFrom استفاده نمود.
 ویژگی‌‌های رابطه‌‌ای. آخرین خانواده facet ها به ویژگی‌‌های رابطه‌‌ای خصیصه‌‌ها می-پردازد: تقارن ، تعدی ، خصیصه‌‌های وارون ، و مقادیر تابعی .
پس از این مرحله در فرآیند ساخت هستان‌‌شناسی، امکان بررسی هستان‌‌شناسی برای تشخیص ناسازگاری‌‌های درونی وجود دارد. (این عمل پیش از این مرحله امکان‌‌پذیر نیست، زیرا شمای RDF به اندازه کافی غنی نیست که بتوان ناسازگاری‌‌ها را با آن بیان نمود.) نمونه‌‌هایی از ناسازگاری‌‌های رایج عبارتند از تعریف ناسازگار دامنه و برد برای خصیصه‌‌های متعدی، متقارن یا وارون. بطور مشابه، تعریف‌‌های مربوط به کاردینالیتی نیز یکی از منابع ایجاد ناسازگاری هستند. در آخر، ممکن است قیدهای تعریف شده بر روی مقدار خصیصه‌‌ها، با محدودیت‌‌های تعریف شده برای دامنه و برد آنها تناقض داشته باشد و خود به منشأ ایجاد ناسازگاری تبدیل شود.

تعریف نمونه‌‌ها

واضح است که خیلی بندرت هستان‌‌شناسی‌‌ها فقط بخاطر خودشان تعریف می‌‌شوند. در عوض، از هستان‌‌شناسی برای سازماندهی مجموعه‌‌ای از نمونه‌‌ها استفاده می‌‌شود و این عمل پرکردن هستان‌‌شناسی با نمونه‌‌ها، خودش یک مرحله مجزا می‌‌باشد. عموما تعداد این نمونه‌‌ها، بمراتب بیشتر از تعداد کلاس‌‌های موجود در هستان‌‌شناسی می‌‌باشد. تعداد کلاس‌‌های هستان‌‌شناسی‌‌های مختلف، از چند صد، تا ده‌‌ها هزار تغییر می‌‌کند، درحالی‌‌که تعداد نمونه‌‌ها از صدها تا صدها هزار یا حتی بیشتر تغییر می‌‌کند.
بدلیل تعداد خیلی زیاد نمونه‌‌ها، جمع‌‌آوری نمونه‌‌های لازم برای یک هستان‌‌شناسی معمولا بصورت دستی انجام نمی‌‌شود. اغلب، نمونه‌‌ها از روی منابع داده قدیمی، نظیر بانک‌‌های اطلاعاتی، استخراج می‌‌شوند. استخراج خودکار نمونه‌‌ها از یک مخزن متنی نیز مثال دیگری از تکنیک‌‌های رایج می‌‌باشد.

بررسی و تشخیص عیب‌‌ها

یکی از مزیت‌‌های استفاده از OWL بر روی شمای RDF، امکان تشخیص ناسازگاری‌‌های موجود در خود هستان‌‌شناسی یا نمونه‌‌های جمع‌‌آوری‌‌شده برای آن هستان‌‌شناسی، می‌‌باشد. نمونه‌‌هایی از ناسازگاری‌‌های رایج عبارتند از تعریف ناسازگار دامنه و برد برای خصیصه‌‌های متعدی، متقارن یا وارون. بطور مشابه، تعریف‌‌های مربوط به کاردینالیتی نیز یکی از منابع ایجاد ناسازگاری هستند. در آخر، ممکن است قیدهای تعریف شده بر روی مقدار خصیصه‌‌ها، با محدودیت‌‌های تعریف شده برای دامنه و برد آنها تناقض داشته باشد و خود به منشأ ایجاد ناسازگاری تبدیل شود.


استفاده مجدد از هستان‌‌‌شناسی‌‌‌های موجود

برای توسعه یک هستان‌‌‌شناسی، درصورت امکان باید کار را از یک هستان‌‌‌شناسی موجود آغاز نمود. هستان‌‌‌شناسی‌‌‌های موجود از تنوع زیادی برخوردارند.

بدنه کد شده دانش خبرگان

بعضی هستان‌‌‌شناسی‌‌‌ها بطور دقیق و توسط تیم بزرگی از افراد خبره و در طی چند سال ساخته شده‌‌‌اند. بعنوان یک نمونه در حوزه پزشکی می‌‌‌توان به هستان‌‌‌شناسی سرطان ، از مؤسسه ملی سرطان در آمریکا، اشاره کرد. در حوزه فرهنگی نیز می‌‌‌توان از لغت‌‌‌نامه AAT که شامل 125000 لغت است، و همچنین به ULAN که بیش از 220000 وارده درباره هنرمندان دارد، نام برد. نمونه دیگر، لغتنامه Iconclass با حدود 28000 لغت برای توصیف تصویر‌‌‌های فرهنگی می‌‌‌باشد. مثال دیگری از حوزه جغرافی، TGN است که بیش از 1 میلیون وارده دارد.

لغتنامه‌‌‌های یکپارچه

گاهی اوقات تلاش‌‌‌هایی برای ادغام تعدادی هستان‌‌‌شناسی که هریک بطور مستقل توسعه داده شده، بمنظور ایجاد یک منبع بزرگ واحد صورت گرفته است. نمونه نخست، "سیستم زبان پزشکی واحد" می‌‌‌باشد که 100 لغتنامه و طبقه‌‌‌بندی مربوط به حوزه پزشکی را با یکدیگر یکپارچه می‌‌‌نماید. UMLS به‌‌‌تنهایی شامل 705000 مفهوم، بهمراه بیش از 10 میلیون پیوند بین آنها، می‌‌‌باشد. همانطور که دور از انتظار نیست، معنای چنین منبعی، که چندین لغتنامه که بصورت مستقل توسعه داده شده‌‌‌اند را با هم یکپارچه می‌‌‌کند، نسبتا ضعیف است، با اینحال در کاربردهای زیادی، حداقل بعنوان یک نقطه شروع، بسیار مفید بوده است.

هستان‌‌‌شناسی‌‌‌های سطح بالاتر

درحالیکه هستان‌‌‌شناسی‌‌‌های پیشین، همگی خیلی خاص‌‌‌منظوره هستند، تلاشهایی برای تعریف هستان‌‌‌شناسی‌‌‌هایی با کاربردهای خیلی عام (که گاهی هستان‌‌‌شناسی‌‌‌های سطح بالاتر گفته می-شوند) نیز صورت گرفته است. بعنوان دو مورد از نمونه‌‌‌های نخست می‌‌‌توان به Cyc با حدود 60000 اعلان درباره 6000 مفهوم، و همچنین هستان شناسی SUO اشاره کرد.

سلسله‌‌‌مراتب موضوعی

در یک نگاه دقیق، هستان‌‌‌شناسی‌‌‌های دیگر به سختی شایسته این نام هستند، چرا که فقط مجموعه‌‌‌ای از لغات هستند که بصورت ساده‌‌‌ای در یک سلسله‌‌‌مراتب وراثت سازماندهی شده‌‌‌اند. این سلسله‌‌‌مراتب عموما یک طبقه‌‌‌بندی دقیق نیست، بلکه در عوض، روابط مختلفی نظیر is-a و part-of و contained-in را با یکدیگر مخلوط می‌‌‌کند. با اینحال، چنین منابعی اغلب بعنوان یک نقطه شروع خیلی مفید هستند. یک نمونه بزرگ، سلسله‌‌‌مراتب "فهرست باز" می‌‌‌باشد که بیش از 400000 رسته که بصورت سلسله‌‌‌مراتبی سازماندهی شده‌‌‌اند و در قالب RDF نیز وجود دارند، را دربرمی‌‌‌گیرد.

منابع زبان‌‌‌شناسی

منابعی وجود دارند که از ابتدا بعنوان مدل انتزاعی از یک حوزه خاص ایجاد نشده‌‌‌اند، بلکه بعنوان منابع زبان‌‌‌شناسی شکل گرفته‌‌‌اند. این منابع نیز بعنوان نقطه شروع برای توسعه هستان-شناسی‌‌‌ها مفید واقع شده‌‌‌اند. بعنوان نمونه اصلی در این دسته می‌‌‌توان به WordNet با بیش از 90000 معنای لغت اشاره کرد.

کتابخانه‌‌‌های هستان‌‌‌شناسی

در حال حاضر تلاش‌‌‌هایی بمنظور ایجاد کتابخانه‌‌‌های هستان‌‌‌شناسی تحت وب در جریان می‌‌‌باشد. نمونه‌‌‌هایی از این کتابخانه‌‌‌ها را می‌‌‌توان در وب‌‌‌سایت گروه مهندسی هستان‌‌‌شناسی در وب-سایت DAML ، هستان‌‌‌شناسی‌‌‌هایی که توسط ویرایشگر Protégé ارائه شده‌‌‌اند ، و همچنین سرویس SemWebCentral بدست آورد. شاید در حال حاضر بتوان Swoogle را بهترین مخزن هستان‌‌‌شناسی‌‌‌های روی وب به حساب آورد که بیش از 10 هزار عدد از مستندات وب معنایی را طبقه‌‌‌بندی و متاداده‌‌‌های مربوط به کلاس‌‌‌ها، خصیصه‌‌‌ها و نمونه‌‌‌های آنها را بهمراه روابط بین‌‌‌شان نمایه می‌‌‌نماید. این سیستم همچنین به تعریف یک پارامتر رتبه‌‌‌دهی برای مستندات وب معنایی می‌‌‌پردازد و با استفاده از آن به مرتب‌‌‌سازی نتایج جستجوها کمک می‌‌‌کند.
کار بر روی توسعه شماهای XML، و نه بطور دقیق هستان‌‌‌شناسی‌‌‌ها، می‌‌‌تواند بعنوان یک نقطه شروع مفید برای کارهای مربوط به توسعه هستان‌‌‌شناسی‌‌‌ها در نظر گرفته شود .
اغلب خیلی بندرت پیش می‌‌‌آید که هستان‌‌‌شناسی‌‌‌های موجود را بتوان بدون تغییر، مورد استفاده مجدد قرار داد. معمولا مفاهیم و خصیصه‌‌‌های موجود باید اصلاح شوند (با استفاده از owl:subClassOf و owl:subPropertyOf). همچنین، باید نام‌‌‌های جایگزین که برای یک حوزه خاص مناسب‌‌‌تر باشند تعریف شوند (مثلا با استفاده از owl:equivalentClass و owl:equivalentProperty). همچنین این موضوع، فرصت بهره‌‌‌برداری از این واقعیت که RDF و OWL اجازه انجام اصلاحات خصوصی بر روی کلاس‌‌‌های تعریف شده در دیگر هستان‌‌‌شناسی‌‌‌ها را می‌‌‌دهند، را فراهم می‌‌‌نماید.
پرسش کلی درباره وارد کردن هستان‌‌‌شناسی‌‌‌ها و برقرار کردن نگاشت بین هستان‌‌‌شناسی‌‌‌های مختلف، هنوز مطرح می‌‌‌باشد و بعنوان یکی از سخت‌‌‌ترین (و فوری‌‌‌ترین) زمینه‌‌‌های تحقیقاتی وب معنایی به حساب می‌‌‌آید.

استخراج نیمه‌‌خودکار هستان‌‌شناسی

دو چالش اساسی برای تحقق دیدگاه وب معنایی وجود دارد.
اول اینکه باید پشتیبانی از عمل مهندسی مجدد غنی‌‌سازی معنایی برای ساخت یک وب از متاداده‌‌ها وجود داشته باشد. موفقیت وب معنایی بطور عمده‌‌ای به ایجاد هستان‌‌شناسی‌‌ها و متاداده‌‌های رابطه‌‌ای وابسته است. این امر نیازمند آن است که ایجاد این متاداده‌‌ها، با سرعت زیاد و هزینه کم قابل انجام باشد. در این سطح، عملیات ادغام و تطبیق هستان‌‌شناسی‌‌ها بمنظور ایجاد قابلیت همکاری متقابل معنایی ، می‌‌تواند با تکنیک‌‌های یادگیری ماشین پشتیبانی گردد.
دوم اینکه باید روشی برای نگهداری و وفق دادن این داده‌‌های قابل پردازش توسط ماشین، که پایه وب معنایی هستند، فراهم گردد. در نتیجه، مکانیزم‌‌هایی که از طبیعت پویای وب پشتیبانی کنند مورد نیاز می‌‌باشند.
اگرچه ابزارهای مهندسی هستان‌‌شناسی طی دهه اخیر به بلوغ مناسبی رسیده‌‌اند، هنوز هم استخراج هستان‌‌شناسی به روش دستی، یک کار زمانبر، پرهزینه و گاهی خسته‌‌کننده است که نیاز به مهارت زیادی دارد و بسادگی می‌‌تواند به مشکل گلوگاه استخراج دانش منجر شود.
طی دو دهه اخیر مهندسان دانش، زمانی‌‌که بر روی روش‌‌های استخراج دانش و یا workbench هایی برای تعریف پایگاه‌‌های دانش کار می‌‌کردند، با مشکلاتی مشابه این‌‌ها سروکار داشته‌‌اند. ترکیب کردن استخراج دانش با تکنیک‌‌های یادگیری ماشین، بعنوان راهکاری مفید برای استخراج دانش شناخته شده است.
عرصه تحقیقاتی یادگیری ماشین، چه در زمینه استخراج و کسب دانش، و چه در زمینه بازنگری و نگهداری دانش، تاریخچه طولانی دارد، و روش‌‌ها و تکنیک‌‌های فراوانی فراهم کرده است که برای حل این چالش‌‌ها می‌‌توانند مفید باشند. کارهای زیر می‌‌توانند توسط تکنیک‌‌های یادگیری ماشین مورد پشتیبانی قرار گیرند:
 استخراج هستان‌‌شناسی‌‌ها از داده‌‌های موجود در وب
 استخراج داده‌‌های رابطه‌‌ای و متاداده‌‌ها از داده‌‌های موجود در وب
 ادغام و نگاشت هستان‌‌شناسی‌‌ها با تحلیل توسعه‌‌های مفاهیم
 نگهداری هستان‌‌شناسی‌‌ها با تحلیل داده‌‌های نمونه
 بهبود برنامه‌‌های کاربردی وب معنایی با مشاهده کاربران
یادگیری ماشین تکنیک‌‌هایی فراهم می‌‌کند که می‌‌توانند برای پشتیبانی از کارهای زیر مورد استفاده قرار گیرند:
 خوشه‌‌بندی
 بروزرسانی تدریجی هستان‌‌شناسی
 پشتیبانی از مهندس دانش
 بهبود هستان‌‌شناسی‌‌های بزرگ زبان طبیعی
 یادگیری هستان‌‌شناسی محض (مخصوص یک حوزه خاص)
Omelayenko 3 نوع هستان‌‌شناسی که می‌‌توانند توسط تکنیک‌‌های یادگیری ماشین مورد پشتیبانی قرار گیرند را تشخیص داده، و همچنین وضعیت جاری در این زمینه را مورد بررسی قرار داده است.

هستان‌‌شناسی‌‌های زبان طبیعی

هستان‌‌شناسی‌‌های زبان طبیعی (NLO ) شامل روابط لغوی بین مفاهیم زبانی می‌‌باشند. این هستان‌‌شناسی‌‌ها دارای اندازه بزرگی بوده و نیاز به بروزرسانی متناوب ندارند. معمولا به بازنمایی دانش پس‌‌زمینه سیستم پرداخته و برای توسعه پرس‌‌و‌‌جوهای کاربران مورد استفاده قرار می-گیرند. وضعیت جاری در عرصه NLO بسیار خوش‌‌بینانه می‌‌باشد: نه تنها یک NLO همه‌‌منظوره و پایدار وجود دارد، بلکه تکنیک‌‌هایی برای ساخت خودکار یا نیمه‌‌خودکار و همچنین برای غنی-سازی NLOهای مختص یک حوزه وجود دارد.

هستان‌‌شناسی‌‌های خاص یک حوزه

این هستان‌‌شناسی‌‌ها دانش یک حوزه خاص، مثلا داروسازی یا حوزه چاپگرها، را دربرمی‌‌گیرند و توصیف جزئی و دقیقی از مفاهیم موجود در یک حوزه محدود را فراهم می‌‌کنند. معمولا بطور دستی ساخته می‌‌شوند، اما تکنیک‌‌های یادگیری مختلفی می‌‌توانند در این امر به مهندس دانش کمک کنند. استخراج هستان‌‌شناسی یک حوزه هنوز هم توسط یک مهندس دانش هدایت می-شود، و تکنیک‌‌های یادگیری خودکار نقش کم‌‌اهمیت‌‌تری را در استخراج دانش بازی می‌‌کنند. این تکنیک‌‌ها باید وابستگی‌‌های ایستای معتبر را در متون مربوط به آن حوزه پیدا کرده و آن‌‌ها را به مهندس دانش پیشنهاد نمایند.

نمونه‌‌های هستان‌‌شناسی

نمونه‌‌های یک هستان‌‌شناسی‌‌ می‌‌توانند بصورت خودکار جمع‌‌آوری، و درحالیکه خود هستان‌شناسی بدون تغییر باقی می‌‌ماند، بطور متناوب بروزرسانی شوند (مثلا اطلاعات یک شرکت می-تواند بطور متناوب از روی صفحات زرد بروزرسانی شود. عمل یادگیری نمونه‌‌های هستان-شناسی، بخوبی می‌‌تواند در قالب یک چارچوب مبتنی بر یادگیری ماشین انجام شود، و نمونه-های متعددی از بکارگیری موفق الگوریتم‌‌های یادگیری ماشین، در این عرصه وجود دارد. اما این کاربردها یا خیلی به هستان‌‌شناسی آن حوزه وابسته هستند، یا اینکه داده‌‌های علامت‌‌دار را بدون درنظرگرفتن ارتباط آن‌‌ها با حوزه خاصی جمع‌‌آوری می‌‌کنند. هنوز یک تکنیک همه‌‌منظوره برای استخراج نمونه‌‌های هستان‌‌شناسی از داخل متن برای یک هستان‌‌شناسی خاص ورودی، توسعه داده نشده است.
علاوه بر انواع مختلف هستان‌‌شناسی‌‌ها که توسط روش‌‌های یادگیری ماشین قابل پشتیبانی هستند، کاربردهای مختلفی نیز برای یادگیری هستان‌‌شناسی وجود دارد. 3 مورد اول از لیست زیر (که از کار Omelayenko گرفته شده است) به کارهای استخراج هستان‌‌شناسی در مهندسی دانش، و 3 مورد آخر به کارهای نگهداری هستان‌‌شناسی مربوط می‌‌باشد:
 ایجاد هستان‌‌شناسی از ابتدا، توسط مهندس دانش. در این کار، یادگیری ماشین می‌‌تواند با پیشنهاد دادن مهمترین روابط موجود در آن حوزه، یا با بررسی و اعتبارسنجی پایگاه دانش ساخته شده، به مهندس دانش کمک نماید.
 استخراج شمای هستان‌‌شناسی از مستندات وب. در این کار، سیستم‌‌های یادگیری ماشین داده‌‌ها یا یک فوق دانش (مثل یک فوق هستان‌‌شناسی) را بعنوان ورودی دریافت کرده و با کمک احتمالی مهندس دانش، یک هستان‌‌شناسی آماده استفاده را بعنوان خروجی تولید می‌‌نمایند.
 استخراج نمونه‌‌های هستان‌‌شناسی، با دریافت شمای هستان‌‌شناسی مورد نظر، نمونه‌‌های آن که در مستندات وب بازنمایی شده‌‌اند را جمع‌‌آوری می‌‌نماید. این کار شبیه استخراج اطلاعات و حاشیه‌‌گذاری صفحات می‌‌باشد و می‌‌تواند تکنیک‌‌هایی که در این زمینه‌‌ها توسعه داده شده‌‌اند را بکار گیرد.
 یکپارچه‌‌سازی و ناوبری هستان‌‌شناسی به موضوع بازسازی و ناوبری در پایگاه دانش‌های بزرگ که احتمالا توسط تکنیک‌‌های یادگیری ماشین ایجاد شده‌‌اند، می‌‌پردازد. مثلا، می‌‌توان به عمل تغییر پایگاه دانش از حالت مبتنی بر منطق گزاره‌‌ها، به حالت مبتنی بر منطق مرتبه اول، اشاره نمود.
 کار نگهداری هستان‌‌شناسی، برخی قسمت‌‌های یک هستان‌‌شناسی که برای بروزرسانی طراحی شده‌‌اند (مثلا برچسب‌‌های قالب‌‌دهی که لازم است تغییرات اعمال شده در ظاهر صفحه را دنبال نمایند) را بروزرسانی می‌‌نماید.
 غنی‌‌سازی هستان‌‌شناسی شامل اصلاح خودکار روابط کم‌‌اهمیت‌‌ موجود در یک هستان‌‌شناسی و غنی‌‌کردن آن‌‌ها می‌‌باشد. این عمل، مفاهیم اصلی و ساختارهای موجود را تغییر نمی‌‌دهد، بلکه هستان‌‌شناسی را دقیق‌‌تر و گویاتر می‌‌نماید.
دسته بزرگی از تکنیک‌‌ها، الگوریتم‌‌ها، و ابزارها از حوزه یادگیری ماشین قابل استفاده می‌‌باشد. با اینحال، یک نیازمندی مهم برای بازنمایی هستان‌‌شناسی آن است که هستان‌‌شناسی‌‌ها باید نمادین، قابل‌‌خواندن توسط انسان، و قابل‌‌فهم باشند. این امر، باعث می‌‌شود به استفاده از الگوریتم‌‌های یادگیری نمادین محدود شویم و از روش‌‌هایی نظیر شبکه‌‌های عصبی و الگوریتم‌‌های ژنتیک چشمپوشی نماییم. موارد زیر برخی از الگوریتم‌‌هایی هستند که بالقوه قابل استفاده می-باشند:
 الگوریتم‌‌های یادگیری قوانین گزاره‌‌ای، قوانین وابستگی یا دیگر اشکال قوانین خصیصه-مقدار را یاد می‌‌گیرند.
 یادگیری بیزینی که اغلب با کلاسه‌‌بند بیز بازنمایی می‌‌گردد، مبتنی بر تئوری بیز می‌‌باشد و قوانین خصیصه-مقدار احتمالی را برمبنای فرض استقلال شرطی خصیصه‌‌های مجموعه آموزشی، تولید می‌‌نماید.
 یادگیری قوانین مبتنی بر منطق مرتبه اول قوانینی را استنتاج می‌‌کند که شامل متغیرها می‌‌باشند و با نام عبارات مرتبه اول هورن شناخته می‌‌شوند.
 الگوریتم‌‌های خوشه‌‌بندی، نمونه‌‌ها را براساس شباهت یا فاصله بین هر جفت از نمونه‌‌ها، که بر اساس مقادیر خصیصه‌‌هایشان تعریف می‌‌شود، گروه‌‌بندی می‌‌نمایند.
در پایان، می‌‌توان گفت که اگرچه پتانسیل زیادی برای بکارگیری تکنیک‌‌های یادگیری ماشین در مهندسی وب معنایی وجود دارد، اما این موضوع، بخوبی شناخته شده نمی‌‌باشد. در حال حاضر هیچ تکنیک یا ابزار حاضر و آماده‌‌ای برای این منظور موجود نمی‌‌باشد، اگرچه به نظر می‌‌رسد شرایط در آینده نزدیک عوض شود.

نگاشت هستان‌‌شناسی

با گذشت زمان که استفاده مجدد در توسعه هستان‌‌شناسی‌‌ها، بیش از پیش جایگزین توسعه از ابتدا شده و به روش غالب تبدیل شده است، یکپارچه‌‌سازی هستان‌‌شناسی بعنوان یک امکان ضروری مطرح می‌‌باشد. خیلی بندرت پیش می‌‌آید که یک هستان‌‌شناسی واحد، نیازهای یک کاربرد خاص را پاسخگو باشد؛ بلکه اغلب چند هستان‌‌شناسی باید با هم ترکیب شوند. این امر، مساله یکپارچه‌‌سازی هستان‌‌شناسی‌‌ها (که تطبیق هستان‌‌شناسی یا نگاشت هستان‌‌شناسی نیز گفته می‌‌شود) را مطرح می‌‌نماید. این مساله در حال حاضر هم بعنوان یکی از مهمترین مسائل در تحقق وب معنایی مطرح است و هم بعنوان یکی از سخت‌‌ترین مشکلاتی که در این عرصه وجود دارد. در نتیجه، در سال‌‌های اخیر این مساله توجه زیادی را از سوی جامعه محققان به خود جلب کرده است.
روش‌‌های موجود برای نگاشت هستان‌‌شناسی، از مجموعه وسیعی از روش‌‌ها که از عرصه‌‌های مختلف گرفته شده‌‌اند، استفاده می‌‌نمایند [253]. در ادمه، به روش‌‌های زبان‌‌شناسانه، آماری، ساختاری، و منطقی اشاره می‌‌شود.

روش‌‌های زبان‌‌شناسانه

روش‌‌های پایه نگاشت هستان‌‌شناسی‌‌ها، با بهره‌‌گیری از برچسب‌‌های زبانی که به مفاهیم موجود در هستان‌‌شناسی‌‌های مبدأ و مقصد الصاق شده است سعی می‌‌کنند تطبیق‌‌های ممکن را تشخیص دهند. بدین منظور، ممکن است از تکنیک‌‌های ساده‌‌ای نظیر ریشه‌‌یابی یا محاسبه فاصله‌‌های همینگ ، و یا از دانش زمینه اختصاصی و پیشرفته استفاده شود. بعنوان مثالی از مورد آخر می‌‌توان به دو مورد "دیابت نوع 1" و "دیابت نوع 2" اشاره کرده که از نظر معنایی تفاوت مهمی با هم دارند، اما از نظر فاصله همینگ، فاصله خیلی کمی با هم دارند، بنابراین استفاده از تکنیک‌‌های ساده، به‌‌تنهایی کافی نیست.

روش‌‌های آماری

بجای استفاده از برچسب‌‌های زبانی مفاهیم، روش‌‌های دیگر از داده‌‌های نمونه برای تشخیص تناظر بین مفاهیم استفاده می‌‌نمایند. اگر ارتباط آماری قابل توجهی بین نمونه‌‌های یک مفهوم مبدأ و یک مفهوم مقصد وجود داشته باشد، این امر نشان‌‌دهنده آن است که این مفاهیم بطور قوی با یکدیگر مرتبط می‌‌باشند (مثلا از طریق یک رابطه زیرمجموعه بودن، یا یک رابطه معادل بودن). مطمئنا این روش‌‌ها به در دسترس بودن یک مخزن به اندازه کافی بزرگ از نمونه‌‌ها، که هم در هستان‌‌شناسی مبدأ و هم در هستان‌‌شناسی مقصد کلاسه‌‌بندی شده‌‌اند، وابسته می‌‌باشند.

روش‌‌های ساختاری

از آنجا که هستان‌‌شناسی‌‌ها دارای ساختار داخلی هستند، منطقی است که از ساختار گرافی هستان‌‌شناسی‌‌های مبدأ و مقصد استفاده کرده و سعی شود با کمک روش‌‌های دیگر، شباهت‌‌های بین ساختارهای آن‌‌ها تشخیص داده شود. اگر یک مفهوم مبدأ و یک مفهوم مقصد دارای برچسب زبانی مشابهی باشند، آنگاه عدم شباهت همسایه‌‌های گرافی آن‌‌ها می‌‌تواند برای تشخیص مشکلات homonym ها ، جایی که روش‌‌های کاملا زبان‌‌شناسانه نگاشت‌‌های اشتباهی را تشخیص می‌‌دهند، استفاده شود.

روش‌‌های منطقی

روش‌‌هایی که احتمالا بیش از بقیه، مختص نگاشت هستان‌‌شناسی‌‌ها هستند، روش‌‌های منطقی می‌‌باشند. هستان‌‌شناسی‌‌ها توصیف رسمی یک دیدگاه مفهومی مشترک می‌‌باشند و منطقی است که از توصیف رسمی هستان‌‌شناسی‌‌های مبدأ و مقصد استفاده شود. یک محدودیت جدی این روش آن است که خیلی از هستان‌‌شناسی‌‌های کاربردی از نظر معنایی، سبک وزن هستند و دربرگیرنده توصیف رسمی چندانی نمی‌‌باشند. متاسفانه نتیجه‌‌گیری ما از این بحث مختصر درباره روش‌‌های نگاشت هستان‌‌شناسی باید مشابه نتیجه‌‌گیری ما درباره تکنیک‌‌های استخراج خودکار هستان‌‌شناسی باشد: علیرغم اینکه پتانسیل، و در واقع نیاز زیادی برای بکارگیری این روش‌‌ها در مهندسی وب معنایی وجود دارد، این عرصه بخوبی شناخته شده نیست. هیچ تکنیک یا ابزار حاضر و آماده‌‌ای برای این منظور در دسترس نمی‌‌باشد و چندان واضح نیست که این وضعیت در آینده نزدیک تغییر می‌‌کند.

زیررده‌ها

این ۴ زیررده در این رده قرار دارند؛ این رده در کل حاوی ۴ زیررده است.