رده:پرسش و پاسخ معنایی

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

تا بحال تحقیقات بسیاری در زمینه پرسش و پاسخ انجام شده‌است. با توجه به پژوهشی که هدف این نوشتار است ابتدا به طور کلی به بیان روش‌هایی که تا به حال در فرایند پرسش و پاسخ در سیستم‌های مختلف استفاده‌ شده‌اند، ‌خواهیم پرداخت. سپس توضیحاتی در مورد پرسش و پاسخ از ابر داده پیوندی و متن خواهیم داد.

محتویات

روش‌های استفاده شده در فرایند پرسش و پاسخ

در این قسمت روش‌هایی که سیستم‌های پرسش و پاسخ می‌توانند در مراحل مختلف فرایند استخراج پاسخ استفاده کنند، انجام شده کرده و در هر مورد تحقیقاتی را که انجام شده با ذکر عملیات و تکنیک‌های مورد استفاده آورده‌ایم. این اطلاعات در جدول 1 به صورت خلاصه قابل مشاهده است.

کامل‌سازی خودکار

در این روش با توجه به پرسش‌هایی که سیستم قادر به پاسخ‌گویی به آنها است، در حین کامل‌سازی پرسش توسط کاربر، پیشنهادها به او ارائه خواهند ‌شد و کاربر را در ایجاد پرسش منطبق با قابلیت سیستم یاری می‌رسانند.

ایجاد الگو

در اغلب ‌سیستم‌های پرسش و پاسخ الگوهایی برای شناسایی پرسش‌ و استخراج پاسخ‌ از قبل در سیستم ذخیره می‌شود. در برخی از این ‌سیستم‌ها به صورت دستی و در برخی با تکنیکهای یادگیری ماشین این کار انجام می‌شود. کریستینا آنگر در الگوهایی برای پرس‌و‌جوی اسپارکل تولید ‌می‌کند و پس از ورود پرسش، الگوهایی انتخاب شده و سپس ‌رتبه‌بندی خواهند‌شد. این پرس‌و‌جوهای ‌رتبه‌بندی شده برای استخراج پاسخ استفاده خواهند‌شد. ذخیره الگوهای پرس‌و‌جوی اسپارکل در کارهای بسیاری نظیر SINA و Casia اما به روشهای متفاوت انجام شده‌است.

بسته ای از کلمات

ساده‌ترین روش درنظرگرفتن پرسش به عنوان یک بسته یا یک مجموعه از کلمات است. به نحوی که کلمات توقف یا کلماتی که بار اطلاعاتی ندارند حذف می‌شوند. در این روش تنها کلمات در نظر گرفته می‌شوند و هیچ اطلاعاتی در رابطه با ساختار گرامری و معنایی برای بازیابی اطلاعات مد نظر نمی‌باشد. البته روش‌هایی موجود هستند که ابتدا پرسش را به صورت کلمات کلیدی درنظرگرفته سپس با استفاده از مدل مخفی مارکوف بخش‌هایی که هر بخش شامل تعدادی کلمه کلیدی است به گونه‌ای انتخاب می‌شوند که هربخش معرف یک موجودیت باشد سپس به جستجو در پایگاه دانش RDF با هدف کسب بالاترین شباهت می‌پردازند.
اولین راه‌حل برای بازیابی اطلاعات زمانی که بازنمایی به صورت بسته‌ای از کلمات است، مدل بولین می‌باشد که به مقایسه دو بسته کلمات پرسش و بخشی از منبع اطلاعاتی می‌پردازد و در صورت تطابق به عنوان کاندید انتخاب می‌شود. این تابع بازیابی معمولاً در ابتدای جستجو برای پاسخ انجام می‌گیرد ولی زمانی که نیاز به ارزیابی انطباق عینی است مدل‌های دیگر بازیابی شامل مدل فضای برداری و مدلهای احتمالاتی مختلف قابل استفاده هستند. در مدل فضای برداری بازنمایی به صورت برداری از لفظ ‌ها در یک فضای P بعدی است که P تعداد لفظ‌های واژگان است. در بخش بازیابی، مقایسه دو بردار بر اساس مشابهت انجام می‌شود. در مقایسه با مدل بولین، این روش، پاسخ‌ها را به پرسش‌ها حتی در صورتی که محدودیت‌هایی که در پرسش آمده‌است به صورت جزئی مشاهده شده باشند، نیز بر می‌گرداند.
مدل احتمالی برای پرسش و پاسخ دقت بیشتری دارد چرا که از اجتماع روابط احتمالی بین لفظ‌ها در مدل استفاده ‌می‌کند . برای عمل بازیابی می‌توان از مدلهای اطلاعاتی نظیر همگرایی Kullback-Leibler ، Soundex, Jaro-Winkler , Apache Lucene و روش انگونمو انگومو استفاده کرد. در مدلهای جبری و احتمالاتی از فاکتورهای دفعات تکرار لفظ (TF) و معکوس تعداد دفعات تکرار در اسناد (IDF) نیز استفاده می‌شود.

تحلیل‌های زبان‌شناسی

در این روش تحلیل‌های زبان‌شناسی شامل تحلیل‌های گرامری و مورفولوژیکی ‌می‌توانند استفاده شوند چرا که احتمال یافتن انطباق دقیق را افزایش خواهند داد.
یک جمله شامل کلمات دربرگیرنده محتوا (مانند اسامی، افعال، صفت‌ها و قید‌ها) است. ساده‌ترین راه برای شناسایی ساختار جمله استفاده از روش n-grams است. با این وجود برای تحلیل‌های گرامری تعدادی اعمال برای پردازش زبان طبیعی استفاده می‌شوند از آن جمله برچسب‌زن‌ اجزای کلام (POS) است که برای شناسایی رده گرامری (مانند اسامی و افعال) استفاده می‌شود. عمل دیگری که می‌توان نام برد، تکه کردن عبارت است که برای شناسایی عبارات فعلی و اسمی استفاده می‌شود. همچنین در این راستا شکستن جمله به سازنده‌های آن و ساخت درخت وابستگی یک جمله نیز مؤثر است. هاکیمو و همکاران، پرسش و پاسخ معنایی را با استفاده از درخت وابستگی گرامری پرسش ایجاد ‌می‌کنند. بدین‌وسیله الگوهای سه‌گانه با استفاده از گراف وابستگی و برچسب‌های زبانی پرسش استخراج می‌شوند.
تحلیل‌های ریخت‌شناسی- گرامری در شناسایی روابط ساختاری بین کلمات در پرسش و جملات منبع اطلاعاتی یاری می‌رسانند. ساختار پرسش را بر مبنای گراف غیرمدور جهت‌دار وابستگی سطح عبارت (DAG) تعیین ‌می‌کند. کرنل‌های درخت گرامری برای محاسبه شباهت بین دو درخت وابستگی استفاده می‌شوند. اخیراً مدلهای ویرایش درختی در پرسش و پاسخ استفاده شده است که استنتاج متنی و بازنویسی متن را شناسایی کرده و شباهت‌های معنایی بین پرسش‌ها و پاسخ‌ها را از طریق توالی‌هایی از تغییر شکل‌های درختی می یابند.
شیوه کار در روش شناسایی حامل متنی به این ترتیب است که پرسش‌های ممکن برای یک زمینه و یک ‌هستان‌شناس مشخص از قبل تولید می‌شوند و سپس برای پرسش‌های کاربر با پرسش‌های از قبل ذخیره‌شده مقایسه گرامری و معنایی انجام شده و مشابه‌ترین آنها بر اساس بالاترین نمره شباهت معنایی و گرامری انتخاب می‌شود.

تحلیل‌های معنایی

جهت انجام تحلیل‌های معنایی بر روی پرسش، عملیات مختلفی قابل انجام است که در زیر به آنها اشاره شده است.

رده‌بندی معنایی نوع پاسخ

تعیین نوع پاسخ مورد انتظار و رده معنایی اطلاعات در پرسش و پاسخ‌های کاندید دو بخش اساسی هر سیستم پرسش و پاسخ هستند. یک پرسش زبان طبیعی، اطلاعات اضافه‌ای برای نوع پاسخ مورد انتظار در اختیار ما قرار ‌می‌دهد. برای مثال ممکن است در جستجوی یک شخص، نام شرکت، مکان، تاریخ یا حتی یک تصویر از یک شخص یا ویدئو باشیم.
در [1] مروری بر دسته‌بندی‌های متفاوت که تا به حال برای نوع پاسخ ارائه شده است آمده است. برخی از انجام شده‌ها در یک سطح کلی تعریف شده‌اند و برخی در دو سطحی کلی و جزئی می‌باشند. هاکیمو و همکاران، در مرحله آخر همه پاسخ‌های منطبق شده با نوع پرسش (Who=Person,Organization,Company,Where=Place) را ‌رتبه‌بندی و بالاترین نتیجه به عنوان یک پاسخ را ارائه ‌می‌دهند. شناسایی کلاس پاسخ مورد انتظار یکی از کارهای متداول در پرسش و پاسخ می‌باشد.
روش استاندارد برای تعیین نوع پاسخ، شناسایی تمرکز پرسش و نگاشت آن به نوع یک رده در هستان‌نگار است. Apple’s Siri ابتدا نمایشی معنایی از پرسش شامل زمان‌، مکان، تاریخ، موجودیت و مقادیر عددی ایجاد‌کرده و سپس با به نگاشت این معانی به مفاهیم موجود در هستان‌نگار‌هایی نظیر Yago و Wordnet می‌پردازد. برای مثال در پرسش “Which books are written by Dan Brown?” ، تمرکز “books” است که بنابراین به dbpedia:Book قابل نگاشت است. با این وجود سؤالاتی موجود هستند که تعیین نوع پاسخ و تمرکز پرسش به راحتی قابل نگاشت به هستان‌نگار نیست. سیستم Watson پس از بازیابی اسناد از پایگاه دانش برای افزایش دقت پاسخ استفاده می‌کند و در کنار تلاش برای تعیین نوع به صورت مستقیم، احتمال اینکه یک موجودیت متعلق به رده A همچنین به رده B نیز تعلق داشته باشد، را محاسبه می‌کند.
روشهای نمادین از قاعده‌هایی که به صورت دستی ایجاد شده‌اند استفاده می‌کنند. اخیراً تکنیکهای یادگیری ماشین به صورت با ناظر معمول شده است. نحوه عملکرد آنها اینگونه است که یک مدل رده‌بندی را توسط مثالهایی که به صورت دستی حاشیه‌نویسی شده‌اند (پرسش‌ها و نوع پاسخ متناظر با آنها) آموزش می‌دهند. تولید مجموعه آموزشی فرایندی وقت‌گیر است اما نیاز به مهارت‌های نوشتن قاعده ندارد. رده متناظر با یک پرسش جدید به راحتی مبتنی بر الگوهایی که از مجموعه آموزشی یاد گرفته شده، تعیین می‌شود.
از تکنیک‌های مختلفی برای رده‌بندی می‌توان استفاده کرد از آن جمله می‌توان یادگیرنده‌های درخت و قاعده ، ماشین‌های بردار پشتیبان(SVM) ، حداکثر انتروپی و میدان‌های تصادفی شرطی را نام برد. در این میان تکنیک‌های رده‌بندی مستقل از متن که پارامترها را با استفاده از اصول حداکثر انتروپی تخمین می‌زنند بسیار موفق هستند. مقایسه‌ای از تکنیک‌های یادگیری ماشین برای تخمین نوع پاسخ مورد انتظار درآمده‌است.
برای بازیابی پاسخ از دو روش عینی و احتمالی استفاده می‌شود. در روش عینی زمانی که نوع پاسخ مورد انتظار تعیین شد، پاسخ‌های کاندید توسط رده معنایی مورد انتظار قابل بازیابی خواهند بود. در روش احتمالی، نمره اطمینان نیز در نظر گرفته خواهد شد. روشهایی نیز از الگوهای مبتنی بر گرامر برای پرسش‌ها و پاسخ‌ها استفاده می‌کنند.

رده‌بندی معنایی سازنده‌های پرسش یا عبارت زبان طبیعی

شناسایی نوع پرسش و پاسخ مورد انتظار برچسب رده معنایی را به صورت محلی می‌یابد. چنین روشی ممکن است فرایند پرسش و پاسخ را دچار خطا کند. یک برچسب‌گذاری معنایی کامل پرسش و پاسخ کاندید نظیر آنچه در جایی دیگر آمده، کارایی را افزایش خواهد داد. جمله ‌می‌تواند شامل یک ساختار فریم یا استدلال-گزاره باشد که نقش معنایی را توصیف ‌می‌کند. برای مثال: چه کسی چه کاری را برای چه کسی در چه زمان و کجا برای چه هدفی و توسط چه وسیله‌ای انجام داد؟.
تاریخچه استدلال-گزاره به اولین پیاده‌سازی‌ها در پرسش و پاسخ برمی‌گردد. اخیراً تجزیه‌کننده‌هایی برای ارائه پرس‌و‌جوها به صورت سه‌گانه‌ها استفاده شده‌اند که برای رفع ابهام نقش‌های ساده نحوی نظیر فاعل، مفعول و مفعول غیرمستقیم استفاده می‌شوند. دو پژوهش مطرح در این زمینه برای تعیین نقش‌های معنایی و فریم‌ها، Framework و PropBank هستند. شناسایی نقش‌های معنایی، فریم‌ها، اطلاعات مکانی و زمانی خاص و روابط معمولاً توسط تکنیک‌های یادگیری ماشین با ناظر به خصوص الگوریتم‌های رده‌بندی مستقل از متن نظیر فیلدهای تصادفی شرطی انجام می‌شود.
Intui سیستمی است که از مفهوم synfragment استفاده ‌می‌کند. پس از ساخت درخت تجزیه گرامری، هر synfragment بر روی یک زیردرخت نگاشت می‌شود. از نظر معنایی هر synfragment محدوده‌ای از متن را که به عنوان یک سه‌گانه RDF است مشخص ‌می‌کند. در جایی دیگر پس از یافتن الگوهای سه‌گانه و انجام برچسب‌گذاری زبانی و تجزیه وابستگی به جستجوی زیرگراف می‌پردازد و براساس نمرات اطمینان، پاسخ را می یابد.
در بازیابی پاسخ نه تنها اطلاعات لغوی یا کلمات بلکه نقش‌های معنایی نیز می بایست تطابق داشته باشند. gAnswer با استفاده از از تکه‌های RDF که زیرگراف‌های ستاره‌‌ای از RDF هستند و محاسبه ارتباطات بین تکه‌های کاندید ‌نمره‌دهی و انتخاب را انجام ‌می‌دهد. ممکن است به جای یافتن شباهت معنایی از پیوستگی معنایی استفاده شود . LOD-Query یک سیستم مبتنی بر کلمات کلیدی است که مفاهیم کاندید را مبتنی بر ترکیبی از یک نمره شباهت رشته (فاصله نرمالایز شده یک برچسب و یک کلمه کلیدی) و درجه اتصال (رخداد آن مفهوم در همه سه‌گانه‌های پایگاه دانش) انتخاب ‌می‌کند.

گسترش پرس‌و‌جو

صرف نظر از روش استفاده‌شده در سیستم پرسش و پاسخ در اغلب این ‌سیستم‌ها، گسترش و جابجایی پرس‌و‌جو با اصطلاحات مرتبط یا مترادفات معمول است. هدف، تقویت پرس‌و‌جو با اطلاعات مرتبط است که منجربه بهبود دقت جستجو می‌شود. شکرپور و همکاران تاثیر گسترش پرس‌و‌جو را بر دقت سیستم‌های پرسش و پاسخ معنایی بررسی می‌کنند. در زیر برخی از روشهایی که برای گسترش پرس‌و‌جو استفاده شده اند، معرفی می‌شود.
شناسایی موضوعی :از نشانه‌های موضوعی استفاده ‌می‌شود به‌طوری که تمام اصطلاحات مرتبط با یک موضوع را مبتنی بر تکنیک‌های وابستگی آماری ‌گروه‌بندی ‌می‌کند. مثالی از آن ‌می‌تواند به این صورت باشد که کلمات words ، menu ، waiter ، order ، eat ، pay ، tip مرتبط با سناریوی رستوران هستند.
ترجمه آزاد : برای نشان دادن اینکه ترجمه آزاد چگونه کار ‌می‌کند مثالی مطرح می‌کنیم. اگر پرسش “How did Lee Harvey Oswald die?” مطرح شده باشد می‌توان برای گسترش جستجو با استفاده از WordNet برای کلمه die، death,killing,kill و putting in death را نیز جستجو کرد. ترجمه آزاد قابل یادگیری از متن نیز می‌باشد.
کتابخانه‌های الگو : فاعل و مفعول در یک ساختار سه‌گانه از طریق انطباق و ترجمه آزاد و استفاده از سنجه‌های شباهت بین پرس‌و‌جو و منبع اطلاعاتی قابل جستجو هستند. با این وجود مسند نیاز به تحلیل بیشتری دارد چرا که اولاً فاعل و مفعول در جایگاه متفاوتی نسبت به هم ‌می‌تواند باشند و ثانیاً مسند به طرق مختلف هم به صورت اسم و هم فعل قابل بیان است. برای مثال اگر داشته باشیم “if X writes a book” می‌توان گفت “ X is called the author of it.”. PATTY موجودیت‌های پایگاه دانش را در جملات متن شناسایی کرده و پس از یافتن کوتاهترین رابطه بین آنها به عنوان یک الگو ذخیره ‌می‌کند. یکی از ‌سیستم‌هایی که از کتابخانه‌های ایجاد شده توسط PATTY استفاده ‌می‌کند، است که به این روش خصوصیات را رفع ابهام ‌می‌کند. برای مثال “die” به خصوصیات DBpedia نظیر dbont:deathPlace نگاشت می‌شود.
BOA ، الگوها را با استفاده از یک متن و یک پایگاه دانش می‌یابد. برای هر خصوصیت در پایگاه دانش، جملاتی از متن که شامل یک برچسب از این خاصیت هستند، استخراج می‌شوند ایده این است که هر جفت کلمه که با استفاده از این برچسب به هم پیوند دارند همیشه در این رابطه هستند و بنابراین یک الگو در کتابخانه تولید خواهد شد.

شناسایی روابط گفتمان مورد نیاز

در یک مدل بازیابی توسعه یافته شکلی از تحلیل‌های گفتمانی برای پرسش‌ها و منابع اطلاعاتی به کار گرفته شده‌است. در این روش نیاز اطلاعات با استفاده از چندین پرسش بیان می‌شود. در برخی موارد پرسش‌های آتی ممکن است جستجوی اولیه را اصلاح و یا گسترش دهند که در یک محیط تعاملی کاربر بر روی پاسخ‌هایی که سیستم به پرسش‌های قبل داده است بازخورد ایجاد ‌می‌کند. این ‌سیستم‌ها، مبتنی بر محاوره نامیده می‌شوند. در این موارد شناسایی ارتباط بین پرسش‌ها مهم است، این سیستم‌ها، پرسش را به یک ساختار بازنمایی گفتمانی تبدیل کرده و با کاربر محاوره را برای رفع ابهامات موجود آغاز ‌می‌کند و پس از ایجاد پاسخ در هر مرحله در انتظار بازخورد از سوی کاربر هستند تا بتوانند پاسخ را بهبود دهند. سیستم علاوه بر بهبود پاسخ در طول زمان از انتخابات کاربر آموزش می‌بیند بنابراین در طول زمان دقت بالاتری را بدست خواهد آورد.
در سیستم TBSL کاربر به عنوان بازخورد، به پاسخ‌ها برچسب صحیح و اشتباه می‌زند. این فرایند تا زمانی که کاربر رضایت داشته باشد ادامه می‌یابد. DEQA و ISOFT توسعه‌هایی بر TBSL هستند. در برخی پژوهش‌ها با استفاده از تعامل با کاربر اطلاعات زمانی و مکانی استخراج ‌می‌شوند.
به علاوه ممکن است پاسخ پرسش در یک مکان قرار نداشته باشد برای مثال در مورد پرسش‌های لیستی، پاسخ در مکان‌های مختلف قرار گرفته است. در هنگام برخورد با موجودیت‌های مجزا اغلب از اصطلاح حل هم ارجاعی عبارت اسمی برای توصیف این پدیده استفاده می‌شود. تکنیک‌های هم ارجاعی در زمینه پرسش و پاسخ در کارهای زیادی استفاده شده است. علاوه بر رابطه برابری ، روابط دیگری نیز شامل Hypernym و Hyponym و ارجاعات زمانی و مکانی تعیین می‌شود. حل هم ارجاعی از منابع مختلف پژوهش مهمی است که به منظور بدست آوردن پاسخ دقیق مورد نیاز است. چرا که این مسئله در پرسش و پاسخ تعاملی نیز بسیار با اهمیت است.
گونه دیگری از این روابط، rhetorical نامیده می‌شوند و به عنوان مثال برای پرسش‌هایی نظیر Why و How مطرح شده‌اند.

ترجمه به یک زبان رسمی

اجزایی نظیر برچسب‌گذاری نقش معنایی که در قسمتهای پیش بیان شد امکان ترجمه پرسش زبان طبیعی به یک زبان پرس‌و‌جوی ساخت‌یافته و همچنین جملات متنی را به ورودی‌های پایگاه داده فراهم می‌کنند. متدی که اغلب برای پرس‌و‌جو از پایگاه داده رابطه‌ای استفاده می‌شود، زبان پرس‌و‌جوی ساخت‌یافته است و مبتنی بر استانداردی است که توسط ANSI (انیستیتوی استاندارد ملی آمریکا) و ISO (سازمان استاندارد بین المللی) در سال 1986 ابداع شده‌است. SQL گرامر ساده‌ای برای تعریف داده در اختیار می‌گذارد.
در رابطه با بازیابی اطلاعات از اسناد، زبان‌های یرس و جو نظیر XPath ، زبان XML Path و Xquery برای مدیریت داده از اسناد EML (Extensible Markup Language) بوجود آمده‌اند. برخی سیستم‌ها ترجمه پرس‌و‌جو به زبان ساخت‌یافته را توسط یک مجموعه از قوانین نشانه‌ای و نگاشت انجام می‌دهند.
وقتی پرسش به یک فرمت ساخت‌یافته ترجمه شد، مدل‌های پایگاه داده کلاسیک ‌می‌توانند جهت بازیابی استفاده‌شوند که از یک مدل عینی استفاده می‌کنند چرا که داده زمانی که شرایط بیان شده در پرسش مهیا باشد بازیابی می‌شود. این مدل فاقد چارچوبی برای ترجمه‌های غیر عینی پرس‌و‌جو یا بازنمایی غیر عینی داده‌است. در این روش، زمانی که پاسخ به صورت ناقص شرایط پرسش را مهیا ‌می‌کند بازیابی نمی‌شود. رابط‌های زبان طبیعی برای پایگاه داده‌ها یکی از قدیمی‌ترین شکل‌های تکنولوژی پرسش و پاسخ هستند. وب گسترده جهانی به عنوان یک پایگاه داده بزرگ است که اخیراً متدی برای ساختاردهی و برقراری پیوند بین اطلاعات آن ارائه شده است که قابلیت‌های فراوانی را برای تکنولوژی‌های پرسش و پاسخ فراهم کرده است.

ترجمه و استدلال توسط بازنمایی منطقی

یکی از روش‌هایی که می‌توان برای بازنمایی پرسش و منبع مورد جستجو انتخاب کرد، منطق درجه اول می‌باشد. روش دیگری به نام زبان بازنمایی مفهوم(MRL) برای بازنمایی زبان طبیعی معرفی شد که حساب مسند مرتبه اول را تحت فرمولی که مبتنی بر فریم‌هاست، توسعه داد. MRL برای دسترسی به پایگاه داده‌ رابطه‌ای از پرس‌و‌جوهای SQL استفاده می‌کند. بازنمایی پرسش“Who killed Lee Harvey Oswald?” با MRL به صورت زیر است:
KILL (x, Lee Harvey Oswald)
درحالی که مکان اول، killer و مکان دوم، victim را مشخص ‌می‌کند. جبر لاندا نیز توسعه‌ دیگری برای منطق درجه اول است. علاوه بر ساختارهای مسند- گزاره‌ای به عنوان بازنمایی منطقی، تلاش‌هایی برای استفاده مستقیم از بازنمایی زبان طبیعی در پرسش و پاسخ به عنوان مثال در سیستم COGEX انجام شده است. تحت این روش بازنمایی منطقی پرسش به صورت زیر خواهد ‌بود:
پرسش: Who killed Lee Harvey Oswald?
بازنمایی منطقی پرسش: person (x2) & kill (e1, x2, x6) & Lee (x3) & Harvey (x4) & Oswald (x5) &nn_NNC (x6, x3, x4, x5) ایده COGEX استفاده از روابط مبتنی بر گرامر مانند مفعول‌های گرامری ، فاعل‌های گرامری ، الحاقات حرف اضافه‌ای ، صفتی و قیدی به عنوان بازنمایی منطقی متن است.
هی و همکاران، از شبکه منطقی مارکوف (MLN) برای شناسایی موجودیت‌ها و رفع ابهام استفاده ‌می‌کنند. با استفاده از MLN عبارات منطقی مرتبه اول شکسته شده و برای شناسایی تنها نگاشت یک منبع برای هر عبارت استفاده می‌شوند. منطق فازی نیز برای پرسش و پاسخ در جایی دیگر استفاده شده است.
زمانی که پرسش و پاسخ کاندید با استفاده از فرمول منطقی بازنمایی شده‌اند، تناسب پاسخ به یک پرس‌و‌جو به راحتی با استفاده از مدلهای اثبات‌کننده تئوری از طریق زنجیره‌سازی پایگاه داده قابل استنتاج است. یک استنتاج درست از پاسخ حتی اگر بخش‌های مختلف در پایگاه دانش توزیع شده باشند، امکان‌پذیر است. در حالی که چارجوب تئوری اجازه بیان درجه اطمینان و احتمال را ‌می‌دهد روشهای احتمالی برای محاسبه امکان اینکه یک پاسخ درست باشد نیزوجود دارد. برای مثال ممکن است حتی زمانی که تمام قسمت‌های پرسش تطابق نداشته باشند نیز پاسخ استخراج شود. توسط تعدادی بدیهیات جهان دانش، اثبات‌کننده قادر خواهد ‌بود که تناسب بین پرسش و پاسخ را تشخیص دهد. به علاوه، اطلاعات معنایی ‌می‌توانند به صورت گراف بیان شوند چرا که بازنمایی به صورت گراف امکاناتی برای ‌رتبه‌بندی پاسخ فراهم ‌می‌کند. اگر گرافها بدون جهت باشند، استفاده از شبکه بیزین، استفاده از یک مدل استدلال احتمالی را امکانپذیر خواهد کرد.

پشتیبانی از چند زبانی

دانش موجود در وب به زبان‌های مختلف بیان شده است. به علاوه کاربران تمایل دارند که از زبان بومی خود در پرس‌و‌جو‌ها استفاده کنند. بیشتر ‌سیستم‌های موجود تنها برای پشتیبانی از یک زبان ایجاد شده‌اند که اکثراً زبان انگلیسی را پشتیبانی می‌کنند. یک سیستم انعطاف پذیر می‌بایست قادر باشد زبان‌های مختلفی را پشتیبانی کند که حتی ممکن است از زبان مربوط به دانش استفاده‌شده نیز متفاوت باشد. GermaNet که با پایگاه دانش چند زبانی EuroWordNet مجتمع شده‌ است به همراه Lemon-LexInfo برای پاسخ دادن پرسش‌های آلمانی استفاده ‌می‌کند.
در سیستم ارائه‌شده در جایی دیگر جهت پاسخ‌گویی به پرس‌و‌جوهای ژاپنی استفاده می‌شود که از بازخوردهای کاربران به پاسخ ایجاد شده نیز برای رفع ابهام استفاده می‌کند. پشتیبانی از چند زبانی در ‌سیستم‌های مبتنی بر منطق نیز در برخی پژوهش‌ها استفاده‌شده‌است. استفاده از Gramatical Framework در سالهای اخیر مورد توجه تعدادی از محققان قرار گرفته است. در این تحقیقات بین پرس‌و‌جوی زبان طبیعی و پرس‌و‌جوی اسپارکل، مرحله میانی توصیف چند زبانه توسطGrammatical Framework قرار دارد که توسط آن تا به‌حال سیستم قادر است 15 زبان را پشتیبانی کند. SWIP یک پرس‌و‌جوی محوری را تولید ‌می‌کند که ساختاری بین پرسش زبان طبیعی و پرس‌و‌جوی اسپارکل است. برای پشتیبانی از چند زبانی فقط ترجمه به پرس‌و‌جوی محوری تغییر ‌می‌کند. از نسخه‌های چند زبانی DBpedia نیز برای پاسخ‌گویی پرسش‌ها به زبان‌های مختلف استفاده‌شده‌است.

جمع‌سپاری در سیستم پرسش و پاسخ

یکی از زمینه‌های جدید که در اکثر حوزه‌ها نفوذ کرده‌است استفاده از جمعیت در حل مسائل مختلف است. در زمینه پرسش و پاسخ نیز CrowdQ یک سیستم پرسش و پاسخ مبتنی بر کلمات کلیدی است که از منبع جمعیت برای رفع ابهام کمک می گیرد. این سیستم ابتدا الگوهایی را برای ارائه به جمعیت ایجاد ‌می‌کند و کاربران را در ایجاد پرسش توسط الگو یاری می‌رساند.

پرسش و پاسخ از ابر داده پیوندی و متن

ساختار غیرمتمرکز وب منجربه شکل‌گیری منابع داده توزیع‌شده با ساختارهای متفاوت شده است. بنابراین پرسش‌های پیچیده اغلب نیاز به ترکیب اطلاعات از منابع ساخت‌یافته و بدون‌ساختار یا نیمه ساخت‌یافته دارند. بنابراین تعداد قابل توجهی از پرسش‌ها تنها با استفاده از روشهای ترکیبی پرسش و پاسخ قابل پاسخ‌دهی هستند. پس با توجه به این مسئله که بخشی از اطلاعات موجود بر روی وب، هنوز به شکل متن هستند، روش‌هایی مورد نیاز است که قادر باشند نه تنها خصوصیات داده ساخت‌یافته، بلکه محیط بدون‌ساختار و یا نیمه ساخت‌یافته را نیز پشتیبانی کرده و بنابراین با پردازش هر دو نوع اطلاعات ساخت‌یافته و بدون‌ساختار یا نیمه‌ساخت‌یافته و ترکیب اطلاعات جمع‌آوری‌شده پاسخ را ایجاد کنند.
تا به‌حال تحقیقات کمی در این زمینه نیز انجام شده‌است. باست و همکاران، سیستم Broccoli را معرفی کرده‌اند که قابلیتهای جستجوی متن را با جستجوی هستان‌نگار ترکیب کرده است. کاربر می‌تواند به صورت افزایشی با پیشنهادات ارائه شده در رابط کاربری، پرسش را ایجاد و به سرعت پاسخ را دریافت کند. ایده کلیدی در این سیستم، ارائه روش جدیدی برای شاخص‌گذاری است که سیستم را قادر می‌سازد پیشنهادات و پاسخ را در زمان کوتاهی به کاربر ارائه نماید. در این سیستم دو نوع لیست برای شاخص‌گذاری تعیین می‌شود: لیست‌های متنی برای روابط هم‌رخدادی در متن و لیست‌هایی شامل روابط موجود در هستان‌نگار. هستان‌نگار استفاده‌شده، Yago و متن استفاده‌شده، Wikipedia می‌باشد. M´ımir شاخص‌گذاری جدیدی تعریف می‌کند که مبتنی بر شاخص‌گذاری استفاده شده در Broccoli است. تفاوت اصلی بین سیستم M´ımir و Broccoli در این است که در Broccoli جستجو برای موجودیت‌ها ولی در M´ımir بر اساس اسناد انجام می‌شود.
مشابه سیستم Broccoli سیستم دیگری که قبل از Broccoli برای پرسش و پاسخ ترکیبی استفاده شد، Ester بود. Broccoli در سه مورد Ester را بهبود داده است. اول اینکه Ester با نمایه معکوس برای رده‌ها کار می‌کند و تنها برای پرسش‌های خاصی زمان را تسریع می‌کند. دوم، Broccoli از مفهوم جدیدی به نام بافت در عوض استفاده تنها مجاورت کلمات برای ایجاد شاخص استفاده کرده است که منجربه افزایش دقت در ایجاد پاسخ خواهد شد. سوم، رابط کاربری Ester تنها می‌تواند پرسش‌های با یک رابطه را استخراج کند و امکان پاسخ‌دهی پرسش‌های با پیچیدگی بیشتر که تعداد زیادی روابط را جستجو می‌کنند در Broccoli اضافه شده‌است. Semplore در روشی مشابه Broccoli در یافتن بافت عمل می‌کند ولی مانند Ester از شاخص معکوس استفاده می‌کند و همچنین فاقد رابط کاربری است.
باگدو و همکاران، در جستجوی ترکیبی، متن و هستان‌نگار را به صورت مجزا با متد استاندارد Lucene و Sesame مورد جستجو قرار داده و سپس نتایج ترکیب خواهند شد. در این سیستم هیچگونه پردازش زبان طبیعی انجام نمی‌شود. جستجوی مفهومی اطلاعات شناسایی‌شده مانند عبارات اسمی را به شاخص اضافه می‌کند. پرس‌و‌جو ها به‌صورت بسته‌های کلمات هستند که از لحاظ معنایی تفسیر می‌شوند. برای پردازش پرس‌و‌جو از متد استاندارد Lucene با لیست‌های معکوس استفاده شده است. GoNTogle از روش مشابه استفاده می‌کند.
سیستم HAWK پس از پردازش‌های زبان طبیعی، عبارات اسمی را شناسایی کرده و با این فرض که عبارات اسمی را در متن به راحتی می‌توان یافت، پس از تولید الگوهای سه‌گانه پرس‌و‌جوی ترکیبی را با استفاده از Apache Jena FUSEKI تولید می‌کند. شاخص‌گذاری متن توسط نگاشت معکوس رشته‌ها به URI ها ایجاد می‌شوند. برای جستجو از زبان جستجوی Lucene و یا Solr می‌توان استفاده کرد.FuhSen در روشی مشابه HAWK عمل می‌کند با این تفاوت که FuhSen مبتنی بر کلمات کلیدی است و در جستجوی موجودیت است در حالی‌که HAWK پرسش ورودی را به صورت زبان طبیعی دریافت می‌کند و بنابراین بسیار پیچیده تر از FuhSen است. FuhSen علاوه بر داده ساخت‌یافته، از داده های موجود در شبکه اجتماعی نیز برای یافتن اطلاعات در رابطه با یک موجودیت کمک می‌گیرد. ISOFT ابتدا پاسخ را از چندین متن جستجو می‌کند در صورتی که پاسخ در متن‌ها نباشد از هستان‌نگار استفاده می‌شود.
فراست در جایی دیگر برای استخراج پاسخ پرسش‌هایی که پاسخ آنها به طور کامل در یک منبع نیامده است، منبع اطلاعات را به صورت انباره سه‌گانه مبتنی بر رخداد در نظر می‌گیرد. به این ترتیب در واقع مشکلی که به آن دلیل نیاز به استفاده از جستجوی ترکیبی وجود دارد، حل می‌شود. این پژوهش از تبدیل پرسش به زبان رسمی معنای نمادی مونتاگو استفاده کرده‌است که هر یک از کلمات در آن ، نمایانگر یک تابع هستند و می‌بایست با استفاده از عملگر انتخاب، پاسخ را استخراج کنند.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.