رده:خلاصه سازی متن

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که در اختيار داريم ، بتوانيم مطالب مورد نياز خود را مطالعه کنيم و يا اينکه چه طور مي توان در روز چندين کتاب را مطالعه نمود و يا اينکه آيا مي توان سيستمي طراحي نمود که بتواند با داده هاي موجود به تمامي سوالات ما پاسخ دهد، اينها سوالاتي است که پاسخ آنها را مي توان در يک سيستم خلاصه ساز متن جستجو کرد.

محتویات

انواع خلاصه‌سازی متن

همان گونه که در مقدمه نیز ذکر شد، خلاصه سازی خودکار متن بر عمل ایجاد نسخه‌ای کوتاه از متن اولیه دلالت دارد که همچنان اطلاعات مفید را در بر داشته باشد و از دیدگاه‌های مختلف انواع مختلفی خواهد داشت. در ادامه به مهم‌ترین انواع آن و کارهای انجام شده اشاره خواهیم نمود.

خلاصه‌سازی تک سنده

همانگونه ذکر شد در خلاصه‌سازی تک سنده، ورودی سیستم خلاصه‌ساز، تنها یک سند می‌باشد. روش‌های متعددی برای این نوع خلاصه‌سازی پیشنهاد گردیده‌است. روش‌های مذکور در [SVO07][MIH05] از جمله این روش‌ها می‌باشند. به طور کلی پیچیدگی خلاصه‌سازی تک‌سنده بسیار کمتر از خلاصه‌سازی چند سنده می‌باشد؛ چرا که در خلاصه‌سازی تک سنده تنها با یک سند روبرو هستیم که با احتمال بالایی می‌توان ادعا نمود که متن آن سند در مورد یک موضوع و به صورت پیوسته بحث می‌نماید و فاقد زیر موضوعات ضد و نقیض خواهد بود. اما در خلاصه‌سازی چند سنده که با تعداد زیادی سند مواجهیم, پوشش مفاهیم عمده تمامی این اسناد کار دشوار و پیچیده‌ای می‌باشد.

خلاصه‌سازی چند سنده

خلاصه‌سازی چند‌سنده، ارتباط تنگاتنگی با مباحث سیستم‌های پاسخگو و خلاصه‌سازی مبتنی بر پرس‌و‌جو دارد [HIR01]. در حقیقت خلاصه‌سازی چند‌سنده برروی اسنادی انجام می‌شود که در ارتباط با یک موضوع هستند ولی جهت دید آنها متفاوت از یکدیگر است. همانگونه که ذکر شد در خلاصه‌سازی چند‌سنده با پیچیدگی‌های بیشتری نسبت به خلاصه‌سازی تک‌سنده روبرو هستیم. در این مدل خلاصه‌سازی با دو چالش عمده مواجهیم [WAN07]: اول اینکه از آنجا که اطلاعاتی که در اسناد مختلف ذخیره شده‌اند در ارتباط با یک موضوع کلی می‌باشند، به ناچار با یکدیگر هم‌پوشانی خواهند داشت. از این رو نیازمند یک روش خلاصه‌سازی کارا جهت ادغام این اطلاعات و حذف افزونگی‌ها هستیم. دوم اینکه چون اسناد با دیدگاه‌های متفاوت به شرح یک موضوع می‌پردازند احتمال موجود مضامین متناقض با یکدیگر وجود دارد. بنابراین تولید خلاصه‌ای با خوانایی بالا امری دشوار خواهد بود.
افزایش روزافزون اسناد الکترونیکی در موضوعات شبیه به یکدیگر و مشکلات کمبود زمان برای عموم کاربران و همچنین نزدیکی این بحث با موضوع سیستم‌های پاسخ گو و موتورهای جستجوگر، منجر به استقبال روز افزون دانش پژوهان جهت تحقیق در زمینه خلاصه‌سازی خودکار چند‌سندی شده است. با توجه به ماهیت این مدل از خلاصه‌سازی، در حال حاضر بیشتر توجهات برروی این مدل از خلاصه سازها می‌باشد. این پایانه نامه هم بر مبنای این نوع خلاصه سازی قرار دارد.

خلاصه‌سازی گزینشی

گرچه روشهای خلاصه سازی بسیار متنوع هستند اما اغلب آنها یک ویژگی مشترک دارند آن هم گزینشی بودن آنها است[KIA06][BAR99][CHA00][CON01][GON01][STE05]. همان طور که ذکر شد خروجی این سیستم‌ها اغلب به صورت لیستی مرتب از جملات متن یا متون اولیه است و بر اساس میزان فشرده سازی (درصد فشرده سازی) که از قبل تعیین شده، تعدادی از جملات از اول لیست به عنوان متن خلاصه برگردانده می شود. اکثر این سیستم ها برای اینکه حداقل میزان افزونگی اطلاعات را داشته باشند از ایجاد جملات مشابه به هم در متن خلاصه جلوگیری می‌نمایند [CAR98].

خلاصه‌سازی چکیده‌ای

آنچه مسلم است این است که در خلاصه سازی خودکار هدف اصلی رسیدن به خلاصه‌ای است که تا حد ممکن و از ابعاد مختلف به خلاصه انسانی شبیه‌تر و نزدیک‌تر باشد. فرایندها و روند استنتاج‌های مغز انسان در طی انجام عمل خلاصه‌سازی همانند سایر فعالیت‌های آن بسیار پیچیده و بعضاً غیر قابل شناخت و پیش‌بینی می‌باشند و بی‌شک پی بردن و فهم دقیق حتی جزء کوچکی از آن مستلزم انجام تحقیقات و آزمایش‌های روانشناسانه زمانبر و پرهزینه بسیاری می‌باشد [KIN78]. برای اینکه سیستم خلاصه سازی داشته باشیم که شبیه به انسان عمل کند بایستی این سیستم بتواند برداشتی از متن ورودی را به نحوی ایجاد و ذخیره نماید؛ به عبارتی متن ورودی را تفسیر نماید [SPA99] و سپس متن خلاصه را تولید نماید. متاسفانه تا کنون نیل به سطح قابل قبولی از این تفسیر مهیا نشده است به شکلی که به نظر می‌رسد با شرایط کنونی برای داشتن سیستمی کاربردی استفاده از خلاصه‌سازی گزینشی انتخاب مناسب تری باشد [MAN01]. اکثریت مطلق تلاشها برای ایجاد سیستم های خلاصه‌سازی بر روی توسعه سیستم‌های خلاصه‌سازی گزینشی متمرکز گشته است [SPA07].
با این وجود در سالهای اخیر تلاش‌هایی در زمینه خلاصه‌سازی مبنی بر تغییر جملات اولیه و یا تولید جملات جدید به منظور نزدیک شدن به خلاصه‌سازی چکیده‌ای انجام پذیرفته است. به عنوان مثال برای ایجاد فهرست مطالب یا تیترها از روشهای کم عمقی مانند برچسب‌گذاری بخشهای سخن ، TFIDF و دوتایی ها استفاده شده است. مشکل روش های مذکور این است که آنچه که به عنوان تیتر برگردانده می شود بایستی یک عبارت یا چند کلمه کوتاه و گویا باشد اما آنچه که برگردانده می‌شود بیشتر شبیه به یک جمله است تا عبارت. Wan راهی پیشنهاد داده است که در آن چند کلمه اصلی و مهم از متن به عنوان ورودی داده می‌شود و خروجی درخت وابستگی است که همه آن کلمات را به ترتیبی مناسب در بر می‌گیرد [WAN08][WAN09]. مشکل این روش آن است که جمله خروجی می‌تواند معنایی کاملا متفاوت با متن اولیه‌ای که کلمات اصلی را از آن استخراج کرده‌ایم داشته باشد.
به طور کلی تلاش‌های عمده در زمینه خلاصه‌سازی چکیده‌ای را در دو دسته می‌توان جای داد. دسته اول روش‌هایی هستند که اقدام به حذف قسمت‌هایی از جملات می‌نمایند که دارای بار اطلاعاتی زیادی نیستند و می‌توان بدون آنها نیز اصل مطلب را ابلاغ نمود. این روش‌ها فشرده‌سازی جملات نام دارند. روش‌های دسته دوم سعی بر آمیختن اطلاعات موجود در جملات مختلف دارند. اکثر تلاش‌های انجام گرفته در زمینه خلاصه‌سازی چکیده‌ای در دسته دوم قرار دارند و تا رسیدن به خلاصه چکیده‌ای مطلوب راه درازی در پیش روی محققین قرار دارد. در ادامه به بیان عمده‌ترین تلاش‌ها در زمینه خلاصه‌سازی چکیده‌ای می‌پردازیم.

فشرده‌سازی

فشرده‌سازی جملات به فرایند حذف قسمت‌هایی از جمله در حین حفظ اطلاعات مهم و اصلی آن اتلاق می‌گردد. از یک دیدگاه روش‌های پیشنهادی در این زمینه را می‌توان به دو دسته مبتنی بر درخت و مبتنی بر جمله تقسیم بندی نمود. روش‌های مبتنی بر درخت، با تبدیل جمله به درخت تجزیه و اعمال ویرایش و تصحیحاتی به آن، فرم فشرده‌ای از درخت تجزیه را تولید کرده و سپس درخت را به جمله تبدیل می‌نمایند[GAL10][FIL08][GAL07][KNI02]. روش‌های مبتنی بر جمله، تغییرات و تصحیحات را مستقیما به جمله اعمال کرده و فرم فشرده‌ای از جمله را تولید می‌نمایند [MCD06]. این روش‌ها این مزیت را دارند که پردازش کمتری نسبت به روش‌های مبتنی بر درخت دارند، اما از آنجا که درخت تجزیه فرم ساخت‌یافته‌تری نسبت جمله خام دارد، در روش‌های مبتنی بر درخت تجزیه فرایند تولید جمله فشرده به شکل ساختمندتری دنبال خواهد شد.
در تقسیم‌بندی دیگر روش‌های فشرده‌سازی جملات، روش‌های نظارتی و غیرنظارتی خواهیم داشت. در روش‌های نظارتی که شروع تلاش‌های مربوط به فشرده‌سازی جملات نیز با این روش‌ها انجام پذیرفت، ابتدا بایستی یک پیکره عظیم به منظور آموزش روند یادگیری ایجاد گردد[GAL11][MCD06][KNI02]. هرچه که پیکره آموزش غنی‌تر و با کیفیت تر باشد نتایج مطلوبتری کسب خواهد شد. بدیهی است روش‌های غیرنظارتی[CLA08][FIL08] که نیازمند تولید چنین پیکره‌ای نیستند از این لحاظ دارای مزیت هستند و در صورتیکه نتایج بهتر و یا حتی معادل روش‌های نظارتی کسب نمایند، برای بسیاری از محققین ترجیح خواهند داشت.
اکثر روش‌های فشرده‌سازی جملات برای بررسی صحت گرامر جملات تولید شده از یک مدل زبانی استفاده می‌نمایند [TUR05][GAL07][KNI02] و برخی با ایجاد یک سری قواعد و قوانین دست‌ساز [CLA08] و یا وضع یک سری قیود برای ایجاد درخت فشرده‌شده [FIL08] و اعمال این قوانین و قیود به این مقصود نایل می‌شوند. در صورتیکه بتوان روشی را در پیش گرفت که از همان ابتدا با قواعد گرامری موجود در جمله کار کند و جمله‌ای با گرامر قابل قبول تولید نماید یک مزیت نسبت به روش‌های پیشین و راه‌حلی برای این مشکل خواهیم داشت.

روش‌های نظارتی فشرده‌سازی جملات

روش‌های نظارتی برای فشرده‌سازی جملات همانگونه که ذکر گردید می‌توانند جمله یا درخت تجزیه حاصل از آن را مبنای کار خود قرار دهند. از جمله روش هایی که مبتنی بر درخت تجریه می‌باشند روش‌های مورد استفاده در [KNI02] می‌باشد. نایت و مارکو دو روش برای کوتاه کردن و فشرده‌سازی جملات به منظور ارائه خلاصه‌ای بهتر ارائه نمودند. آنها برای شروع کار از پیکره Ziff-Davis که مجموعه‌ای از مقالاتی در مورد کالاهای کامپیوتری می‌باشد استفاده نمودند. هر یک از این مقالات شامل دو قسمت چکیده و متن اصلی می‌باشد. آنها تعداد 1067 جفت جمله بلند- کوتاه را از این پیکره استخراج نمودند. جمله اول جمله‌ای در متن اصلی و جمله دوم معادل همان جمله با طول کمتر در قسمت چکیده می‌باشد. پیکره تولید شده به عنوان پیکره آموزش مورد استفاده دو الگوریتم واقع می‌شود. روش اول پیشنهادی آنها از مدل کانال نویزی بهره می‌گیرد. این مدل در زمینه‌های مختلفی از جمله ترجمه ماشینی، تشخیص گفتار و غیره استفاده می‌گردد. به عنوان مثال در ترجمه ماشینی در این مدل هنگامی که به یک جمله فرانسوی نگاه می‌کنیم، جمله فرانسوی را جمله‌ای انگلیسی می‌انگاریم که مقداری نویز وارد آن شده است. حال هدف این است که با حذف نویزهای اضافه، به شکل اولیه‌ی جمله که همان جمله انگلیسی می‌باشد برسیم. در زمینه فشرده‌سازی جملات نیز وقتی به جمله بلند نگاه می‌کنیم، تصور می‌نماییم که این یک جمله کوتاه بوده که تعدادی کلمه دیگر به آن اضافه شده است. سعی بر آن است تا کلمات اضافه را حذف نماییم. روش کار به این ترتیب می‌باشد که فرض می‌کنیم s درخت تجزیه مربوط به جمله کوتاه و فشرده شده و l درخت تجزیه مربوط به جمله بلند اولیه باشد. روش از مدل زبانی در اینجا یعنی و مدل کانالی در اینجا یعنی استفاده می‌نماید. بهترین فرم فشرده شده، درختی است که مقدار را بیشینه نماید. برای تخمین مقدار احتمال تمام عملیات بسطی که نیاز است انجام شود تا درخت تجزیه s به درخت تجزیه l تبدیل شود محاسبه می‌گردد.
روش دوم نیز بر مبنای مدل شرطی C4.5 [QUI93] می‌باشد. این روش سعی بر تبدیل مستقیم درخت تجزیه s به درخت تجزیه l دارد. این روش یاد می‌گیرد چه زمانی باید عملیات حذف و چه زمانی عملیات ترکیب زیر درخت‌ها را انجام دهد که در آن هر تصمیم (انتقال یا کاهش) بر مبنای آنچه در پشته باقی مانده و جمله نیمه تمام فشرده شده گرفته می‌شود.
مک‌دونالد [MCD06] نیز از همان پیکره به منظور یادگیری وزن‌ها و تشکیل بردارهای وزنی استفاده نمود. هر درخت کاندید برای فشرده‌سازی توسط ضرب داخلی بردارهای وزنی در بردارهای ویژگی که از برچسب‌های جزء سخن، چندتایی‌ ها و وابستگی‌های موجود در درخت تجزیه به دست می‌آیند، امتیاز دهی می‌گردد. هر دنباله‌ای از کلمات که تابع هدف را بیشینه نماید بهترین فرم فشرده جمله را تشکیل خواهد داد. در [BER11] نیز یک روش یادگیری توامان برای گزینش و فشرده‌سازی جملات درون یک مدل یکپارچه ارائه شد.
تمام روش‌های نظارتی پیشنهاد شده برای فشرده‌سازی جملات نیازمند پیکره‌ای به منظور یادگیری هستند تا الگوریتم قادر باشد اقدام به حذف یا نگهداری اجزاء مختلف جمله نماید. همانگونه که اشاره شد، این مطلب یکی از معایب اینگونه روش‌هاست. چرا که حصول یک پیکره غنی و قدرتمند با صرف هزینه و زمانی بسیار میسر است.

روش‌های غیرنظارتی فشرده‌سازی جملات

گرچه اغلب روش‌های ارائه شده به منظور فشرده‌سازی جملات نظارتی هستند، روش‌هایی غیرنظارتی نیز بدین منظور ارائه گردیده است. کلارک [CLA08] روشی ارائه داد که بهترین فرم فشرده با استفاده از برنامه‌ریزی خطی صحیح یافت می‌گردد. تابع هدف با استفاده از یک مدل زبانی استفاده می‌نماید تا مشخص نماید کدام چندتایی بیشترین احتمال حذف را داراست. در نهایت برای بررسی صحت گرامری جملات تولیدی یک سری قوانین دست‌ساز به درختان تجزیه جملات اعمال می‌گردد. روش غیرنظارتی دیگر از مشابه روش قبل از برنامه‌ریزی خطی استفاده می‌نماید [FIL08]. این روش با تبدیل درخت تجزیه به درخت وابستگی اقدام به فشرده‌سازی درخت وابستگی به جای جمله اولیه می‌نماید. در تابع هزینه اهمیت کلمات جمله در متن و احتمال شرطی وابستگی‌های موجود در درخت لحاظ می‌گردند.
فرض کنید در درخت وابستگی یالی با برچسب l از گره h به گره w داشته باشیم، به شکل زیر تعریف می‌گردد:
TreeFormula.png
تابع هدف نیز به شکل زیر تعریف می‌گردد:
FunctionFormula.png
که در آن اهمیت کلمات یا همان از رابطه زیر به دست می‌آید:
WordFormula.png
که در آن فراوانی کلمه در سند، فراوانی کلمه در پیکره و مجموع فراوانی همه کلمات اصلی در پیکره می‌باشد. نیز احتمال حضور یالی با برچسب l از نود h می‌باشد. به عنوان مثال یا . دو نوع قید به تابع هدف برای ساخت درخت اعمال می‌گردد. قیود ساختاری و قیود نحوی. قیود ساختاری از حضور وابستگی‌های اجباری در درخت اطمینان حاصل می‌نمایند و قیود نحوی بررسی می‌نمایند در صورتیکه یک گره در خروجی ظاهر نشود یالهای مربوط به آن نیز از خروجی حذف گردند. در نهایت درخت حاصل بایستی به جمله تبدیل گردد. اشکال این روش‌ها درگیری با درخت‌ها و محاسبات احتمالاتی فراوان می‌باشدکه امکان کاهش دقت را فراهم می‌آورند، به طوری که مشاهده کردیم برای اطمینان از صحت گرامری و ساختاری جملات نیاز به اعمال قیود و قوانین زیادی است که نوشتن آنها زمانبر می‌باشد. در فصل سه به ارائه روشی می‌پردازیم که بدون درگیری با درخت و قوانین اضافه و با تکیه بر نقش‌های معنایی جملات فشرده شده مناسبی تولید می‌نماید که از لحاظ گرامر نیز قابل قبول خواهند بود.

آمیختن جملات

آمیختن جملات عبارتست از یک فرایند تولید متن به متن که تعدادی جمله مشابه را به عنوان ورودی می‌گیرد و جمله‌ای جدید ایجاد می‌نماید که حاوی اطلاعات مشترک بین جملات مشابه می‌باشد[BAR05] . در زمینه آمیختن جملات کار چندانی انجام نپذیرفته است. عمده‌ترین کار در این زمینه در [BAR99] و [BAR05] معرفی شده است. ابتدا جملات ورودی با استفاده از یک روش مشابهت جملات [HAT99] به دسته‌هایی تقسیم‌بندی می‌شوند. سپس در هر دسته یک جمله به عنوان جمله مرکزی انتخاب شده و درخت جمله مذکور با زیردرخت‌هایی از جملات دیگر موجود در دسته تجهیز شده و یک گراف پدید می‌آید. گراف مذکور می‌تواند به شکل‌های مختلف به درخت تبدیل شود اما درخت حاصل بایستی شکل استاندار درخت تجزیه را دارا باشد. سپس درخت حاصل طی فرایند خطی‌سازی به جمله تبدیل خواهد شد. آنچه حاصل می‌شود اشتراکی از جملات موجود در دسته خواهد بود. برای بررسی صحت گرامر جملات هم از مدل زبانی استفاده می‌گردد.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.