رده:پردازش زبان طبیعی

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

پردازش زبان طبيعی يکی از زيرشاخه‌های با اهميت در حوزه گسترده هوش مصنوعی و دانش زبان‌شناسی‌ است. تلاش عمده در اين زمينه، ماشينی کردن فرايند درک و برداشت مفاهيم بيان شده توسط يک زبان طبيعی انساني است. به تعريف دقيقتر پردازش زبانهای طبيعی عبارت است از استفاده از رايانه به منظور پردازش زبان گفتاری و نوشتاری. پردازش زبانها و مکالمات طبيعي يکي از اموري است که با ورود فناوري رايانهاي به زندگي بشر مورد توجه بسياري از دانشمندان قرار گرفته است. حتي انديشه‏‌اي که تورينگ از ماشين هوشمند خود و تعريفي که او از هوش مصنوعي داشت، در مرحله اول مربوط به پردازش زبان طبيعي ميشد.

پردازش زبان طبيعی رهيافت بسيار جذابی برای ارتباط بين انسان و ماشين به شمار مي‌‌آيد و در صورت عملی شدنش به طور کامل میتواند تحولات شگفتانگيزی را در پی داشته باشد. مسئله پردازش زبان طبيعی يک مسئله AI-Complete به شمار مي‌‌آيد، چرا که محقق شدن آن به طور کامل مستلزم سطح بالايی از درک جهان خارج و حالات انسان برای ماشين است.

هدف اصلي در پردازش زبان طبيعي، ايجاد تئوري‌هاي محاسباتي از زبان، با استفاده از الگوريتم‌ها و ساختارهاي داده‌اي موجود در علوم رايانه‌اي است. بديهي است كه در راستاي تحقق اين هدف، نياز به دانشي وسيع از زبان است و علاوه بر محققان علوم رايانه‌اي، نياز به دانش زبان شناسان نيز در اين حوزه مي‌‌باشد. كاربردهاي پردازش زبان طبيعي به دو دسته كلي قابل تقسيم است: كاربردهاي نوشتاري و كاربردهاي گفتاري. از كاربردهاي نوشتاري آن مي توان به استخراج اطلاعاتي خاص از يك متن، ترجمه يك متن به زباني ديگر و يا يافتن مستنداتي خاص در يك پايگاه داده نوشتاري (مثلا يافتن كتاب‌هاي مرتبط به هم در يك كتابخانه) اشاره كرد. نمونه‌هايي از كاربردهاي گفتاري پردازش زبان عبارتند از: سيستم‌هاي پرسش و پاسخ انسان با رايانه، سرويس‌هاي اتوماتيك ارتباط با مشتري از طريق تلفن و يا سيستم هاي كنترلي توسط صدا. در سال‌هاي اخير اين حوزه تحقيقاتي توجه دانشمندان را به خود جلب كرده است و تحقيقات قابل ملاحظه‌اي در اين زمينه صورت گرفته است.

در آزمایشگاه فناوری وب دانشگاه فردوسی برروی تولید ابزارهای پردازش زبان طبیعی[[۱]] در پردازش متن، تلاشهایی صورت گرفته است.

از لحاظ ردهبندي، علم پردازش زبان طبيعي از شاخههاي هوش مصنوعي به حساب ميآيد.اطلاعات و دانشي كه در پردازش زبان طبيعي از آنها استفاده مي‌¬شود به شش رده مختلف تقسيمبندي ميشوند:


1- آوا شناسي که به تشخيص آواها و صداها و بازشناسي گفتار مي‌پردازد.
2- ريخت شناسي که به ساختار‌هاي کلمات و ريشه‌يابي واژگان مي‌پردازد.
3- نحو که به ارتباط کلمات به همديگر و مباحث دستوري آن‌ها در گروه‌ها و جملات مي‌پردازد.
4- معناشناسي که به ارتباطات معنايي کلمات ‌مي‌پردازد.
5- عمل‌گرايي که کاربردهاي زبان براي رساندن يک مطلب به مخاطب يا مخاطبان، در حالت عملي و يا در نوشتار و گفتار طبيعي ميپردازد. 6- مباحثه که به ارتباطات کلي يک زبان فراي يک يا چند جمله خاص ميپردازد.
بر همين مبنا الگوريتمهاي بسياري براي رسيدن به برنامههايي هوشمندتر توسط دانشمندان و متخصصين علوم رايانه، زبانشناسي و رياضيدانان، طراحي و پيشنهاد شده است. به عنوان مثال الگوريتمهاي الگوي مارکوف و الگوي مخفي مارکوف و نيز تلاشهاي چندين ساله نوام چامسکي در اين راه، نمونه خوبي براي اين امور است. روز به روز بر پيشرفتهاي دانشمندان در اين امر افزوده ميشود و دانشمندان در سراسر دنيا سعي بر بهبود روشها و پياده سازي اين روشها در زبانهاي بومي خودشان هستند.

زبان فارسي از ديدگاه ريخت‌شناسي

در زبان فارسي، هر فعل شامل زمان، تعداد و شخص است. به عنوان مثال، فعل «مي‌خوانم» يک فعل زمان حال متشکل از سه واژک است: پسوند «م» نشانگر اول شخص مفرد، «خوان» ريشه زمان حال فعل و پيشوند «مي» حاکي از تداوم است. اگر فعل داراي ضمير مفعولي باشد، اين ضمير به انتهاي فعل متصل مي‌شود، مانند: «مي خوانمش» که در آن «ش» ضمير مفعولي ناميده مي‌شود. همچنين، شکل منفي فعل با افزودن «ن» به ابتداي آن تشکيل مي‌شود. به عنوان مثال، «نمي‌خوانم» شکل منفي فعل «مي‌خوانم» است.
اسم‌ها بيش از ساير واژه‌ها در زبان فارسي چالش برانگيز هستند. دستورات متعددي براي اسم‌ها گردآوري شد که توضيحيکي از اين موارد در اين بخش ارائه مي‌شود. شکل جمع اسم با افزودن پسوندهاي (ها، ان، ات، ون، ين) تشکيل مي‌شود. «ها» براي تمام واژه‌ها بکار برده مي‌شود. «ان» براي انسان، حيوان و هر موجود زنده قابل کاربرد است. همچنين، «ات، و، ين» براي برخي واژه‌هاي عاريه گرفته شده از زبان عربي و برخي واژه‌هاي فارسي استفاده مي‌شود. شکل جمع ديگري در زبان فارسي وجود دارد که جمع مکسر ناميده مي‌شود که شکل جمع اشتقاقي (اشکال نامنظم در زبان فارسي) است. مثال‌هايي از شکل جمع در جدول زير ارائه مي‌شود.
دستورات نوشتاري نيز وجود دارد که اثرات افزودن و همراهي پيشوند و پسوند به واژه را نشان مي‌دهد. به عنوان مثال، دو بخش از يک واژه را در نظر بگيريد: A و B به صورت BA بکار برده مي‌شوند (در نظر داشته باشيد که زبان فارسي از راست به چپ نوشته مي‌شود). اگر حرف آخر A و حرف اول B به صورت «ا» باشند، حرف «ي» بين آن‌ها اضافه مي‌شود. فرض کنيدA «دانا» و B "ان" است، همراهي اين دو بخش «دانايان» را بدست مي‌دهد.
Jadvale 1.1.jpg

بررسي مختصر ساختارشناسي زبان فارسي

زبان فارسي يک زبان SOV تصريفي و داراي ترتيب واژگاني نسبتاً ثابت است که به شاخه غرب ايران در زبان‌هاي هندو اروپايي تعلق دارد. دامنه گويش اين زبان حدوداً 130 ميليون نفر، به ويژه در ايران، افغانستان و تاجيکستان و ازبکستان، و همچنين در پاکستان، بحرين، عراق، قزاقستان و اقوام ايران را دربر مي‌گيرد. در ايران، جاي که زبان فارسي به منزله زبان رسمي بکار برده مي‌شود، اغلب دري، پارسي نيز ناميده مي‌شود.
در زبان فارسي دو مشخصه عددي، مفرد و جمع مشاهده مي‌شود که شکل جمع تنها با پسوند «ها» (براي تمام اسامي قابل شمارش)، يا صرفاً براي برخي اسامي غير جاندار، پسوندهاي بسيار رسمي «ان» يا يکي از علائم جمع عربي «ات»، «ون»، «ين» و غيره مشخص مي‌شود که اين علائم فقط به واژه‌هاي عاريه‌اي عربي متصل مي‌شود. تعداد اندکي جمع فارسي مکسرنيز در زبان فارسي وجود دارد که به طور مستقيم ريشه در واژه‌هاي عاريه‌اي عربي دارد. ليکن، هيچ تغييري در اين ساختار در خصوص چنين اسامي جمع صورت نمي‌گيرد. همچنين، حرف ويژه‌اي (ي) براي تعين اسامي تغييريافته وجود دارد که اضافه ناميده مي‌شود. اسم معين و يا عبارات اسمي کامل به صورت مؤلفه اصلاحي مشخص مي‌گردد.
علاوه بر اين، علامت بي تکيه نامعين «اي» وجود دارد که اشکال را از نظر مفرد و جمع جدا نمي‌سازد؛ اگر اين علامت به اسم تغييريافته از صفت متصل شود، بلافاصله يک اسم يا صفت بعد از آن جاي مي‌گيرد. در حالت اول، اسم حرف اضافه نمي‌پذيرد، در حالي که در مورد دوم، حرف اضافه بکار برده مي‌شود. ساير علائم اعرابي شامل «اي» همراه با علامت نسبي «ک»، علامت معين دلخواه «ه»، و ضمير صفت ساز «را» است. صفت‌ها تنها از نظر پذيرش پسوند «تر» براي شکل نسبي و «ترين» براي شکل عالي از يکديگر متفاوت هستند. ليکن، صفات حرف اضافه را به دنبال اسم تغييريافته يا در صورت وجود يا نبود صفت مي‌پذيرند. اين مسأله به ويژه در خصوص صفات مشتق از شکل فعلي مصداق مي‌يابد.
با توجه به رده فعلي، زبان فارسي مانند بيشتر زبان‌هاي ايراني داراي حجم بسيار محدودي از واژه‌هاي فعلي است. اين دامنه شامل حدود 200 واژه است. بيشتر معاني فعلي که از بيشتر زبان‌هاي هندواروپايي گسترش يافته شناخته شده‌اند از طريق گزاره‌هاي فعلي پيچيده بيان مي‌شوند که از فعل ساده و مؤلفه گزاره‌اي تشکيل شده است. اين مؤلفه اسم يا صفت است.
ساختار شناختي فعلي تقريباً پيچيده است، اما الگوي نسبتاً ساده‌اي را دنبال مي‌کند. توضيحات ساختار شناختي زبان فارسي معمولاً حاکي از وجود دو ريشه فعلي جدا است، يکي براي شکل زمان حال فعل و ديگري براي شکل زمان گذشته. زمان حال در شکل امري و ساده بکار برده مي‌شود، در حاليکه در زمان‌هاي گذشته، گذشته کامل مورد استفاده قرار مي‌گيرد. زمان‌هاي مرکب و نيز وجه مجهول از گذشته کامل مشتق مي‌شود.


سطوح پردازش زبان طبيعی

وظایف مختلف موجود در علم پردازش زبان طبیعی را می‌توان در چند سطح مختلف دسته‌بندی نمود:

آواشناسی : واحد مورد مطالعه در این سطح آوا می‌باشد. شاخه ای از زبان شناسی است که مطالعه اصوات گفتار انسان را تشکیل می دهد و با خواص فیزیکی اصوات گفتاری (آواها) ارتباط دارد که عبارتند از: تولید فیزیولوژیکی آن ها، خواص آکوستیک، درک مخاطب و وضعیت نروفیزیولوژیکی. از سوی دیگر، واج شناسی به تعیین مشخصات گرامری چکیده سیستمظهای اصوات مربوط می شود.

واج شناسی : واحد مورد مطالعه در این سطح واج می‌باشد. یکی از زیرشاخه‌های زبان‌شناسی است که به بررسی نظام آوایی زبان می‌پردازد و جایگاه عناصر آوایی زنجیری و زبرزنجیری را در نظام زبان مشخص می‌کند. در این حوزه، مسائلی مانند آوا، واج، واج‌گونه، گام یا پایه، هجا، کلمه واجی، تکیه، آهنگ، رکن و وزن شعر مورد بررسی قرار می‌گیرند.

ریخت شناسی یا تکواژ شناسی: واحد مورد مطالعه در این سطح تکواژ می‌باشد. بخشی از دستورِ زبان است که ساختـ(ـارِ) واژه را موردِ تحلیل قرار می‌دهد. به سخنِ دیگر، ساختِ‌واژه به شناختِ تکواژها و راه‌هایِ هم‌نشینیِ آنها با یکدیگر در قالب‌هایِ نحوی و نیز در واژه‌سازی می‌پردازد. کارِ اصلیِ زبان‌شناس در بررسیِ ساختِ‌واژه‌یِ یک زبان، تجزیه ی عبارت‌ها و جمله‌ها و دست یافتن به تکواژها و واژه‌ها و سپس دسته‌بندیِ آنها بر اساسِ رده‌هایِ دستوریِ آن زبان می‌باشد. در زبان شناسی، تک‌واژ شناسی یعنی بازشناسی، تحلیل و توصیف ساختار تکواژها و دیگر واحدهای معنایی در زبان از قبیل کلمات، وندها و هویت دستوری و همچنین تکیه/استرس و بافتار ضمنی (کلمات در واژه نامه موضوع اصلی واژه شناسی می‌باشد.).

نحو یا جمله شناسی: واحد مورد مطالعه در این سطح عبارت یا جمله می‌باشد. به دانش مطالعه¬ی قواعد مربوط به نحوه¬ی ترکیب و در کنار هم آمدن واژه‌ها به منظور ایجاد و درک جملات در یک زبان اطلاق می‌شود. این شاخه ی مهم از دستور هر زبان نظام‌مندی و خلاقیت فراوانی را طلب می‌نماید. درست است که انسان‌ها می‌توانند مجموعه کلمات یک جمله را با ترتیب گوناگونی در کنار هم قرار دهند ولی تمامی آن‌ها جملات معنی دار نخواهند شد.
معنا شناسی : واحد مورد مطالعه در این سطح معنا می‌باشد. دانش بررسی و مطالعه‌ی معانی در زبان‌های انسانی است. این علم معمولاً بر روی رابطه بین دلالت کننده‌ها مانند لغات، عبارتها، علائم و نشانه‌ها و اینکه معانیشان برای چه استفاده می‌شود تمرکز دارد. مفاهیم زبان¬شناسی و زبان¬شناسی معنایی بررسی معانی است که توسط انسانها برای نشان دادن خودشان در طول زبان استفاده می‌شود.

کاربردشناسی : واحد مورد مطالعه در این سطح قصد می‌باشد. معنی را به هنگام کاربرد و در ارتباط با جهان خارج مورد مطالعه قرار می دهد. جملات اگر در موقعیت مناسب خود به کار نروند، نمی توانند در ایجاد ارتباط سهمی داشته باشند. ما در مقام گوینده می دانیم در هرموقعیتی چگونه صحبت کنیم و در مقام مخاطب نیز می دانیم در برابر آنچه می شنویم چه واکنشی نشان دهیم .

تحلیل گفتمان یا گفتمان شناسی: واحد مورد مطالعه در این سطح گفتمان می‌باشد. تحلیل کلام اصطلاحی کلی برای اطلاق به مطالعاتی است که زبان نوشتاری، گفتاری یا نشانه‌ای یا هر گونه پدیده نشانه‌شناختی را مورد تجزیه و تحلیل قرار می‌دهند. تحلیل گفتمان معمولاً یکی از زیرشاخه‌های علم زبان‌شناسی شناخته می‌شود. در نگاه نخست شاید تحلیل گفتمان همان تحلیل متن یا نوشتار یا تحلیل گفتار به نظر آید. اما واقعیت این است که تحلیل گفتمان چیزی بیش از آرای هارولد لاسول درباره تحلیل فرستنده ، تحلیل پیام ، تحلیل وسیله و تحلیل گیرنده است. دیری نگذشت كه بعضی از زبان شناسان این مفهوم را در معناهای متفاوتی به كاربردند . به اعتقاد برخی تحلیل گفتمان شامل تحلیل ساختار زبان گفتاری – مانند گفت و گو ها ، مصاحبه ها و سخنرانی ها – و تحلیل متن شامل تحلیل ساختار زبان نوشتاری – مانند مقاله ها ، داستان ها، گزارش ها و غیره – می شود. آنها معتقد بودند كه تحلیل گفتمان بیشتر به كاركرد یا ساختار جمله و كشف و توصیف روابط آن می پردازد . به عبارت دیگر تحلیل گفتمان عبارت است از شناخت رابطه جمله ها با یكدیگر و نگریستن به كل آن چیزی كه نتیجه این روابط است.تحلیل گفتمان به سازوکارهای زبانی تشکیل متن می‌پردازد و این که چه ابزارهایی به جمله‌های زبان متنیت می‌بخشند. در تحلیل گفتمان ، برخلاف تحلیل های سنتی زبان شناسانه ، دیگر صرفا با عناصر نحوی و لغوی تشكیل دهنده جمله به عنوان عمده ترین مبنای تشریح معنا سرو كار نداریم، بلكه فراتر از آن به عوامل بیرون از متن ، یعنی بافت موقعیتی، فرهنگی، اجتماعی، سیاسی، ارتباطی و غیره سرو كار داریم. تحلیل گفتمان، روشی نوین برای پژوهش در متن های ارتباطی است كه برای شناخت پیام و معنی به كار رفته در پیام های ارتباطی كاربرد یافته است.این روش در آغاز تا حد زیادی وامدار زبانشناسی بوده است. بسیاری از زبانشناسان هم به این قول ”مالینوفسكی “ استناد می كنند كه می گوید: ”مفهوم و معنی در دل كلمات نهفته نیست، بلكه معنی در ”اوضاع و احوال“ اجتماعی، وضع ادای كلمات، ساختمان جمله، اثركلمات مجاور بر یكدیگر و ده‌ها عامل دیگر مبتنی می باشد. “به این ترتیب ”معنی“ در كُنه ”شرایط اجتماعی“ قرار دارد كه هر پیام با توجه به وضع فرستنده و گیرنده دستخوش دگرگونی می شود.از این منظر معنی شناسی را مطالعه ”معنی“دانسته اند به مفهوم مصداقی که در جهان خارج وجود دارد یا مبتنی بر مصداق‌ها به شكل نوعی تصویر در ذهن گوینده است و ”تحلیل گفتمان“ به معنی ”تجزیه و تحلیل كلام“ به مطالعه رابطه میان صورت و نقش در ارتباط كلامی می پردازد. در تحلیل گفتمان مجموعه شرایط اجتماعی ، زمینه وقوع متن یا نوشتار ، گفتار ، ارتباطات غیركلامی و رابطه ساختار و واژه ها در گزاره ای كلی نگریسته می شود. واژه ها هر كدام به تنهایی مفهوم خاص خود را دارا هستند اما در شرایط وقوع و در اذهان گوناگون معانی متفاوتی دارند.برای مثال رستگاری برای یك انسان دیندار معنایی متفاوت از رستگاری برای یك انسان غیر دیندار دارد.

موضوعات تحقیقاتی در حوزه پردازش زبان های طبیعی، بازیابی اطلاعات و متن کاوی در زبان فارسی به قرار زیر است:

پردازش متن (رسمی و محاوره ای) شامل:

  ۱-تشابه‌یابی، ابهام زدایی کلمات در متن، تشخیص تقلب ادبی
  ۲-خلاصه‌سازی
  ۳-ترجمه ماشینی
  4-تولید زبان (تبدیل یا بیان اطلاعات به زبان محاوره ای توسط ماشین)
  ۵-غنی‌سازی متن (حاشیه‌نویسی، ارزش افزوده در متن)
  6-نظرکاوی
  7-ابزارهای پردازش زبان طبیعی (شبکه واژگان، پارسر، برچسب زن معنایی کلمات، کشف مرجع ضمایر، تشخیص و طبقه بندی اسامی)

بازیابی اطلاعات شامل:

 1-عملیات پایه بازیابی اطلاعات (تبدیل متن به ماتریس، تعیین معیار فاصله یا شباهت متنی، استخراج کلمات کلیدی)
 2-موتور جستجو (تولید و بهینه‌سازی اجزای مختلف موتورهای جستجو برای حجم بالای داده ای)
 3-استخراج اطلاعات، کشف روابط موجودیتهای متن
 4-سامانه‌های پرسش و پاسخ
 5-دسته بندی و خوشه بندی مجموعه متون

تولید خودکار محتوا، ارزیابی خودکار محتوا، پالایش محتوا (در همه انواع مختلف شامل متنی و تصویری) (filtering)، تولید و تحلیل محتوای مشارکتی فارسی (wikis, social networks)، تحلیل و کاوش کلان داده‌های متنی (Big Data)

زیررده‌ها

این رده تنها حاوی زیرردهٔ زیر است.