رده:تجزیه‌گر اجزای جمله

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

تجزیه‌گر اجزای جمله

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیله‌ی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می‌گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
پارسرها با بهره ‌‌گیری از دستورات گرامری زبان به تفکیک جملات متون به اجزای تشکیل ‌‌دهنده-ی آن، مشخص کردن نقش هر عبارت و لغت در متن و همچنین تشکیل درخت تجزیه برای جملات متن می ‌‌پردازند.
پارسر نقش پایه ‌‌ای و مهمی را در بهبود ابزارهای پردازش متن ایفا می ‌‌کند. به عنوان مثال جهت تقویت الگوریتم ‌‌های وابسته برچسب ‌‌زن معنایی لغات (SRL) علاوه بر نقش ‌‌های کلمات، وابستگی ‌‌های کلمات به لحاظ نقشی در جمله نیز باید مشخص گردند. گرامر هر زبان، مجموعه قوانینی است که ویژگی‌ها و استعدادهای آن زبان را نشان می‌دهد. دستورات گرامری بکار گرفته شده در پارسر در سیستم ‌‌هایی نظیر سیستم ‌‌های بازشناسی گفتار، سیستم ‌‌های بررسی صحت ساختاری جملات، ترجمه ماشینی، سیستم ‌‌های خلاصه ‌‌ساز و تمامی ابزارهای پردازش متن قابل استفاده خواهد بود. اجزای هر جمله را می ‌‌توان در قالب گروه ‌‌های اسمی، فعلی، حرف اضافه ‌‌ای و ... تقسیم بندی نمود. گاه هر کدام از این گروه ‌‌ها خود شامل زیرگروه دیگری می ‌‌باشند و باز آنها نیز؛ علاوه بر این، خود نیز دارای روابطی می ‌‌باشند، مثلا یک گروه اسمی متعلق به یک گروه فعلی می ‌‌باشد. در نتیجه ‌‌ی این تقسیم ‌‌بندی ‌‌های سلسله مراتبی، می ‌‌توان یک ساختار درخت ‌‌گونه از جمله داشت که درخت تجزیه نام دارد. درخت تجزیه درختی است که ساختار نحوی یک جمله را بر اساس برخی روابط گرامری موجود در آن به شکلی ساده قابل فهم برای کسانی که دانش عمیق زبان شناسانه ‌‌ای ندارند، نمایان می ‌‌سازد.

مرور کارهای انجام شده

لازم به ذکر است که کارهای انجام شده در زمینه ‌‌ی پیاده ‌‌سازی ابزارهای پردازش متن فارسی از دقت اندکی برخوردارند و تاکنون ابزاری با عملکرد پارسر جهت تجزیه و تحلیل جملات متون فارسی ارائه نگردیده است. لذا در ادامه، کارهای انجام شده در حوزه زبان فارسی که مرتبط با عملکرد پارسر هستند ذکر خواهند شد. در مقالاتی با بهره‌گیری از پایگاه داده‌های زبان فارسی، به جداسازی همه ‌‌ی تکواژهای فارسی پرداخته شده و فهرست کاملی از تکواژها ارائه گردیده است.
در مقاله ای دیگر مدلی برای نمایش اطلاعات نحوی و معناییِ مدخل واژگانی فعل ارائه شده است. در مدل پیشنهاد شده در آزمایشگاه فناوری وب دانشگاه فردوسی از نحو به سوی معنا حرکت می‌کند. در سطح اول که سطح ساختاری است، اطلاعات دستوری اعم از مقوله ‌‌ی نحوی نهاد، چارچوب زیرمقوله‌ای (متمم‌های اجباری فعل) و مقوله ‌‌ی نحوی متمم‌های اختیاری (ادات) نشان داده شده است. در سطح بعدی که ساختار موضوعی است، اطلاعات ساختار موضوعی، نقش‌های معنایی، محدودیت‌های گزینشی، هسته ‌‌ی واژگانی و بالاخره پربسامدترین ساخت‌ها با هسته ‌‌ی فعل نشان داده می‌شود.
در منبعی دیگر با توجه به داده‌هایی مشخص، دوازده حوزه ‌‌ی دستوری بازشناخته شده است. این حوزه‌ها عبارت‌اند از صفت، ضمیر، اسم، فعل، قید، حرف اضافه، علائم سجاوندی، جمله‌سازی، گشتار، صرف، املا و واژگان. سپس، ویژگی‌های هر حوزه، استخراج و قواعد حاکم بر آن ارائه گردیده است. این کار بر اساس فرضیه ‌‌ی استقلال نحو چامسکی صورت پذیرفته است.
یکی از چالش‌های بزرگ در پردازش خودکار متن‌های زبانی، شناساییِ واژه‌ها و نشانه‌گذاری آنهاست. نشانه‌گذاری دستوری را معمولاً برچسب‌دهی می‌نامند و تعیین مجموعه ‌‌ی برچسب‌های دستوری هر زبان، به‌جز چارچوب‌ها و قواعد عمومی، شرایط ویژه ‌‌ی خود را دارد.
در مقاله دیگری با بررسی مفصل فعل در زبان فارسی، نوعی دسته‌بندی ارائه شده است که با توجه به آن بتوان برنامه‌ای نوشت تا شناساییِ افعال در متن به طور خودکار انجام و سپس اجزا و نوع آنها تعیین شود. در منبع دیگری ابزاری برای تشخیص فعل در زبان فارسی ارائه شده است. این ابزار قادر است ویژگی‌های زمان، شخص، عدد، معلوم یا مجهول و همچنین ریشه ‌‌ی فعل را اعلام نماید.
در این ابزار در مرحله ‌‌ی اول، کاربر متنی را که ممکن است شامل یک واژه، یک عبارت، یک جمله یا چندین جمله باشد وارد می‌کند. واحد متن، جمله در نظر گرفته شده است. بنابراین باید پایان متن را با یکی از علائم سجاوندی به برنامه اعلام نمود. مرحله ‌‌ی دوم تشخیص واژه می ‌‌باشد که مرز آن فاصله است. تکواژهای مربوط به فعل که جدا نوشته می‌شوند در برنامه تعریف شده‌اند. بنابراین، برنامه به‌طور خودکار فاصله ‌‌ی بین این تکواژها و فعل را حذف می‌کند و این کلمات را به‌صورت یک واژه ‌‌ی یک‌پارچه به‌حساب می‌آورد.
در مرحله ‌‌ی بعد فعل ‌‌ها شناسایی می ‌‌شوند. در این برنامه یک پایگاه داده شامل بن ‌‌های ماضی و مضارع تهیه شده است. ابتدا واژه در فهرست جستجو می‌شود. افعالی که هیچ‌گونه پیشوند یا پسوندی ندارند به‌راحتی در فهرست پیدا می‌شوند. سپس مشخصات فعل مورد نظر بر اساس اجزای اعلام‌شده در فهرست دیگری اعلام می‌شود. پایگاه داده‌های این برنامه شامل ۴۵۰ واژه است. این برنامه با طراحی مرحله‌به‌مرحله، اقدام به شناساییِ اجزای واژه می‌کند و با جداسازی و تجزیه ‌‌ی این افعال، نوع فعل را مشخص می‌کند.
در کاری دیگر برای تعیین مقوله‌های دستوری واژه‌های متن‌های پیوسته ‌‌ی فارسی، از روشی ریاضی و آماری بهره گرفته شده است. روش مورد استفاده که برچسب‌دهی توزیعی نامیده شده، نخستین بار بوسیله ‌‌ی شوتس برای زبان انگلیسی بکار گرفته شد. در این روش، فرض بر این است که رفتار نحوی واژه‌ها در الگوهای هم‌وقوعی آنها بازتاب می‌یابد. برنامه، با ایجاد بردارهای آماری از همسایه‌های دو سوی هر واژه و بررسی شباهت‌های رفتار نحوی‌شان، احتمال‌های ممکن مقوله ‌‌ی دستوری آن را محاسبه می‌کند و برچسب مناسب را از میان یک مجموعه ‌‌ی ۴۵تایی برمی‌گزیند. تعیین مجموعه برچسب‌های هر زبان و برای هر منظور، تابع شرایط و معیارهای متعددی است که این کار را به چالشی بزرگ تبدیل می‌کند.
در مرجعی دیگر نیز مقاله ‌‌ای با عنوان پارسر زبان فارسی با بهره ‌‌گیری از پیوندهای گرامری ارائه گردیده است که در آن در ابتدا لغات بکار رفته در متن از نظر ریخت ‌‌شناسی مورد بررسی و تجزیه و تحلیل قرار گرفته و سپس ارتباط آنها با سایر لغات تعیین می ‌‌گردد.

ساخت تجزیه‌گر اجزای جمله برای زبان فارسی در آزمایشگاه فناوری وب

کار انجام شده برای طراحی پارسر زبان فارسی به چند فاز اصلی تقسیم می ‌‌‌گردد.
تعیین برچسب ‌‌‌های مورد نیاز
در نخستین فاز، مجموعه برچسب ‌‌‌های مورد نیاز با نشانه‌های دقیق و با نظم سلسله‌مراتبیِ حساب‌شده‌ای مشخص گردیده؛ بطوریکه برچسب‌ها هیچ‌گونه تداخل یا هم‌پوشانی با یکدیگر ندارند. مجموعه ‌‌‌ی برچسب ‌‌‌ها مطابق با جدول زیر از گروه ‌‌‌های تشکیل دهنده ‌‌‌ی جملات، آغاز گردیده؛ با توجه به نوع گروه و برچسب هر لغت تشکیل دهنده گروه (یعنی اسم، فعل، قید و غیره) مطابق با جدول بعد، برچسب ‌‌‌های متعلق به همان گروه و نقش به صورت جزئی و ریزتر، بسط داده می ‌‌‌شود.
Jadvale 1.14.jpg
Jadvale 1.15.jpg
ویژگی ‌‌‌های جزئی ‌‌‌تر هر کدام از گرو ‌‌‌ها و برچسب ‌‌‌های لغات با توجه به نوع برچسب تعریف گردیده و مستقیما به صورت فارسی با گسترش برچسب، نمایش داده شده است.
پیش ‌‌‌پردازش و شناسایی جملات و لغات
در فاز بعدی جهت استانداردسازی متون بایستی پیش‌پردازش‌هایی روی آنها انجام شود. طبیعتا هر چه این پیش‌پردازش‌ها قوی‌تر باشد، خروجی ابزار، قابل اطمینان ‌‌‌تر خواهد بود. در واقع در این فاز بایستی همه ‌‌‌ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن، یکسان-سازی گردند. در پردازش رسم الخط زبان فارسی، با توجه به قرابتی که با رسم الخط عربی دارد، همواره در تعدادی از حرف ‌‌‌ها مشکل وجود دارد که از جمله ‌‌‌ی آنها می ‌‌‌توان به حروف "ک"، "ی"، همزه و غیره اشاره نمود. در اولین گام باید مشکلات مربوط به این حروف را برطرف کرد. علاوه بر این، اصلاح و یکسان ‌‌‌سازی نویسه‌ی نیم‌فاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسه ‌‌‌ی «ـ» که برای کشش نویسه ‌‌‌های چسبان مورد استفاده قرار می ‌‌‌گیرد و مواردی مشابه برای یکسان ‌‌‌سازی متون، از اقدامات لازم قبل از شروع عملیات پارس می ‌‌‌باشد.
در این فاز مطابق با یک سری قاعده دقیق و مشخص، فاصله ‌‌‌ها و نیم ‌‌‌فاصله ‌‌‌های موجود در متن برای علاماتی نظیر "ها" و "ی" غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل ‌‌‌ساز نظیر "می"، "ام"، "ایم"، "اید" و موارد مشابه جهت استفاده در فاز بعدی، اصلاح میگردند.
پس از پایان مرحله ‌‌‌ی پیش پردازش متون، ابزار تشخیص ‌‌‌دهنده ‌‌‌ی جملات با استفاده از علامت‌های ”.“، ”؛“، ”!“، ”؟“، ”?“، ”:“ و بکارگیری برخی دستورات گرامری زبان فارسی و در نظرگرفتن برخی لغات آغاز کننده ‌‌‌ی جملات، مرز جمله‌ها را برای استفاده در گام ‌‌‌های بعدی تعیین می ‌‌‌نماید. تشخیص ‌‌‌دهنده ‌‌‌ی لغات نیز با استفاده از علامت‌های فضای خالی، ”،“، ”,“، ”-“ و در نظر گرفتن اصلاحات اعمال شده در مورد پیشوندها و پسوندها در فاز قبلی، واژه‌ها را شناسایی می ‌‌‌نماید.
شناسایی برچسب ‌‌‌های مختص و اولیه
در این فاز، تک ‌‌‌تک لغات شناسایی شده از مراحل قبل از ابتدای متن مورد بررسی قرار می ‌‌‌گیرند. یک سری از لغات خاص شامل فعل، اسم، حروف، قید و غیره، برچسب مختص به خود را دارند و همواره همین برچسب را خواهند گرفت. به همین دلیل اینگونه لغات از ابتدا به صورت چندین فرهنگ لغت مجزا تهیه گردیده و در این فاز مورد استفاده قرار می ‌‌‌گیرند.
به عنوان مثال اسامی خاص، ضمایر شخصی، ضمایر اشاره، ریشه ‌‌‌ی افعال اسنادی، افعال پیشوندی، افعال دوبخشی احتمالی، افعال دوبخشی، قیدهای مختص، حروف اضافه، حروف ربط، حروف امر، حروف کمیتی، حروف یا اصطلاحات خاص، صفات اشاره، صفات مبهم و کلمات پرسشی هر کدام به صورت مجزا در فرهنگ لغتی ذخیره می ‌‌‌شوند که البته برخی از فرهنگ لغات فوق همچنان نیاز به بازبینی و تکمیل دارند. در حین پردازش متن در صورتی که لغت شناسایی شده در هر کدام از دسته ‌‌‌های فوق قرار گیرد، برچسب مربوط به همان دسته را خواهد گرفت.
در مورد قیدها، قیدهای مختص براحتی شناسایی می ‌‌‌گردند؛ ولی بعضی از اسم ‌‌‌ها یا صفت ‌‌‌ها یا کلمات دیگر نیز گاهی در جمله نقش قیدی می پذیرند. شناسایی این قیدها بدین صورت است که با توجه به ساختار لغات و جایگاهشان، هر لغتی که احتمال قید بودن آن وجود داشته باشد، در صورتیکه پس از تشکیل گروه ‌‌‌های اسمی در جمله، منفرد باقی مانده و در گروه اسمی با چند لغت دیگر همراه نشده باشند، قید خواهد بود و برچسب قید خواهد گرفت.
در روند تجزیه و تحلیل جملات، برخی از برچسب ‌‌‌ها صرفا به یک لغت تعلق می ‌‌‌گیرند و نیاز به عملیات خاصی ندارند ولی برخی دیگر از برچسب ‌‌‌ها ممکن است برچسب لغات قبل یا بعد از خود را تحت تاثیر قرار دهند که توسط یک سری توابع، مورد بررسی قرار خواهند گرفت.
حروف اضافه (P) از جمله برچسب ‌‌‌هایی هستند که برچسب پس از خود را تحت تاثیر قرار میدهند. لغت یا گروه شامل لغات پس از حرف اضافه، اسم (N) یا گروه اسمی (NP) هستند که با حرف اضافه ‌‌‌ی قبل از خود، گروه حرف اضافه ‌‌‌ای (PP) را تشکیل می ‌‌‌دهند.
شناسایی ویژگی ‌‌‌های فعل
شناسایی صحیح انواع فعل پیشوندی، ساده و مرکب در زمان ‌‌‌های مختلف در متن با بهره ‌‌‌گیری از دستورات نحوی گرامر زبان فارسی، موقعیت لغات و تحلیل ریخت ‌‌‌شناسی لغات (مطالعه ساختار لغات) صورت پذیرفته است . برای شناسایی افعال در متن، احتمال ظهور فعل در موقعیت ‌‌‌هایی خاص نظیر لغات قبل از جداکننده ‌‌‌های جملات (SS) مثل علامت‌های ”.“، ”؛“، ”!“، ”؟“، ”?“، ”:“ و غیره، جداکننده ‌‌‌های لغات (WS) مثل علامت‌های ”،“، ”,“، ”-“ و غیره و همچنین یک سری حروف خاص آغازکننده جملات (AP) مثل "که"، "اساسا"، "اصولا"، "البته"، "تا"، "اما"، "اگر"، "ولی"، "زیرا"، "سپس"، "همچنین"، "و"، "یا" و غیره از طریق چک کردن تطبیق با ساختار تمامی زمان ‌‌‌های افعال فارسی، مورد بررسی قرار می ‌‌‌گیرد. احتمال فعل بودن لغات در موقعیت ‌‌‌های ذکر شده با بررسی مطابقت با انواع ساختار افعال فارسی توسط عبارات منظم بررسی می ‌‌‌گردد. درصورتیکه لغات مورد ارزیابی با هر کدام از ساختارهای فعل که در ادامه ذکر خواهد گردید توسط عبارات منظم، تطبیق پیدا کنند، گروه فعلی را تشکیل خواهند داد و هسته ‌‌‌ی گروه فعلی نیز بن فعل خواهد بود.
برای صرف فعل در زمان ‌‌‌های مختلف، شناسه‌ها مطابق با جدول زیر به ریشه یا بن فعل افزوده می‌شوند. شناسه‌ها دو گونه ‌‌‌اند: گذشته و حال. نکته قابل توجه در مورد افعال زبان فارسی، پایان پذیرفتن ریشه تمام افعال گذشته با حروف "ت" و "د" می ‌‌‌باشد که در شناسایی افعال می ‌‌‌توان این نکته را نیز مدنظر قرار داد.
Jadvale 1.16.jpg
ساختار افعال متداول و مرسوم زبان فارسی نیز مطابق با جدول زیر میباشد که توسط عبارات منظم در برنامه مورد استفاده قرار میگیرند.
Jadvale 1.17.jpg
ساختار افعال متداول و مرسوم زبان فارسی نیز توسط عبارات منظم در برنامه مورد استفاده قرار می ‌‌‌گیرند.
به عنوان نمونه برای تطبیق ساختار زمان گذشته استمراری از عبارت منظمی شبیه به عبارت زیر استفاده می ‌‌‌شود (بدیهی است که با توجه به شروع چپ به راست حروف در ساختار ذخیره-سازی در برنامه ‌‌‌های رایانه ‌‌‌ای، عبارت منظم نیز بایستی از چپ به راست بازچینی گردد).
(ن)*(می)(فاصله|نیم ‌‌‌فاصله)*(w)*(م|ی|Ø|یم|ید|ند)
"ن" در ابتدای عبارت منظم فوق برای در نظر گرفتن افعال منفی است. قسمت میانی عبارت منظم نیز می ‌‌‌بایست با ریشه ‌‌‌ی ماضی یکی از افعال مطابقت پیدا کند.
در مورد افعال اسنادی پس از شناسایی گروه فعلی، در لغات قبل از آن بایستی گروه مسندی یا صفتی را تشخیص داد. در مورد افعال دو بخشی نیز در مورد افعالی از ریشه "کردن"، "شدن" و "نمودن" احتمال ترکیب آن با لغت قبل از آن بررسی می ‌‌‌گردد. در مورد سایر افعال دو بخشی با مشاهده گروه فعلی شامل فعل دوبخشی و اطمینان از وجود آن در فرهنگ لغتی که بن ماضی و مضارع افعال دوبخشی را همراه با بخش اول آنها در خود ذخیره دارد، لغات قبل از گروه فعلی تا ابتدای جمله جهت پیدا کردن جزء اول فعل مورد بررسی قرار می ‌‌‌گیرند.
برای شناسایی افعال امر نیز مستلزم بکار ‌‌‌گیری فرهنگ لغتی شامل بن مضارع افعال هستیم که با در نظر گرفتن ساختار فعل امر و جایگاه آن در جملات، شناسایی افعال امری نیز میسر گردید. با بهره ‌‌‌گیری از فرهنگ لغتی شامل بن ماضی و مضارع افعال علاوه بر شناسایی افعال امری، دقت تشخیص افعال در سایر ساختارها نیز بهبود داده شد.
با توجه به تطبیق گروه فعلی با هر کدام از ساختارهای فوق زمان فعل شناسایی شده و با توجه به نوع شناسه ‌‌‌ی فعل، شخص فعل تشخیص داده می ‌‌‌شود. از جمله ویژگی ‌‌‌های دیگر فعل، وجه و همچنین معلوم یا مجهول بودن فعل است. فعل می ‌‌‌تواند یکی از وجه ‌‌‌های سه ‌‌‌گانه اخباری، التزامی یا امری را داشته باشد. وجه امری با مطابقت گروه فعلی با ساختار امر در فعل ‌‌‌ها و وجه التزامی نیز با تشخیص لغاتی نظیر "شاید"، "باید"، "کاش" و غیره قبل از فعل مضارع التزامی تشخیص داده می ‌‌‌شود که بیانگر وقوع نامسلم فعل است. سایر افعال به صورت پیش ‌‌‌فرض وجه اخباری داشته و وقوع فعل در آن مسلم می ‌‌‌باشد.
معلوم و مجهول بودن افعال نیز از طریق تشخیص ساختار صفت مفعولی(بن ماضی + ه) و مصدر "شدن" در انواع زمان ‌‌‌ها در جمله تشخیص داده می ‌‌‌شود. بنابراین در مورد هر گروه فعلی، هسته-ی گروه فعلی، شخص، زمان، وجه و همچنین معلوم یا مجهول بودن آن تشخیص داده می ‌‌‌شود.
شناسایی ویژگی ‌‌‌های اسم
تعدادی از اسامی در روند پردازش متن، شناسایی می ‌‌‌گردند. هر لغتی که تا پایان پردازش، بدون برچسب باقی بماند نیز به صورت پیش ‌‌‌فرض، برچسب اسم را خواهد گرفت. پس از پایان پذیرفتن اختصاص برچسب به تمامی لغات نیز با ترکیب برچسب ‌‌‌های متوالی در صورت امکان، گروه ‌‌‌های اسمی، فعلی، قیدی، حرف اضافه و غیره تشکیل می ‌‌‌گردد.
اسم، کلمه‌ای است که می‌تواند مستقیماً نهاد جمله باشد و برای دلالت بر شخص، حیوان، شی یا مفهومی به کار می‌رود.
گام بعدی که دارای اهمیت ویژه و بسزایی در بهبود عملکرد و دقت پارسر می ‌‌‌باشد، ریشه ‌‌‌یابی اسامی شناسایی شده از مرحله قبل می ‌‌‌باشد. در ریشه یابی اسامی موجود در متن، از یک ریشه یاب معنایی بهره گرفته شده است. بدین صورت که فرهنگ لغتی شامل تمامی لغات فارسی تهیه گردیده و در ریشه یابی لغات، حذف پسوندها بر طبق قواعدی مشخص و به ترتیبی خاص صورت پذیرفته و صحت نتیجه ‌‌‌ی جاری به عنوان ریشه از طریق معنادار بودن کلمه و وجود آن در فرهنگ لغت، مورد بررسی قرار می ‌‌‌گیرد. با در نظر گرفتن این نکته که لغاتی مانند جمع ‌‌‌های مکسر جزو استثنائات محسوب می ‌‌‌گردند؛ فرهنگ لغتی نیز حاوی جمع ‌‌‌های مکسر تهیه شده و ریشه ‌‌‌ی این لغات مستقیما بیان می ‌‌‌گردد. بدین ترتیب با بررسی پسوندهای اضافه شده به هر لغت و سایر لغات موجود در هر گروه اسمی، یک سری از ویژگی ‌‌‌های اسم، قابل استنباط می ‌‌‌باشد که در ادامه به آنها اشاره خواهیم نمود. از جمله ویژگی ‌‌‌های اسم، عام یا خاص بودن آن است. اسم عام، اسمی است که بر همه افراد و اشیاء و مفاهیم دلالت کند و بین همه آنها مشترک باشد (مانند «کتاب»، «مرد») و اسم خاص، اسمی است که تنها به یک فرد یا شی اشاره دارد و همه را شامل نمی‌شود (مانند «فاطمه»، «فیروزکوه»، «ایران»). اسم‌های خاص را به چهار دسته می‌توان تقسیم کرد: اسم مخصوص انسان‌ها: مانند «احمد»، «زهره»؛ اسم مخصوص حیوان‌ها: مانند «رخش»، «شبدیز»؛ اسم مخصوص اماکن مختلف جغرافیایی مانند «آسیا»، «ایران»، «سبزوار»؛ اسم مخصوص اشیائی که بیشتر از یکی نیستند: مانند «قرآن»، «تخت طاووس»، «کوه نور». با توجه به اینکه فرهنگ لغتی از اسامی خاص تهیه گردیده است، خاص و عام بودن هر اسم به راحتی تعیین می ‌‌‌گردد.
از ویژگی ‌‌‌های دیگر اسم، معرفه یا نکره بودن آن است. اسمی که برای شنونده یا خواننده آشنا باشد را معرفه می‌گویند. در شناسایی اسامی معرفه در صورتیکه اسم خاص باشد یا در گروه اسمی شامل اسم خاص، صفت ‌‌‌های اشاره یا اسم معرفه ‌‌‌ای باشد، معرفه خواهد بود. مانند «فیروزکوه»، «احمد»، «این کتاب»، «همان خانه»، «پسر احمد».
در صورتی که اسمی برای خواننده یا شنونده آشنا نباشد، به آن اسم نکره می‌گویند. در شناسایی اسامی نکره نیز در صورتیکه "ی" در آخر اسم یا "یک" قبل از اسم بیاید یا اسم در گروه اسمی شامل صفات مبهم نظیر "همه"، "هیچ" و غیره باشد، نکره خواهد بود. مانند: " کتابی را خواندم."، "یک سوال را حل کرد."، "همه کتاب ‌‌‌ها را خوانده‌ام.". در مورد اسمی که هیچ کدام از نشانه ‌‌‌های فوق را دارا نباشد، ابهام وجود خواهد داشت و با توجه به کاربرد اسم در جمله و چگونگی بیان، ممکن است اسم معرفه یا نکره باشد. در این حالت، فرض بر نکره بودن اسم گذاشته شده است.
ویژگی دیگر اسم، مفرد یا جمع بودن آن است. اسمی که بر یک شخص، چیز یا یک مفهوم دلالت کند، مفرد است. اسم‌های مفرد در زبان فارسی نشانه‌ای ندارند. اما اسم‌هایی که به بیش از یک فرد، کالا یا مفهوم اشاره کنند، جمع هستند. در صورتی که به اسم‌های مفرد، یکی از نشانه‌های "ها" یا "ان" اضافه شود، جمع می‌شود. بنابراین هر لغتی که دارای علامت‌های جمع "ها" یا "ان" باشد، جمع خواهد بود. اسم‌های جمع مکسر عربی نیز که در فرهنگ لغتی ذخیره گردیده ‌‌‌اند براحتی قابل شناسایی بوده و جمع محسوب می ‌‌‌گردند. علامت "ات" برای اسم‌های مونث عربی نیز از نشانه ‌‌‌های جمع می ‌‌‌باشد؛ البته بعضی از اسم‌های فارسی نیز به صورت مرسوم با این علامت جمع بسته می‌شود که استفاده از آن را مذموم می‌دانند (مانند گرایشات و فرمایشات). علامت "جات" که برای برخی از اسم‌هایی که به "الف"، "یا"، "واو" و "های" بیان حرکت ختم می‌شوند، استفاده می‌شود، مانند «سبزیجات»، «مرباجات» «ادویه جات»، که در اکثر موارد علاوه بر معنای جمع به معانی جنس و نوع نیز هست. شناسایی اسامی جمع نیز از طریق نگهداری آنها در یک فرهنگ لغت، امکان ‌‌‌پذیر گردیده است. اسم جمع به اسم ‌‌‌هایی اطلاق می ‌‌‌گردد که مفرد نیستند و علامت جمع ندارند، اما بر بیش از یک نفر یا چیز دلالت می‌کنند، مانند «مردم»، «دسته» و «لشکر».
ویژگی بعدی قابل تشخیص اسم، جامد یا مشتق بودن اسم است. اسم‌هایی را که با بن مضارع و بن ماضی ساخته می‌شوند، اسم مشتق می‌گویند و با تطبیق ریشه نهایی اسم با بن فعل، مشتق تشخیص داده خواهد شد. مانند: بن مضارع + ِ ش: دانش یا بن ماضی + - ار: رفتار. سایر اسم‌هایی را که در ساختمان آنها از بن مضارع یا بن ماضی استفاده نشده است، اسم جامد می‌گویند. مانند: توپ، کابل، دیوار.
بنابراین در مورد اسم و گروه ‌‌‌های اسمی، عام یا خاص؛ معرفه یا نکره؛ مفرد، جمع یا اسم جمع و همچنین جامد یا مشتق بودن آن تشخیص داده می ‌‌‌شود.
ترکیب برچسب ‌‌‌ها و تشکیل گروه ‌‌‌ها
در پایان، طی یک فرآیند مشخص، امکان ترکیب برچسب ‌‌‌های متوالی مورد بررسی قرار می ‌‌‌گیرد. در صورتیکه چندین لغت متوالی دارای برچسب یکسانی باشند و یا در بین آنها لغات "و" یا "یا" آمده باشد همگی با یکدیگر تشکیل یک گروه را می ‌‌‌دهند و یک برچسب کلی به آن اختصاص می ‌‌‌یابد. نکته قابل توجه این است که جداکننده ‌‌‌ها، انواع حروف، ضمایر و اسامی خاص که مستقیما برچسب می ‌‌‌گیرند قابلیت ترکیب با گروه بعد از خود را ندارند؛ در نظر گرفتن این نکته منجر به تشکیل گروه ‌‌‌هایی صحیح به خصوص در مورد گروه ‌‌‌های اسمی می ‌‌‌گردد.
بدین ترتیب با اختصاص برچسب به تمامی گروه ‌‌‌ها و لغات، درخت تجزیه جملات متن ترسیم می ‌‌‌گردد که با بسط متن به پاراگراف ‌‌‌ها، جملات، گروه ‌‌‌ها و لغات تشکیل دهنده ‌‌‌ی گروه ‌‌‌ها، برچسب ‌‌‌های هر سطح، قابل مشاهده می ‌‌‌باشد.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.