رده:حاشیه‌نویسی معنایی

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

امروزه تولید محتوای دیجیتال در قالب‌های گوناگون با سرعت بسیار بالا در حال افزایش است. این افزایش در حوزه‌های مختلف هم به لحاظ کمیت و هم به لحاظ تنوع، انفجار داده ها را منجر شده است، به‌نحوی که در مدت کوتاهی – کمتر از دو سال - میزان این محتوای خام دو برابر می‌شود.

شرکت‌ها و سازمان‌های کوچک و بزرگ داده های خود را در انواع مختلف تولید کرده و در قالب‌های گوناگون منتشر می‌کنند؛ دانشمندان در دامنه‌های گوناگون مقالات علمی خود را در قالب فایل‌های متنی چاپ می‌کنند؛ فعالیت عامه مردم در شبکه‌های اجتماعی، اطلاعات زیادی را در قالب‌های مختلف عکس، فیلم و متن بازنشر می‌کند. داده‌های هواشناسی، شبکه‌های حس‌گر بی‌سیم، آرشیو عکس‌ها، کتابخانه‌های دیجیتال، متون دیجیتالی، اسناد و نمایه‌های جستجوی اینترنتی، مدارک پزشکی بیماران، پژوهش‌های علمی در دامنه‌های گوناگون، رصد اجرام آسمانی، اخبار، تلفن‌های همراه، همه و همه داده‌های عظیمی را -که با سرعت باورنکردنی در حال افزایش هستند- در اختیار جامعه بشری قرار داده است.
Semantic Annotation1.png
همان‌طور که در شکل 1-1 مشاهده می‌شود تابع افزایش حجم داده نسبت به زمان یک تابع نمایی است.
تحقیقاتی که اخیرا توسط IDC انجام شده است، نشان می دهد که حجم این محتوا تا سال 2020 به 40 زتابایت خواهد رسید و بخش عمده آن، فاقد ساختار خواهد بود. حجم بزرگ و تنوع محتوای دیجیتال باعث شده که پردازش، واکاوی، جستجو و کسب دانش از آن توسط انسان به‌طور دستی ناممکن باشد. بنابراین بدیهی است که استفاده بهینه و موثر در کاربردهای گوناگون از این داده های خام، توسط انسان مانند جستجوی معنایی، مدیریت و کشف دانش، سیستم‌های پیشنهاد دهنده، تحلیل‌های تجاری، ترجمه ماشینی و غیره منوط به استفاده از ماشین در پردازش، واکاوی و بازیابی این داده‌ها است. از طرف دیگر ماشین‌ها قادر به فهم و درک محتوایی هستند که دارای ساختار مشخص و از پیش تعریف شده باشد و ارتباطات بین داده‌ها نیز معلوم باشد. به عبارت دیگر محتوایی برای ماشین قابل خواندن است که با فراداده‌ها به اندازه لازم و کافی غنی شده باشد، به نحوی که ماشین بتواند ارتباطات بین داده‌ها را تشخیص دهد.
نمونه‌ای از فناوری‌هایی که طی چند دهه اخیر در حال استفاده است، بانک اطلاعاتی رابطه‌ای می باشد، که اطلاعات مربوط به موجودیت‌های شناسایی شده در یک دامنه خاص کاربردی را در جداول از پیش تعریف شده ذخیره می‌کند. این جدول‌ها شامل ستون‌هایی هستند که هر کدام یک خصوصیت از یک نمونه موجودیت را در خود نگهداری می کنند. همچنین ارتباطات بین موجودیت‌های یک دامنه نیز توسط دیاگرام ارتباطات موجودیت‌ها ، مدل و ذخیره می‌شود. همین‌طور اطلاعات تکمیلی دیگری همچون نوع خصوصیات موجودیت‌ها (عددی، حرفی و غیره) یا محدودیت‌هایی که در هر موجودیت می‌تواند وجود داشته باشد نیز در کاتالوگ نرم‌افزارهای مدیریت بانک‌ اطلاعاتی ذخیره می‌شود. این نحوه نگهداری داده‌ها که با در نظر گرفتن ساختار مشخص برای آن‌ها و نیز ذخیره حجم بالایی از فراداده در مورد آن‌ها صورت می‌گیرد باعث می‌شود تا ماشین بتواند آن‌ها را درک کرده و توسط انسان در کاربردهای گوناگون مورد استفاده قرار بگیرند. با توجه به این که کل فرآیند فرآوری داده‌ها که در بالا شرح داده شده، توسط انسان انجام می‌شود، لذا حجم کمی از داده‌ها در بانک‌های اطلاعاتی ذخیره شده‌اند و بخش عمده محتوای تولید‌شده توسط جامعه بشری، فاقد ساختار است. بنابراین امروزه نیاز به افزودن فراداده به این داده‌های عظیم جهت پردازش آن‌ها توسط ماشین بیش از پیش احساس می‌شود. حاشیه‌نویسی معنایی با به کارگیری پردازش زبان طبیعی، یادگیری ماشین و یادگیری آماری داده‌های فاقد ساختار که در قالب‌های مختلف مثل متن، تصویر، صوت و غیره منتشر شده‌اند را با افزودن فراداده‌ها غنی می‌کند. ابزارهای حاشیه‌نویسی معنایی زیادی طی دهه اخیر تولید شده‌اند. این ابزارها را در یک دسته‌بندی کلی می‌توان به سه نوع دستی، نیمه‌خودکار و خودکار تقسیم‌بندی کرد. در ابزارهای دستی و نیمه‌خودکار انسان به عنوان تولیدکننده فراداده یا ناظر بر تولید آن نقش دارد. به دلیل حجم بالای داده‌ها که به آن اشاره شد، بدیهی است که تمرکز بر ابزارهای خودکار امکان حاشیه‌نویسی داده‌های بیشتری را در زمان کمتر فراهم خواهد نمود. از طرف دیگر با توجه به این که حجم زیادی از اطلاعات در قالب متن است، بخش عمده این ابزارها بر داده‌های متنی متمرکز شده‌اند. در شکل 1-2 که در صفحه بعد آمده، می‌توان یک نمای کلی از حاشیه‌نویسی معنایی‌، فناوری های مورد استفاده و فعالیت‌ها و کاربردهای متنوع آن را مشاهده کرد. همانطور که در این شکل مشخص است، حاشیه‌نویسی معنایی کاربردهای گوناگونی را با فرآوری داده‌های خام و بدون ساختار فراهم می‌آورد.
Semantic Annotation2.png
پس از آن در سال 2001 وب معنایی معرفی شد که امروزه به طور وسیعی گسترش یافته است. فناوری ها و استانداردهای وب معنایی، امکان انتشار داده‌ها به فرمت استاندارد یا همان چارچوب توصیف منابع و پردازش آن‌ها را با حفظ ویژگی در دسترس بودن برای همه فراهم آورده است. به نحوی که امروزه توصیف داده‌های معنایی، روشی استاندارد برای توصیف داده‏های اصلی و مدیریت دانش در بسیاری از رشته‏ها است.
اهمیت، کاربرد و گسترش وب معنایی طی سال‌های اخیر باعث شده است که استانداردهای استفاده شده در تولید و ذخیره‌سازی فراداده‌ها در ابزارهای حاشیه‌نویسی به سمت فناوری‌های وب معنایی-به عنوان نمونه چارچوب توصیف متن و هستی‌شناسی - حرکت کند. به نحوی که ابزارهای حاشیه‌نویسی به‌روز تقریباً همگی از یک پایگاه دانش که در قالب چارچوب توصیف متن بازنشر شده باشد، در فرایند حاشیه‌نویسی بهره برده‌اند. همچنین سهولت استفاده و کاربردی شدن وب معنایی که امکان دسترسی به اطلاعات و کاربردهای متنوع را برای عموم فراهم آورده، باعث شده که اهمیت حاشیه‌نویسی معنایی دوچندان شود. علی‌رغم تلاش‌های زیاد و ایجاد ابزارهای متنوع در این حوزه، در ارزیابی ابزارها و کیفیت داده‌ها تلاش‌های کم‌تری صورت گرفته است. همچنین ضعف و کمبود در هستی‌شناسی‌های مرتبط با دامنه‌های مختلف باعث شده است که اکثر تلاش‌ها به پایگاه‌های دانش و به‌ویژه ویکی پدیا منحصر گردد.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.