برچسب گذار اجزای واژگانی کلام

12 آبان 1389

برچسب گذاری اجزای واژگانی کلام عمل انتساب برچسب‌های واژگانی به کلمات و نشانه‌های تشکیل دهنده متن است، به صورتی که این برچسب‌ها نشان‌دهنده نقش کلمات و نشانه‌ها در جلمه باشد. برچسب‌گذارهای اجزای واژگانی کلام و پیکره‌های برچسب خورده با این برچسب‌ها در بسیاری از حوزه‌های دیگر پردازش زبان طبیعی مورد استفاده قرار می‌گیرند که از بین آنها می‌توان به خطایاب، تبدیل متن به گفتار، سیستم‌های تشخیص خودکار گفتار و ترجمه ماشینی اشاره کرد.

پیکره متنی زبان فارسی پیکره‌ای است که مجموعه برچسب آن شامل 90 برچسب است که 14 عدد از آنها برچسب‌های مقولات اصلی است. ساختار برچسب کلمات در پیکره مذکور بر اساس استاندارد ایگلز و به صورت سلسله مراتبی است. استفاده از ساختار برچسب‌گذاری سلسله مراتبی امکان نمایش مقولات اصلی، زیرمقولات، وندهای تصریفی، واژه‌بست و دیگر ویژگی‌های کلمات را فراهم می‌سازد. استفاده از ساختار سلسله مراتبی باعث شده که تعداد برچسب‌های پیکره به بیش از 580 مورد برسد.

به تازگی وبگاه «پردازش زبان فارسی» شروع به کار نموده است. در این وبگاه با استفاده از پیکره متنی زبان فارسی یک برچسب‌گذار اجزای واژگانی ایجاد شده که نسخه اول آن به نمایش گذاشته شده است. مجموعه برچسب برچسب‌گذار شامل مقولات اصلی کلمات است. دقت برچسب‌گذار 95% است.

امید است که نسخه جدید برچسب‌گذار به زودی عرضه گردد. در نسخه جدید تعداد برچسب‌های مجموعه برچسب افزایش یافته (تا حدود400 برچسب) تا ویژگی‌های بیشتری از کلمات را بتوان نشان داد.

این وبگاه از اینجا قابل دسترسی است.

استفاده از پایگاه عروض رایگان است اما اگر بخواهید می‌توانید از عروض حمایت مادی یا معنوی کنید.

حمایت مالی

در شبکه‌های اجتماعی، عروض را معرفی کنید.