دو ترم پیش درسی به نام ذخیره و بازیابی اطلاعات روی وب داشتیم. یکی از تکالیفی که استاد برامون تعیین کرده بودند برنامه حذف کلمات اضافی(Stop Word) از متن بود. برای مثال از کلمات زیر می توان به عنوان Stop word نام برد:

‘شود’,’و’,’در’,’از’, ‘به’,’که’,’این’,’را’, ‘است’,’با’,’برای’,’آن’, ‘خود’,’نیز’,’آنها’,’بر’, ‘یا’,’او’ و …

لیست Stop Wordهای زبان فارسی را که توسط روزنامه همشهری منتشر شده را می توانید از این لینک بگیرید.

امروز که داشتم کامپیوترم رو زیر و رو می کردم به این فکر افتادم که این برنامه رو روی هاست بذارم. این برنامه رو از این لینک می توانید مشاهده کنید.

حذف کلمات اضافی از متن چه کاربردی داره؟

برای پردازش متن معمولاً یک مرحله پیش پردازش داریم که اشکالات املایی و نگارشی رو باید برطرف و حذف کنیم. همچنین کلمات اضافه‌ای که نقشی در فرآیند مورد نظر ما ندارند. فرض کنید بخواهیم از یک متن، 10 کلمه‌ی کلیدی را از متن برای موتورهای جستجو استخراج کنیم. مرحله پیش پردازش شامل حذف افعال و حروف ربط و … می شود.

برای اطلاعات بیشتر درباره پردازش متون فارسی می‌توانید به وبلاگ مهندس احمد استیری مراجعه کنید.