وبلاگ حسین خرازی

عزت زِ قناعت است و خواری زِ طلب / با عزت خود بساز و خواری مطلب

PHP یک تابع داره برای شمارش کلمات با عنوان: str_word_count

این تابع برای زبان فارسی کار نمیکنه و تعداد کلمات رو اشتباه میشماره!

برای شمارش کلمات فارسی با PHP میتونید از تابع زیر استفاده کنید:

count(preg_split(‘~[\p{Z}\p{P}]+~u’, $string, null, PREG_SPLIT_NO_EMPTY));

به جای string متغیر حاوی متن خودتون رو بنویسید.

 

منبع

دو ترم پیش درسی به نام ذخیره و بازیابی اطلاعات روی وب داشتیم. یکی از تکالیفی که استاد برامون تعیین کرده بودند برنامه حذف کلمات اضافی(Stop Word) از متن بود. برای مثال از کلمات زیر می توان به عنوان Stop word نام برد:

‘شود’,’و’,’در’,’از’, ‘به’,’که’,’این’,’را’, ‘است’,’با’,’برای’,’آن’, ‘خود’,’نیز’,’آنها’,’بر’, ‘یا’,’او’ و …

لیست Stop Wordهای زبان فارسی را که توسط روزنامه همشهری منتشر شده را می توانید از این لینک بگیرید.

امروز که داشتم کامپیوترم رو زیر و رو می کردم به این فکر افتادم که این برنامه رو روی هاست بذارم. این برنامه رو از این لینک می توانید مشاهده کنید.

حذف کلمات اضافی از متن چه کاربردی داره؟

برای پردازش متن معمولاً یک مرحله پیش پردازش داریم که اشکالات املایی و نگارشی رو باید برطرف و حذف کنیم. همچنین کلمات اضافه‌ای که نقشی در فرآیند مورد نظر ما ندارند. فرض کنید بخواهیم از یک متن، 10 کلمه‌ی کلیدی را از متن برای موتورهای جستجو استخراج کنیم. مرحله پیش پردازش شامل حذف افعال و حروف ربط و … می شود.

برای اطلاعات بیشتر درباره پردازش متون فارسی می‌توانید به وبلاگ مهندس احمد استیری مراجعه کنید.

جستجو

آخرین مطالب

تقویم شمسی

دی ۱۳۹۶
ش ی د س چ پ ج
    بهمن »
 123456789101112131415161718192021222324252627282930  

گروه پویانمایی فاطمه الزهرا(س)