این پست حاوی ریاضیات است |
این آخرین قسمت از یک پست دنباله داره که در مورد کلمه مهمل شروع شد. اول به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ و در نهایت به سراغ قاون زیف رفتیم و کلی در باره اش حرف زدیم و روی دادههای جادی دات نت تستشون کردیم.
حالا با کمک امین صفاری یا همون خیخو، می ریم سراغ دو تا نمودار دیگه و یک بحث که شاید به درد کسی بخوره. اما قبل از نشون دادن نمودارهای جدید، بذارین یک نگاه بندازیم به همون نمودار اصلی که توی قانون زیف استفاده شد:
خیخو برامون نوشته:
شیب خط هرچی بیشتر باشه یعنی فشاری که یک کلمه به کلمه دیگه وارد میکنه تا اونو مجبور به تکرار (یا ایجاد یک کلمه جدید) کنه تا جمله رو با معنی بکنه کمتر هست (چون قراره جملات (ترکیب کلمات) برای انسان با معنی باشه) . البته متاسفانه خیلی تو داده های تو ازش نمیشه معنی استخراج کرد. و بیشترین کاربردش رو تو مقایسه یک متن یکسان با ۲ زبون مختلف نشان میده (نشون میده که کدام زبان با کلمات کمتری جملات معنی دار بیشتری رو میرسونه ) .به هر حال شیب خط تو داده های تو (3.90339418644553e-05) این هست.
۱) شیب خط هم میتونه اطلاعات خوبی داشته باشه مثلا اینکه دامنه لغات غیر وابسته ( خود کلمه به تنهایی معنی کامل داره) تو داده هات چقدر هست (اگر اشتباه نکنم تو زبان شناسی بهش میگن شناسه N-Gram زبان) .
۲) یک چیز جالب دیگه تو این نمودار میتونه این باشه که آیا نسبتی بین طول کلمات و رتبه اونها هست یا نه!؟ (تو زبان شناسی یک اصل هست که میگه زبان همیشه رو به ساده شدن پیش میره این به این معنی هست که اگر از فردا به همه بگیم بجای کلمه ٬تا٬ از کلمه ٬آسیبمبتلهتلا٬ استفاده کنن اون وقت بدون هیچ قصد و غرضی درصد کاربرد کلمه ٬تا٬ میاد پایین ) که البته این رابطه خیلی رو داده ها تو صادق نیستن چون همشون از یک نفر میان.
و برای اختتامیه این دو تا نمودار رو هم اضافه می کنه. نمودار خوب، خودش گویاست و نیازی به توضیح نداره پس شما هم فراموش نکنین که برای نمودارهاتون اسم بذارین و همه رو خوشحال کنین (: