بایگانی ماهیانه: دسامبر 2012

پهپادهای شهروندی مجهز به دوربین و اسلحه

این آقای مهربون از اینترنت یک درون یا فکر کنم تو فارسی می گیم پهپاد خریده.

Screenshot from 2012-12-26 10:40:47

می‌بینین که بهش یک دوربین و تفنگ پینت‌بال هم وصل کرده و بعد

Screenshot from 2012-12-26 10:40:13

باهاش به ماکت‌های مقوایی آدم حمله کرده و تک تکشون رو با گلوله‌های به سر و گردن و سینه «کشته».

فقط برای اینکه بدونیم کدوم وری داریم می ریم و البته به عنوان الهام برای دوستانی که به کار جذب بودجه‌های عجیب غریب هستن (:‌

اگر اینترنت کم-سرکوب دارین،‌ ویدئوی کامل رو ببینین:

سلام من ایمیل آدرسم را عوض کردم

ظاهرا تعداد زیادی آدم از دیروز تا امروز این ایمیل مهمل رو گرفتن:

emaile_jadid

چیه به نظرتون؟ اسپم؟ اشتباه فنی؟ یک آدم اسکول؟ ویندوزهای ویروسی؟ اگر ویروس یا اسپم است فایده اش برای فرستنده چیه؟ چک کردن اینکه آیا این فهرست ایمیل که داره درسته یا نه؟ شما گرفتینش؟ نظری دارین؟

قانون زیف و زندگی روزمره با محوریت کلمات وبلاگ

آپدیت: کد R و فایل اطلاعاتی رو اضافه کردم به ته پست.


این پست حاوی
ریاضیات است

چه عنوانی (: اگر خواننده وبلاگ باشین می دونین که چند وقت پیش به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم توی یک پست آخر، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ.

اما ماجرا ادامه داره (: اینبار امین صفاری پیشنهاد کرده که قانون زیف رو روی داده‌ها تست کنیم. برای من فرصت خوبی شد که هم قانون زیف رو یاد بگیرم و هم با کمک امین، قدم‌های اولم توی R رو بردارم. ما توی مطلب آخرمون رسیدیم به یک جدول از سیصد کلمه پر کاربرد وبلاگ و تعداد استفاده از اون‌ها. ظاهرا این ترکیب خوبیه برای قانون زیف.

قانون زیف می گه که

اگر تمام کلمات یک کتاب را بشماریم و از زیاد به کم مرتب کنبم به این نتیجه می‌رسیم که رتبهٔ هر کلمه با فراوانی(بسامد) همان کلمه نسبت عکس دارد، یعنی تعداد بارهایی که هر کلمه در متن ظاهر می‌شود با رتبهٔ همان کلمه در متن رابطه معکوس دارد. این نسبت در کلمات کل متن برقرار است. که به قانون زیف معروف شده‌است. بر طبق زیف کلمه‌ای که در رتبهٔ ۱ قرار دارد دوبرابر بیشتر از کلمه‌ای در متن ظاهر می‌شود که در رتبهٔ ۲ قرار دارد و ۳ برابر بیشتر از کلمه‌ای ظاهر می‌شود که در رتبهٔ ۳ قرار دارد و همینطور تا آخر.

و مدعی می شه این مربوطه به جریان کمترین کوشش. یعنی ما سعی می کنیم کارها رو به سادگی انجام بدیم و در یک کتاب این یعنی استفاده از کلمات تکراری. رابطه پیشرفته‌تر توی تئوری به این شکل بیان می شه:

f(k;s,N)=(1/(k^s))/(H(n,1))

که k میشه Rank و N میشه تعداد کلمات و تابع H هم میشه تابع اعداد هارمونیک.

این تابع رو روی یک نمودار با دو محور لگاریتیمی می کشیم تا نشون بده که هر کاربرد پر کاربردترین کلمه در یک متن تقریبا دو برابر کاربرد دومین کلمه پر کاربرد است و سه برابر کاربرد سومین کلمه و …

حالا اگر جدولی بسازیم که توش هر کلمه و تعداد ظاهر شدن اون در متن باشه و این رو به ترتیب نزولی سورت کنیم و بهشون از یک تا مثلا سیصد شماره ردیف بدیم، جدولی خواهیم داشت از هر کلمه، رتبه و تعداد استفاده اون در متن. اگر این اطلاعات رو با استفاده از برنامه R (یا هر چیز دیگه!) روی نمودار لگاریتمی – لگاریتمی ببریم به این می‌رسیم:

بررسی قانون زیف برای وبلاگ جادی

و بعدش توضیحات امین رو می خونیم:

توی ساده ترین حالت s برابر ۱ هست.
برای داده های تو هم اگر از مجموعه ۳۰۰ تایی استفاده کنی نتیجه بهتری میگیری (البته تا اونجایی که میدونم این نسبت رو بعضی از قسمتهای مجموعه داده کار نمیکنه)
عدد S هرچی به ۱ نزدیک تر باشه مدل بهتری بر اساس توزیع زیپف هست چون تکرار کلمات در زبانهای طبیعی خیلی heavy-tailed هست. (زبان شناس ها اینو به صورت اینکه مغز انسان بیشتر دوست داره کلمات تکراری استفاده بکنه تا جدید توجیح میکنن)
به نظر من ۰.۷۹ برای مجموعه داده های تو خیلی خوبه چون اینو باید در نظر بگیری که این مجموعه کلمات از یک متن یک پارچه (مثل کتاب) نیامدن و مربوط به پست های متفاوت هستن.

می بینیم که وبلاگ من هم با قانون زیف می خونه. اما چیزی که جریان رو بسیار جالبتر می کنه اینه که قانون قابل تطبیق روی کلی پدیده اجتماعی و فرهنگی دیگه هم هست. در اصل هر چیزی رو که بر اساس تعداد و رتبه (شماره ردیف در جدولی که کلمات توش بر اساس تعداد دفعات کاربرد به شکل نزولی سورت شدن) طبقه بندی کنین، می تونین بندازین روی این نمودار. یک مثال ممکنه شهرهای یک کشور باشه. اگر جمعیت شهرها رو بنویسیم و بر اساس اونها به شهرها رتبه بدیم و بندازیمشون روی همین نمودار،‌ احتمالا همین خط رو می یان پایین. دیدن این تکرار در طبیعت چیزیه که علم رو می سازه و اشتیاق علمی رو ایجاد می کنه بخصوص اگر فرمول بر اساس این فرض درست شده باشه که آدم ها بنا به اصل کمترین کوشش سعی می کنن جهان اطرافشون رو شکل بدن (:

پ.ن. این سری یک پست دیگه هم داره و حسابی ممنونه از امین صفاری و وقت و حوصله اش (:

پ.ن.۲. کد R برای خوندن فایل و کشیدن نمودار چنین چیزی است (کد رو امین نوشته)

Jadi<-read.csv("/home/khikho/Downloads/300.first.words.csv",sep="\t")
plot(sort(Jadi$count/sum(Jadi$count), decreasing=TRUE), xlab="rank", ylab="density",log="xy")
x<-(1:300)
xp<-(1/(x^0.79))/(sum(1/(x^0.79)))
xp1<-(1/(x))/(sum(1/(x)))
lines(xp,co=2)
lines(xp1,co=4)
legend("topright", c("s=1","s=0.79"), cex=0.8,col=c("blue","red"),lty=1);

و فایل سیصد کلمه پر کاربرد با تعداد استفاده شون هم اینجاست

پ.ن.۳. لعنت به سانسورچی (:

ویکیپدیا را آفلاین بخوانید

اگر ویکیپدیا یکی از منابع مطالعه همیشگی‌تون نیست من فقط دو تا چیز رو می تونم حدس بزنم: اولی اینکه اهل خوندن در مورد چیزهایی که باهاشون برخورد می کنین و در موردشون نمی دونین نیستین و دومی اینکه به ویکپدیا دسترسی ندارین. در مورد اولی توصیه‌ام بهتون اینه که از تله خوندن چیزهایی که بقیه جلوی راهتون می ذارن (این وبلاگ، بقیه وبلاگ‌ها، توییتر، فیسبوق، اخبار، …) فرار کنین و خودتون بخشی از مطالبی که در موردشون چیز می خونین رو انتخاب کنین و در مورد دومی بهتون کیویکس رو معرفی میکنم:

Kiwix_Persian

یک خواننده آزاد و رایگان آفلاین ویکیپدیا به اسم kiwix. برای استفاده ازش کافیه بر اساس سیستم عاملتون یک برنامه دانلود کنین و بعد با دادن فایل زبان مورد نظرتون، اون رو بخونین. این فایل برای فارسی بیشتر از دو گیگ حجم داره ولی می شه اونو از یک دوست گرفت یا به کسی سفارش داد یا حتی یکبار دانلود کرد و همیشه خلاص شد. اگر واقعا دوست دارین از این برنامه استفاده کنین و مشکل رسیدن به این فایل رو دارین، بگین تا من راه حل های جانبی رو پیدا و معرفی کنم (:

از امروز تبلیغات حق ندارن صدایی بلندتر از صدای فیلم داشته باشن

جریان برای همه آشناست: داریم یک فیلم می بینیم و یکهو وسطش «دیری دیریم!» تبلیغات با یک صدای بلند شروع می شه تا چیزی که می خواد تبلیغ کنه رو تا مغز بکنه تو کله ما (نام نمی برم از بقیه سیستم ها که هر چقدر اقبال بهشون کمتر می شه صدای بلندگوشون رو بلندتر می کنن).

حالا خبر خوب اینه که از امروز هیچ شبکه تلویزیونی اجازه نداره تبلیغی با صدایی بیشتر از صدای برنامه اصلی پخش کنه.

خبر بد اینه که این قانون رو کنگره آمریکا تصویب کرده و اوباما زیرش رو امضا و در نتیجه فقط در همون دیار کفر معتبره.

به من زنگ نزناین مشکل «صدای بلند تبلیغات» که یک جور حمله به پرایوسی آدم‌ها حساب می‌شه یکی از اصلی‌ترین شکایت‌های رسیده به کمیته ارتباطات فدرال آمریکا در سال گذشته بود. این کمیته تقریبا ده سال قبل قانون دیگه‌ای رو پیشنهاد و تصویب کرده بود که طبق اون تمام آمریکایی‌ها حق دارن به رفتن به سایت به من زنگ نزن که توسط دولت اداره می‌شه تلفنشون رو به فهرستی اضافه کنن که هیچ شرکت تبلیغاتی حق نداره بهشون زنگ بزنه چه ابله‌هایی که تورشون رو معرفی می کنن و چه بیچاره‌هایی که سعی می کنن با گفتن «ما شماره تلفن مشابه شما رو توی اون یکی اپراتور داریم» یک لقمه نون در بیارن و زنگ زدنشون به من هم اعصاب من رو خورد می کنه هم وقت خودشون رو تلف.

افتضاحات فتوشاپی – تبلیغ گوچی

در دنیای مد و تبلیغات و هالیوودی و «زیبایی»، «استاندارد»ها باید غیرقابل دستیابی باشن چون اگر قرار باشه من و شما هم قشنگ و خوب باشیم خب پس کی باید تمام سال‌های عمرش اینهمه محصولات «زیبا کننده» رو بخره؟ برای درست کردن این «استانداردهای غیرقابل دستیابی» یکسری آدم از زندگی معمولی جدا می شن و سوء تغذیه و گاهی بیماری‌های مختلف رو به عنوان شغل انتخاب می کنن و بعد از اینکه عکسشون گرفته شد فتوشاپ‌کارها دست به کار می‌شن تا مطمئن بشن که اون «استاندارد» حتی توسط کسانی که شغل حرفه‌ای شون رسیدن به اون استاندارد است هم قابل دسترسی نیست. بعد نتیجه می‌شه پوسترهای تبلیغاتی.

اما گاهی این فتوشاپ کاری دیگه بیش از حد تابلو می‌شه. مثلا تبلیغ گوچی:

که ظاهرا به ما می‌گه یک زن ممکنه اینقدر کشیده باشه که پای چپش بدون نیاز به باسن از پایین کیفش بیرون بزنه و متاسفانه ما هم که الگومون گوچی می شه، دوست داشته باشیم شبیه اون باشیم.

یادمون باشه زیبایی یک چیز دیکته شده نیست (:‌ آدم‌ها زیبا و زشت دارن اما نه بر اساس نزدیکی و دوری‌شون از یکسری معیار استاندارد.

منبع اصلی