ظاهرا تعداد زیادی آدم از دیروز تا امروز این ایمیل مهمل رو گرفتن:
چیه به نظرتون؟ اسپم؟ اشتباه فنی؟ یک آدم اسکول؟ ویندوزهای ویروسی؟ اگر ویروس یا اسپم است فایده اش برای فرستنده چیه؟ چک کردن اینکه آیا این فهرست ایمیل که داره درسته یا نه؟ شما گرفتینش؟ نظری دارین؟
اگر تمام کلمات یک کتاب را بشماریم و از زیاد به کم مرتب کنبم به این نتیجه میرسیم که رتبهٔ هر کلمه با فراوانی(بسامد) همان کلمه نسبت عکس دارد، یعنی تعداد بارهایی که هر کلمه در متن ظاهر میشود با رتبهٔ همان کلمه در متن رابطه معکوس دارد. این نسبت در کلمات کل متن برقرار است. که به قانون زیف معروف شدهاست. بر طبق زیف کلمهای که در رتبهٔ ۱ قرار دارد دوبرابر بیشتر از کلمهای در متن ظاهر میشود که در رتبهٔ ۲ قرار دارد و ۳ برابر بیشتر از کلمهای ظاهر میشود که در رتبهٔ ۳ قرار دارد و همینطور تا آخر.
و مدعی می شه این مربوطه به جریان کمترین کوشش. یعنی ما سعی می کنیم کارها رو به سادگی انجام بدیم و در یک کتاب این یعنی استفاده از کلمات تکراری. رابطه پیشرفتهتر توی تئوری به این شکل بیان می شه:
این تابع رو روی یک نمودار با دو محور لگاریتیمی می کشیم تا نشون بده که هر کاربرد پر کاربردترین کلمه در یک متن تقریبا دو برابر کاربرد دومین کلمه پر کاربرد است و سه برابر کاربرد سومین کلمه و …
حالا اگر جدولی بسازیم که توش هر کلمه و تعداد ظاهر شدن اون در متن باشه و این رو به ترتیب نزولی سورت کنیم و بهشون از یک تا مثلا سیصد شماره ردیف بدیم، جدولی خواهیم داشت از هر کلمه، رتبه و تعداد استفاده اون در متن. اگر این اطلاعات رو با استفاده از برنامه R (یا هر چیز دیگه!) روی نمودار لگاریتمی – لگاریتمی ببریم به این میرسیم:
و بعدش توضیحات امین رو می خونیم:
توی ساده ترین حالت s برابر ۱ هست.
برای داده های تو هم اگر از مجموعه ۳۰۰ تایی استفاده کنی نتیجه بهتری میگیری (البته تا اونجایی که میدونم این نسبت رو بعضی از قسمتهای مجموعه داده کار نمیکنه)
عدد S هرچی به ۱ نزدیک تر باشه مدل بهتری بر اساس توزیع زیپف هست چون تکرار کلمات در زبانهای طبیعی خیلی heavy-tailed هست. (زبان شناس ها اینو به صورت اینکه مغز انسان بیشتر دوست داره کلمات تکراری استفاده بکنه تا جدید توجیح میکنن)
به نظر من ۰.۷۹ برای مجموعه داده های تو خیلی خوبه چون اینو باید در نظر بگیری که این مجموعه کلمات از یک متن یک پارچه (مثل کتاب) نیامدن و مربوط به پست های متفاوت هستن.
می بینیم که وبلاگ من هم با قانون زیف می خونه. اما چیزی که جریان رو بسیار جالبتر می کنه اینه که قانون قابل تطبیق روی کلی پدیده اجتماعی و فرهنگی دیگه هم هست. در اصل هر چیزی رو که بر اساس تعداد و رتبه (شماره ردیف در جدولی که کلمات توش بر اساس تعداد دفعات کاربرد به شکل نزولی سورت شدن) طبقه بندی کنین، می تونین بندازین روی این نمودار. یک مثال ممکنه شهرهای یک کشور باشه. اگر جمعیت شهرها رو بنویسیم و بر اساس اونها به شهرها رتبه بدیم و بندازیمشون روی همین نمودار، احتمالا همین خط رو می یان پایین. دیدن این تکرار در طبیعت چیزیه که علم رو می سازه و اشتیاق علمی رو ایجاد می کنه بخصوص اگر فرمول بر اساس این فرض درست شده باشه که آدم ها بنا به اصل کمترین کوشش سعی می کنن جهان اطرافشون رو شکل بدن (:
پ.ن. این سری یک پست دیگه هم داره و حسابی ممنونه از امین صفاری و وقت و حوصله اش (:
پ.ن.۲. کد R برای خوندن فایل و کشیدن نمودار چنین چیزی است (کد رو امین نوشته)
اگر ویکیپدیا یکی از منابع مطالعه همیشگیتون نیست من فقط دو تا چیز رو می تونم حدس بزنم: اولی اینکه اهل خوندن در مورد چیزهایی که باهاشون برخورد می کنین و در موردشون نمی دونین نیستین و دومی اینکه به ویکپدیا دسترسی ندارین. در مورد اولی توصیهام بهتون اینه که از تله خوندن چیزهایی که بقیه جلوی راهتون می ذارن (این وبلاگ، بقیه وبلاگها، توییتر، فیسبوق، اخبار، …) فرار کنین و خودتون بخشی از مطالبی که در موردشون چیز می خونین رو انتخاب کنین و در مورد دومی بهتون کیویکس رو معرفی میکنم:
یک خواننده آزاد و رایگان آفلاین ویکیپدیا به اسم kiwix. برای استفاده ازش کافیه بر اساس سیستم عاملتون یک برنامه دانلود کنین و بعد با دادن فایل زبان مورد نظرتون، اون رو بخونین. این فایل برای فارسی بیشتر از دو گیگ حجم داره ولی می شه اونو از یک دوست گرفت یا به کسی سفارش داد یا حتی یکبار دانلود کرد و همیشه خلاص شد. اگر واقعا دوست دارین از این برنامه استفاده کنین و مشکل رسیدن به این فایل رو دارین، بگین تا من راه حل های جانبی رو پیدا و معرفی کنم (:
جریان برای همه آشناست: داریم یک فیلم می بینیم و یکهو وسطش «دیری دیریم!» تبلیغات با یک صدای بلند شروع می شه تا چیزی که می خواد تبلیغ کنه رو تا مغز بکنه تو کله ما (نام نمی برم از بقیه سیستم ها که هر چقدر اقبال بهشون کمتر می شه صدای بلندگوشون رو بلندتر می کنن).
حالا خبر خوب اینه که از امروز هیچ شبکه تلویزیونی اجازه نداره تبلیغی با صدایی بیشتر از صدای برنامه اصلی پخش کنه.
این مشکل «صدای بلند تبلیغات» که یک جور حمله به پرایوسی آدمها حساب میشه یکی از اصلیترین شکایتهای رسیده به کمیته ارتباطات فدرال آمریکا در سال گذشته بود. این کمیته تقریبا ده سال قبل قانون دیگهای رو پیشنهاد و تصویب کرده بود که طبق اون تمام آمریکاییها حق دارن به رفتن به سایت به من زنگ نزن که توسط دولت اداره میشه تلفنشون رو به فهرستی اضافه کنن که هیچ شرکت تبلیغاتی حق نداره بهشون زنگ بزنه چه ابلههایی که تورشون رو معرفی می کنن و چه بیچارههایی که سعی می کنن با گفتن «ما شماره تلفن مشابه شما رو توی اون یکی اپراتور داریم» یک لقمه نون در بیارن و زنگ زدنشون به من هم اعصاب من رو خورد می کنه هم وقت خودشون رو تلف.
در دنیای مد و تبلیغات و هالیوودی و «زیبایی»، «استاندارد»ها باید غیرقابل دستیابی باشن چون اگر قرار باشه من و شما هم قشنگ و خوب باشیم خب پس کی باید تمام سالهای عمرش اینهمه محصولات «زیبا کننده» رو بخره؟ برای درست کردن این «استانداردهای غیرقابل دستیابی» یکسری آدم از زندگی معمولی جدا می شن و سوء تغذیه و گاهی بیماریهای مختلف رو به عنوان شغل انتخاب می کنن و بعد از اینکه عکسشون گرفته شد فتوشاپکارها دست به کار میشن تا مطمئن بشن که اون «استاندارد» حتی توسط کسانی که شغل حرفهای شون رسیدن به اون استاندارد است هم قابل دسترسی نیست. بعد نتیجه میشه پوسترهای تبلیغاتی.
اما گاهی این فتوشاپ کاری دیگه بیش از حد تابلو میشه. مثلا تبلیغ گوچی:
که ظاهرا به ما میگه یک زن ممکنه اینقدر کشیده باشه که پای چپش بدون نیاز به باسن از پایین کیفش بیرون بزنه و متاسفانه ما هم که الگومون گوچی می شه، دوست داشته باشیم شبیه اون باشیم.
یادمون باشه زیبایی یک چیز دیکته شده نیست (: آدمها زیبا و زشت دارن اما نه بر اساس نزدیکی و دوریشون از یکسری معیار استاندارد.
مهمون ویژه این شماره: ۱پزشک مشهور به علیرضا مجیدی.
رادیویی برای کسانی که تکنولوژی براشون فقط تلاش دائمی برای خوندن و حفظ اینکه فلان مدل فلان چیز فرقش با فلان مدل بهمان چیز چیه و تو بازار چنده و شایعه اینکه قراره کی مدل فلانترش بیاد نیست و ترجیح میدن یک پله عمیق تر بشن و تو تقاطع تکنولوژی و جامعه، دغدغههای انسانیشون رو مطرح کنن. رادیو گیک برای گیک های سرگردان در تقاطع جامعه و تکنولوژی.
مایکروسافت شرکت بدی نیست ولی گاهی طرحهای عجیب داره.. یکبار در یک ایده مسخره مراسم ترحیم آیفون رو برگزار کرد و حالا یک کمپین به اسم DroidRage! ایده محوری این کمپین این بود که آدمها ناراحتیهاشون از اندروید رو توییت کنن و تگ دروید ریج بهش بزن. اما عملا این باعث یک مجموعه خیلی بامزه و خلاق از شوخیهای مختلف شد. توییت اصلی از طرف اکانت رسمی «ویندوز فون» بود که از مردم میخواست تجربیات بدشون از اندروید رو با تگ دروید ریج بنویسن ولی جوابها چیزهایی مثل این بودن:
سیف: من سعی کردم یک نکسوس چهار بخرم ولی این تلفن اینقدر طرفدار داره که دستم بهش نرسید. آرزو دارم کاش اونم مثل تلفنهای ویندوز تو بازار باد کرده بود تا یکی می خریدم.
محمد تراکیای: من یکبار خواستم یک بدافزار برای ویندوز فون بنویسم ولی بعد دیدم چه فایده داره وقتی خودش اینقدر بدبختی داره؟
فورتی سون: کدوم دروید ریج ؟ من الان سه ساله اندروید دارم و راضی بودم و کسی رو هم نمیشناسم با بدافزار مشکلی داشته باشه. این که ویندوز نیست!
و البته اکانت رسمی اندروید سنترال هم دو تا توییت بامزه کرده:
ببخشید که چند لحظه نبودیم. برگشتیم! باید ویندوز رو ریبوت می کردیم!
اوه… میبخشید. یک میلیون دستگاه دیگه رو رجیستر کردیم… ببخشید ویندوز فون.
شکی نیست که توی اندروید بد افزار هم هست و عقل نصب کننده است که تصمیم میگیره چی نصب کنه ولی این کمپین ویندوز واقعا کمپین خزی بوده. بر خلاف اون یکی کمپینش که در مورد آی ای جدید است و تمرکز داره روی اینکه «ما می دونیم که آی ای بد بوده ولی حالا از اول نوشتیمش و خوب شده». پیشنهاد میکنم به سایت http://thebrowseryoulovetohate.com/ برین و نگاهی به تبلیغات خوب مایکروسافت هم بندازین. کلا تمرکزشون روی اینه که همه کسانی که قبلا می گفتن آی ای مزخرفه و چرنده و فقط به درد دانلود کردن فایرفاکس می خوره، با دیدن آی ای جدید قبول می کنن که بسیار بهتر شده.
مشکل امنیتی توی برنامه اینستاگرام برای آی او اس
طرفدارهای اپل همیشه یکی از دفاعیاتشون در مورد سیستم بسته و محدود کننده اپل اینه که این قفس طلایی باعث امنیت کسی می شه که توی قفس انداخته شده. این بحث در مقایسه با جنگلی مثل اندروید که شما حق دارین با تلفنتون هر کاری بکنین درسته و دقیقا بحث اینه که شما می خواین توی یک خونه حبس بشین و با صرفنظر از آزادیتون، از خطر تصادف با ماشین و در امان بمونین یا می خواین پا به جنگل اسفالت بذارین و امنیتتون رو وابسه به تصمیمهای عقلانیتون بکنین.
اما حالا کمی معادله عوض شده چون حفره امنیتی جدید اپلیکیشن اینستاگرام نشون می ده که قفس طلایی ظاهرا یک سوراخهایی هم داره. این حفره به حمله کننده اجازه میده کنترل کامل اکانت شما رو در دستش بگیره و احمقانهترین حفره امنیتی جهانه: اطلاعات اکانت شما و همینطور کوکی لاگین شما بدون هیچ رمزگذاری برای سرورهای اینستاگرام فرستاده میشه و این یعنی هر آماتوری میتونه با نگاه کردن به اون با شناسه شما وارد سایت بشه.
مثل بسیاری موارد دیگه، کسی که مشکل رو کشف کرده سعی کرده به اینستاگرام نشونش بده ولی در یک ماه گذشته که کسی به حرفش گوش نکرده.
نوکیا با رهبری آقای الوپ که از مایکروسافت اومده ظاهرا وضعش خیلی خرابه. در جدیدترین حرکت برای بالا بردن سطح پول توی شرکت، نوکیا تصمیم گرفته دفتر مرکزی اش توی شهر اسپو فنلاند (که رسما یک شهر است فقط برای نوکیا) رو بفروشه! اونم فقط به ۱۷۰ میلیون یورو و بعد با بخشی از این پول همون ساختمونها رو رهن کنه تا کمی پول به دست بیاره! این شرکت از سال ۱۹۹۷ توی این دفتر فلز و شیشه بوده که بهش نوکیا هاوس میگن و حالا به خاطر مشکلات مالی و تلاش برای کم کردن هزینهها، این هنر رو زده. نوکیا که در شش فصل گذشته (دقیقا از وقتی اعلام کرده به ویندوز فون سوییچ می کنه) دائما ضرر داده، علاوه بر این تصمیم گفته که ۱۰هزار شغل رو حذف می کنه و داره تلاش می کنه که تا آخر ۲۰۱۳، ۱.۶ بیلیون یورو صرفه جویی کنه. همزمان شرکت نوکیا زیمنس که ترکیب بخشی از نوکیا و بخشی از زیمنسه هم اعلام کرده از طریق فروختن بخشهای مختلفش به شرکت های دیگه (از جمله فروختن بخش اپتیک به یک شرکت آمریکایی) داره تلاش می کنه هزینههاش رو پایین بیاره تا شاید به سود دهی برسه. وضع نوکیا خرابه رفقا…
مارس وان یک پروژه خصوصی است که حالا در هلند به عنوان یک سازمان غیرانتفاعی (واقعی! نه مثل چیزهای غیرانتفاعی که در سرزمین پر از دروغ ما، تمام هدفشون سوده) ثبت شده که هدفش بسیار ساده است: رسوندن انسان به کره مریخ! هیجان انگیزه ولی توجه کنین که هدف «رسوندن» است نه برگردوندن! من تخصص هوافضا و غیره ندارم ولی شکی ندارم که اینکه یک چیزی بسازیم که از اینجا پرتش کنیم به سمت مریخ و برسه به نزدیک مریخ و یک کپسول ازش جدا بشه و یک نفر رو در مریخ پیاده کنه بسیار بسیار بسیار ساده تر از اینه که ازش بخوایم تو مدار مریخ یا سطح مریخ منتظر بمونه، مسافرش رو سوار کنه و بعد برگرده زمین. این دو تا اصلا قابل مقایسه با هم نیستن.
پروژه مارس وان، یک پروژه یک طرفه از زمین به سمت مریخ است و حالا بیشتر از هزار نفر داوطلب شدن که فضانورد این پروژه باشن. در نیمه اول ۲۰۱۳، از بین داوطلبها کسانی که قراره به مریخ بره انتخاب میشن. برنامه بلندپروازانه اینه که در ۲۰۲۳ (فقط یازده سال دیگه!) چهار نفر اول به مریخ فرستاده بشن و بعد چهار نفر دیگه هر دو سال یکبار به اونها بپوندن! به قول خارجیها .. هولی شت!
دل دوباره یک لپ تاپ خوب با اوبونتو داده. اونها مدتی قبل خبر از پروژه ای به اسم اسپوتنیک داده بودن که توش قرار بود سریهای اولترابوک محبوب XPS13 رو با لینوکس بدن و حالا که اجرای آزمایشی اون موفق پیش رفته اعلام کردن که اون رو همگانی می کنن: لپ تاپ دل ایکس پی اس ۱۳ دولوپر ادیشن. این لپ تاپ ظریف و زیبا، اینتل i7 یا i5 داره، ۸ گیگ رم و ۲۵۶ گیگ اس اس دی ساتا ۳. قیمت برای دلار ۳۰۰۰ تومنی و حقوق سیصد دلاری بالاست : ۱۵۴۹ دلار. لپ تاپ با اوبونتوی ۱۲.۰۴ ال تی اس داده میشه و کنونیکال تلاش کرده تا این نسخه رو کاملا با این سخت افزار سازگار کنه و یک ppa مستقل هم هست که درایورهای صد در صد سازگار با این لپ تاپ توش قرار گرفتن.
مقاله پر هیجانی در اینترنت میچرخه با این عنوان هوشمندانه که «ترینیتی با زیرو دی اس اس اچ کینگ کوپ چه می کرد؟» مقاله به ساکنین ماتریس هشدار می ده که اگر از اس اس اچ تک تیا استفاده می کنن باید بدونن که هکری به اسم کینگ کوپ (که حدس زده می شه اسمش اقای توماس اندرسون باشه) یک زیرو دی معرفی کرده که توش هر یوزر ریموتی می تونه با فرستادن یک ریکوئست USERAUTH CHANGE قبل از پسوردش، دسترسی روت بگیره. تک تیکا هنوز پچی نداده و فقط در سایتش یعنی ssh.com یک راه حل موقت ارائه کرده.
در چین هستین؟ لپ تاپتون رو تنها نذارین
رفتین چین ؟ تاجر هستین؟ تو هتل از کارهای تجاری با لپ تاپ خسته شدین و هوس سر زدن به بار می کنین؟ لپ تاپ روی میزه و شما در رو قفل می کنین و می رین بار؟ خب اشتباه می کنین! درسته که نیم ساعت دیگه که بر می گردین همه چیز ظاهرا عین قبله و به کار ادامه می دین و روزهای بعدی هم خوش و خرم به کارهای تجاریتون میرسین ولی واقعیت اینه که شما که توی بار داشتین بییییییییببببببببببببببببب یک کارمند هتل اومده تو، محتویات لپ تاپ شما رو چک کرده و بعد یک جاسوس افزار روش نصب کرده و شما هم هیچ چیزی نفهمیدین. نتیجه؟ حالا چین به تمام اطلاعات تجاری شما، مشخصات مخصولاتتون، قیمتهایی که به مشتریها دادین، ارتباطاتتون ، ایمیلهاتون و حتی اگر خوش شانس باشه به اطلاعات دولتیتون دسترسی داره. حتی اگر هدف بزرگتری باشین ممکنه بعدا که به کشورتون بر می گردین بد افزار رو توی کل شرکت هم پخش کنین و تا ماهها یا سالها کل اطلاعات محرمانه تجاریتون رو دو دستی تقدیم دوست و برادر کمونیستتون بکنین. حداقل این ادعایی است که مجله اینفوورد با اشاره به گفتههای جری ایروین می کنه که عضو پارتنرشیپ امنیت ملی سایبری آمریکاست. اون می گه این اتفاقات در هر کشوری ممکنه بیافته ولی فرقش در چین و روسیه و کشورهای مشابه اینه که توی این کشورها احتمال داره دولت هم از این شکل از دزدی حمایت کنه. ای شایعه سازهای دروغگو! (:
خبر کوتاه بود و دلشکن: اتاق های عمومی یاهو مسنجر بسته می شن. یاهو مسنجر برای منحرفهای قدیمی اینترنت و بعضی از منحرفهای فعلی آشناست: یکسری اتاق که توش ایرانیهای عزیز تلاش می کنن به غرایزشون پاسخ بدن.. دقیقا هم کسانی که نمی دونن تو اینترنت یکسری منتظر نیستن که با وقیحترین مسیجها، باهاشون دوست بشن. یاهو اعلام کرده این اتاقها رو میبنده و احتمالا تنها کسانی که اصولا میدونستن که این اتاقها هنوز هم وجود دارن جامعهشناسهای سایبری بودن و یکسری سرگردان (: احتمال داده می شه که دلیل بستن این اتاقها شهرت بدشون باشه که باعث میشد خریدار احتمالی مسنجر یاهو (شاید ام اس ان) تو سر مال بزنه! خلاصه اسکرینشاتها رو بگیرین و مکالمات رو برای تاریخچه اینترنت ایران سیو کنین چون اتاقها از جمعه هفته بعد – چهاردهم دسامبر – به تاریخ می پیوندن.
قاطر پول یا money mule یک اصطلاح در دنیای دیجیتاله. اینها کسایی هستن که پول رو جابجا می کنن. البته الزاما هم دیجیتال نیست. فرض کنین شما کلی پول دارین که می خواین وارد آمریکا کنین.. چیکار می کنین؟ تقسیمش می کنین بین یکسری آدم .. اونها از مرز ردش می کنن و توی آمریکا به شما تحویلش می دن. اینجوری پلیس حساس نمی شه، اگر هم یکی گیر بیافته فقط بخشی از پول از دست رفته.. به اینها می گن قاطرهای پول. در دنیای دیجیتال، قاطر پول کسیه که پول رو از کشورش منتقل می کنه به یک کشور دیگه. فرض کنین من با هر شکلی از دزدی، یک میلیون دلار در آمریکا به دست آوردم. این پول لازمه برسه به من که توی مثلا نیجریه یک حساب دارم. اگر خودم پول رو بریزم حتما بلاک می شه و هویت من هم معلوم. پس یک تبلیغ «کار در خانه» می زنم که در ساده ترین حالت می گه «کار شما اینه که هزار دلار به حسابتون می ریزم، بعد شما نهصد و نود دلارش رو به یک حساب که من می گم منتقل می کنین و ده دلار برای خودتون نگه می دارین». کافیه هزار نفر این کار رو با هیجان قبول کنن و توی کمتر از پنج دقیقه، ده دلار کاسب بشن و منم با دادن ده هزار دلار از پولم، نهصد و نود هزار تاش رو بدون دردسر منتقل کنم به کشورم.
حالا این هفته اتفاق جالب این بود که یک شرکت روسی، تبلیغی توی فرومهای هک زده بود که ارتشی داره از آمریکاییهایی که آگاهانه دارن این کار رو می کنن – به عنوان شغل و به بقیه هکرها گفته بود هر کس می خواد پولش رو منتقل کنه، کافیه از این آدم ها استفاده کنه. این آدم ها می دونن دارن چیکار می کنن پس به خاطر مشکوک شدن به شما پیش پلیس نمی رن و کارشون هم به معنی کلی غیرقانونی نیست و پلیس به سختی می تونه جلوشون رو بگیره. تا حالا در دنیای هکرها این شغل معمولا مربوط بوده به دانشجوهای خارجی یا کارگران موقت خارجی که توی آمریکا هستن و این اولین باره که به شکل رسمی یک گروه اعلام کرده ارتشی از قاطرهای پول داره که می تونه اونها رو اجاره بده. قابل توجهه که اصطلاح قاطر پول در ویکپیدیا فقط به سه زبون موجوده: انگلیسی، فنلاندی و فارسی (: احتمالا هموطنان به موضوع علاقمند هستن (:
تبریک ها و تقبیح ها
تبریک می گیم به نسرین ستوده زن ستودنی ایران و تسلیتی بزرگ به همه هموطنانی که در آتشسوزی و زلزله می میرن و تسلیتی به بت سازها که دکونشون پر رونقه ولی پر از دروغ. تسلیت به دولت چین که در ماه گذشته صد نفر تبتی مجبور شدن خودشون رو آتیش بزنن تا شاید جهان دردشون رو ببینه . جا داره به طرفداران کاست هم تسلیت بگیم! سونی در یک خبر جالب اعلام کرد که دیگه کاست پلیر نمی سازه. به عبارت دیگه سونی تا همین الان داشت کاست پلیر میساخت و یکسری می خریدن (: و البته تبریکی هم می گیم به دانشجوهایی که زنده هستن حتی اگر هر سال روزشون به خاطر آلودگی هوا تعطیل باشه. به افتخارشون به افتخار اون دو دانشجوی توده ای و اون یک دانشجوی حزب ملی که در اعتراض به دیدار نیکسون و رابطه با بریتانیا چهار ماه بعد از کودتای ننگین بیست و هشت مرداد علیه دولت ملی مصدق، در دانشگاه کشته شدن. به افتخارشون سه دقیقه سرود روز دانشجو رو گوش می دیم:
بخش آخر
توی بخش آخر یک مهمون عالی داریم (: یکی از مشهورترین و بهترین وبلاگنویسهای ایران. یک پزشک! مشهور به علیرضا مجیدی – یا برعکس! – در مورد متا دیتا و دستگیری مک آفی برامون توضیحات مفیدی می ده. توضیح لازم اینه که این مطلب چند روز قبل ضبط شده و این روزها ماجرا کمی پیشتر هم رفته. مک آفی الان دستگیر شده و احتمالا با ۶۸ سال سن، حین بازداشت سکته کرده و به بیمارستان برده شده و بعد از ترخیص به کشورش برگردونده می شه تا در ارتباط با قتل همسایهاش، محاکمه بشه. من که می گم ادعای تغییر متادیتا الکی بوده و واقعا آقای آنتی ویروس، سوتی داده… به هرحال.. گوش می دیم به علیرضا مجیدی و توضیحات عالیش که به درد مشقهای ما هم می خوره.
نامه ها
موسیقی
آهنگ hey you از پینک فلوید به پیشنهاد شنونده خوبمون صابر (: شما هم نظرات و آهنگ هاتون رو برای jadijadi@gmail.com بفرستین و شاد و خرم زندگی کنین (:
#!/usr/bin/python
# -*- coding: utf8 -*-
from xml.dom import minidom
import xml.etree.cElementTree as et
import re
tree=et.parse('wordpress.2012-12-05.xml')
root=tree.getroot();
wordCount = {}
for child in root.iter('item'):
date = child.find('wppost_date').text[:7] #find the year and month
body = child.find('content_encoded').text # post content
title = child.find('title').text # post title
try:
fulltext = title + "\n" + body # all the text in the post = title + body
except:
pass
fulltext = re.sub(ur'[_»«"\'&?؟a-zA-Z0-9/=.*+\n-%<>:;،؛,\-)(،۱۲۳۴۵۶۷۸۹۰]', ' ', fulltext) #replace extra chars
words = fulltext.split() # words is a list of all words in this post
for word in words:
wordCount[word] = wordCount.get(word, 0) + 1 # wordCount[word]++
for word in wordCount:
thisLine = (str(wordCount[word]) + "\t" + word)
print thisLine.encode("utf-8", "ignore")
کد کاملا واضحه: هر پست رو نگاه می کنه، حروف غیرفارسی تیتر و متن رو با فاصله جایگزین می کنه و بعد تعداد کلمات رو جمع میزنه و همین روند رو روی تمام پستها ادامه میده. به عبارت دیگه خروجی چیزی شبیه به این خواهد بود:
هوم.. بیست و هفت هزار و هشتصد و هشتاد کلمه (: بدک نیست (: چیز خوبیه که روی وبلاگ های مختلف حساب بشه و ببینیم هر وبلاگ با چند تا کلمه مستقل از هم نوشته شده (: البته معلومه که «میرود، می رود، میرود» چهار کلمه جدا شمرده شدن… برای حل نسبی این مشکل توی اون خط که رجکس یکسری کاراکتر اضافی رو حذف می کنه، نیمفاصله رو هم اضافه میکنم و خروجی اینطوری میشه:
جالب نیست؟ برای چهار هزار و چهارصد کلمه، من گاهی از نیم فاصله استفاده کردم و گاهی نکردم. حالا مهم نیست (:
قدم بعدی سورت کردن است. با جواهر گنو و نشون دادن بیست تا بالایی:
jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | sort -n -r | head -20
خروجی رو براتون نمیذارم چون فقط یکسری حرف ربط بی ربط است.
پروژه جانبی بسیار مهم برای زبان فارسی: همه زبانها یک فایل دارن به اسم نمی دونم چی (کسی میدونست لطفا بگه) که توش کلمات «بی ربط» اون زبان نوشته شدن. به اصطلاح همون am و is و are یا امثال «است» و «شد» و «و» و «یا» و … که در اینجور جاها کاربرد داره (می شه اون کلمات رو از فهرست این کلمات که برنامه بهمون داده حذف کرد تا کلمات اختصاصی من به دست بیاد و نه چیزهایی که برای جمله ساختن همه استفاده می کنن). آیا چنین فایلی داریم برای زبان فارسی؟ تو خارجیها اسمش چیه؟
حالا که بیست تا اولی به درد نخوردن، به جاش کل لیست رو میبرمش توی لیبره آفیس و مثل همیشه نمودار بیشترین کلمات (غیر حرف ربط و استاندارد مثل است و باشد و شد و اینها) رو میکشیم تا با یک نمودار قشنگ کار رو تموم کرده باشیم:
پ.ن. این مجموعه مهمل ، یک قسمت دیگه هم داره (: کمی دیرتر ولی.