دسامبر 2012

پهپادهای شهروندی مجهز به دوربین و اسلحه

این آقای مهربون از اینترنت یک درون یا فکر کنم تو فارسی می گیم پهپاد خریده.

Screenshot from 2012-12-26 10:40:47

می‌بینین که بهش یک دوربین و تفنگ پینت‌بال هم وصل کرده و بعد

Screenshot from 2012-12-26 10:40:13

باهاش به ماکت‌های مقوایی آدم حمله کرده و تک تکشون رو با گلوله‌های به سر و گردن و سینه «کشته».

فقط برای اینکه بدونیم کدوم وری داریم می ریم و البته به عنوان الهام برای دوستانی که به کار جذب بودجه‌های عجیب غریب هستن (:‌

اگر اینترنت کم-سرکوب دارین،‌ ویدئوی کامل رو ببینین:

سلام من ایمیل آدرسم را عوض کردم

ظاهرا تعداد زیادی آدم از دیروز تا امروز این ایمیل مهمل رو گرفتن:

emaile_jadid

چیه به نظرتون؟ اسپم؟ اشتباه فنی؟ یک آدم اسکول؟ ویندوزهای ویروسی؟ اگر ویروس یا اسپم است فایده اش برای فرستنده چیه؟ چک کردن اینکه آیا این فهرست ایمیل که داره درسته یا نه؟ شما گرفتینش؟ نظری دارین؟

قانون زیف و زندگی روزمره با محوریت کلمات وبلاگ

آپدیت: کد R و فایل اطلاعاتی رو اضافه کردم به ته پست.

⚠
این پست حاوی
ریاضیات است

چه عنوانی (: اگر خواننده وبلاگ باشین می دونین که چند وقت پیش به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم توی یک پست آخر، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ.

اما ماجرا ادامه داره (: اینبار امین صفاری پیشنهاد کرده که قانون زیف رو روی داده‌ها تست کنیم. برای من فرصت خوبی شد که هم قانون زیف رو یاد بگیرم و هم با کمک امین، قدم‌های اولم توی R رو بردارم. ما توی مطلب آخرمون رسیدیم به یک جدول از سیصد کلمه پر کاربرد وبلاگ و تعداد استفاده از اون‌ها. ظاهرا این ترکیب خوبیه برای قانون زیف.

قانون زیف می گه که

اگر تمام کلمات یک کتاب را بشماریم و از زیاد به کم مرتب کنبم به این نتیجه می‌رسیم که رتبهٔ هر کلمه با فراوانی(بسامد) همان کلمه نسبت عکس دارد، یعنی تعداد بارهایی که هر کلمه در متن ظاهر می‌شود با رتبهٔ همان کلمه در متن رابطه معکوس دارد. این نسبت در کلمات کل متن برقرار است. که به قانون زیف معروف شده‌است. بر طبق زیف کلمه‌ای که در رتبهٔ ۱ قرار دارد دوبرابر بیشتر از کلمه‌ای در متن ظاهر می‌شود که در رتبهٔ ۲ قرار دارد و ۳ برابر بیشتر از کلمه‌ای ظاهر می‌شود که در رتبهٔ ۳ قرار دارد و همینطور تا آخر.

و مدعی می شه این مربوطه به جریان کمترین کوشش. یعنی ما سعی می کنیم کارها رو به سادگی انجام بدیم و در یک کتاب این یعنی استفاده از کلمات تکراری. رابطه پیشرفته‌تر توی تئوری به این شکل بیان می شه:

f(k;s,N)=(1/(k^s))/(H(n,1))

که k میشه Rank و N میشه تعداد کلمات و تابع H هم میشه تابع اعداد هارمونیک.

این تابع رو روی یک نمودار با دو محور لگاریتیمی می کشیم تا نشون بده که هر کاربرد پر کاربردترین کلمه در یک متن تقریبا دو برابر کاربرد دومین کلمه پر کاربرد است و سه برابر کاربرد سومین کلمه و …

حالا اگر جدولی بسازیم که توش هر کلمه و تعداد ظاهر شدن اون در متن باشه و این رو به ترتیب نزولی سورت کنیم و بهشون از یک تا مثلا سیصد شماره ردیف بدیم، جدولی خواهیم داشت از هر کلمه، رتبه و تعداد استفاده اون در متن. اگر این اطلاعات رو با استفاده از برنامه R (یا هر چیز دیگه!) روی نمودار لگاریتمی – لگاریتمی ببریم به این می‌رسیم:

و بعدش توضیحات امین رو می خونیم:

توی ساده ترین حالت s برابر ۱ هست.
برای داده های تو هم اگر از مجموعه ۳۰۰ تایی استفاده کنی نتیجه بهتری میگیری (البته تا اونجایی که میدونم این نسبت رو بعضی از قسمتهای مجموعه داده کار نمیکنه)
عدد S هرچی به ۱ نزدیک تر باشه مدل بهتری بر اساس توزیع زیپف هست چون تکرار کلمات در زبانهای طبیعی خیلی heavy-tailed هست. (زبان شناس ها اینو به صورت اینکه مغز انسان بیشتر دوست داره کلمات تکراری استفاده بکنه تا جدید توجیح میکنن)
به نظر من ۰.۷۹ برای مجموعه داده های تو خیلی خوبه چون اینو باید در نظر بگیری که این مجموعه کلمات از یک متن یک پارچه (مثل کتاب) نیامدن و مربوط به پست های متفاوت هستن.

می بینیم که وبلاگ من هم با قانون زیف می خونه. اما چیزی که جریان رو بسیار جالبتر می کنه اینه که قانون قابل تطبیق روی کلی پدیده اجتماعی و فرهنگی دیگه هم هست. در اصل هر چیزی رو که بر اساس تعداد و رتبه (شماره ردیف در جدولی که کلمات توش بر اساس تعداد دفعات کاربرد به شکل نزولی سورت شدن) طبقه بندی کنین، می تونین بندازین روی این نمودار. یک مثال ممکنه شهرهای یک کشور باشه. اگر جمعیت شهرها رو بنویسیم و بر اساس اونها به شهرها رتبه بدیم و بندازیمشون روی همین نمودار،‌ احتمالا همین خط رو می یان پایین. دیدن این تکرار در طبیعت چیزیه که علم رو می سازه و اشتیاق علمی رو ایجاد می کنه بخصوص اگر فرمول بر اساس این فرض درست شده باشه که آدم ها بنا به اصل کمترین کوشش سعی می کنن جهان اطرافشون رو شکل بدن (:

پ.ن. این سری یک پست دیگه هم داره و حسابی ممنونه از امین صفاری و وقت و حوصله اش (:

پ.ن.۲. کد R برای خوندن فایل و کشیدن نمودار چنین چیزی است (کد رو امین نوشته)

Jadi<-read.csv("/home/khikho/Downloads/300.first.words.csv",sep="\t")
plot(sort(Jadi$count/sum(Jadi$count), decreasing=TRUE), xlab="rank", ylab="density",log="xy")
x<-(1:300)
xp<-(1/(x^0.79))/(sum(1/(x^0.79)))
xp1<-(1/(x))/(sum(1/(x)))
lines(xp,co=2)
lines(xp1,co=4)
legend("topright", c("s=1","s=0.79"), cex=0.8,col=c("blue","red"),lty=1);

و فایل سیصد کلمه پر کاربرد با تعداد استفاده شون هم اینجاست

پ.ن.۳. لعنت به سانسورچی (:

ویکیپدیا را آفلاین بخوانید

اگر ویکیپدیا یکی از منابع مطالعه همیشگی‌تون نیست من فقط دو تا چیز رو می تونم حدس بزنم: اولی اینکه اهل خوندن در مورد چیزهایی که باهاشون برخورد می کنین و در موردشون نمی دونین نیستین و دومی اینکه به ویکپدیا دسترسی ندارین. در مورد اولی توصیه‌ام بهتون اینه که از تله خوندن چیزهایی که بقیه جلوی راهتون می ذارن (این وبلاگ، بقیه وبلاگ‌ها، توییتر، فیسبوق، اخبار، …) فرار کنین و خودتون بخشی از مطالبی که در موردشون چیز می خونین رو انتخاب کنین و در مورد دومی بهتون کیویکس رو معرفی میکنم:

Kiwix_Persian

یک خواننده آزاد و رایگان آفلاین ویکیپدیا به اسم kiwix. برای استفاده ازش کافیه بر اساس سیستم عاملتون یک برنامه دانلود کنین و بعد با دادن فایل زبان مورد نظرتون، اون رو بخونین. این فایل برای فارسی بیشتر از دو گیگ حجم داره ولی می شه اونو از یک دوست گرفت یا به کسی سفارش داد یا حتی یکبار دانلود کرد و همیشه خلاص شد. اگر واقعا دوست دارین از این برنامه استفاده کنین و مشکل رسیدن به این فایل رو دارین، بگین تا من راه حل های جانبی رو پیدا و معرفی کنم (:

از امروز تبلیغات حق ندارن صدایی بلندتر از صدای فیلم داشته باشن

جریان برای همه آشناست: داریم یک فیلم می بینیم و یکهو وسطش «دیری دیریم!» تبلیغات با یک صدای بلند شروع می شه تا چیزی که می خواد تبلیغ کنه رو تا مغز بکنه تو کله ما (نام نمی برم از بقیه سیستم ها که هر چقدر اقبال بهشون کمتر می شه صدای بلندگوشون رو بلندتر می کنن).

حالا خبر خوب اینه که از امروز هیچ شبکه تلویزیونی اجازه نداره تبلیغی با صدایی بیشتر از صدای برنامه اصلی پخش کنه.

خبر بد اینه که این قانون رو کنگره آمریکا تصویب کرده و اوباما زیرش رو امضا و در نتیجه فقط در همون دیار کفر معتبره.

به من زنگ نزن این مشکل «صدای بلند تبلیغات» که یک جور حمله به پرایوسی آدم‌ها حساب می‌شه یکی از اصلی‌ترین شکایت‌های رسیده به کمیته ارتباطات فدرال آمریکا در سال گذشته بود. این کمیته تقریبا ده سال قبل قانون دیگه‌ای رو پیشنهاد و تصویب کرده بود که طبق اون تمام آمریکایی‌ها حق دارن به رفتن به سایت به من زنگ نزن که توسط دولت اداره می‌شه تلفنشون رو به فهرستی اضافه کنن که هیچ شرکت تبلیغاتی حق نداره بهشون زنگ بزنه چه ابله‌هایی که تورشون رو معرفی می کنن و چه بیچاره‌هایی که سعی می کنن با گفتن «ما شماره تلفن مشابه شما رو توی اون یکی اپراتور داریم» یک لقمه نون در بیارن و زنگ زدنشون به من هم اعصاب من رو خورد می کنه هم وقت خودشون رو تلف.

افتضاحات فتوشاپی – تبلیغ گوچی

در دنیای مد و تبلیغات و هالیوودی و «زیبایی»، «استاندارد»ها باید غیرقابل دستیابی باشن چون اگر قرار باشه من و شما هم قشنگ و خوب باشیم خب پس کی باید تمام سال‌های عمرش اینهمه محصولات «زیبا کننده» رو بخره؟ برای درست کردن این «استانداردهای غیرقابل دستیابی» یکسری آدم از زندگی معمولی جدا می شن و سوء تغذیه و گاهی بیماری‌های مختلف رو به عنوان شغل انتخاب می کنن و بعد از اینکه عکسشون گرفته شد فتوشاپ‌کارها دست به کار می‌شن تا مطمئن بشن که اون «استاندارد» حتی توسط کسانی که شغل حرفه‌ای شون رسیدن به اون استاندارد است هم قابل دسترسی نیست. بعد نتیجه می‌شه پوسترهای تبلیغاتی.

اما گاهی این فتوشاپ کاری دیگه بیش از حد تابلو می‌شه. مثلا تبلیغ گوچی:

که ظاهرا به ما می‌گه یک زن ممکنه اینقدر کشیده باشه که پای چپش بدون نیاز به باسن از پایین کیفش بیرون بزنه و متاسفانه ما هم که الگومون گوچی می شه، دوست داشته باشیم شبیه اون باشیم.

یادمون باشه زیبایی یک چیز دیکته شده نیست (:‌ آدم‌ها زیبا و زشت دارن اما نه بر اساس نزدیکی و دوری‌شون از یکسری معیار استاندارد.

منبع اصلی

رادیو گیک شماره ۲۰ – تا قبر آ آ آ آ

مهمون ویژه این شماره: ۱پزشک مشهور به علیرضا مجیدی.

رادیویی برای کسانی که تکنولوژی براشون فقط تلاش دائمی برای خوندن و حفظ اینکه فلان مدل فلان چیز فرقش با فلان مدل بهمان چیز چیه و تو بازار چنده و شایعه اینکه قراره کی مدل فلانترش بیاد نیست و ترجیح می‌دن یک پله عمیق تر بشن و تو تقاطع تکنولوژی و جامعه، دغدغه‌های انسانی‌شون رو مطرح کنن. رادیو گیک برای گیک های سرگردان در تقاطع جامعه و تکنولوژی.

[audio:http://jadi.net/audio/jadi-net_radio-geek_020_ta_ghabr_a_a_a_a.mp3]

یا از اینجا دانلود کنید یا به احترام آزادی نسخه OGG اون رو دریافت کنین

آرس اس اس رادیو گیک

رادیو گیک در آیتونز

اخبار

کمپین ضایع مایکروسافت علیه اندروید

مایکروسافت شرکت بدی نیست ولی گاهی طرح‌های عجیب داره.. یکبار در یک ایده مسخره مراسم ترحیم آیفون رو برگزار کرد و حالا یک کمپین به اسم DroidRage! ایده محوری این کمپین این بود که آدم‌ها ناراحتی‌هاشون از اندروید رو توییت کنن و تگ دروید ریج بهش بزن. اما عملا این باعث یک مجموعه خیلی بامزه و خلاق از شوخی‌های مختلف شد. توییت اصلی از طرف اکانت رسمی «ویندوز فون‌» بود که از مردم می‌خواست تجربیات بدشون از اندروید رو با تگ دروید ریج بنویسن ولی جواب‌ها چیزهایی مثل این بودن:

سیف: من سعی کردم یک نکسوس چهار بخرم ولی این تلفن اینقدر طرفدار داره که دستم بهش نرسید. آرزو دارم کاش اونم مثل تلفن‌های ویندوز تو بازار باد کرده بود تا یکی می خریدم.

محمد تراکی‌ای: من یکبار خواستم یک بدافزار برای ویندوز فون بنویسم ولی بعد دیدم چه فایده داره وقتی خودش اینقدر بدبختی داره؟

فورتی‌ سون: کدوم دروید ریج ؟ من الان سه ساله اندروید دارم و راضی بودم و کسی رو هم نمی‌شناسم با بدافزار مشکلی داشته باشه. این که ویندوز نیست!

و البته اکانت رسمی اندروید سنترال هم دو تا توییت بامزه کرده:

ببخشید که چند لحظه نبودیم. برگشتیم! باید ویندوز رو ریبوت می کردیم!

اوه… می‌بخشید. یک میلیون دستگاه دیگه رو رجیستر کردیم… ببخشید ویندوز فون.

شکی نیست که توی اندروید بد افزار هم هست و عقل نصب کننده است که تصمیم می‌گیره چی نصب کنه ولی این کمپین ویندوز واقعا کمپین خزی بوده. بر خلاف اون یکی کمپینش که در مورد آی ای جدید است و تمرکز داره روی اینکه «ما می دونیم که آی ای بد بوده ولی حالا از اول نوشتیمش و خوب شده». پیشنهاد می‌کنم به سایت http://thebrowseryoulovetohate.com/ برین و نگاهی به تبلیغات خوب مایکروسافت هم بندازین. کلا تمرکزشون روی اینه که همه کسانی که قبلا می گفتن آی ای مزخرفه و چرنده و فقط به درد دانلود کردن فایرفاکس می خوره،‌ با دیدن آی ای جدید قبول می کنن که بسیار بهتر شده.

مشکل امنیتی توی برنامه اینستاگرام برای آی او اس
طرفدارهای اپل همیشه یکی از دفاعیاتشون در مورد سیستم بسته و محدود کننده اپل اینه که این قفس طلایی باعث امنیت کسی می شه که توی قفس انداخته شده. این بحث در مقایسه با جنگلی مثل اندروید که شما حق دارین با تلفنتون هر کاری بکنین درسته و دقیقا بحث اینه که شما می خواین توی یک خونه حبس بشین و با صرفنظر از آزادیتون، از خطر تصادف با ماشین و در امان بمونین یا می خواین پا به جنگل اسفالت بذارین و امنیتتون رو وابسه به تصمیم‌های عقلانی‌تون بکنین.

اما حالا کمی معادله عوض شده چون حفره امنیتی جدید اپلیکیشن اینستاگرام نشون می ده که قفس طلایی ظاهرا یک سوراخ‌هایی هم داره. این حفره به حمله کننده اجازه می‌ده کنترل کامل اکانت شما رو در دستش بگیره و احمقانه‌ترین حفره امنیتی جهانه: اطلاعات اکانت شما و همینطور کوکی لاگین شما بدون هیچ رمزگذاری برای سرورهای اینستاگرام فرستاده می‌شه و این یعنی هر آماتوری می‌تونه با نگاه کردن به اون با شناسه شما وارد سایت بشه.

مثل بسیاری موارد دیگه، کسی که مشکل رو کشف کرده سعی کرده به اینستاگرام نشونش بده ولی در یک ماه گذشته که کسی به حرفش گوش نکرده.

نوکیا و فروش دفترهای مرکزی برای به دست آوردن کمی پول

نوکیا با رهبری آقای الوپ که از مایکروسافت اومده ظاهرا وضعش خیلی خرابه. در جدیدترین حرکت برای بالا بردن سطح پول توی شرکت، نوکیا تصمیم گرفته دفتر مرکزی اش توی شهر اسپو فنلاند (که رسما یک شهر است فقط برای نوکیا) رو بفروشه! اونم فقط به ۱۷۰ میلیون یورو و بعد با بخشی از این پول همون ساختمون‌ها رو رهن کنه تا کمی پول به دست بیاره! این شرکت از سال ۱۹۹۷ توی این دفتر فلز و شیشه بوده که بهش نوکیا هاوس می‌گن و حالا به خاطر مشکلات مالی و تلاش برای کم کردن هزینه‌ها، این هنر رو زده. نوکیا که در شش فصل گذشته (دقیقا از وقتی اعلام کرده به ویندوز فون سوییچ می کنه) دائما ضرر داده، علاوه بر این تصمیم گفته که ۱۰هزار شغل رو حذف می کنه و داره تلاش می کنه که تا آخر ۲۰۱۳، ۱.۶ بیلیون یورو صرفه جویی کنه. همزمان شرکت نوکیا زیمنس که ترکیب بخشی از نوکیا و بخشی از زیمنسه هم اعلام کرده از طریق فروختن بخش‌های مختلفش به شرکت های دیگه (از جمله فروختن بخش اپتیک به یک شرکت آمریکایی)‌ داره تلاش می کنه هزینه‌هاش رو پایین بیاره تا شاید به سود دهی برسه. وضع نوکیا خرابه رفقا…

مارس وان و بیشتر از هزار داوطلب برای ماموریت مرگ مریخ

مارس وان یک پروژه خصوصی است که حالا در هلند به عنوان یک سازمان غیرانتفاعی (واقعی! نه مثل چیزهای غیرانتفاعی که در سرزمین پر از دروغ ما، تمام هدفشون سوده) ثبت شده که هدفش بسیار ساده است: رسوندن انسان به کره مریخ! هیجان انگیزه ولی توجه کنین که هدف «رسوندن» است نه برگردوندن! من تخصص هوافضا و غیره ندارم ولی شکی ندارم که اینکه یک چیزی بسازیم که از اینجا پرتش کنیم به سمت مریخ و برسه به نزدیک مریخ و یک کپسول ازش جدا بشه و یک نفر رو در مریخ پیاده کنه بسیار بسیار بسیار ساده تر از اینه که ازش بخوایم تو مدار مریخ یا سطح مریخ منتظر بمونه، مسافرش رو سوار کنه و بعد برگرده زمین. این دو تا اصلا قابل مقایسه با هم نیستن.

پروژه مارس وان، یک پروژه یک طرفه از زمین به سمت مریخ است و حالا بیشتر از هزار نفر داوطلب شدن که فضانورد این پروژه باشن. در نیمه اول ۲۰۱۳، از بین داوطلب‌ها کسانی که قراره به مریخ بره انتخاب می‌شن. برنامه بلندپروازانه اینه که در ۲۰۲۳ (فقط یازده سال دیگه!) چهار نفر اول به مریخ فرستاده بشن و بعد چهار نفر دیگه هر دو سال یکبار به اونها بپوندن! به قول خارجی‌ها .. هولی شت!

لپ تاپ قدرتمند و لینوکسی دل

دل دوباره یک لپ تاپ خوب با اوبونتو داده. اونها مدتی قبل خبر از پروژه ای به اسم اسپوتنیک داده بودن که توش قرار بود سری‌های اولترابوک محبوب XPS13 رو با لینوکس بدن و حالا که اجرای آزمایشی اون موفق پیش رفته اعلام کردن که اون رو همگانی می کنن: لپ تاپ دل ایکس پی اس ۱۳ دولوپر ادیشن. این لپ تاپ ظریف و زیبا، اینتل i7 یا i5 داره، ۸ گیگ رم و ۲۵۶ گیگ اس اس دی ساتا ۳. قیمت برای دلار ۳۰۰۰ تومنی و حقوق سیصد دلاری بالاست : ۱۵۴۹ دلار. لپ تاپ با اوبونتوی ۱۲.۰۴ ال تی اس داده می‌شه و کنونیکال تلاش کرده تا این نسخه رو کاملا با این سخت افزار سازگار کنه و یک ppa مستقل هم هست که درایورهای صد در صد سازگار با این لپ تاپ توش قرار گرفتن.

در اعماق

نفس‌هاتون در سینه حبس کنین: زیرو دی برای اس اس اچ تک‌تیا

مقاله پر هیجانی در اینترنت می‌چرخه با این عنوان هوشمندانه که «ترینیتی با زیرو دی اس اس اچ کینگ کوپ چه می کرد؟» مقاله به ساکنین ماتریس هشدار می ده که اگر از اس اس اچ تک تیا استفاده می کنن باید بدونن که هکری به اسم کینگ کوپ (که حدس زده می شه اسمش اقای توماس اندرسون باشه) یک زیرو دی معرفی کرده که توش هر یوزر ریموتی می تونه با فرستادن یک ریکوئست USERAUTH CHANGE قبل از پسوردش، دسترسی روت بگیره. تک تیکا هنوز پچی نداده و فقط در سایتش یعنی ssh.com یک راه حل موقت ارائه کرده.

در چین هستین؟ لپ تاپتون رو تنها نذارین

رفتین چین ؟ تاجر هستین؟ تو هتل از کارهای تجاری با لپ تاپ خسته شدین و هوس سر زدن به بار می کنین؟ لپ تاپ روی میزه و شما در رو قفل می کنین و می رین بار؟ خب اشتباه می کنین! درسته که نیم ساعت دیگه که بر می گردین همه چیز ظاهرا عین قبله و به کار ادامه می دین و روزهای بعدی هم خوش و خرم به کارهای تجاریتون می‌رسین ولی واقعیت اینه که شما که توی بار داشتین بییییییییببببببببببببببببب یک کارمند هتل اومده تو، محتویات لپ تاپ شما رو چک کرده و بعد یک جاسوس افزار روش نصب کرده و شما هم هیچ چیزی نفهمیدین. نتیجه؟ حالا چین به تمام اطلاعات تجاری شما، مشخصات مخصولاتتون، قیمت‌هایی که به مشتری‌ها دادین، ارتباطاتتون ، ایمیل‌هاتون و حتی اگر خوش شانس باشه به اطلاعات دولتی‌تون دسترسی داره. حتی اگر هدف بزرگتری باشین ممکنه بعدا که به کشورتون بر می گردین بد افزار رو توی کل شرکت هم پخش کنین و تا ماه‌ها یا سال‌ها کل اطلاعات محرمانه تجاری‌تون رو دو دستی تقدیم دوست و برادر کمونیستتون بکنین. حداقل این ادعایی است که مجله اینفوورد با اشاره به گفته‌های جری ایروین می کنه که عضو پارتنرشیپ امنیت ملی سایبری آمریکاست. اون می گه این اتفاقات در هر کشوری ممکنه بیافته ولی فرقش در چین و روسیه و کشورهای مشابه اینه که توی این کشورها احتمال داره دولت هم از این شکل از دزدی حمایت کنه. ای شایعه سازهای دروغگو! (:

اتاق های عمومی یاهو مسنجر بسته می شه

خبر کوتاه بود و دلشکن: اتاق های عمومی یاهو مسنجر بسته می شن. یاهو مسنجر برای منحرف‌های قدیمی‌ اینترنت و بعضی از منحرف‌های فعلی آشناست: یکسری اتاق که توش ایرانی‌های عزیز تلاش می کنن به غرایزشون پاسخ بدن.. دقیقا هم کسانی که نمی دونن تو اینترنت یکسری منتظر نیستن که با وقیح‌ترین مسیج‌ها، باهاشون دوست بشن. یاهو اعلام کرده این اتاق‌ها رو می‌بنده و احتمالا تنها کسانی که اصولا می‌دونستن که این اتاق‌ها هنوز هم وجود دارن جامعه‌شناس‌های سایبری بودن و یکسری سرگردان (: احتمال داده می شه که دلیل بستن این اتاق‌ها شهرت بدشون باشه که باعث می‌شد خریدار احتمالی مسنجر یاهو (شاید ام اس ان) تو سر مال بزنه! خلاصه اسکرین‌شات‌ها رو بگیرین و مکالمات رو برای تاریخچه اینترنت ایران سیو کنین چون اتاق‌ها از جمعه هفته بعد – چهاردهم دسامبر – به تاریخ می پیوندن.

قاطرهای پول – اینبار تبلیغ رسمی برای قاطرهای آگاه از کارشون

قاطر پول یا money mule یک اصطلاح در دنیای دیجیتاله. اینها کسایی هستن که پول رو جابجا می کنن. البته الزاما هم دیجیتال نیست. فرض کنین شما کلی پول دارین که می خواین وارد آمریکا کنین.. چیکار می کنین؟ تقسیمش می کنین بین یکسری آدم .. اونها از مرز ردش می کنن و توی آمریکا به شما تحویلش می دن. اینجوری پلیس حساس نمی شه، اگر هم یکی گیر بیافته فقط بخشی از پول از دست رفته.. به اینها می گن قاطرهای پول. در دنیای دیجیتال، قاطر پول کسیه که پول رو از کشورش منتقل می کنه به یک کشور دیگه. فرض کنین من با هر شکلی از دزدی، یک میلیون دلار در آمریکا به دست آوردم. این پول لازمه برسه به من که توی مثلا نیجریه یک حساب دارم. اگر خودم پول رو بریزم حتما بلاک می شه و هویت من هم معلوم. پس یک تبلیغ «کار در خانه» می زنم که در ساده ترین حالت می گه «کار شما اینه که هزار دلار به حسابتون می ریزم، بعد شما نهصد و نود دلارش رو به یک حساب که من می گم منتقل می کنین و ده دلار برای خودتون نگه می دارین». کافیه هزار نفر این کار رو با هیجان قبول کنن و توی کمتر از پنج دقیقه، ده دلار کاسب بشن و منم با دادن ده هزار دلار از پولم، نهصد و نود هزار تاش رو بدون دردسر منتقل کنم به کشورم.

حالا این هفته اتفاق جالب این بود که یک شرکت روسی، تبلیغی توی فروم‌های هک زده بود که ارتشی داره از آمریکایی‌هایی که آگاهانه دارن این کار رو می کنن – به عنوان شغل و به بقیه هکرها گفته بود هر کس می خواد پولش رو منتقل کنه، کافیه از این آدم ها استفاده کنه. این آدم ها می دونن دارن چیکار می کنن پس به خاطر مشکوک شدن به شما پیش پلیس نمی رن و کارشون هم به معنی کلی غیرقانونی نیست و پلیس به سختی می تونه جلوشون رو بگیره. تا حالا در دنیای هکرها این شغل معمولا مربوط بوده به دانشجوهای خارجی یا کارگران موقت خارجی که توی آمریکا هستن و این اولین باره که به شکل رسمی یک گروه اعلام کرده ارتشی از قاطرهای پول داره که می تونه اونها رو اجاره بده. قابل توجهه که اصطلاح قاطر پول در ویکپیدیا فقط به سه زبون موجوده: انگلیسی، فنلاندی و فارسی (: احتمالا هموطنان به موضوع علاقمند هستن (:

تبریک ها و تقبیح ها

تبریک می گیم به نسرین ستوده زن ستودنی ایران و تسلیتی بزرگ به همه هموطنانی که در آتشسوزی و زلزله می میرن و تسلیتی به بت سازها که دکونشون پر رونقه ولی پر از دروغ. تسلیت به دولت چین که در ماه گذشته صد نفر تبتی مجبور شدن خودشون رو آتیش بزنن تا شاید جهان دردشون رو ببینه . جا داره به طرفداران کاست هم تسلیت بگیم! سونی در یک خبر جالب اعلام کرد که دیگه کاست پلیر نمی سازه. به عبارت دیگه سونی تا همین الان داشت کاست پلیر می‌ساخت و یکسری می خریدن (: و البته تبریکی هم می گیم به دانشجوهایی که زنده هستن حتی اگر هر سال روزشون به خاطر آلودگی هوا تعطیل باشه. به افتخارشون به افتخار اون دو دانشجوی توده ای و اون یک دانشجوی حزب ملی که در اعتراض به دیدار نیکسون و رابطه با بریتانیا چهار ماه بعد از کودتای ننگین بیست و هشت مرداد علیه دولت ملی مصدق، در دانشگاه کشته شدن. به افتخارشون سه دقیقه سرود روز دانشجو رو گوش می دیم:

بخش آخر

توی بخش آخر یک مهمون عالی داریم (: یکی از مشهورترین و بهترین وبلاگنویس‌های ایران. یک پزشک! مشهور به علیرضا مجیدی – یا برعکس! – در مورد متا دیتا و دستگیری مک آفی برامون توضیحات مفیدی می ده. توضیح لازم اینه که این مطلب چند روز قبل ضبط شده و این روزها ماجرا کمی پیشتر هم رفته. مک آفی الان دستگیر شده و احتمالا با ۶۸ سال سن، حین بازداشت سکته کرده و به بیمارستان برده شده و بعد از ترخیص به کشورش برگردونده می شه تا در ارتباط با قتل همسایه‌اش، محاکمه بشه. من که می گم ادعای تغییر متادیتا الکی بوده و واقعا آقای آنتی ویروس، سوتی داده… به هرحال.. گوش می دیم به علیرضا مجیدی و توضیحات عالیش که به درد مشق‌های ما هم می خوره.

نامه ها

موسیقی

آهنگ hey you از پینک فلوید به پیشنهاد شنونده خوبمون صابر (: شما هم نظرات و آهنگ هاتون رو برای jadijadi@gmail.com بفرستین و شاد و خرم زندگی کنین (:

چرا گنو/لینوکس رو دوست دارم: شمردن کلمات به کار رفته شده در وبلاگ

در ادامه بررسی کلمات وبلاگ (بعد از شمردن استفاده از مهمل و کارهای آماری فوق العاده جالب روی اون) یک ایده دیگه که در کامنت‌ها مطرح شده رو پی‌می‌گیریم: شمردن کلمات و کاربرد اونها.

برنامه پایتون رو اینطوری تغییر می‌دم:

#!/usr/bin/python
# -*- coding: utf8 -*- 

from xml.dom import minidom
import xml.etree.cElementTree as et
import re

tree=et.parse('wordpress.2012-12-05.xml')
root=tree.getroot();

wordCount = {}

for child in root.iter('item'):
	date = child.find('wppost_date').text[:7] #find the year and month
	body = child.find('content_encoded').text # post content
	title = child.find('title').text 	  # post title

	try:
		fulltext = title + "\n" + body # all the text in the post = title + body
	except:
		pass

	fulltext = re.sub(ur'[_»«"\'&?؟a-zA-Z‌0-9/=.*+\n-%<>:;،؛,\-)(،۱۲۳۴۵۶۷۸۹۰]', ' ', fulltext) #replace extra chars
	words = fulltext.split() # words is a list of all words in this post

	for word in words:
		wordCount[word] = wordCount.get(word, 0) + 1 # wordCount[word]++

for word in wordCount:
	thisLine = (str(wordCount[word]) + "\t" + word)
	print thisLine.encode("utf-8", "ignore")

کد کاملا واضحه: هر پست رو نگاه می کنه، حروف غیرفارسی تیتر و متن رو با فاصله جایگزین می کنه و بعد تعداد کلمات رو جمع می‌زنه و همین روند رو روی تمام پست‌ها ادامه می‌ده. به عبارت دیگه خروجی چیزی شبیه به این خواهد بود:

...
4	همسرش
1	آکر
3	خرمش
1	ویسمن
2	خرما
1	یکباری
1	مانغو
2	احساسم
1	عصبي
61	رشد
1	رشت
1	تریلیان
5	همسرم
32	هیات
1	پورتال
2	پیشانی
6	مدیربسته
4	لری
4	وجدان
...

و البته مشخصه که خیلی طولانی‌تر. بذارین بشمریم که من کلا در زندگی چند کلمه استفاده کردم تو وبلاگم:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
27880

هوم.. بیست و هفت هزار و هشتصد و هشتاد کلمه (: بدک نیست (: چیز خوبیه که روی وبلاگ های مختلف حساب بشه و ببینیم هر وبلاگ با چند تا کلمه مستقل از هم نوشته شده (: البته معلومه که «می‌رود، می رود، میرود» چهار کلمه جدا شمرده شدن… برای حل نسبی این مشکل توی اون خط که رجکس یکسری کاراکتر اضافی رو حذف می کنه، نیم‌فاصله رو هم اضافه می‌کنم و خروجی اینطوری می‌شه:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
23405

جالب نیست؟‌ برای چهار هزار و چهارصد کلمه، من گاهی از نیم فاصله استفاده کردم و گاهی نکردم. حالا مهم نیست (:‌ قدم بعدی سورت کردن است. با جواهر گنو و نشون دادن بیست تا بالایی:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | sort -n -r | head -20

خروجی رو براتون نمی‌ذارم چون فقط یکسری حرف ربط بی ربط است.

پروژه جانبی بسیار مهم برای زبان فارسی: همه زبان‌ها یک فایل دارن به اسم نمی دونم چی (کسی می‌دونست لطفا بگه) که توش کلمات «بی ربط» اون زبان نوشته شدن. به اصطلاح همون am و is و are یا امثال «است» و «شد» و «و» و «یا» و … که در اینجور جاها کاربرد داره (می شه اون کلمات رو از فهرست این کلمات که برنامه بهمون داده حذف کرد تا کلمات اختصاصی من به دست بیاد و نه چیزهایی که برای جمله ساختن همه استفاده می کنن). آیا چنین فایلی داریم برای زبان فارسی؟ تو خارجی‌ها اسمش چیه؟

حالا که بیست تا اولی به درد نخوردن، به جاش کل لیست رو می‌برمش توی لیبره آفیس و مثل همیشه نمودار بیشترین کلمات (غیر حرف ربط و استاندارد مثل است و باشد و شد و اینها) رو می‌کشیم تا با یک نمودار قشنگ کار رو تموم کرده باشیم:

پ.ن. این مجموعه مهمل ، یک قسمت دیگه هم داره (: کمی دیرتر ولی.

اشتراک‌گذاری:

اشتراک‌گذاری:

اشتراک‌گذاری:

اشتراک‌گذاری:

اشتراک‌گذاری:

اشتراک‌گذاری:

اخبار

در اعماق

تبریک ها و تقبیح ها

بخش آخر

نامه ها

موسیقی

اشتراک‌گذاری:

اشتراک‌گذاری: