چرا گنو/لینوکس رو دوست دارم: اینجا چند بار از کلمه مهمل استفاده شده

یک ایمیل عجیب داشتم که توش مهدی خیلی جدی می‌گفت براش جالبه که من چند بار در مطالب وبلاگم از کلمه «مهمل» استفاده کردم (: و خواسته بود اگر می شه اینو پیدا کنم و بگم (: شاید درخواست غیرمعمولی باشه ولی برای یک روز تعطیل پر از آلودگی مناسب است. به هرحال تا سال دیگه که روز دانشجو به سنت همیشگی به خاطر آلودگی تعطیل بشه، ممکنه اینهمه وقت اضافی گیرمون نیاد.

چیکار می کنیم؟ من با وردپرس وبلاگ می‌نویسم. پس اول از بخش مدیریت از منوی Tools، کل پست‌ها و کامنت‌های سایت رو Export میکنم. اینجوری یک فایل ایکس ام ال دارم که همه مطالب سایت توش هستن.

شمردن کلمات مهمل که بسیار ساده است. دستور grep عالی لینوکس. این دستور می‌تونه خطوطی که یک کلمه رو دارن رو جدا کنه یا کارهای مشابه. یک سوییچ عالی به اسم o هم داره که میگه فقط بخش پیدا شده رو در یک خط مجزا بنویسه. اگر این تعداد خطها رو بشمریم در می یاد که اون کلمه مورد جستجو چند بار در فایل بوده:


 jadi@jeducation:~/Downloads$ grep -o مهمل wordpress.2012-12-05.xml | wc -l 
 29


بعله (: من بیست و نه بار از کلمه مهمل استفاده کردم (: اما چیزی که جالبتره اینه که از کی شروع کردم به استفاده. اینبار باید برنامه بنویسم. پایتون همیشه انتخاب راحت و خوبیه. برنامه ایکس ام ال رو می خونه، درختش رو بررسی می کنه و توی همه مطالب و کامنت‌هایی که از عبارت مهمل استفاده کردن، تاریخ رو توی خروجی می نویسه:
# -*- coding: utf8 -*- 

from xml.dom import minidom
import xml.etree.cElementTree as et
import re

tree=et.parse('wordpress.2012-12-05.xml')
root=tree.getroot();

for child in root.iter('item'):
	date = child.find('wppost_date').text
	body = child.find('content_encoded').text
	title = child.find('title').text

	try:
		if re.search (u'مهمل', body) or re.search(u'مهمل', title):
			print date;
	except:
		print date;

for child in root.iter('wpcomment'):
	date = child.find('wpcomment_date').text
	body = child.find('wpcomment_content').text

	try:
		if re.search (u'مهمل', body):
			print date
	except:
		print date;


اگر پایتون بلدین (یا حتی بلد نیستین ولی جرات داشتین کد رو نگاه کنین) می بینین که کد اصلا خوب نیست. دلیل تاریخی داره. اول نمی دونستم تو کامنت هم هست و بعد کامنت ها رو با یک کپی پیست جدا کردم. بعد دیدم گاهی اکسپشن می گیرم و بعد از بررسی فهمیدم بعضی مطالب متن یا عنوان نداره (چرا؟!) و در نتیجه خروجی مشکل پیدا می کنه که با یک اکسپشن اضافه کردن سر و ته مشکل رو هم آوردم و رسیدم به نتیجه‌ای که می‌خواستم:
jadi@jeducation:~/Downloads$ time python parsejadi.py 
2011-12
2012-07
2012-11
2011-09
2011-10
2011-10
2012-02
2012-06
2012-10
2012-11
2012-11
2012-11
2012-11
2012-12
2009-06
2009-05
2011-08
2011-09
2011-10
2011-10
2011-11
2012-06
2012-06
2012-08
2012-10
2012-10
2012-10
2012-10
2012-11

real	0m0.738s
user	0m0.700s
sys	0m0.028s
jadi@jeducation:~/Downloads$ 

میبینین که توی اون خطی که تاریخ رو حساب کردیم یک [7:] دارم که باعث می‌شه فقط سال و ماه رو ذخیره کنم چون این نمودار با معنی‌تری بهمون می‌ده. راستی گفتم نمودار. اینم نمودارش (مشخصه که با لیبره آفیس لینوکس):

ظاهرا که همیشه از کلمه مهمل استفاده می‌کردم ولی این دو ماه بیشتر هم شده (:

پی.نوشت: وبلاگ من قدیم‌ها روی سیستم‌های دیگه بوده و از ماه پنج دوهزار و یازده روی وردپرس است که اطلاعاتش اینجا دیده می‌شه.

نکته مهم: این مطلب ربط خیلی خاصی به لینوکس نداره. البته ابزار گرپ گنویی است و همینطور لیبره آفیس. پایتون ممکنه هر جا اجرا بشه و شاید نمودار با آفیس مایکروسافت قشنگتر هم می شد ولی به هرحال برای من این یک تجربه لینوکسی است چون لحظه ای که اراده کردم همه اینها زیر دستم بود و از انجامش هم لذت بردم (: چون شبیه سری های چرا گنو لینوکس رو دوست دارم است با همون عنوان رفتم جلو.

پوستری از تمام فیلم‌های هالیوود

این پوستر بانمک اسم و ژانر و گاهی ساب ژانر همه فیلم‌های هالیوود رو داره. در نسخه آنلاین می تونین زوم کنین و هر سال و فیلم‌هاش رو ببینین یا نگاه کنین که چطور فیلم‌های به وسترن تعدادشون تغییر کرده یا کمدی در چه دوره ‌هایی کم و زیاد شده یا مثلا هنرهای رزمی در کدوم سال‌ها ساخته شدن. البته هدف اولیه پوستر زیبایی است نه بررسی علمی (: اگر هم دوست داشتین و در کشوری بودین که با قواعد دنیا می خوند،‌ می تونین با ۳۴ دلار سفارشش بدین.

من که نمودار دوست دارم و حتی با دلار سه هزار و فلان هم با علاقه یکی می خریدم (:‌

مرتبط: نمودار میزان استفاده از هر رنگ در پوسترهای فیلم در طول قرن گذشته

ارتباط «جنگ» با مواد مخدر و میزان اعتیاد در جامعه

نمودار بالا بودجه مبارزه با مواد مخدر آمریکا و درصد جمعیت آلوده به مواد مخدر این کشور در طول چهل سال گذشته رو نشون می ده. بودجه از کمتر از یک به بیست بیلیون رسیده و در تمام مدت جمعیت معتاد بین یک تا دو درصد بوده ((:

بحث بودجه ماده مخدر پیچیده است چون رابطه علی توش دیده نمی شه. اگر بودجه رو زیاد کنین و مواد مخدر کم بشه می گن «دیدین کم شد! پس بیشتر بودجه بودجه که کمترش کنیم» و اگر بودجه بدین و کم نشه یا زیاد بشه می گن «دیدین چقدر وضع خرابه؟ بازم بودجه بدین که بیشتر بجنگیم».

مرجع

آپدیت – یک کامنت خوب:

البته جادی جان، این نمودار نه بر اساس رشد جمعیت و نه بر اساس تورم نرمال نشده:
http://www.censusscope.org/us/chart_popl.html
http://www.usinflationcalculator.com/inflation/historical-inflation-rates
http://en.wikipedia.org/wiki/Economy_of_the_United_States
خیلی از جاهای دنیا و به‌طور خاص موقع انتخابات، این دست آمارِ غیر کاربردی ولی جذاب از همه جا می‌زنه بیرون…

دروغ‌هایی که سعی می کنن دنیا رو تغییر بدن

نظر من رو بخواین اینها شدیدا علاقمند هستن جیمیل رو سانسور کنن تا کم کم عده بیشتر و بیشتری رو مجبور کنن که بیان روی سرویس های تحت نظر خودشون و این جریان فیلم فقط یک بهانه فوق لعاده مسخره است که نه ربطی به گوگل داره و نه به جیمیل و تازه اگر کسی مفهوم یک سرویس آپلود فیلم و فیلم روش رو نفهمه و دیکتاتور هم باشه می تونه منجر به سانسور یوتیوب بشه نه جیمیل (: به هرحال.. هر کس هر چقدر هم بی سواد و بدون دید از دنیا باشه بعیده واقعا تصور کنه که بستن گوگل در ایران به گوگل در کوتاه مدت ضربه اقتصادی ای می زنه. ما واسه گوگل فقط هزینه هستیم به امید اینکه یک روزی شاید به در آمدزایی برسیم براش.

این ارزش سهام گوگل در پنج روز گذشته (: بعد از اینکه دوستان ضربه مهلک رو بهش زدن

بحث این نیست که سود گوگل خوبه یا بد. این برای امثال آقای خاوری که پولشون خارج از کشوره – چه خودشون داخل باشن چه خارج – معنا داره، برای من و شما این فقط یعنی سانسور و دروغ. بحث اینه که دروغ هر روز عادی تر و عادی تر می شه و این ایده که دروغ های بزرگتر بگیم، مرسوم تر و مرسوم تر تا وقتی که کلا گسستی بین حرف ها و واقعیت پیش می یاد که تنها راه پوشوندش دروغ های بزرگتره و خفه کردن هر صدای مخالف دروغ که در نهایت به چیزی جز گسست خود واقعیتشون منجر نمی شه. ظاهرا کسی هم اهل عبرت گرفتن نیست و هنوز تصور اینه که با شعار نوشتن که «همه چیز ایکس است» و توی رسانه انحصاری گفتن که «همه چیز ایکس است» و تعطیل کردن هر صدایی که همینو نگه، واقعا همه چیز ایکس می شه (: به این عکس لبخند بزنین:

درآمد شغل‌های نرم‌افزاری در آمریکا و استدلال جهانی شدن قیمت ها

سایت دکترباب مثل هر سال نظرسنجی درآمدی سالانه‌اش رو انجام داده. نتایج کامل رو می‌تونین در اینجا ببینین.

نمودار بالا متوسط درآمد سالیانه است. یک مهندس نرم افزار به طور متوسط امسال ۱۰۱ هزار دلار درآمد داشته یا ماهی ۸۴۰۰ دلار که می‌کنه تقریبا به عبارت ۱۶ میلیون تومن در ماه (: اگر دفعه بعد یکی براتون از نزدیک شدن قیمت های ایران به قیمت های جهانی و غیره حرف زد می تونین این رو بکنین توی چشمش (:

البته خیلی ذوق نکنیم. اکثر من و شما که نرم افزار خوندیم یا کار نرم افزار می کنیم رو در همون مرحله اول مصاحبه‌های شغلی جاهایی مثل مایکروسافت و اینها با خنده اخراج می کنن (: اینجوری نیست که چون لیسانس نرم افزار داریم بریم آمریکا اینقدر حقوق می گیریم. در نهایت هم زندگی متوسط یک آمریکایی مهندس نرم افزار شاید حداکثر دو برابر از زندگی من و شما در ایران بهتر باشه (از نظر کیفی) ولی استدلال اینکه «قیمت بنزین الان در ایران نصف آمریکا است» جوابش اینه که «درآمد یک مهندس نرم افزار هشت تا ده برابر یک مهندس نرم افزار در ایران است» یا «قیمت یک ماشین متوسط حقوق یکسال یک مهندس نرم افزار است در حالی که توی آمریکا برابر نصف حقوق یک ماه یک مهندس نرم افزار است» و غیره و غیره (:

نمودار میزان استفاده از هر رنگ در پوسترهای فیلم در طول قرن گذشته

اگر دنبال کننده وبلاگ من باشین می دونین که من نمودار دوست دارم و حتی یک بخش مستقل برای نمودارها دارم. در ضمن اسکریپت نویسی و کارهای ابتکاری رو هم دوست دارم و برای اونهم یک بخش دارم و وقتی این دو تا با هم ترکیب می شن حسی متعالی بهم دست می ده.

این دوست خوش ذوقمون بعد از یک گفتگوی سر میز ناهار (که پیشنهاد می کنم مفهومش رو نگه دارین و سر میزهای ناهار اداره و شرکت در مورد چیزهای جالب حرف بزنین (ما یک دوره هر روز یک نفر برای بقیه تعریف می کرد چطور با شرکای زندگی اشنا شده و خیلی هم خوب بود و فان و باعث بالا رفتن روحیه تیمی هم می شد)) با دوستش صحبت کرده که آیا رنگ آبی و رنگ های تیره در حال بیشتر شدن توی پوسترهای فیلم هستن یا نه؟ جواب: بله! هر خط نمودار زیر، میزان رنگ های استفاده شده در پوسترهای یک سال است. ردیف بالای بالا مربوط به سال ۱۹۱۴ و پایینترین ردیف مربوط به سال ۲۰۱۲. کاملا دیده می شه که رنگ های گرم و نارنجی عقب رفتن و بیشتر و بیشتر جاشون رو به رنگ های آبی دادن.

روش اجرا؟ خوندن پوسترها از یک سایت حاوی اطلاعات فیلم ها و بعد طبقه بندی بر اساس سال و بعد در آوردن رنگ و در نهایت کشیدن نمودار. ایده بعدی این آدم اینه که همین اطلاعات رو با ژانر فیلم و اینجور چیزها ترکیب کنه. وبلاگش رو برای توضیح بیشتر و نمودارهای دقیق تر کلیک کنین

جدول نمودار سرعت دانلود در ایران در مقایسه با جهان

اخیرات سایت نت ایندکس بر اساس آمار سایت speedtest.net سرعت دسترسی به اینترنت در کشورها رو رده بندی کرده. البته سرعت اعلام شده دانلود در ایران چیزی در حدود ۱.۳ مگابیت بر ثانیه است یعنی تقریبا سرعت دانلود ۱۳۰ کیلوبایت (: معلومه که دوستانی می رن سرعتشون رو چک می کنن که دوست دارن اسکرین شات بگیرن و گزارش بدن که سرعتشون صد و سی کلیوبایت است!

اما با این تفاصیل هم، ایران اسلامی مون در سرعت دانلود از بین ۱۷۴ کشور جهان رتبه ۱۶۴ رو کسب کرده (دهمی از آخر). کشورهای بوتان، زامبیا، سوریه، سودان و بولیوی از ما پایینتر هستن و ما زیر کشورهایی همچون بوتسوانا، فلسطین، ازبکستان، تانزانیا، موزامبیک، رواندا، کامبوج و … قرار گرفتیم.

در بخش آپلود هم با حضور افتخاری در زیر آروبا، زامبیا، مالدیو، دومنیک، بنگلادش و البته جزایر سلیمان و کشوری به اسم نامیبیا رتبه ۱۴۶ جهان رو مال خودمون کردیم.

تقریبا بی ربط: نسخه جدید گنو/لینوکس مورد استفاده من یعنی فدورا امروز منتشر می شه. متاسفانه امروز به وقت آمریکا که برای ما می شه امشب. (:

خاموش در سر کلاس: نمودار فعالیت های مغزی یک دانش آموز در طول یک هفته

یک مقاله IEEE تحت عنوان «سنسور قابل پویشدن غیرمزاحم برای بررسی طولانی مدت فعالیت الکترودرمال» برای نشون دادن چیزی که در موردش بحث می کنه، یک دانش آموز رو انتخاب و برای یک هفته سنسور-فعالیت-مغزی-غیرمزاحم-قابل-پوشیدن-دائمی اش رو به سرش وصل کرده. نتیجه؟ این نمودار:

می بینین که در طول کلاس (نه تا دوازده و بعدش مثلا یک تا سه) مغز کمترین فعالیت ممکن رو داره (((: حتی پایین تر از ساعت های خواب. مشخصه که این فقط فعالیت مغز یک نفر در چند روز خاص است و هدفش سنجش این موضوع نبوده ولی به هرحال این نمودار عالیه و موید تجربه شخصی من.

منبع من و مقاله IEEE به شکل پی دی اف: Poh, M.Z., Swenson, N.C., Picard, R.W., “A Wearable Sensor for Unobtrusive, Long-term Assessment of Electrodermal Activity,” IEEE Transactions on Biomedical Engineering, vol.57, no.5, pp.1243-1252, May 2010. doi: 10.1109/TBME.2009.2038487