گنو/لینوکس رو دوست دارین؟ بگین چرا و شاید یک چیز فوق العاده برنده شدین

سایت خوب سیتو با همکاری یکی دو تا جای دیگه داره یک مسابقه خوب برگزار می که: چرا / گنو لینوکس رو دوست دارم.

بله (: عنوانش مثل مجموعه پست های «چرا گنو/لینوکس رو دوست دارم» منه (: خیلی هم عالیه. شما می تونین توی وبلاگتون، توییتر، فیسبوق، گولاس یا هر جای دیگه بگین چرا گنو/لینوکس رو دوست دارین و … بگین چی؟!!! مستقل از بودن در یک جمع عالی، این رو برنده بشین:

من داور شدم و نمی خوام تو مسابقه شرکت کنم وگرنه واقعا تلاشم رو برای بردن این برد می کردم: رزبری پای! من می خوااااام!

به این صفحه برین و شانس خودتون رو امتحان کنین (:

آمارهای مهمل یا گردشی آماری در کلمات فارسی وبلاگ؛ آخرین قسمت


این پست حاوی
ریاضیات است

این آخرین قسمت از یک پست دنباله داره که در مورد کلمه مهمل شروع شد. اول به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ و در نهایت به سراغ قاون زیف رفتیم و کلی در باره اش حرف زدیم و روی داده‌های جادی دات نت تستشون کردیم.

حالا با کمک امین صفاری یا همون خیخو، می ریم سراغ دو تا نمودار دیگه و یک بحث که شاید به درد کسی بخوره. اما قبل از نشون دادن نمودارهای جدید، بذارین یک نگاه بندازیم به همون نمودار اصلی که توی قانون زیف استفاده شد:

خیخو برامون نوشته:

شیب خط هرچی بیشتر باشه یعنی فشاری که یک کلمه به کلمه دیگه وارد میکنه تا اونو مجبور به تکرار (یا ایجاد یک کلمه جدید) کنه تا جمله رو با معنی بکنه کمتر هست (چون قراره جملات (ترکیب کلمات) برای انسان با معنی باشه) . البته متاسفانه خیلی تو داده های تو ازش نمیشه معنی استخراج کرد. و بیشترین کاربردش رو تو مقایسه یک متن یکسان با ۲ زبون مختلف نشان میده (نشون میده که کدام زبان با کلمات کمتری جملات معنی دار بیشتری رو میرسونه ) .به هر حال شیب خط تو داده های تو (3.90339418644553e-05) این هست.

۱) شیب خط هم میتونه اطلاعات خوبی داشته باشه مثلا اینکه دامنه لغات غیر وابسته ( خود کلمه به تنهایی معنی کامل داره) تو داده هات چقدر هست (اگر اشتباه نکنم تو زبان شناسی بهش میگن شناسه N-Gram زبان) .

۲) یک چیز جالب دیگه تو این نمودار میتونه این باشه که آیا نسبتی بین طول کلمات و رتبه اونها هست یا نه!؟ (تو زبان شناسی یک اصل هست که میگه زبان همیشه رو به ساده شدن پیش میره این به این معنی هست که اگر از فردا به همه بگیم بجای کلمه ٬تا٬ از کلمه ٬آسیبمبتلهتلا٬ استفاده کنن اون وقت بدون هیچ قصد و غرضی درصد کاربرد کلمه ٬تا٬ میاد پایین ) که البته این رابطه خیلی رو داده ها تو صادق نیستن چون همشون از یک نفر میان.

و برای اختتامیه این دو تا نمودار رو هم اضافه می کنه. نمودار خوب، خودش گویاست و نیازی به توضیح نداره پس شما هم فراموش نکنین که برای نمودارهاتون اسم بذارین و همه رو خوشحال کنین (:

nemoodarRplot03

toolRplot02

سانسور ابلهانه‌تر: سانسور فروم گنو/لینوکس اوبونتو

اگر فروم فارسی اوبونتو رو نمی‌شناسین باید بگم که جایی است که استفاده کنندگان یا کنجکاوان یکی از توزیع‌های مشهور لینوکس به اسم اوبونتو اونجان و اگر لازمه باید بگم که اوبونتو یکی از صدها توزیع خانواده سیستم عامل آزاد، قدرتمند و رایگان گنو/لینوکسه.

اگر فیلترینگ رو نمی‌شناسین که یعنی در ایران یا یکی از معدود کشورهای سانسور کننده اعظم اینترنت زندگی نمی کنین

و اگر ربط این دو تا به همدیگه رو نمی فهمین لازمه تگ سانسور ابلهانه رو دنبال کنین تا ببینین که کیا لوله اینترنت رو گرفتن دستشون و تشخیص می دن چی برای ما خوبه چی برامون بده. امروز نظرشون این بوده که یک فروم لینوکسی که توش آدم های دنیای لینوکس سوالات فنی شون رو مطرح می کنن مناسب من و شما نیست (:

پ.ن. همه سانسورها ابلهانه است ولی بعضی ها مسخره تر حتی از بقیه
توضیح واضحات: دوستان دارن پیگیری می کنن که با ثبت نام و غیره رفع فیلتر بشه. یک جور زیر نظر آوردن اجباری سایت هایی که نیاز دارن برای همه در دسترس باشن

سلام من ایمیل آدرسم را عوض کردم

ظاهرا تعداد زیادی آدم از دیروز تا امروز این ایمیل مهمل رو گرفتن:

emaile_jadid

چیه به نظرتون؟ اسپم؟ اشتباه فنی؟ یک آدم اسکول؟ ویندوزهای ویروسی؟ اگر ویروس یا اسپم است فایده اش برای فرستنده چیه؟ چک کردن اینکه آیا این فهرست ایمیل که داره درسته یا نه؟ شما گرفتینش؟ نظری دارین؟

چرا گنو/لینوکس رو دوست دارم: شمردن کلمات به کار رفته شده در وبلاگ

در ادامه بررسی کلمات وبلاگ (بعد از شمردن استفاده از مهمل و کارهای آماری فوق العاده جالب روی اون) یک ایده دیگه که در کامنت‌ها مطرح شده رو پی‌می‌گیریم: شمردن کلمات و کاربرد اونها.

برنامه پایتون رو اینطوری تغییر می‌دم:

#!/usr/bin/python
# -*- coding: utf8 -*- 

from xml.dom import minidom
import xml.etree.cElementTree as et
import re

tree=et.parse('wordpress.2012-12-05.xml')
root=tree.getroot();

wordCount = {}

for child in root.iter('item'):
	date = child.find('wppost_date').text[:7] #find the year and month
	body = child.find('content_encoded').text # post content
	title = child.find('title').text 	  # post title

	try:
		fulltext = title + "\n" + body # all the text in the post = title + body
	except:
		pass

	fulltext = re.sub(ur'[_»«"\'&?؟a-zA-Z‌0-9/=.*+\n-%<>:;،؛,\-)(،۱۲۳۴۵۶۷۸۹۰]', ' ', fulltext) #replace extra chars
	words = fulltext.split() # words is a list of all words in this post

	for word in words:
		wordCount[word] = wordCount.get(word, 0) + 1 # wordCount[word]++

for word in wordCount:
	thisLine = (str(wordCount[word]) + "\t" + word)
	print thisLine.encode("utf-8", "ignore")


کد کاملا واضحه: هر پست رو نگاه می کنه، حروف غیرفارسی تیتر و متن رو با فاصله جایگزین می کنه و بعد تعداد کلمات رو جمع می‌زنه و همین روند رو روی تمام پست‌ها ادامه می‌ده. به عبارت دیگه خروجی چیزی شبیه به این خواهد بود:

...
4	همسرش
1	آکر
3	خرمش
1	ویسمن
2	خرما
1	یکباری
1	مانغو
2	احساسم
1	عصبي
61	رشد
1	رشت
1	تریلیان
5	همسرم
32	هیات
1	پورتال
2	پیشانی
6	مدیربسته
4	لری
4	وجدان
...


و البته مشخصه که خیلی طولانی‌تر. بذارین بشمریم که من کلا در زندگی چند کلمه استفاده کردم تو وبلاگم:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
27880


هوم.. بیست و هفت هزار و هشتصد و هشتاد کلمه (: بدک نیست (: چیز خوبیه که روی وبلاگ های مختلف حساب بشه و ببینیم هر وبلاگ با چند تا کلمه مستقل از هم نوشته شده (: البته معلومه که «می‌رود، می رود، میرود» چهار کلمه جدا شمرده شدن… برای حل نسبی این مشکل توی اون خط که رجکس یکسری کاراکتر اضافی رو حذف می کنه، نیم‌فاصله رو هم اضافه می‌کنم و خروجی اینطوری می‌شه:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
23405


جالب نیست؟‌ برای چهار هزار و چهارصد کلمه، من گاهی از نیم فاصله استفاده کردم و گاهی نکردم. حالا مهم نیست (:‌ قدم بعدی سورت کردن است. با جواهر گنو و نشون دادن بیست تا بالایی:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | sort -n -r | head -20

خروجی رو براتون نمی‌ذارم چون فقط یکسری حرف ربط بی ربط است.

پروژه جانبی بسیار مهم برای زبان فارسی: همه زبان‌ها یک فایل دارن به اسم نمی دونم چی (کسی می‌دونست لطفا بگه) که توش کلمات «بی ربط» اون زبان نوشته شدن. به اصطلاح همون am و is و are یا امثال «است» و «شد» و «و» و «یا» و … که در اینجور جاها کاربرد داره (می شه اون کلمات رو از فهرست این کلمات که برنامه بهمون داده حذف کرد تا کلمات اختصاصی من به دست بیاد و نه چیزهایی که برای جمله ساختن همه استفاده می کنن). آیا چنین فایلی داریم برای زبان فارسی؟ تو خارجی‌ها اسمش چیه؟

حالا که بیست تا اولی به درد نخوردن، به جاش کل لیست رو می‌برمش توی لیبره آفیس و مثل همیشه نمودار بیشترین کلمات (غیر حرف ربط و استاندارد مثل است و باشد و شد و اینها) رو می‌کشیم تا با یک نمودار قشنگ کار رو تموم کرده باشیم:

پ.ن. این مجموعه مهمل ، یک قسمت دیگه هم داره (: کمی دیرتر ولی.

وبلاگتون رو به رایگان مستقل کنید

این مطلب نیمه تبلیغه (: معلومه که من برای چیزی که به نظرم خوب نباشه تبلیغ نمی کنم.. این سرویس رو یکی از دوستان خوبم می ده و به نظرم خوبه که توسط کسانی که به دردشون می خوره دیده بشه پس با علاقه براش تبلیغ می کنم:

دیجی‌بلاگرز شبکه ای مختص وبلاگ نویسانی است که علاقه دارند در عین تعلق به خانواده ای بزرگ از احساس استقلال بیشتری برخوردار باشند. بی شک داشتن وبلاگی بر روی دامنه و هاست شخصی و داشتن ظاهر و امکاناتی متفاوت علاوه بر هزینه، دارای دردسرهایی نیز برای وبلاگ نویسان خواهد بود. دی جی بلاگرز آمده است که فاصله وبلاگ نویسان را برای رسیدن به وبلاگی مستقل تر، پربار تر و با امکاناتی بیشتر کمتر کند.

دی جی بلاگرز در نظر دارد به منظور حمایت از وبلاگ نویسان خدمات رایگان زیر را ارائه دهد:

  • ارائه هاست شخصی رایگان بدون محدودیت فضا و ترافیک
  • ارائه خدمات فنی و مشاوره های فنی رایگان همچون کمک در تهیه قالب و یا نصب سیستم مدیریت محتوای مورد نیاز خود
  • معرفی وبلاگ شما در حلقه وبلاگ نویسان دی جی بلاگرز
  • ارائه خبرنامه ماهانه درباره دی جی بلاگرز و نوشته ها و اعضای فعال حلقه
  • امکان همکاری های دیگر که در این رابطه به زودی مسائلی را با شما در میان خواهیم گذاشت

همچنین برای احترام به داده های ارزشمند شما و برای اطمینان از ماندگاری اطلاعات وبسایت تان، دیجی بلاگرز متعهد است بک آپ هفتگی از سایت تان را به آدرس ایمیل شما ارسال نماید. تا در هر زمان که به هر دلیلی علاقمند به ترک حلقه وبلاگ نویسان دی جی بلاگرز بودید، دچار محدودیت نباشید.

علاوه بر این دی جی بلاگرز خود را نسبت به ارائه سرویس به صورت همیشگی به وبلاگ نویسان حلقه خود متعهد می داند و می کوشد بهترین سرویس را با سرعت مناسب و زمان آپ تایم منطقی در اختیار وبلاگ نویسان بگذارد. و همچنین می پذیرد در صورت تصمیم بر قطع ارائه خدمات رایگان، از 3 ماه قبل از اجرایی شدن آن، موضوع را به اطلاع همراهان خود برساند.

در نهایت قابل ذکر است که خدمات دیجی بلاگرز بدون هیچگونه طرح تجاری و تنها بر بهره بردن از فضای خالی سرورهای قدرتمند دیجیتال هاست راه اندازی شده است. و یک فعالیت جمعی و غیر انتفاعی در جهت توسعه محتوای مفید فارسی می باشد.

اگر من وبلاگی روی پرشین بلاگ یا چیز مشابه داشتم علاقمند می شدم سایتشون رو جدی تر نگاه کنم و ببینم به درد من می خوره یا نه.

در باب وبلاگستان و سیم خارداری که جلوی سیل کشیده اند (:

وبلاگ یک رسانه است. یک رسانه شخصی که توی ایران معاصر انقلاب کرد. وبلاگ در ایران خوش شانس بود که با گروه خیلی خوبی شروع شد. البته طبیعی هم بود: بچه های فعالتر، باهوش تر، دنیا دیده تر، پر حرف تر، دنبال روزنه‌ای برای صحبت‌تر و … کشفش کردن و سریعا یک قدم بزرگ در ایران رو برداشتن. این قدم این باور بود:

ما بیشماریم.

زن‌ها، از زن بودن نوشتن. حقوق بشری ها از نقض حقوقمون نوشتن، مخالفین سانسور حرف هایی رو نوشتن که هیچ وقت اجازه گفته شدن نداشتن، کسانی تاریخ‌هایی رو روایت کردن که هیچ وقت تو کتاب ها، رادیو، تلویزیون‌، مدرسه و … حق حتی اسم بردن ازش به عنوان یک افتخار هم ممکن نبود. وبلاگ ها ایران رو تکون دادن – به لطف اولین هایی که سنگ بنای اولیه رو خوب گذاشتن.

من اون زمان وبلاگی نبودم. سایتم رو داشتم و روی یک چیزی مثل یک دانشنامه کار می کردم. برام هم سوال بود که «مگه یک انسان چقدر اندیشه ناب داره که هر روز بتونه یک پست بذاره؟» و خیلی زود انقلاب اومد و این فکر مسخره ام رو عوض کرد. به این نتیجه رسیدم که اتفاقا مهمترین کاری که وبلاگ‌ها مسوولش بودن این بود که روشی باشن برای «بودن». میلیون ها نفر ایرانی که تا دیروز فکر می کردن فقط خودشون تنها توی قالب هایی که براشون ساخته شده جا نمی‌شن، یکهو کشف کردن که میلیون‌ها نفر دیگه مثل خودشون تو این جامعه هست. اتفاقا وقتی وبلاگ‌ها مهم شدن که آدم ها شروع کردن از زندگی های عادی شون نوشتن. از عشقشون به دوست پسرشون، از بامزه‌بازی‌هاشون،‌ از پیچوندن‌هاشون، از شیطنت‌هاشون، از اینکه چرا فلان چیز فلان طور نیست و … و یکهو دیدیم که هیچ کدوم ظاهرا در قالب‌هایی که میلیاردها خرجش می شه تا بریم توش جا نمی شیم.

این یک انقلاب بود. سانسور شروع شد. سرکوب شروع شد. دستگیری ها و … ولی واقعا سیل اومده و رفته و دیگه هم قابل جمع کردن نیست (: حتی ایده‌هایی مثل خرج پول های عظیم برای «وبلاگنویسی فلان‌ها و حضور اینترنتی بهمان‌ها» هم جواب نداد چون وبلاگ رو می شه به زور ریدایرکت از مطالب سانسور شده و اینها کرد تو چشم مخاطب یا نویسنده اش رو برد کیش سوار جت اسکی کرد یا بهش وی پی ان داد یا هر چی ولی بحث مخاطب مهمه و این مخاطبه که وقتی به زور می خوای چیزی رو بکنی تو چشمش، صفحه رو می بنده می ره بعدی (: اشتباه دوستان این بود که فکر کردن دلیل محبوبیت وبلاگ در بین جوون ها مال شکل قالبش است (: یادشون رفت که وقتی وبلاگ ها جذاب هستن که حرف های رسانه های غالب رو نزنن. اگر قرار باشه رییس بگه فلان و بعد نوچه‌های رییس همه بگن «احسنت. دقیقا فلان» که خب مخاطب می ره سراغ همون مادر جریان (: (:

الان هم من از وضعیت وبلاگ ها بسیار خوشحالم. موج اولیه که افتخار هر کس این بود که سه تا وبلاگ می نویسه و زمانی که دو نفر تو دانشگاه به هم می رسیدن یکی از اولین کارها تبادل لینک وبلاگشون بود گذشته. الان کماکان کسانی که حرفی برای گفتن دارن دارن می نویسن. دقیقا جوون هایی که چیزهایی که شما گفتین براشون granted است که دیگه نیازی به تکرار نداره و می دونن که هر آدم سالمی دوست داره و توی قالب ها جا نمی شه و به جای اینکه اون حرف ها رو تکرار کنن، دنبال حرف های جدیدشون هستن که دارن می زنن (:

وبلاگنویس قدیمی، افتخار می کنم که می شناسمت، معتقدم تغییر واقعی‌ای ایجاد کردی و خوشحالم که در این دوره تاریخی حضور داشتم.

یک فرصت خوب: سایت درس نامه

سایت درسنامه رو از خیلی وقت پیش می شناختم و توی اخبار هم زیاد می دیدمش ولی هیچ وقت چیزی اش رو تست نکرده بودم تا عنوان جذاب «امنیت در وبلاگنویسی» که به نظرم به اندازه کافی برای تست کردن سیستمشون جذاب بود. به سادگی با فرستادن یک ایمیل عضو شدم و بنا به یک برنامه زمانی مشخص برام درس ها رو ایمیل می کرد، می خوندم، تست هاش رو می زدم و اگر قبول می شدم می رفتم درس بعدی و در نهایت هم به مدرک قبولی داد.

به نظرم هم ایده اش عالیه و هم اجراش عالی. شما به سادگی با یک ایمیل در یکی از کلاس های گسترده اش ثبت نام می کنین و بعد توی یک برنامه زمانی که از نظر من خیلی جذاب و خوب بود درس ها و حتی تست ها رو به شکل ایمیل دریافت می کنین و کلاس به کلاس پیش می رین تا یک مدرک قشنگ بگیرین.

من دوره های مختلفش رو نگذروندم ولی دوره تستی که گذروندم بسیار با کیفیت و خوب بود. شدیدا پیشنهادش می کنم به هر کس که دوست داره در حوزه های جدید چیز یاد بگیره و خیلی خوشحالم که قرص و محکم و شاد داره کار می کنه.

یک توصیه جدی ام هم اینه که دوستان دوره جدید تک شو حتما نگاهش کنن. توی این برنامه بعد از اینکه چند دقیقه توضیح می ده که چطوری باید سایت درست کرد و تشریح می کنه که فایلی که در صفحه می بینین رو باید با یک برنامه ادیت متن مثلا ورد آفیس ادیت کنین، می گه از تمپلیت های رایگان استفاده نکنین چون حاوی ویروس هستن (: .