۲۵ فینالیست مسابقه دختر برگزیده کره

این عکس این چند وقت کلی در اینترنت مشهور شد:

25korean_finalists

فینالیست های مسابقه دختر شایسته کره. اگر لازمه باید بگم که اینها ۲۵ نفر مختلف هستن ولی خب همه با عمل جراحی و غیره تلاش کردن شبیه یک چیز ایده آل بشن.. احتمالا یک جور عروسک باربی یا یک جور هنرپیشه یا میانگینی از همه اونها.

و غیرجذابترین چیز در یک آدم اینه که منحصر به فرد نباشه و کپی ای باشه کنار کلی کپی دیگه که تلاش می کنن به یک چیز مبهم برسن.

خودتون باشین و عالی.

پایان پیام.

برندگان مسابقه زیبایی کره

و البته اینکار اشکالات خودش رو هم داره:

plastic

مرتبط:
ضد کلیشه: زنان جنگجوی دنیاهای فانتزی
مطلب دکتر مجیدی توی یک پزشک در این مورد

رادیو گیک شماره ۲۵ – شش ماه دیگه همه شادیم

رادیویی برای کسانی که تکنولوژی براشون فقط تلاش دائمی برای خوندن و حفظ اینکه فلان مدل بهمان چیز فرقش با اون یکی مدل اون یکی کارخونه چیه و تو بازار چنده و شایعه اینکه قراره کی مدل مثلا خفن‌ترش بیاد نیست و ترجیح می‌دن یک پله عمیق تر بشن و تو تقاطع تکنولوژی و جامعه، دغدغه‌های انسانی‌شون رو مطرح کنن. رادیو گیک برای گیک های سرگردان در تقاطع جامعه و تکنولوژی.

[audio:http://jadi.net/audio/jadi-net_radio-geek_025_shish-maah-dige-hame-shadim.mp3]

دانلود نسخه ام پی تری
دانلود نسخه آزاد او جی جی

و اگر یکی دیگه براتون تشخیص می ده چی رو باید ببینین و چی رو نباید بشنوین:

دانلود نسخه ام پی تری از یک سرور دیگه
دانلود نسخه او جی جی از یک سرور دیگه

و اینم برای محمد که رییس شبکه اش نمی ذاره پسوندهای مدیا رو دانلود کنه (فرمت زیپ):
دانلود نسخه ام پی تری زیپ شده از یک سرور دیگه

مشترک رادیو گیک بشین


آرس اس اس رادیو گیک

رادیو گیک در آیتونز

اخبار

کلاهبرداری علیه کلاهبرداری: چینی ها سر اپل کلاه گذار، کلاه گذاشتن

این داستان چند تا لایه داره! خوب دقت کنین (: مساله اینه که اپل با یک حرکت عجیب داشته توی چین سر مردم کلاه می ذاشته و در یک دوره ای دولت اینو فهمیده و جلوی اون کلاه برداری اپل رو گرفته. اما ظاهرا یکسری بچه باحال چینی اینو حتی قبل از دولت فهمیده بودن و با یک تکنیک جالب، از هوا کره می گرفتن (یا از پلاستیک آیفون زنده می کردن!) [ماجرا رو کامل توضیح بدم. اول کلاه برداری اپل و بعد تکنیک چینی ها – برنامه ای تلویزوین دولتی چین سالی فقط یکبار پخش می کنه در مورد حقوق مصرف کننده ها اپل رو لو داده. اپل اینکار رو فقط توی چین می کرده نه توی بقیه کشورها -> موقع «تعویض» – تلویوزین هم مشکوک بده چون همزمان شد با کلی روزنامه دولتی که همینو گفتن و آدم های مشهوری که توییتش کردن و یکی هم یادش رفته بود خط «این رو در فلان تاریخ منتشر کنید» رو حذف کنه از توییت! – مثل ارتش عزیزمون که گفته بودن این هفته گفتن در مورد فلان چیز بنویسیم و با اینکه من نمی شناسمش ولی حتما آدم بدیه (: – اپل معذرت خواهی کرد و تغییر داد روشش رو. حالا پنج نفر دستگیر شدن برای کلاهبرداری از اپل با فرستادن قطعات مشابه و دریافت قطعات اصل] ((:

پتیشن برای لباس هایی با طرح مسابقات اتوموبیل رانی برای نماینده‌های مجلس

معلومه که توی آمریکا. اصلا ظاهرا باید یک بخش باز کنیم برای باحال بازی مردم توی این سیستم آمریکا که مردم حق دارن از کاخ سفید (بخونین رییس جمهور) بخوان که در صورت رسیدن امضاهای یک پتیشن که در بخش مخصوصی توی سایت کاخ سفید ایجاد شده، جوابگوی موضوع طرح شده باشه. حالا هم این آدم باحال‌ها یک پتیشن ساختن که طبق اون از رییس جمهور درخواست می شه قانونی تصویب کنه که طی اون هر فردی که توی کنگره آمریکا هست مجبور باشه لباسی مشابه لباس راننده‌های ناسکار (اتوموبیل‌رانی) بپوشه.. البته نه از نظر جنس بلکه از نظر تبلیغات. اگر دیده باشین توی مسابقات اتوموبیل رانی شرکت هایی که پول مسابقات رو می دن – اسپانسر تیم ها می شن – حق دارن روی لباس راننده تبلیغ هایی به سایزی متناسب با پولی که دادن وصل کنن و در نتیجه لباس راننده ها پر است از تبلیغ و با یک نگاه می تونین بگین اسپانسر هر تیم، کیه. حالا خواسته شده که همین توی مجلس هم باشه. اینهمه اینها پول می گیرن از شرکت های بزرگ که خرج تبلیغ کنن پس چرا من حق نداشته باشم به عنوان یک شهروند با یک نگاه به هر نماینده بگم که چقدر پول از کدوم شرکت گرفته؟ توی آمریکا این اطلاعات تا حد زیادی شفافه و مخفی نیست اما اینکه روی لباسشون باشه خیلی کار رو راحتتر می کنه چون اکثر آدم ها اصولا رجوع نمی کنن به سایت هایی که این اطلاعات رو دارن. – ایده پلاگین براوزر رو هم بگیم

یک آقایی هم با موتور هاردش دستگاه پشمک سازی ساخته و راهنماش رو گذاشته تو اینترنت این وسط هم ایریکس توییت کرده «هارد ۲ ترا پاسپورتی ۶۲۰٫۰۰۰ تومان! آخه این انصافه واقعا؟» دیگه چه خبری بگیم… با ما گریه کنین تا خبر بعدی.

کشیش‌های واتیکان چی می بینن…

تورنت فریک یک مقاله تحقیقی جالب داره. کاری که کرده اینه که به کمک سایت اسکن‌آی که یک سایته مخصوص کسانی که تلاش می کنن با ناقضین کپی رایت بجنگن بررسی کرده که واتیکانی‌ها – که کوچکترین کشور دنیا و مرکز کاتولیسم جهانیه – مشغول چه کاری تو اینترنت هستن. اسکن آی به شما اجازه می ده سرچ کنین و ببینین که هر آی پی چه چیزی رو داره از تورنت دانلود می کنه و بعد ایده‌اش اینه که شما می رین از طرف شکایت می کنین. در مقابل تورنت فریک رفته اسکن آی و آی پی های واتیکان رو سرچ کرده و نه فقط دیده که این کشیش نشین کوچیک قانون «دزدی نکنید» خداوند رو زیر پا گذاشته و حسابی مشغول دانلود تورنت است بلکه این رو هم دیده که نسبت به بقیه جهان ظاهرا میزان پورن بیشتری در اونجا در حال دانلوده. مطمئنا این یک تحقیق کاملا علمی نیست ولی حداقلش نشون میده که وقتی یکسری نشستن و همیشه مشغول نصیحت بقیه هستن، معنی اش این نیست که خودشون قدیس تشریف دارن.. یاد حافظ بخیر که می گفت «مشکلی دارم ز دانشمند مجلس بازپرس.. توبه فرمایان چرا خود توبه کمتر می کنند».

ماشین زمان در ایران

جریان ماشین زمان رو هم داشتیم دیگه.. همه در موردش خوندین و شنیدین و من چیز زیادی ندارم بگم… این تیکه از وبلاگ داود مظفری رو گوش بدین:

[صدای وبلاگ داود]

بعله.. از مهریه تا صف تا … چی بگم من؟ احتمالا خودش هم باور کرده. حتی جنسیت رو هم می گه ((:
و توضیحات دیگه

کشف دو سیاره مشابه زمین

تقریبا ۱۲۰۰ سال نوری دورتر از زمین، پنج تا سیاره در حال گردش به دور یک خورشید هستن، توی خوشه لیرا که حدس زده می شه دو تاشون محیطی باشن مناسب برای وجود آب مایع روی سطح سیاره‌ها – اگر آبی باشه. گفته می شه این شرایط مناسبی است برای تشکیل حیات. این کشف رو اخیرا تلسکوپ کشف سیاره کپلر انجام داده و ناسا معرفی‌اش کرده. ویلیام بروکچی محقق ارشد پروژه کشف سیاره کپلر در کالیفرنیا به کانال دیسکاوری گفته که «بسیار خوشحالیم که تونستیم دو تا سیاره در محدوده قابل حیات کشف کنیم. این شانس ما برای کشف یک زمین دیگه رو دوبرابر می کنه. در منظومه خودمون هم اگر مریخ کمی بزرگتر بود و اگر ژوپیتر اینقدر بهش نزدیک نبود ما یک سیاره دیگه قابل حیات داشتیم و حتی ممکن بود بتونیم به اونجا مهاجرت کنیم». این دو سیاره تازه کشف شده دور ستاره کپلر ۶۲ در چرخش هستن و تقریبا ۱.۴ برابر زمین هستن و هر ۲۶۷ روز یکبار دور خورشید خودشون می چرخن.

در اعماق

بیل گیتس علیه سرمایه داری خبیث

«سرمایه داری یعنی پول بیشتر برای مطالعه در مورد کچلی مردان نسبت به بودجه مبارزه با مالاریا – چون اولی برای پولدارهاست و دومی برای فقرا». بله! آقامون بیل گیتس است در سخرانی شون توی آکادمی سلطنتی مهندسی.

«اولویت های ما بر اساس فشارهای بازار تعیین می شوند. از نظر نیازهای انسان واکسن مالاریا بالاترین اولیت است اما عملا هیچ بودجه ای نمی گیرد در حالی که اگر روی کچلی در مردان تحقیق کنید مبالغ هنگفتی بودجه جذب خواهید کرد چون بازار کچلی بسیار فعالتر از بازار مالاریا است. در نتیجه دولت ها و سازمان ها باید قدم پیش بگذارند و این نقص نگاه سرمایه دارانه را برطرف کنند».

سکیمرهای ای تی ام روی دستگاه های غیر ای تی ام

[توضیح سکیمرها] و بعد توضیح اینکه الان داره خیلی جاهای دیگه که کارت خون داریم (از خرید بلیت قطار تا مغازه ها و دستگاه های خرید شارژ و …] اینها نصب شدن و حتی مواردی که اصولا دستگاهی که نصب شده بوده ای تی ام نبوده و کاملا یک دستگاه تقلبی بوده که بعد از خوندن کارت و پسورد روی صفحه اش می نوشته «موقتا کار نمی کند» چیزیه که توی ایران خیلی بهش توجه نشده ولی لازمه خیلی جدی تر گرفته بشه

بیگ دیتا در خدمت صلح

امین ثابتی این رو توییت کرده بود و به نظرم خیلی قشنگه که در موردش بگم. بیگ دیتا از اون کلمات هایپ (مد) روز است [بزرگ‌داده (به انگلیسی: Big data)‏ اصطلاحیه که به مجموعه داده‌هایی می گن که مدیریت، کنترل و پردازش اونها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعهٔ داده واحد است. نـمونه‌هایی از بزرگ‌داده، گــزارش‌های وبی، سامانه‌های بازشناسی با امواج رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند. http://en.wikipedia.org/wiki/Big_data]

حالا یک گروه از محققین اومدن و سعی کردن از بیگ دیتای تولید شده در شبکه‌های اجتماعی برای حفظ صلح استفاده کنن.. در اصل برای پیش بینی درگیری‌ها و جنگ. قبلا از همین اطلاعات برای تشخیص همه گیری‌هایی مثل فلو و غیره استفاده شده بود اما حالا مقامات کنیا که کشورشون درگیر کشمکش ‌های خونین قومی است با زیر نظر گرفتن فیسبوک، وبلاگ‌ها و توییتر دارن سعی می کنن قبل از به دنیای فیزیکی رسیدن درگیری‌های قومی قبیله‌ای مرتبط با انتخابات ریاست جمهوری سال ۲۰۱۳، اونها رو توی دنیای مجازی کشف کنن. همچنین یک گروه دیگه دارن وقوع درگیری‌ها بین حزب بعث سوریه به رهبری بشار اسد و شورشی‌ها رو توی سوریه در کمتر از پونزده دقیقه بعد از شروع از طریق وبلاگ‌ها، توییتر و فیسبوک کشف و گزارش کنن. مقاله‌ای با عنوان «تکنولوژی جدید و پیشگری از خشونت و درگیری» که توسط آژانس توسعه بین المللی آمریکا، برنامه توسعه سازمان ملل و موسسه صلح جهانی تهیه شده مدعی است که این سیستم به خوبی کار می کنه و با افزودن اطلاعات دریافت شده از ماهواره و سنسورهای دیگه می تونه حتی بهتر هم بشه. همین تکنولوژی توسط بعضی کشورهای آمریکای لاتین استفاده شده و توی اون از شهروندان درخواست می شه هر جور درگیری مربوط به مواد مخدر رو در یک سیستم گزارش کنن تا پلیس بتونه سریعا وارد عمل بشه و البته مشکلاتی هم داره.. کسی می تونه باگ بزرگش رو بگه؟ بهتون فرصتی می دم با آهنگ رنگ از سینا حجازی که طراحی عالی لینوکسی مون، نارسیس برامون فرستاده.

[سی ثانیه موزیک]

بزرگترین باگ این سیستم‌ها که اونقدر بدیهی است که به سختی دیده می شه، ناشناس بودن گزارش ها است. اگر شما واقعا بخواین اطلاعات رو از همگان بگیرین و همه هم اینو بدونن که چجوری دارین اطلاعات می گیرین، خب به راحتی می شه شما رو گمراه کرد. کافیه من الکی توییت کنم فلان جا دویست تا قاچاقی با هم درگیر شدن و وقتی همه پلیس ها رفتن اونطرفی، من در جهت مخالف گاز بدم و برم بدون اینکه پلیسی به خاطر سرعت زیاد جریمه ام کنه (این آخر خلاف منه!)

سیری با اطلاعات شما چیکار می کنه؟

اکثرا خبر نداریم ولی وقتی از سیری – دستیار دیجیتالی اپل – استفاده می کنیم، این خانم محترم همه چیزهایی که ما می گیم رو یادش نگه می داره. حدس من اینه که اگر سیری دارین احتمالا ازش پرسیدین «siri joon, how can i beeeeeeeep» یا «oh siri, i want to …» و … و شاید براتون جالب باشه بدونین که همه این ها در حافظه سیری عزیزمون باقی مونده. تا چند وقت؟ هیچ کس نمی دونه. اپل هنوز جواب نداده و اتحادیه آزادی‌های مدنی آمریکا در این مورد نگرانه.
چند سال قبل این اتحادیه به همراهی اتحادیه اروپا به گوگل، یاهو و مایکروسافت فشار آورد تا دقیقا بگن که چه چیزی از فعالیت‌های کاربرانشون رو نگه می‌دارن و برای مثال گوگل گفت که سرچ‌های هر کس رو تا ابدالدهر نگه می داره ولی بعد زیر فشار همین اتحادیه‌ها مجبور شد گزینه‌ای اضافه کنه تا آدم‌ها بتونن اطلاعات مربوط به خودشون رو حذف کنن یا اگر هم اینکار رو نکردن، بعد از یک و نیم سال جستجوها دیگه به افراد مربوط نباشه و گوگل نتونه بگه دقیقا چه کسی اون مطلب رو جستجو کرده. اما اگر سرچ‌ها رو از طرقی سیری انجام می دین، قرارداد پرایوسی اون رو امضا کردین که می گه اگر بخواین می تونین سرچ‌های اخیر رو حذف کنین اما هیچ جا گفته نمی شه که با سرچ‌های قدیمی‌تر چه کاری انجام می شه. نکته اینه که ممکنه تمام چیزهایی که به سیری گفتین (مثلا اینکه به فلانی تکست بفرسته یا زنگ بزنه یا شما رو فلان چیز صدا بزنه) توی حافظه سیری هست و مشخص نیست که در اخیتار چه کسی قرار می گیره، شاید تبلیغات‌چی‌ها،‌شاید خود اپل، شاید شرکت‌های دیگه و به احتمال خیلی زیاد، دولت هایی که درخواستش کنن یا حتی به دادگاهی که سال‌ها بعد در مورد شما تشکیل شده. در مقابل گوگل می گه که سیستم تشخیص صوتش که روی گوشی‌ها هست، اطلاعات دریافتی رو بدون اینکه به شخص خاصی وصل باشن تا دو سال روی سرورهاش نگه می داره تا از این طریق سیستم تشخیص گفتارش رو بهینه کنه. حالا به کسانی که فکر کنین که با سیری درددل می کنن و رازهاشون رو بهش می گن تا ایده‌ای داشته باشین از اینکه چرا مدیر آی بی ام، استفاده از سیری در شبکه آی بی ام رو ممنوع اعلام کرده.

آپدیت: اپل اعلام کرد که تا دو سال اطلاعات صدا رو نگهداری می کنه ولی بعد از شش ماه اسم یوزرها رو از صداهایی که آپلود کردن جدا می کنه

پلیس مخفی آمریکا در توییتر به دنبال ماموریت مهم: کشف اجراهای غیررسمی موسیقی گروه‌های کوچیک

پلیس مخفی همیشه یک چیز خفن بوده. مامورهای مخفی خفن‌تر و در شرایط خطرناک تر .. مثلا اونجای فیلم که تازه رییس بزرگ کشف می کنه جمشید آریا یا همون جمشید هاشم پور مامور مخفی است و می خواد اونو بکشه و … ولی ظاهرا یک نوع دیگه امن و امان مامور مخفی هم هست. اخیرا چند تا اکانت توییتر با عکس‌های مدل پانک راک ظاهر شدن و کلی از جوون ها رو فالو کردن و شروع کردن به توییت در مورد کنسرت های باحالی که می رن و برگزار می کنن و خلاف ‌هاشون. (مثلا اکانتی به اسم بوستون پانک زامبی توییت کرده «اونقدر توی روز سنت پاتریک آبجوی سبز خوردم که هنوزم وقتی می رم دستشویی رنگش سبزه» (البته یک کم بی ادب تر ولی خب من نمی تونم بی ادب حرف بزنم)) بعد وسط این باحال بازی هایکهو می پرسن «راستی کسی خبر نداره کنسرت بعدی کی و کجا است؟ می خوام برم بترکونم» یا چنین چیزهایی. ظاهرا هدف پلیس کشف «جرم» قبل از «وقوع»‌است. و جرم؟ برگزاری کنسرت بدون هماهنگی قبلی که باعث اذیت شدن خونه‌های اطراف می شه. تقریبا همه کسانی که اهل گروه‌های راک زیرزمینی هستن می گن چنین ایمیل‌ها، ریپلای‌ها و دایرکت مسیج‌هایی گرفتن. مثلا خواننده گروه سنت لوییس به اسم اسپلینگ بی، گفته «اکانت‌هایی مثل بوستون پانک زامبی تابلو هستن. مثلا هیچ کس نمی پرسه کجا کنسرت داریم. هر کسی که یکبار به این شوها اومده باشه می دونه که ما به اجراهامون می گیم شو!».

تبلیغ.
آیا تا حالا سر و کارتون با دیکشنری افتاده؟ آیا خواستین توی یک باکس چه فارسی چه انگلیسی که تایپ کردین ترجمه اش رو به اون یکی زبون ببینین؟ آیا دوست داشتین اینکار حتی بدون انتر انجام بشه؟ آیا دوست داشتین تلفظ اون کلمه رو هم ببینین یا ترجمه اش رو توی دیکشنری های دیگه چک کنین؟ اینکه بتونین کلمه تون رو به انگلیسی با میکروفون بگین و ترجمه اش رو بشنوین چطور؟ چی؟!! تعارف که نداریم.. این آخری رو من هیچ وقت نخواستم ولی اون اولی ها رو چرا! و حالا یکی از جواب های خوب: http://www.fastdic.com/ است!

فست دیک دات کام!

و البته با حضور اپلیکیشن آی اوا س:

◆ پاره‌های سخن (Part of speech) برای هر کلمه (اطلاعات بیشتر)
◆ آوا شناسی (فونتیک‌ها، Phonetics) برای لغات فارسی (اطلاعات بیشتر)
◆ امکان نمایش اشکال مختلف افعال بی‌قاعده به صورت فهرست وار همراه با توضیحات مرتبط (اطلاعات بیشتر)
◆ تلفظ صوتی لفات انگلیسی (استفاده از تلفظ صوتی نیاز به اینترنت دارد)
◆ قابلیت مشاهد‌ه‌ی لغات جستجو شده
◆ قابلیت افزودن لغات به لغات برگزیده (Favourite) جهت مراجعه دوباره
◆ قابلیت اشتراک گذاری لغات در شبکه‌های اجتماعی
◆ استفاده سریع و آسان
◆ منتخب بهترین نرم افزار iOS در جشنواره وب ایران (اطلاعات بیشتر در سایت جشنواره وب ایران)

مسواکی که نمی شه باهاش به این راحتی‌ها تقلب کرد

من که جوونتر بودم به دلیلی نامشخص اصلا مسواک دوست نداشتم ولی چون حدس می زدم زیر نظر باشم، هر شب می رفتم تو دستشویی و مسواک رو می گرفتم زیر آب که خیس باشه و منو تو تله نندازه. حالا این تقلب ممکنه براتون بی اثر بشه.. با محصولی به اسم «مسواک نسخه ۳ نقطه صفر». این مسواک خبیث می تونه توی دهن بودن و حرکت کردن رو حس کنه پس می فهمه که دارین باهاش مسواک می زنین یا الکی خیسش کردین یا اصلا سراغش نرفتین. از اونطرف یک اپلیکیشن هم همراهش عرضه می شه که می تونه عادت‌های بهداشتی شما و دهنتون رو نشون بده.. چجوری به هم وصل می شن؟ [صدای بلوتوث…] با بلوتوث! اما چرا بین این همه گجت اونو آوردن توی رادیوگیک؟ چون به گفته مدیر شرکتی که اونو ساخته (الکس فرامیر) این مسواک می تونه عادت‌های شما رو از طریق تشویق تغییر بده. به گفته این آقا اگر شما دائما و درست مسواک بزنین و اپلیکیشن این رو تایید کنه ،‌شرکت برای شما در یکسری بلیت سینما و اینجور چیزها تخفیف قائل می شه و این تشویق می تونه شما رو متقاعد کنه که هر شب مسواک مفصلی بزنین و در نهایت بهش عادت کنین. البته آقای الکس گفته که در یک برنامه آزمایشی مشغول نوع دیگه ای از تشویق هم هستن: بیمه‌های بهداشت دهان و دندان برای کسانی که خوب مسواک می زنن. مثلا اگر شما بهتر مسواک بزنین ممکنه مبلغ بیمه بهداشت شما بیاد پایین و اینجور چیزها. این مسواک تا حالا ۳۰۰۰ تا فروخته (هر کدوم پنجاه دلار) و این امکان هم هست که سر یدکی مسواک رو جداگانه به قیمت چهار دلار بخرین. این شرکت موقع شروع کارش صد هزار دلار سرمایه جذب کرد (از سرمایه گذارهایی که می بینن از چی پول در میاد و توش پول می ذارن) و وقتی محصولش رو بیرون داد،‌ پونصد هزار تا دیگه هم روش پول گذاشته شد. مدیر می گه که این شرکت یک شرکت مسواک نیست بلکه یک شرکت سنسور است و بازاری به گستردگی همه لوازم داره. صحبت در مورد گیمیفیکیشن و اینکه دنیا چجوری داره به یک سمت جدید می ره.

دادگاه تگزاس: ریاضیات قابل patent شدن نیست.

از وبلاگ سر ریزهای ذهن من:
بنیاد EFF یکی از بنیاد‌های مورد علاقه‌ی منه، از این جهت که برای آزاد موندن اینترنت و دنیای دیجیتال تلاش می‌کنه، و از آزادی‌های اجتماعی افراد در دنیای دیجیتال دفاع می‌کنه.

و امروز هم EFF یه خبر خیلی خوب منتشر کرد، خبری که خیلی بزرگ‌تر از شکست یه Patent Troll بود. دادگاه به این رای داده که «ریاضیات قابل پتنت کردن نیست.». این خبر خیلی خوبیه، چون قدم مثبتیه برای این که پتنت‌های نرم‌افزاری کم‌کم حذف بشن. هنوز تا این هدف خیلی راه هست، اما قاضی گفته که این که یه الگوریتم یا ایده قابل‌اجرا بر روی کامپیوتر هست، دلیل نمی‌شه که یه اختراع باشه. دم قاضی‌ای گرم که این‌قدر می‌فهمه.

پهپادهایی به شکل پرنده‌های بومی

از پهپادها زیاد شنیدین… مسخره بازی جدید ارتش ها که کلا جنگ‌ها رو تغییر می دن. فقط به این فکر کنین که وقتی یکیشون تو ایران نشسته بود ما چقدر فخر می فروختیم که یکیشون رو داریم و تو تی وی نشون می دادیم.. اینو مقایسه کنین با جنگ‌های قدیم و قهرمانی‌هامون و ببینین چقدر جنگ‌ها نابرابر شدن که ما .. مثل یاکی باشی یا چنین چیزی – دروازه بان تیم سوباسا افتخارمون اینه که توپ حین گل شدن به انگشتمون کشیده. بحثم این نیست که ما ضعیف هستیم ولی بحثم اینه که جنگ ها چقدر دارن کثیف می شن که یک نفر با یک جوی استیک تو آمریکا نشسته و توی افغانستان و پاکستان آدم می کشه… این پهپادها رو پلیس‌های شهری هم مجوز گرفتن که استفاده کنن و حالا هم شرکت EXPAL توی نمایشگاه هوم-سک ۲۰۱۳ یک نمونه از این پهپادها رو نشون داده که وظیفه اش جاسوسی، جمع آوری اطلاعات، مشخص کردن هدف‌ها و شناسایی است و ظاهرش دقیقا مثل یک پرنده معمولی می مونه و حتی قدرت پروازی‌اش هم با شکلش هماهنگی داره و موتورش هم هیچ صدایی تولید نمی کنه. شرکت می گه کاربرد این پرنده در زیر نظر گرفتن مرزها و مقابله با قاچاق و کمک در عملیات آتشنشانی است و ما هم می گیم «بله! تو خوبی!»

تبریک‌ها و تقبیح‌ها

تبریک اول برای نارسیس و بهراد دوستای عالیم که با هم ازدواج کردن و امیدوارم همیشه شاد و خندون باشن.. به افتخارشون می ریم آهنگ عروسی!

یک خنده پخش می کنیم برای اوباما و به اصطلاح اسراییل که به لیموزین پرزیدنت به جای بنزین گازوییل زده و آمریکا رو مجبور کرده برای دیدارهای رسمی پرزیدنت از اردن یک لیموزین زاپاس وارد کشور کنه که آقا سوار بشه.

و تسلیتی به اینهمه آدم که تو زلزله مردن. خوشبختانه در ایران از زلزله بم به بعد دیگه در همون لحظات اول اعلام می شه که هیچ تلفاتی نبوده و همه چیز به خیر و خوشی اعلام می شه و اگر کسی هم به منطقه بره دستگیر می شه و غیره ولی این روزها خیلی ها توی پاکستان از زلزله ایران مردن، تو چین مردن و .. امیدواریم همه زنده باشیم و روزهای شادتری رو ببینیم.

و تبریکی هم می گیم به اون پدر مادری که وقتی بچه‌شون بعد از عمل هر دو پاش قرار بود مدت‌ها با واکر راه بره و از این موضوع بین دوستاش خجالت می کشید به عقلشون رسید که واکرش رو شبیه ای تی ای تی های جنگ ستارگان درست کنن که بچه به داشتن و راه رفتن باهاش افتخار کنه (http://offbeatfamilies.com/2013/04/star-wars-walker-for-child)

نامه ها

جاوید:

میدونی که توی ایران عزیز یه مرکزی داریم به اسم مرکز صدور گواهی الکترونیکی عام انگار اینجا طبق ضوابط خودشون گواهی اس اس ال تولید میکنن و میدن به مردم… توی بقیه کشورها هم داریم؟ وزارت صنایع و معادن و تجارت خارجی ها :D هم خودش گواهینامه الکترونیکی صادر میکنه؟ با فقط جاهایی مثل وری ساین این کار رو انجام میده و وزارتخونه های خارجی ها با کمک وریساین و … نیازشون رو برطرف میکنن؟

چون این دوستان issuer معتبر نیستن و به همین خاطر گواهینامه ریشه اینها توی مرورگر یا سیستم عامل ما نصب نشده فعلا گواهینامه شون هم معتبر نیست و مرورگر ما پیغام میده و میگه این گواهینامه مشکل داره. ( مثلا دیدم که موزیلا فقط اینا رو به صورت پیشفرض نصب داره ) درسته؟ اینا چون توی فایرفاکس هستن معتبرن؟ بقیه چون توی فایرفاکس نیستن معتبر نیستن؟

این دوستان گرامی، خودشون هم میدونن که این مشکل هست، پس اومدن گواهینامه های ریشه و بقیه چیزها رو گذاشتن برای دانلود و سایت هایی هم که از این گواهینامه ها استفاده میکنن به کاربرا میگن که اول این گواهینامه ها رو دانلود و نصب کنید. این کار خیلی روش عجیبی نیست؟

اگه این گواهینامه ریشه مرکز… رو نصب کنیم بقیه گواهینامه هایی که این مرکز صادر کرده مثل همون سایت نماداعتمادالکترونیکی برامون معتبر میشه و دیگه مرورگر پیغامی نمیده.

حالا که گواهینامه های این مرکز معتبر شدن، پس میتونن تقلب کنن!!

مثلا این مرکز یه گواهینامه به اسم گوگل بزنه، بروبچه های مخابرات هم جیمیل رو هم منتقل کنه روی یکی از سرورای خودشون (همونجوری که فیسبوک رو میفرستن روی پیوندها! )

بعد یه روز ما شاد و خندان میاییم ایمیلها رو چک کنیم، ولی گوگل میگه : عمو جون مجددا لاگین کن، چک میکنیم، آدرس که درسته، اس اس اس هم فعال و معتبره، پس پسورد رو میدیم ولی پسورد رفته رسیده به کسی غیر از گوگل و …

حالا فکر کن ما رو مجبور به نصب این گواهینامه های ریشه مرکز فولان بکنن! مثلا همه بانک های ایرانی از این گواهینامه ها استفاده کنن و برای استفاده از بانک باید حتما این ها رو نصب کنیم و …

جادی جان
من خیلی دچار توهم توطئه شدم؟ یا…

محمد:

به قول امید: عرضم به حضورت، عرضم به حضورت
ضمن تبریک سال نو و اینا، سالی که در ابتدایش هوشنگ کاووسی منتقد معروف
سینما و سازنده واژه بسیار بسیار زیبا و کاربردی فیلمفارسی خواستم یک
نکاتی هم درباره اوضاع و احوال اینترنت در ایران (یا همون اینترنتفارسی)
به سمع و نظر شما برسانم(عجب صداوسیمایی گفتم!) بگذریم
اگر نگاهی به عکسهای ضمیمه بندازی که اسکرین شاتهای واقعی من از دو سایت
خدمات اینترنتی بانک ملی و موسسه مهر است یکی از عجیب‌ترین جنبه‌های
اینترنتفارسی را می‌بینی. این که شما به عنوان مشتری خارج از ساعات اداری
برای انتقال وجه از سیستم پایاپای بانک ملی وارد سایتش میشی و می‌بینی که
ای دل غافل، اینجور خدمات و قرتی بازیها فقط در ساعتهای اداری انجام
میشه. خوب در ساعت اداری میری و وارد میشی و کلیه مراحل انتقال یک میلیون
و چهارصد هزارتومان ناقابل را انجام می‌دهی و پول هم از حسابت برداشت
می‌شود اما چندین روز طول می‌کشد تا آن آقای مسئول که کلید اینترنت این
بانک یا آن یکی بانک را دارد بیاید و یک تیک یا اینتری را جایی بزند تا
پولت به گیرنده برسد. دریغ از یک جو احترام به مشتری که لااقل یک اطلاعیه
بزنند در سایت که تا فلان تاریخ این خدمات تعطیل است. نصف کار را که
برداشت از حساب من است سیستم بدون هیچ مشکلی (البته در ساعات خاص) انجام
می‌دهد ولی نیمه واریز وجه به حساب گیرنده دیگر با خداست و جور بودن قیر
وقیف و…
بانک مهر اقتصاد (همون موسسه بسیجیان سابق) هم که خیلی شیک اطلاعیه زده
آقا برید ۱۰ فروردین به بعد بیایید.
برخی دیگر از نشانه‌های اینترنتفارسی:
– گذاشتن اینتروهای مزخرف و حال به هم‌زن
– سازگاری فقط وفقط با اینترنت اکسپلورر (مثل سیستم دانشگاهی گلستان که
به بسیاری از دانشگاهها و موسسات فروخته شده)

اینارو گفتم که:۱- شما هم نگی این خواننده‌های گودری لالند
‫۲- تو شغل جدیدت نمی‌دونم چه سمتی داری ولی خواهش می‌کنیم ایرونی بازی
در زمینه اینترنت در نیارید و خدمات اینترنتی استاندارد ارائه بدید.
ضمنا یه آهنگ هم برات می‌فرستم که اگر صلاح دانستی پس از بازشنوایی بذار
تو پادکست تا امت حزب‌اله هم استفاه کنند.

وس سلام الکیم و ره متول لاح

شلنگ الدین سلفچگانی قمی

بخش آخر

فیزیکدان‌ها می خوان بررسی کنن که آیا ما توی یک شبیه‌ساز نرم افزاری زندگی می کنیم یا یک دنیای واقعی

فیزیک‌دان‌ها مشغول یک آزمایش بزرگ هستن که تست می کنه آیا جهان ما یک برنامه کامپیوتری است یا نه. در واقع بذارین از اینجا شروع کنم که نظریه ای وجود داره که می گه شاید دنیای ما فقط یک دنیای شبیه سازی شده توی یک کامپیوتر بزرگه. اینو ما هم بچه بودیم می گفتیم و باحال بود ولی واقعا فیلسوف‌هایی هستن که این نظریه رو دارن و تدریس می کنن و در موردش بحث و استدل می کنن. در این بین آقای نیک بوستروم از دانشگاه آکسفور یکی از اصلی ترین نظریه پردازهای این جریانه که توی مقاله ۲۰۰۳ش توی فیلاسوفیکال کوارترلی توضیح داده «این اعتقاد که شانس زیادی وجود داره که پساانسان‌ها زمانی شبیه ساز تاریخ بشریت رو اجرا کنن اشتباهه مگر اینکه ما خودمون یکی از اون شبیه سازی‌ها باشیم». هان؟ یک موزیک کوتاه گوش بدین تا من برگردم!

[موزیک کوتاه]

آقای نیک بوستروم حرفش اینه که هر جامعه بسیار پیشرفته‌ای احتمالا شروع می کنه به اجرای شبیه سازهای کامپیوتری از کهکشان و کل جهان – البته اگر اینکار ممکن باشه. یعنی اگر زمانی تکنولوژی ما برسه به جایی که بتونیم شبیه سازی از کل جهان رو اجرا کنیم، حتما اینکار رو می کنیم و توی اون شبیه ساز موجودات جدیدی در طول روند تکامل شبیه سازی شده به وجود می یان که فکر می کنن واقعا موجودات واقعی هستن و توشون علم به وجود می یاد و غیره تا اینکه خودشون اینقدر پیشرفت می کنن که بتونن شخصا در اون دنیای شبیه سازی شده خودشون سیستم های دیگه ای رو شبیه سازی کنن که خود اون شبیه سازی ها…. بله.. اگر اصولا امکان به وجود اومدن شبیه سازی از تمام کهکشان و گیتی باشه، اون شبیه سازی خودش برای خودش یک دنیا خواهد بود که افراد داخلش – به جز به مدد فلسفه – نخواهند تونست بفهمن که شبیه سازی شده هستن یا یک دنیای واقعی.

تا اینجا قبول؟ حالا تنها حالتی که ممکنه ما بگیم ما موجودات واقعی هستیم و نه یکی از اون شبیه سازی ها اینه که اولین گروهی از موجودات باشیم که به این مرحله از علم رسیدن و با توجه به اینکه اگر یکی از این موجودات به این سطح برسن، هزاران و میلیون‌ها شبیه ساز اجرا خواهد شد، احتمال اینکه ما صاف اون اولی باشیم و نه یکی از اون شبیه سازی ها خیلی کمه. این رو اضافه کنین به میلیاردها دنیا در اطراف میلیاردها ستاره و ببینین چقدر احتمال داره ما درست اولین گروهی باشیم که به این سطح می رسه.

البته همه اینها فقط در حالتی قابل قبوله که ما بپذیریم که چنین شبیه سازی‌ای از همه جهان که درست مثل خود جهان کار کنه امکان پذیره… و خوشوقتم به عرضتون برسونم که ظاهرا یکسری دانشمند اینکار رو کردن یا حداقل خیلی بهش نزدیکن. این دانشمندها یک شبیه سازی از جهان ساختن که تا حد زیادی شبیه دنیای خودمونه.

این دانشمندها که توی بن آلمان کار می کنن و توسط سیلاس بین رهبری می شن مقاله ای منتشر کردن تحت عنوان Constraints on the Universe as a Numerical Simulation (محدودیت های جهان به مثابه یک شبیه‌سازی عددی) گفتن که شبیه سازهای فعلی جهان – که وجود دارن ولی خیلی خیلی کوچیک و ضعیفن – محدودیت‌هایی رو برای فیزیک به وجود می یارن. تکنولوژی ریویوو اینو اینطوری توضیح می ده که «مشکل همه شبیه سازها اینه که قوانین فیزیک که به نظر چیزی پیوسته می یان باید توی یک توری سه بعدی گسسته قرار بگیرن که در زمان تکه تکه پیش می ره» یا مثلا به این توجه کنین که اگر ما توی یک شبیه ساز باشیم (یا یک شبیه ساز درست کنیم) ، کامپیوتری که اونو اجرا می کنه محدودیت‌هایی روی قوانین فیزیکی (مثلا انرژی ای که هر ذره توی اون برنامه می تونه داشته باشه می ذاره) و تلاش این دانشمندها اینه که نشون بدن این محدودیت ها وجوددارن و شبیه محدودیت های یک شبیه ساز کامپیوتری هستن. چیزی که اونها روش کار کردن چیزی است به اسم Greisen-Zatsepin-Kuzmin, or GZK cut off که محدوده انرژی ای که ذرات اشعه های کیهانی می تونن داشته باشن رو مشخص می کنه و دکتر بین می گه که الگوی این انرژی دقیقا تصویر انرژی ای است که یک شبیه ساز کامپیوتری می تونه ایجاد کنه.

معلومه که در چنین سطوحی موضوع از درک مستقیم من خارجه و اگر دوست دارین می تونین اصل مقاله رو بخونین اما چیزی که من می تونم بهتون بگم اینه که Savage که یکی دیگه از همکارهای این آزمایش در دانشگاه واشنگتنه گفته که کار آقای بین و همکاران در دانشگاه نیو همپشایر و خانم زهره داوودی از دانشگاه واشنگتن داره نشون می ده که ما «امضا»هایی رو کشف کردیم که اگر دنیا یک شبیه ساز بود ، دیده می شدن.

گفته بودیم نظریه فلسفی فیزیکی اینکه که اگر تمدنی به اندازه و هوش کافی برسه – و اگر امکان نظری اینکار وجود داشته باشه – روزی شبیه سازی رو خواهد ساخت که دنیا رو شبیه سازی کنه و چون اون شبیه سازی هم توی خودش به تکنولوژی شبیه سازی دست پیدا خواهد کرد اینکار رو می کنه و همینطور تا آخر و در نتیجه احتمالا میلیون ها شبیه ساز توی همدیگه در حال اجرا هستن و از نظر آماری احتمال اینکه ما صاف اولیشون باشیم خیلی کمه. سویج می گه «این اولین امضا از امکان وجود چنین چیزی است» یعنی این اولین باریه که ما فهمیدیم امکان شبیه سازی پایه ای جهان وجود داره و اگر اینطور باشه طبق استدلال قبلی، احتمالا ما توی یک شبیه ساز در حال زندگی هستیم. خانم داوودی اضافه می کنه «حالا سوال اینه که آیا ما می تونیم با اون یکی جهان‌ها – اگر روی یک پلتفرم مشترک با ما در حال اجرا هستن – ارتباط برقرار کنیم؟»

موسیقی

موسیقی؟ آرومممممم….. هانی نیرو… موسیقی مینیمال که باعث می شه تا آخر این دنیا.. چه واقعی باشه چه شبیه سازی شده جهانی که زودتر از ما ساخته شده، لبخند بزنین و از زندگی لذت ببرین… تا دو هفته بعد…

چرا آزادی رو دوست دارم: فراوانی حروف فارسی در یک متن

سوال دوستانی که در مورد صفحه کلید استاندارد بحث می کنن اینه که هر حرف فارسی در متون فارسی چقدر تکرار شده؛ به عبارت دیگه هر کاراکتر چقدر به درد می خوره تو فارسی نوشتن. اینو قبلا هم یک دوست تایپیست حرفه ای ازم خواسته بود بررسی کنم. امروز حوصله کردم و جواب در مورد متنی مثل قانون اساسی اینه (پی نوشت دوم رو بخونین):

درصد استفاده از حروف فارسی در قانون اساسی

و اگر به طور دقیق تعداد کلمات و درصدهای دقیق تر رو می خواین می تونین با دانلود فایل صفحه گسترده فراوانی حروف فارسی در قانون اساسی ایران با ODF فرمت اوپن آفیس بهش برسین.

برنامه ای که اینکار رو می کنه اینه:


#!/usr/bin/perl

use utf8;
binmode STDOUT, ':utf8';
binmode STDIN, ':utf8';

@userinput = ;

$string = ''; #make a single $string from the standard input
foreach $line (@userinput) {
        $string .= $line;
}

# do some adjustments, say replacing arabic Ya with Persian Ya
$string =~ s/ي/ی/g;
$string =~ s/ك/ک/g;

#$allLetters = "آابپتثجچحخدذرزژسشصضطظعغفقکگلمنوهیئ۱۲۳۴۵۶۷۸۹۰";
$allLetters = "آابپتثجچحخدذرزژسشصضطظعغفقکگلمنوهیئ";

#explode and check the count of each letter
$total = 0;
for (my $key = 0; $key < length($allLetters); $key++) {
	$thisLetter = substr ($allLetters, $key, 1);
	$tedad{$thisLetter} = ()= $string =~ /$thisLetter/g; 
	$total += $tedad{$thisLetter};
}

foreach $key (sort (keys %tedad)) {
	print $key, "\t", $tedad{$key}, "\t", int($tedad{$key} / $total * 1000) / 10, "\n";
}

که همونطور که می بینین اطلاعات رو از ورودی استاندارد می گیره و تعداد هر کاراکتری که در رشته string اومده باشه رو توسط اپراتور مخفی =() می سنجه - برای همینه که می گن پرل زبون پردازش متنه و فوق العاده قشنگ و سخت برای خوندن. مثلا به این خط که قلب این برنامه است نگاه کنین:


	$tedad{$thisLetter} = ()= $string =~ /$thisLetter/g; 


میگه توی رشته فقط «همین حرف که الان داریم می شمریم» رو نگه دار و بعد با اون اپراتور جالب ببین چند تا کاراکتر توش مونده و بعد تعدادش رو بده به متغیر هشی که کلیدش همین کاراکتر است.

اینم بگم که این رو با هر چیز دیگه (مثلا برنامه های غیر آزاد) هم می شه نوشت یا روی ویندوز هم اجرا کرد ولی حالا که من کردم لوگوم رو می زنم پاش (:

نوشته های مشابه:
- بررسی سال های تولد در اطلاعات افشا شده ۳۰۰۰۰۰۰ کارت بانکی
- تعداد فراوانی حروف فارسی در نوشته‌های روزمره (ای بابا قبلا ظاهرا اینو نوشته بودم ولی یادم نبود!)

پی نوشت
۱- اگر واقعا نیاز دارین در مورد متنی این رو بدونین و امکان اجرای برنامه رو توسط خودتون ندارین، برام ایمیل کنین به jadijadi@gmail.com و براتون انجام می دم می فرستم. فقط متن بدون شک باید در فرمت متنی باشه. پی دی اف و اینها نیازمند تبدیل هستن.
۲- همونطور که شاهین هم در کامنت ها گفته، قانون اساسی اصلا متن خوبی برای سنجش «میزان استفاده حروف در زبان فارسی» نیست. اولا که کلمات غیرمرسومی داره و احتمالا سطح عربی اش زیاده و از اونطرف یک متن طبیعی نیست و مثلا کلمه «اصل» توش حداقل به تعداد اصول قانون اساسی استفاده شده و احتمالا هیچ رمانی اینقدر «ص» توش نداره (:

منبع شکلات بی پایان: پازلی برای ذهن

احتمالا این معما رو قبلا به شکل‌های دیگه دیده بودیم ولی یکی ایده ای خوب داشته برای مطرح کردن جذابترش: منبع بی پایان شکلات:

می دونیم که اینجا بهشت نیست و این واقعیت نداره.. اگر خواستین جواب رو بدونین اینجا رو نگاه کنین.

منبع

آمارهای مهمل یا گردشی آماری در کلمات فارسی وبلاگ؛ آخرین قسمت


این پست حاوی
ریاضیات است

این آخرین قسمت از یک پست دنباله داره که در مورد کلمه مهمل شروع شد. اول به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ و در نهایت به سراغ قاون زیف رفتیم و کلی در باره اش حرف زدیم و روی داده‌های جادی دات نت تستشون کردیم.

حالا با کمک امین صفاری یا همون خیخو، می ریم سراغ دو تا نمودار دیگه و یک بحث که شاید به درد کسی بخوره. اما قبل از نشون دادن نمودارهای جدید، بذارین یک نگاه بندازیم به همون نمودار اصلی که توی قانون زیف استفاده شد:

خیخو برامون نوشته:

شیب خط هرچی بیشتر باشه یعنی فشاری که یک کلمه به کلمه دیگه وارد میکنه تا اونو مجبور به تکرار (یا ایجاد یک کلمه جدید) کنه تا جمله رو با معنی بکنه کمتر هست (چون قراره جملات (ترکیب کلمات) برای انسان با معنی باشه) . البته متاسفانه خیلی تو داده های تو ازش نمیشه معنی استخراج کرد. و بیشترین کاربردش رو تو مقایسه یک متن یکسان با ۲ زبون مختلف نشان میده (نشون میده که کدام زبان با کلمات کمتری جملات معنی دار بیشتری رو میرسونه ) .به هر حال شیب خط تو داده های تو (3.90339418644553e-05) این هست.

۱) شیب خط هم میتونه اطلاعات خوبی داشته باشه مثلا اینکه دامنه لغات غیر وابسته ( خود کلمه به تنهایی معنی کامل داره) تو داده هات چقدر هست (اگر اشتباه نکنم تو زبان شناسی بهش میگن شناسه N-Gram زبان) .

۲) یک چیز جالب دیگه تو این نمودار میتونه این باشه که آیا نسبتی بین طول کلمات و رتبه اونها هست یا نه!؟ (تو زبان شناسی یک اصل هست که میگه زبان همیشه رو به ساده شدن پیش میره این به این معنی هست که اگر از فردا به همه بگیم بجای کلمه ٬تا٬ از کلمه ٬آسیبمبتلهتلا٬ استفاده کنن اون وقت بدون هیچ قصد و غرضی درصد کاربرد کلمه ٬تا٬ میاد پایین ) که البته این رابطه خیلی رو داده ها تو صادق نیستن چون همشون از یک نفر میان.

و برای اختتامیه این دو تا نمودار رو هم اضافه می کنه. نمودار خوب، خودش گویاست و نیازی به توضیح نداره پس شما هم فراموش نکنین که برای نمودارهاتون اسم بذارین و همه رو خوشحال کنین (:

nemoodarRplot03

toolRplot02

قانون زیف و زندگی روزمره با محوریت کلمات وبلاگ

آپدیت: کد R و فایل اطلاعاتی رو اضافه کردم به ته پست.


این پست حاوی
ریاضیات است

چه عنوانی (: اگر خواننده وبلاگ باشین می دونین که چند وقت پیش به درخواست مهدی ، تعداد استفاده از کلمه مهمل در وبلاگ رو شمردیم و بعد در یک پست مهمان بامزه، هادی بنایی که توی دانشگاه سوئد درس می خونه یکسری داده کاوی روی دیتاها کرد تا نشون بده که بدون نظریه می شه با اعداد هر چیز مهملی گفت و بعدش هم توی یک پست آخر، رفتیم سراغ شمردن کلمات و کاربردشون توی وبلاگ.

اما ماجرا ادامه داره (: اینبار امین صفاری پیشنهاد کرده که قانون زیف رو روی داده‌ها تست کنیم. برای من فرصت خوبی شد که هم قانون زیف رو یاد بگیرم و هم با کمک امین، قدم‌های اولم توی R رو بردارم. ما توی مطلب آخرمون رسیدیم به یک جدول از سیصد کلمه پر کاربرد وبلاگ و تعداد استفاده از اون‌ها. ظاهرا این ترکیب خوبیه برای قانون زیف.

قانون زیف می گه که

اگر تمام کلمات یک کتاب را بشماریم و از زیاد به کم مرتب کنبم به این نتیجه می‌رسیم که رتبهٔ هر کلمه با فراوانی(بسامد) همان کلمه نسبت عکس دارد، یعنی تعداد بارهایی که هر کلمه در متن ظاهر می‌شود با رتبهٔ همان کلمه در متن رابطه معکوس دارد. این نسبت در کلمات کل متن برقرار است. که به قانون زیف معروف شده‌است. بر طبق زیف کلمه‌ای که در رتبهٔ ۱ قرار دارد دوبرابر بیشتر از کلمه‌ای در متن ظاهر می‌شود که در رتبهٔ ۲ قرار دارد و ۳ برابر بیشتر از کلمه‌ای ظاهر می‌شود که در رتبهٔ ۳ قرار دارد و همینطور تا آخر.

و مدعی می شه این مربوطه به جریان کمترین کوشش. یعنی ما سعی می کنیم کارها رو به سادگی انجام بدیم و در یک کتاب این یعنی استفاده از کلمات تکراری. رابطه پیشرفته‌تر توی تئوری به این شکل بیان می شه:

f(k;s,N)=(1/(k^s))/(H(n,1))

که k میشه Rank و N میشه تعداد کلمات و تابع H هم میشه تابع اعداد هارمونیک.

این تابع رو روی یک نمودار با دو محور لگاریتیمی می کشیم تا نشون بده که هر کاربرد پر کاربردترین کلمه در یک متن تقریبا دو برابر کاربرد دومین کلمه پر کاربرد است و سه برابر کاربرد سومین کلمه و …

حالا اگر جدولی بسازیم که توش هر کلمه و تعداد ظاهر شدن اون در متن باشه و این رو به ترتیب نزولی سورت کنیم و بهشون از یک تا مثلا سیصد شماره ردیف بدیم، جدولی خواهیم داشت از هر کلمه، رتبه و تعداد استفاده اون در متن. اگر این اطلاعات رو با استفاده از برنامه R (یا هر چیز دیگه!) روی نمودار لگاریتمی – لگاریتمی ببریم به این می‌رسیم:

بررسی قانون زیف برای وبلاگ جادی

و بعدش توضیحات امین رو می خونیم:

توی ساده ترین حالت s برابر ۱ هست.
برای داده های تو هم اگر از مجموعه ۳۰۰ تایی استفاده کنی نتیجه بهتری میگیری (البته تا اونجایی که میدونم این نسبت رو بعضی از قسمتهای مجموعه داده کار نمیکنه)
عدد S هرچی به ۱ نزدیک تر باشه مدل بهتری بر اساس توزیع زیپف هست چون تکرار کلمات در زبانهای طبیعی خیلی heavy-tailed هست. (زبان شناس ها اینو به صورت اینکه مغز انسان بیشتر دوست داره کلمات تکراری استفاده بکنه تا جدید توجیح میکنن)
به نظر من ۰.۷۹ برای مجموعه داده های تو خیلی خوبه چون اینو باید در نظر بگیری که این مجموعه کلمات از یک متن یک پارچه (مثل کتاب) نیامدن و مربوط به پست های متفاوت هستن.

می بینیم که وبلاگ من هم با قانون زیف می خونه. اما چیزی که جریان رو بسیار جالبتر می کنه اینه که قانون قابل تطبیق روی کلی پدیده اجتماعی و فرهنگی دیگه هم هست. در اصل هر چیزی رو که بر اساس تعداد و رتبه (شماره ردیف در جدولی که کلمات توش بر اساس تعداد دفعات کاربرد به شکل نزولی سورت شدن) طبقه بندی کنین، می تونین بندازین روی این نمودار. یک مثال ممکنه شهرهای یک کشور باشه. اگر جمعیت شهرها رو بنویسیم و بر اساس اونها به شهرها رتبه بدیم و بندازیمشون روی همین نمودار،‌ احتمالا همین خط رو می یان پایین. دیدن این تکرار در طبیعت چیزیه که علم رو می سازه و اشتیاق علمی رو ایجاد می کنه بخصوص اگر فرمول بر اساس این فرض درست شده باشه که آدم ها بنا به اصل کمترین کوشش سعی می کنن جهان اطرافشون رو شکل بدن (:

پ.ن. این سری یک پست دیگه هم داره و حسابی ممنونه از امین صفاری و وقت و حوصله اش (:

پ.ن.۲. کد R برای خوندن فایل و کشیدن نمودار چنین چیزی است (کد رو امین نوشته)

Jadi<-read.csv("/home/khikho/Downloads/300.first.words.csv",sep="\t")
plot(sort(Jadi$count/sum(Jadi$count), decreasing=TRUE), xlab="rank", ylab="density",log="xy")
x<-(1:300)
xp<-(1/(x^0.79))/(sum(1/(x^0.79)))
xp1<-(1/(x))/(sum(1/(x)))
lines(xp,co=2)
lines(xp1,co=4)
legend("topright", c("s=1","s=0.79"), cex=0.8,col=c("blue","red"),lty=1);

و فایل سیصد کلمه پر کاربرد با تعداد استفاده شون هم اینجاست

پ.ن.۳. لعنت به سانسورچی (:

چرا گنو/لینوکس رو دوست دارم: شمردن کلمات به کار رفته شده در وبلاگ

در ادامه بررسی کلمات وبلاگ (بعد از شمردن استفاده از مهمل و کارهای آماری فوق العاده جالب روی اون) یک ایده دیگه که در کامنت‌ها مطرح شده رو پی‌می‌گیریم: شمردن کلمات و کاربرد اونها.

برنامه پایتون رو اینطوری تغییر می‌دم:

#!/usr/bin/python
# -*- coding: utf8 -*- 

from xml.dom import minidom
import xml.etree.cElementTree as et
import re

tree=et.parse('wordpress.2012-12-05.xml')
root=tree.getroot();

wordCount = {}

for child in root.iter('item'):
	date = child.find('wppost_date').text[:7] #find the year and month
	body = child.find('content_encoded').text # post content
	title = child.find('title').text 	  # post title

	try:
		fulltext = title + "\n" + body # all the text in the post = title + body
	except:
		pass

	fulltext = re.sub(ur'[_»«"\'&?؟a-zA-Z‌0-9/=.*+\n-%<>:;،؛,\-)(،۱۲۳۴۵۶۷۸۹۰]', ' ', fulltext) #replace extra chars
	words = fulltext.split() # words is a list of all words in this post

	for word in words:
		wordCount[word] = wordCount.get(word, 0) + 1 # wordCount[word]++

for word in wordCount:
	thisLine = (str(wordCount[word]) + "\t" + word)
	print thisLine.encode("utf-8", "ignore")


کد کاملا واضحه: هر پست رو نگاه می کنه، حروف غیرفارسی تیتر و متن رو با فاصله جایگزین می کنه و بعد تعداد کلمات رو جمع می‌زنه و همین روند رو روی تمام پست‌ها ادامه می‌ده. به عبارت دیگه خروجی چیزی شبیه به این خواهد بود:

...
4	همسرش
1	آکر
3	خرمش
1	ویسمن
2	خرما
1	یکباری
1	مانغو
2	احساسم
1	عصبي
61	رشد
1	رشت
1	تریلیان
5	همسرم
32	هیات
1	پورتال
2	پیشانی
6	مدیربسته
4	لری
4	وجدان
...


و البته مشخصه که خیلی طولانی‌تر. بذارین بشمریم که من کلا در زندگی چند کلمه استفاده کردم تو وبلاگم:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
27880


هوم.. بیست و هفت هزار و هشتصد و هشتاد کلمه (: بدک نیست (: چیز خوبیه که روی وبلاگ های مختلف حساب بشه و ببینیم هر وبلاگ با چند تا کلمه مستقل از هم نوشته شده (: البته معلومه که «می‌رود، می رود، میرود» چهار کلمه جدا شمرده شدن… برای حل نسبی این مشکل توی اون خط که رجکس یکسری کاراکتر اضافی رو حذف می کنه، نیم‌فاصله رو هم اضافه می‌کنم و خروجی اینطوری می‌شه:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | wc -l
23405


جالب نیست؟‌ برای چهار هزار و چهارصد کلمه، من گاهی از نیم فاصله استفاده کردم و گاهی نکردم. حالا مهم نیست (:‌ قدم بعدی سورت کردن است. با جواهر گنو و نشون دادن بیست تا بالایی:

jadi@jeducation:~/Downloads/weblog_word_usage$ ./count_all_words.py | sort -n -r | head -20

خروجی رو براتون نمی‌ذارم چون فقط یکسری حرف ربط بی ربط است.

پروژه جانبی بسیار مهم برای زبان فارسی: همه زبان‌ها یک فایل دارن به اسم نمی دونم چی (کسی می‌دونست لطفا بگه) که توش کلمات «بی ربط» اون زبان نوشته شدن. به اصطلاح همون am و is و are یا امثال «است» و «شد» و «و» و «یا» و … که در اینجور جاها کاربرد داره (می شه اون کلمات رو از فهرست این کلمات که برنامه بهمون داده حذف کرد تا کلمات اختصاصی من به دست بیاد و نه چیزهایی که برای جمله ساختن همه استفاده می کنن). آیا چنین فایلی داریم برای زبان فارسی؟ تو خارجی‌ها اسمش چیه؟

حالا که بیست تا اولی به درد نخوردن، به جاش کل لیست رو می‌برمش توی لیبره آفیس و مثل همیشه نمودار بیشترین کلمات (غیر حرف ربط و استاندارد مثل است و باشد و شد و اینها) رو می‌کشیم تا با یک نمودار قشنگ کار رو تموم کرده باشیم:

پ.ن. این مجموعه مهمل ، یک قسمت دیگه هم داره (: کمی دیرتر ولی.

پست مهمان: رابطه استفاده از کلمه مهمل توی وبلاگ جادی و میزان بارون در تهران

ایمیل از هادی بنایی، دانشجوی علوم کامپیوتر، دانشگاه اوربرو، سوئد و یکسری کار تحلیلی جالب:

با سلام بر شما جناب جادی

پستی که در مورد کلمه‌ی مهمل نوشته بودی خوب بود و به‌لحاظ آماری جالب! اما من بد ندیدم که یه داده‌کاوی عمیق‌تری روی داده‌ها انجام بدم. اول چی‌کار کردم؟ اومدم داده‌های مشترک بین دو سال ۲۰۱۱ و ۲۰۱۲ رو کنار هم قرار دادم (از ماه ۵ تا ۱۱) و بعدش اومدم از این داده میانگین گرفتم. به‌این ترتیب تونستم یه الگوی رفتاری از وجود کلمه‌ی مهمل در هر ماه رو به‌طور متوسط به‌دست بیارم (جدول ۱)

جدول۱:

Month 2011 2012 Average
May 1 0 0.5
June 1 3 2
July 0 1 0.5
August 1 1 1
September 2 0 1
October 4 5 4.5
November 1 6 3.5

داده‌ی به‌دست اومده نشون می‌داد که به‌طور تقریبی گفتن کلمه‌ی مهمل به فصل سال و یه‌جورایی به آب و هوا ربط داره. از طرفی مکان نوشتن پست‌ها هم حتما روی بروز کلمه‌ی مهمل اثر داشته. بنابراین بهترین داده‌ای که می‌تونست برای مقایسه و ارزیابی انتخاب بشه، میانگین میزان بارش در ماه‌های سال در شهر تهران بود که به لطف ودر بیس برای ماه‌های میلادی داده‌ها رو یافتم (داده‌ها بر اساس میلی‌متر). از اون‌جایی که هر داده‌ای نیاز به نرمال‌سازی داده‌، تو قدم بعد لگاریتم داده‌های مورد نظر رو محاسبه کردم. (جدول ۲)

جدول ۲:

Month Mean Rainfall in Tehran Log
May 15 3.9068905956
June 3 1.5849625007
July 2 1
August 2 1
September 3 1.5849625007
October 10 3.3219280949
November 25 4.6438561898

اما نکته‌ی شگفت‌انگیز هم‌بستگی بسیار بالای این داده‌ها با داده‌های کلمه‌ی مهمل بود. نمودار ۱ گویای همه‌ی اطلاعات و نتیجه‌گیری ها است:

نمودار۱:

نتیجه‌گیری علمی! تخصصی!: نتایج فوق نشون می‌ده که میزان ادا کردن کلمه‌ی مهمل توسط جادی در پست‌هاش رابطه‌ی مستقیمی داره با میزان بارندگی در تهران.
نتیجه‌گیری فلسفی!: میزان رطوبت هوا می‌تونه سلول‌های مغز رو تحت تاثیر قرار بده که به‌جای استفاده از لغات مهمل دیگه! از لغت مهمل استفاده کنه!
نتیجه‌گیری منطقی و کلی: می‌شه یه‌سری داده‌ی مهمل رو طوری تحلیل کرد که نتایج مهملش آدم رو به‌ فکر فرو ببره تا به‌زور روی نتایج حاصله فلسفه ببافه!

سپاس(اگه دوست داشتی می‌تونی ضمیمه‌ی همون پست اضافش کنی)

توجه کنین که همونطور که خود هادی می گه، بازی با اعداد بدون داشتن نظریه می تونه نتایج متنوعی بده که الزاما نمی تونن منجر به نظریه بشن. آمار و اعداد وقتی معنا دار می شن که از یک نظریه دفاع کنن یعنی از یک فرض اندیشیده شده. اگر نتونین ربط علی دو چیز رو با هم از نظر منطقی نشون بدین ،‌ اعدادی که به دست آوردین فقط به درد گول زدن می خوره یا حتی ممکنه باعث گمراهی بشه.