گزارش وبلاگستان فارسی در مرداد ماه 1385

نکته: این بررسی مبتنی است بر وبلاگ های حاضر در doxdo.com. در بررسی قبلی (تیرماه)‌ چند تن از خوانندگان به این مساله اعتراض کردند که چرا فقط وبلاگ های حاضر در دو در دو بررسی شده اند. علت این امر این است که این سایت کاملترین سایتی است که مطالب وبلاگ های فارسی را پوشش می دهد. این احتمال وجود دارد که در ماه های آینده پوشش بهتری داده شود. در عین حال دو در دو این مزیت را دارد که تا جایی که من احساس کرده ام به شکل بی طرف از همه گروه ها مطلب دارد ولی در عین حال با جدیت به خاطر دوستی و مرام و … کسی را بی دلیل به بانک اضافه نمی کند.

در این پست می خواهم کمی روش مندتر درباره وبلاگستان فارسی در مردادماه صحبت کنم. برای بررسی وبلاگستان فارسی در ابتدا باید مواد خام فراهم شود. فراهم کننده این مواد خام سایت خوب است. در ابتدای کار با استفاده از دستور wget لینوکس و یک اسکریپت کوتاه به زبان پیتون کل آرشیو مرداد ماه سایت دو در دو را دریافت و در یک فایل حدودا سیزده مگابایتی (دقیقا ۱۳۱۱۸۸۳۵ بایتی) ذخیره اش می کنیم.

حالا نوبت آمارگیری ها است. مرسوم ترین آمار تعداد پست هر وبلاگ در طول ماه است که فعالترین های وبلاگستان فارسی را مشخص می کند. برای اینکار یک اسکریپت دیگر به زبان پیتون می نویسم که در کل فایل تعداد تکرار مطلب هر یک از وبلاگ ها را می خواند و نتایج را به شکل فایل متنی ایجاد می کند. در مرحله اول مشخص می شود که از بین ششصد و خرده وبلاگ وسایت موجود در بانک دو در دو، تنها پانصد و یکی از آن ها در مرداد مطلب داشته اند.

برای به دست آوردن نمودار فعالترین های مرداد ماه، در ابتدا باید به شکل دستی سایت های غیروبلاگی (مانند بی بی سی) و وبلاگ هایی که محصول کار دیگر وبلاگ ها یا مجموعه ای از اخبار هستند (مثل وبلاگ ایرانیان خارج از کشور یا بلاگ نیوز ) را جدا کنم. این کار راحت نیست و بحث ایجاد می کند چرا که بعضی آن ها را هم جزو وبلاگستان می دانند و بعضی نه ولی من هرچند آن ها را بسیار مفید می بینم ولی معتقدم بهتر است در این نمودار فقط به وبلاگ هایی بپردازیم که یک وبلاگ نویس پشت آن ها است. به همین دلیل وبلاگ پر کار قدیری ابیانه ghadiri.org را هم حذف می کنم چرا که کپی و پیست اخبار دیگران است. و بعد با استفاده از صفحه گسترده OpenOffice که نرم افزاری آزاد و بازمتن مشابه Excel است، نمودارها را تولید می کنم. نتیجه این است:


طبق روال معمول نیک آهنگ کوثر بیشترین تعداد پست را دارد. بعد از او طبق معمول با اختلاف زیاد حاجی واشنگتن و جمهور هستند و بعد هم جنبشی استشهادی دوست خودم. کیبرد آزاد یازدهم است. نکته جالب این است که در بین سی وبلاگ اول هیچ اسمی از PersianBlog نیست و در عوض حضور Blogfa زیاد است.

باید توجه داشته باشیم که این نمودار فقط تعداد پست ها را نشان می دهد و این مساله هیچ ربطی به خوبی و بدی یک وبلاگ ندارد. ممکن است یک وبلاگ پر باشد از لینک های تک خطی در یک پست مجزا. خیلی ها هستند که وبلاگشان برایشان یک لینکدونی هم هست. در عین حال همانطور که سولوژن تذکر داده، حجم یک مطلب نشانه بهتری از پرکاری است تا تعداد پست ولی فعلا امکان آن وجود ندارد.

ایده بعدی بررسی وبلاگ ها در مرداد ماه، بررسی کلمات مورد استفاده است. بگذارید ببینیم چه کلماتی بیشتر از همه در پست ها استفاده شده اند. دوباره یک برنامه کوچک پیتون و حذف هر چیزی جز تیتر و متن مطالب و بعد مراحل قبل و در نهایت حذف دستی کلمات مرسومی مثل «با»، «است» و … و ایجاد نمودار. فکر می کنید پر کاربردترین کلمه چه چیزی باشد ؟


«ایران» ! برای من که جالب بود. دومین کلمه «وبلاگ» است با ۵۰۹ بار استفاده و سومین کلمه «امروز» است با ۲۶۷ بار. «قرار» را چک کردم و معمولا به این صورت استفاده شده که «قرار بود فلان چیز بشود» یا «قرار است فلان کار را بکنم». «جنگ لبنان» هم مورد توجه وبلاگ نویسان بوده است. در کل بیشتر کلمه های خاص، در حوزه جنگ و وضعیت جهان و ایران و آمریکا و اسراییل و .. هستند. جایگاه «حزب» با ۱۴۶، بیست و سوم است، جایگاهی که من هیچ وقت برایش حدس نمی زدم. خوشحالم که این لغت و «روزنامه» و «سازمان» هم جزو کلمات اصلی هستند. «الله» هم به شکل معجزه آسایی در رتبه مقدس چهل قرار دارد و از آن معجزه آساتر تعداد تکرار آن است:‌ صد و چهارده بار ! الله اکبر !

دارم روی طرحی کار می کنم که بتوانیم روند حرکت یک کلمه در پست های یکسری وبلاگ را دنبال کنیم. فعلا بیش از حد مقدماتی است و به این ماه نمی رسد. مثلا می خواهم ببینم چرخش / پیشرفت بحث در مورد شروع وبلاگ نویسی توسط احمدی نژاد چگونه است. ایده این است که پست هایی که هم «احمدی نژاد» دارند و هم «بلاگ» یا به وبلاگ او لینک دارند را جدا کنیم و بعد ببینیم روند نوشته شدن آن ها (از نظر زمان یا لینک یا … ) چگونه است. نمودار نهایی فعلا بیش از حد شلوغ و نسبتا بزرگ است. یک نمونه از قسمتی از آن به این شکل است:


امیدوارم تا زمان نوشتن گزارش شهریور، برنامه را تکمیل تر کرده باشم.

اینهم از گزارش مرداد. علاقمند شده ام کار را ادامه بدهم پس از پیشنهادها و انتقادها شدیدا استقبال می کنم.