بررسی نیروهای پشت ویکیپدیای فارسی

مدت ها است که مزیدی برای پیشبرد ویکیپدیای فارسی می نویسه و تلاش می کنه. آخرین مطلبش هم در مورد افراد فعال در ویکیپدیای فارسی بود (فعالان ویکی‌پدیا).

می دانیم که ویکی چیزی است که هرکسی‌ می تواند آن را ویرایش کند. ویکی‌پدیا هم دانشنامه ای که هر کس حق دارد هر صفحه ای اش را تغییر دهد. اما واقعا چه کسانی مشغول انجام این تغییرات هستند؟

این مساله برای من هم جالب شد. من سوالم این بود که آیا چند نفر آدم خاص هستند که زور می زنند ویکی‌پدیا پیش بره یا واقعا شاهد یک حرکت جمعی هستیم. درعین حال این سوال فرعی را هم داشتم که مورد مناقشه‌ترین موضوعات ویکی‌پدیا چه چیزهایی هستند.

از آنجایی که ویکی‌پدیا بر اساس فرهنگ OpenSource (بازمتن)‌ توسعه یافته، از مسیر download.wikipedia.com کل بانک های اطلاعاتی آن قابل دسترسی هستند. من بانک مربوط به تغییرات اعمال شده در هر مقاله را دانلود کردم و بعد از باز شدن، تقریبا ۱۸۵ مگابایت اطلاعات در آن بود.

وظیفه اولین برنامه، تعیین مورد مناقشه ترین (پر ویرایش ترین) مقالات در ویکی‌پدیای فارسی بود. یک برنامه کل فایل را مرور کرد و تعداد ویرایش های هر مقاله را شمرد. نتیجه چیزی شبیه به این بود:

عنوان تعداد ویرایش
محمود احمدی‌نژاد 1160
ایران 998
دین بهائی 768
افغانستان 629
قرآن 487
سید روح‌الله خمینی 478
اسلام 468
اسرائیل 417
کردها 397
فهرست مشاهیر ایرانی 383
بهاءالله 380
محمد 374
تبریز 364
ایالات متحده آمریکا 353
آدولف هیتلر 352
آذربایجان 350
کوه دماوند 346
فهرست هنرپیشگان ایرانی 336
تهران 332
لنگرود 331

اطلاعات منظم، مثل همیشه جالب است (: بحث ادیان داغ است و سیاست و بدون شک رییس جمهوری پر از داستان ما، احمدی نژاد. حاشیه: جالب است یکبار از ویکی‌پدیای انگلیسی هم همین آمار را بگیریم تا ببینیم آیا آنجا هم دعوای سیاست و دین است؟ کار بعدی این بود که نگاهی بیندازیم به کل افرادی که مقالاتی که بیشتر از ۱۰۰ بار ویرایش شده اند را ویرایش کرده اند. مساله این است که آیا یک عده خاص مشغول ادیت همه مقالات هستند یا افراد مختلف و متنوع، مشغول ادیت مقالات متنوع هستند.

برای اینکار کل این افراد و مشارکت هایشان مشخص شد و با مرکز قرار دادن مقالات، افراد در «بهترین» نقطه مرتبط با مقاله هایی که ادیت کرده بودند چیده شدند. الگوریتم درست مشابه عملکرد فنرهای ایده آلی است که یکسری نقطه را به هم متصل کرده باشند. انتظار می رود که هر چقدر افراد به دور نمودار نزدیک شوند بهتر باشند (به این معنی که تعداد افراد بیشتری مقالات متنوع تری را ادیت کرده اند). این حاصل کار این بخش از کار است.


نقشه دوست داشتنی شده. نقاط آبی افراد را نشان می دهد و نقاط قرمز مقالات با ادیت بیش از ۱۰۰ بار را. نتیجه خوب است: تعداد زیادی آدم مشارکت دارند و تعدادی هم خیلی جدی به ادیت خیلی چیزها مشغولند (معمولا تمیز کردن مقالات و طبقه بندی و ..). البته سعی کرده ام تا حد ممکن ربات هایی که می شناختم را کنار بگذارم. خوشحال می شوم اگر کسی لیست کامل ربات ها را برایم بفرستد.

قدم بعدی بررسی دعواها (کشمکش های ویرایشی) است. از جدول، دیدم که دین مساله مهمی است و به طبع،‌ طرفداران سر سخت خود را هم دارد. اول الگوریتم قبلی را روی دین اسلام و بهاییت اجرا کردم. نتیجه این است:

در این نمودار و تمام نمودارهای پایینی، تنها افرادی به نمایش در آمده اند که بیش از ۱۰ بار هر مقاله را ادیت کرده اند


نقاط نشان دهنده افراد هستند و فلش ها نشان دهنده ویرایش (تعداد دفعات ویرایش را حذف کرده ام). نمودار جالبی داریم. هر دین ویرایش کنندگان خود را دارد و یک مجموعه هم ویرایش کننده هر دو دین. بسیار جالب است که با وجود ضریب نفوذ بسیار کمتر بهاییت در ایران (البته نسبت به اسلام)، ادیت کننده صفحات آن بسیار زیاد هستند (همبستگی بالا و استفاده از اینترنت بین فعالان این دین). این نمودار به وضوح نشان می دهد که ویکی‌پدیا چطور کار می کند و چگونه جلوی متعصبان گرفه می شود. به نظر من بیشتر افراد وسطی، باید کسانی باشند که به یکی از این دو دین گرایش خاص دارند و دائما دین دیگر را هم ادیت می کنند تا نظر خودشان را بگنجانند ولی گروه انبوه‌تر ویرایش کننده هر دین، جلوی یکسویه شدن نظرات را می گیرند. جالب است در همین نمودار، تعداد ویرایش هم نشان داده شود.

در قدم بعدی، به عنوان یک آزمایش، بنیانگذار دین بهایی (بهاء‌الله) را هم به نمودار اضافه کردم. نتیجه را ببینید.


وضعیت تقریبا مشابه قبل است با این تفاوت که عده ای هستند که اسلام و بهاء الله را تغییر می دهند بدون اینکه به دین بهاییت دست بزنند. و در عین حال تقریبا نصف افرادی که در ویرایش اسلام و دین بهایی فعال هستند، صفحه بهاء‌الله را هم تغییر می دهند.

اما برگردیم به بحث ادیان. بهاء الله را از نمودار کنار می گذاریم و دیگر دین ایران (دین پیامبر زرتشت به نام مزدیسنا که معمولا آن را زرتشتی می نامیم) را به نمودار اضافه می کنیم:

گروه کوچکتری هستند که هر سه این ادیان را ادیت می کنند. گروهی فقط بین اسلام و دین بهایی بحث می کنند و بین اسلام و مزدیسنا افراد کمی هستند. فقط یک نفر هم هست که هم به دین بهایی می پردازد و هم به دین مزدیسنا. مزدیسنا هم مثل دیگر ادیان، ادیت کننده های اختصاصی خود را دارد که تعداد آن ها هم (نسبت به ضریب نفوذ این ادیان در کشورهای فارسی زبان) بسیار زیاد است.

در نهایت مسیحیت را هم به نمودار اضافه کردم. شکل تقریبا به هم ریخت:


و این به هم ریختگی هم با معنا است. احتمالا مسیحیت هم ادیت کننده های خودش را دارد و هم افراد مستقلی هستند که همه اینها را ویرایش می کنند. به عبارت دیگر با هر چیزی در حد معقول رابطه دارد و این یعنی گروه بندی خاصی پشت مسیحیت نیست و در بحث خیلی خاصی هم شرکت ندارد. در عمل می توانیم بگوییم که مسیحیت (که جزو مقالات پر ادیت هم نبود و فقط به خاطر دین بودن به این نمودار اضافه شد)، موضوع مورد مناقشه ای در ویکیپدیای فارسی نیست.

توجه : نرم افزارهایی که به زبان Perl / پرل برای اینکارها نوشته ام آنقدر کاربر پسند نیست که جز خودم کسی بتواند به راحتی از آن ها استفاده کند. پیچیده هم نیستند البته و کسی که بتواند بنا به نیازش آن ها را تغییر بدهد، راحت تر است خودش آن ها را بنویسد. در عین حال این برنامه از ابزارهای لینوکسی برای ترسیم نمودارها استفاده می کند (بسته Graphviz). اما اگر کسی احساس می کند که به برنامه ها به دردش می خورند، خبر دهد تا برایش بفرستم. در عین حال اگر تحلیل خاصی به ذهن تان می رسد که می تواند جالب باشد ولی خودتان نمی توانید اجرایش کنید، مطرح کنید (:‌ شاید توانستیم با هم چیز قشنگی تولید کنیم.

  • حمید

    بسیار جالب بود

  • اصلان

    قطعا تحلیل کل این اطلاعات باید با یک نرم افزار باشه.میشه بپرسم که خودت نوشتی یا از یک برنامه آماده استفاده کردی؟

    • جادی

      برنامه رو خودم نوشته بودم (: