رادیو گیک شماره ۵۳ – بیگ دیتا، دانشمندان داده و برگشت دایناسورها

ما روزانه ۲.۵ کویینتیلیون بایت دیتا درست می کنیم… اگر نمی دونین کویینتیلیون چقدره بذارین این شکلی بگم: نود درصد کل دیتایی که در جهان هست، در دو سال گذشته تولید شده! سیگنال های جی پی اس، سوشیال مدیا،‌ کلیک‌ها، سنسورها، ویدئوها، عکسها، خریدها، خوش اومدن ها، رفتارها و هر چیزی که فکرش رو بکنین الان دیتا است. این دیتا بزرگه! این دیتا در دست دانشمندهای داده است… رادیو گیک شماره ۵۳ برای شما مساله رو رازگشایی می کنه با ما باشین تا از آر، هدوپ، دانشمند داده، داده های بزرگ، یادگیری ماشینی و هر چیز دیگه مد روز عقب نمونین. در این شماره امیرصدیقی با تلفن ما رو همراهی می کنه.

چیزی که نتونین اندازه گیری کنین رو نمی تونین مدیریت کنین.

مشترک رادیو گیک بشین


آر اس اس رادیو گیک

اپلیکیشن اندروید رادیو گیک

رادیو گیک در آیتونز

رادیو گیک در ساوند کلاود

اپلیکیشن iOS

RoadToDataScientist1

سرفصل‌ها:
– حجم اطلاعات
– مثال کتابفروشی
– مثال کشورهایی که سراغش رفتن. از آمریکا تا هند
– مثال شرکت ها
– مثال علم
– در سه بخش حرف می زنیم: بیگ دیتا چیه، دیتا ساینس چیه، یادگیری ماشینی چیه

Infography


یادداشت های شخصی

اینها یادداشت های شخصی هستن. شدیدا توصیه می کنم به جاشون از بالای مطلب خود پادکست رو گوش کنین (:

این مفهوم نسبتا جدیده.. مال دهه اول قرن بیست و یک و شرکت ها و دولت‌های زیادی هم سراغش رفتن.
اوباما:‌ طرفدارشه. دی جی پاتیل. انتخابات ۲۰۱۲
بیگ دیتایی های هند هم از عوامل موثر پیروزی در انتخابات ۲۰۱۴ هند بودن
اینترنت چیزها
ebay:‌دو تا دیتاورهاوس داره (انبار داده)‌ که کلا ۴۶ پتابایت است. یک چهل پتابایت هم هادوپ داره برای سرچ
آمازون: دیگه گفتن نداره… مستقل از خریدارها حدود نیم میلیون هم فروشنده داره. بزرگترین کلاستر لینوکس دیتابیسی جهان با حدود پنجاه ترابایت اطلاعات
فیسبوک: ۵۰ میلیارد عکس…
و البته توی علم هم هست
لارج هاردون کلایدر ۱۵۰ میلیون سنسور داره که در ثانیه ۴۰ میلیون واحد اطلاعاتی تحویل می دن.. این سیستم در ثانیه تقریبا ۶۰۰ میلیون برخورد ذرات درست می کنه که بعد از حذف کردن ۹۹.۹۹۹۹۵ تاشون، حدود ۱۰۰ برخورد در ثانیه رو نگه می داره که چیزی است که دانشمندها دنبالشن.

صنایع ای که بیشتر نیازمند داده کاوی و Big Data هستند:
۱- تجارت الکترونیک
شرکت ها با استفاده از آنالیز رفتار مشتریان خود می توانند محصولات بهتری را در اختیارشان قرار دهند که در این زمینه می توان به شرکت آمازون اشاره نمود.
۲-تبلیغات دیجیتالی.
در حوزه تبلیغات کارفرمایان می توانند بر اساس علایق مشتریان خود تبلیغات مناسب را نشان دهند
۳- در صنعت بازی سازی
با استفاده از جمع آوری داده و تحلیل رفتاری جامعه می توان بازی مناسب تولید کرد کنسول هایی مثل ایکس باکس با تعریف یک حساب کاربری آنلاین به تحلیل رفتاری کاربران خود می پردازد.

بیگ دیتا اشاره داره به دیتا ست هایی اونقدر بزرگ که روش های کلاسیک نمی تونن جوابگوش باشن. در اصل ما تعریف دقیقی از بیگ دیتا نداریم و به نظر من قشنگترین تعریف اینه که بگیم بیگ دیتا دیتایی است که روی یک ماشین جا نمی شه. این «جا نشدن» رو با سه تا V نشون می دن: volume, variety, velocity. حجم تنوع نرخ تولید.

حجم

گفتم دیگه.. در دو سال اخیر ما ۹ برابر کل تاریخ بشر اطلاعات تولید کردیم! در واقع ذخیره کردیم. الان می گن در هر ثانیه برابر کل اطلاعاتی که بیست سال قبل روی اینترنت بوده بهش اطلاعات اضافه می شه! ختمین اینه که فروشگاه والمارت ۲.۵ پتابایت اطلاعات مشتریان رو در هر ساعت جابجا می کنه یعنی تقریبا ۲۰ تا کابینت پر از کاغذ…

سرعت

و سرعت این حجم از اطلاعات هم زیاده. گوگل مدعی می شه که با نگاه کردن به سرچ‌های در حال انجام، سریعتر از سازمان پیشگری از بیماری آمریکا می تونه شیوع بیماری‌ها رو تشخیص بده، تیمی توی ام آی تی به شکل زنده از روی سیگنال های موبایل کشف می کنن که در فروشگاه‌ها چند نفر مشغول خرید عید هستن و HFT رو بگم. اینها مستقیما پول هستن برای کسی که بتونه اطلاعات رو سریعتر جابجا کنه.

تنوع

فقط فکر کنین که چطوری دارین اطلاعاتتون رو با همه به اشتراک می ذارین. من امروز ۳ گیگ آرشیو عکس روی گوگل آپلود کردم. چندین توییت فارسی کردم و یکی دو تا انگلیسی. این متن رو دارم می نویسم و شما صداش رو می شنوین ولی اینها چیزهایی هست که خودم می بینم. بارها توی بانکم لاگین کردم، با گوشی در دستم راه رفتم، با موبایلم بازی کردم، توی گیت برنامه پوش کردم، خرید کردم، اسمس فرستادم، وایبر زدم و ایمیلم رو چک کردم و توی وب چرخیدم. تک تک اینها ذخیره شدن که بعدا … علیه من استفاده بشن! یادتون باشه توییتر تازه ۲۰۰۶ ظاهر شد و فیسبوک تازه ۲۰۰۴ و آی پد ۲۰۱۰ و اینها هر کدوم به یک شکل باعث انفجار ثبت اطلاعات در اشکال گوناگون شدن.

این دیتا از کجا می یاد؟ صفحه ۹ فایل ۴

ما این دیتا رو کجا ذخیره می کنیم؟

تعداد سرورها از اینفوگرافی و اینکه حالا اینا رو چطوری ذخیره کنیم؟
توسعه عمودی و افقی رو بگم
مفهوم Hdfs و بیگ تیبل و مپ ردیوس گوگل در ۲۰۰۴ و بعد تلاش های آپاچی
بعد هادوپ و تکنولوژی های روش مثلا hive
هادوپ: فیسبوک و توییتر و لیندکدین و شرکت هایی مثل کلاودارا یا هورتن ورکز.

حالا چطوری می شه از این دیتاها استفاده کرد؟

مپ ردیوس رو توضیح بدم با یک مثال (چه مثالی به ذهنم می رسه اون موقع یعنی؟)
مفاهیمی مثل هایو و ایمپالا
دیتابیس های noSQL

اما کی با این دیتاها کار میکنه؟

دیتاساینتیست ها! افرادی که مهارتی دارن که قبلا اصولا وجود نداشته.. یا بهتر بگم ترکیب یاز مهارت هایی رو دارن که قبلا متخصصهاش پر بودن ولی هر کدومشون فقط در یک بخش مهارت داشتن. دیتاساینتیست ها در مورد شیوه های استخراج و استفاده از اطلاعات کار می کنن. گاهی کار به مهملی اینه که کلی اطلاعات از یک فایل اکسل با فرمت ناسازگار با فارسی رو بخونین و گاهی به این باحالی است که کشف کنین در این لحظه بهترین ماشین دست دومی که می شه خرید بر اساس اطلاعات فلان سایت چیه. اصطلاح توی ۲۰۰۱ درست شده و برای دانشمند داده بودن یک نفر باید چیزهایی مثل اینها رو بلد باشه:
مفاهیم آمار
برنامه نویسی آماری
برنامه نویسی (پایتون، آر، …)
کارهای مقدماتی با داده‌ها: خوندن،‌ تمیزکردن، انتقال دادن و …
یادگیری ماشینی
نمایش اطلاعات / ویژوالایزیشن
درست کردن داشبوردها و نشون دادن اطلاعات
دیتابیس (کاساندرا، اچ بیس، مونگو دی بی)
بیگ دیتا

چیکار می کنن؟

گاهی کارهای خیلی ساده. در حد اینکه کیا مشتری ما هستن یا اینکه کی قبلا زنگ زده
گاهی کارهای جالبتر در این حد که چه مثالی بزنم؟ چاره به کیا می تونه چی بفروشه الان و گاهی کارهای خیلی جالبتر مثل اینکه پول های دولت رو شفاف کنیم (آمریکا و گیت هاب یا سوئد و انتشار درآمدها) یا مثلا روشی برای کشف اینکه نویسنده هری پاتر، چه کتاب دیگه ای رو با اسم مستعار منتشر کرده (کمی بحث در این مورد).

و البته این آدم ها کیان؟ هیچکدوم منبع اطلاعاتیشون تلگرام نیست (: و صفحه بیست شش که می گه خیلی خوشحالن و کمی بحث در مورد الگوریتم هایی که باید بلد باشیم


تا اینجا با مایین؟ می دونین چه خوبه اگر توی آیتونیز به من ستاره بدین؟ (: یا توی توییتر اکانت رو دنبال کنین و تبلیغش کنین؟. یک پادکستی بود هر بار توش می گفتن: اگر از ما خوشتون می یاد برین به ما ستاره بدین که بقیه هم ما رو ببینن و اگر از ما بدتون می یاد خصوصی ایمیل بزنین بهمون بگین (:

خوش باشین و شاد تا هفته دیگه.