ما و کرونا، از هکرها تا دیتاست روی کگل

کرونا همه رو به تکاپو انداخته، از هکرهای خوبی که ۵۳۵۲ مقاله علمی مرتبط با کرونا رو به شکل پابلیک در اختیار عموم گذاشتن تا هکرهایی که ترس مردم از کرونا رو تبدیل کردن به کمپین‌های بدافزار و فیشینگ و سوء استفاده از موقعیت.

اما دیتاساینسی ها هم بیکار نیستن و اتفاقا ممکنه با داشتن دیتای زیاد، حداقل الگوهایی کشف بشه که به درد بقیه هم بخوره. فعلا قدم اول انتشار این دیتاست بوده روی سایت کگل. اگر در این حوزه هستین و کگل رو نمی شناسین، وقتشه که نه فقط به این دیتاست که به کل ماجرا هم نگاه دقیق داشته باشین. کگل که شامل تایم سریز روی یکسری از موارد است شامل:

  • شماره سریال
  • تاریخ مشاهده
  • استان
  • کشور
  • آخرین آپدیت
  • تعداد تایید شده ابتلا
  • تعداد تایید شده مرگ
  • تعداد تایید شده بهبودی

و خب شما می تونین انواع نمودارها و تحلیل ها رو ازش در بیارین. دانشگاه جان هاپکینز این دیتا رو به صورت دیتاشیت گوگل ارائه داده‌. معلومه که بدون اطلاعات صحیح در یک موضوع، پایه درک اون موضوع است. تا وقتی از چیزی اطلاعات منسجم نداشته باشیم، نمی تونیم در موردش حرف خاصی هم بزنیم.

۵

شانزده کتاب رایگان و عالی برای هر کسی که می خواد دانشمند داده بشه +‌ پیشنهاد مسیر

این لیست فهرستی است از ۱۶ کتاب مجانی که می تونه به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کنه. شدیدا پیشنهاد می کنم که اگر واقعا علاقمند هستین در این حوزه پیشرفت کنین بهتره به جای دانلود یکضرب این شونزده کتاب،‌ لینک رو ذخیره کنین، یک کتاب رو بگیرین و بخونین و هر وقت تموم شد بیاین به همین لینک و برین سراغ کتاب بعدی. یک مشکل تکنولوژی در این روزها اینه که آدم ها به جای اینکه چیزی که می خوان رو یاد بگیرن توی مغز، چیزی که می خوان رو فقط دانلود می کنن روی هارد (: به هرحال. این شما و این ۱۶ کتاب رایگان برای تبدیل شدن به یک دانشمند داده یا همون دیتا ساینتیست به انتخاب ویلیام شن از کورا.

مرتبط: رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

آر و پایتون

مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتونین برنامه بنویسین. بعضی ها با R کار می کنن و بعضی ها با پایتون و بعضی ها با زبون های دیگه. انتخاب بین این دو بسیار سخته ولی در نهایت من برای شخص خودم بعد از دو سال کار با هر دو، تصمیم گرفتم تمرکزم رو فقط بذارم روی پایتون چون دائم این دو تا زبون رو با هم قاطی می کردم.

thinkpython r_for_data_sceince advancedR

آمار و احتمالات

دانشمند داده خیلی بیشتر از اونی که برنامه نویس باشه، از آمار سر در می یاره. کتاب Think Stats به شما توزیع‌ها رو یاد می ده و روش‌های بررسی نظریه‌های آماری و رگرسیون رو. بعد باید Think Bayes رو بخونین تا با احتمالات شرطی آشنا بشین و در نهایت کتاب پیشرفته بعدی الگوریتم‌های پیشرفته تری رو داره. هر سه کتاب به پایتون نزدیک هستن.

think_stats think_bayes probali_programming

یادگیری ماشینی آماری

کتاب An Introduction to Statistical Learning ساده تر از اون یکی است و برای شروع پیشنهاد می شه. کتاب به R نزدیکه. کتاب دوم مدت ها کتاب مرجع درسی بوده و در جامعه یادگیری ماشینی آماری جایگاه والایی داره و وقتی در این جایگاهه یعنی پیشرفته است و دقت زیادتری می خواد خوندنش. اگر می خواین شروع کنین با کتاب اول شروع کنین.

an_introduction_to_stat_learning the_elements_of_stat_learning

پروسس داده

کتاب The Elements of Data Analytic Style به مهارت های عملی می پردازه – مثل تمیز کردن یا بررسی داده‌ها و نمایش و ارائه و به اشتراک گذاشتن نتایج.

the elemnts of data analytic style

طراحی تجربی

دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تست‌های A/B باید بلد باشین رو بهتون می گه. مبحثی بسیار مدرن که من هنوز ندیدم استارتاپ های ایرانی در ارائه محصول به سراغش رفته باشن.

a first course in design and analysis of experiments

بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS

ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا باهاش دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستن و در نهایت شما رو به یک حرفه ای تبدیل خواهند کرد.
interactive data vis d3 tips tricks

داده کاوی و یادگیری عمیق

دو کتابی که اینجا معرفی می‌شن نوشته آدم‌های بسیار معروفی در این حوزه هستن و تقریبا هر چیزی که لازمه در مورد داده کاوی بدونین رو پوشش می دن. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستم‌های توصیه گر، پیج رنک و تحلیل شبکه‌های اجتماعی رو آ«وزش می ده. کتاب دوم به اسم دیپ لرنینگ که بخش‌های رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.

deep mmds

مصاحبه‌هایی با دانشمندان داده

دیتا ساینس یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستن. دو کتابی که در اینجا معرفی می‌شن هر دو مجموعه مصاحبه‌هایی هستن با دانشمند های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمود. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با هم ندارن و خوندن هر دوشون توصیه می شه.

the data analytics data science handbook

ساخت تیم‌های دانش داده

و در نهایت وقتی دانشمندهای داده اینقدر مهم شدن، مدیرها هم نیاز به تیم‌هایی از اونها یا حداقل همکاری اونها در تیم‌هاشون دارن. کتاب Data Driven‌ قبلا توی این سایت معرفی شده و نوشته مشهورترین دیتا ساینتیست‌ها است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمان‌های بزرگ دارن با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم رو در سازمانشون پیاده کنن و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمی‌ترین کتاب‌های این حوزه است (یعنی ۲۰۱۱).

data driven building data science teams understanding cdo

تکرار حرف اول

نمی شه آدم در همه چیز حرفه ای باشه. باید یک حوزه رو انتخاب کنین که توش حرفه ای باشین و در بقیه حوزه‌ها دید داشته باشین. اگر تصمیم دارین در این حوزه حرفه ای بشین (یا حداقل دید خوبی پیدا کنین) بهتره به جای دانلود و آرشیو همه کتاب‌ها، یکی یکی شروع به خوندنشون کنین. توصیه من شروع کردن با Data Driven و بعد Data Sceince Handbook است و همزمان یکی از کتاب‌های یادگیری آر یا پایتون و بعد Think Stats و Mining of Massive Datasets و دو فصل اول Experimental Design. بعدش خودتون دید کافی دارین که چطوری ادامه بدین.


مرتبط
رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

توجه: منبع اصلی این کتاب در حال آپدیت شدن دائمی است. الان دیگه خوبه به منبع اصلی برای دیدن کتاب های رایگان مرتبط با دیتاساینس و دانش داده سر بزنین.