ما و کرونا، از هکرها تا دیتاست روی کگل

کرونا همه رو به تکاپو انداخته، از هکرهای خوبی که ۵۳۵۲ مقاله علمی مرتبط با کرونا رو به شکل پابلیک در اختیار عموم گذاشتن تا هکرهایی که ترس مردم از کرونا رو تبدیل کردن به کمپین‌های بدافزار و فیشینگ و سوء استفاده از موقعیت.

اما دیتاساینسی ها هم بیکار نیستن و اتفاقا ممکنه با داشتن دیتای زیاد، حداقل الگوهایی کشف بشه که به درد بقیه هم بخوره. فعلا قدم اول انتشار این دیتاست بوده روی سایت کگل. اگر در این حوزه هستین و کگل رو نمی شناسین، وقتشه که نه فقط به این دیتاست که به کل ماجرا هم نگاه دقیق داشته باشین. کگل که شامل تایم سریز روی یکسری از موارد است شامل:

  • شماره سریال
  • تاریخ مشاهده
  • استان
  • کشور
  • آخرین آپدیت
  • تعداد تایید شده ابتلا
  • تعداد تایید شده مرگ
  • تعداد تایید شده بهبودی

و خب شما می تونین انواع نمودارها و تحلیل ها رو ازش در بیارین. دانشگاه جان هاپکینز این دیتا رو به صورت دیتاشیت گوگل ارائه داده‌. معلومه که بدون اطلاعات صحیح در یک موضوع، پایه درک اون موضوع است. تا وقتی از چیزی اطلاعات منسجم نداشته باشیم، نمی تونیم در موردش حرف خاصی هم بزنیم.

۵

مسیر تبدیل شدن به یک دانشمند داده / دیتاساینتیست

این روزها دیتاساینس داره از پیک مد بودن میاد پایین و در نتیجه زمان خوبیه که تصمیم بگیرین دوستش دارین یا نه. از اونطرف دیتاساینس مسیر دیتاساینس شامل چیزهای زیادی است که هم خوبه هم بد. خوبه چون کلی مهارت متنوع توش یاد میگیرین که جاهای دیگه هم به درد می‌خوره و بده چون سخته و بزرگتر از چیزهایی مثل مثلا مدیرسیستمی. اما چیزهای سخت جالبن! پس اگر اهلش هستین، سعی کردم یه جمع بندی از چیزهایی که برای تبدیل شدن به یه دانشمند داده لازمه جمع آوری کنم. در واقع اینهای قدم های منطقی ای هستن برای وارد شدن به این حوزه؛ با یادآوری اینکه این حوزه بسیار وسیعه و شما در نهایت یه کناریش یه تخصص اصلی پیدا خواهید کرد. مثلا ممکنه شما فقط آمار بلد باشین و در یک تیم دانشمند داده حساب بشین یا فقط متخصص راه اندازی نودهای یک سیستم بیگ دیتا باشین و در تیمی کار کنین که بهش می گن گروه دیتا ساینتیست ها در حالی که شما شخصا اصلا کاری ندارین که این دیتاها چی هستن (: خلاصه… کلیت رو که بدونین، مسیر خودتون رو راحتتر پیدا می کنین. این مسیر احتمالا از اینجاها می گذره:

زبان برنامه نویسی مرتبط

دیتاساینتیست‌ها، لازم دارن داده‌ها رو انگولک کنن و چه مهارتی مفیدتر از برنامه نویسی؟ توی این جامعه سوال همیشگی «آر یا پایتون» است (و البته رقبای دیگه‌ای مثل جولیا) ولی انتظار می‌ره شما [بدونین که هیچ زبانی بهتر از اون یکی نیست و هر چیزی کاربرد خودش رو داره]. اما در نهایت لازمه شما با یکی از زبان‌های مرتبط که فعلا آر یا پایتون است، آشنایی قابل قبولی داشته باشین. من به هر دو علاقه دارم ولی الان به پایتون نزدیکتر هستم. خوبی یاد گرفتن پایتون هم اینه که شما با دونستنش، در حوزه‌هایی بسیار وسیع‌تر از کار با داده‌ها، توانمند شدین. اگر دوست داشتین می‌تونین راهنمای شروع و حرفه‌ای شدن در زبان برنامه نویسی پایتون من رو ببینین.

لینوکس و ابزارهاش

خیلی وقت‌ها دیتاهای شما در فایل‌هایی است که باید بتونین نگاهش کنین، تغییرش بدین، پایپش کنین، فیلترش کنین و کارهای مشابه. لازمه بتونین در سیستم عاملتون نسبتا راحت باشین بخصوص که فایل‌هاتون معمولا بزرگه و نامرتب و توانایی درست کار کردن باهاشون، بسیار حیاتی. یه دانشمند داده خیلی خوبه که به سیستم عاملش مسلط باشه. من یه راهنمای شروع و پیشرفت در لینوکس هم دارم

اکسل

بله (: به شکل بامزه‌ای اکسل به تنهایی ممکنه کلی کلی از کارهای شما رو راه بندازه. بلد بودن حرفه ای اکسل تقریبا بهترین توصیه ای است که می شه به هر کسی که با کامپیوتر کار می کنه کرد. نمونه آزاد و متن باز اکسل مایکروسافت، calc از مجموعه libreoffice است که بسیاری از قابلیت ها رو داره و در جاهایی حتی بهتره – و در جاهایی بدتر. اکسل رو خوب بلد باشین که گاهی کل کاری که دیتاساینتیست‌ها می‌کنن، تو اکسل خلاصه می‌شه (: البته اکسلی هاشون!

ویژوالایزیشن

مهارت مهم دیگه، مهارت نمایش داده‌ها است. اینکار گاهی تو خود زبان برنامه نویسی و خیلی ساده و سرراست انجام می‌شه و گاهی بیسار هنرمندانه و با برنامه‌های گرافیکی و گاهی با ابزارهایی مثل تبلو یا PowerBI از مایکروسافت. با هر چی که کار می کنین، باید بدونین این لایه‌ای است که نتیجه کل کار شما رو به یک مدیر رده بالا نشون می ده یا باعث می‌شه عموم با محصول فکر شما ارتباط برقرار کنن. این مرحله مهمه و خوبه روش وقت بذارین. در دنیای پایتون شاید این کتاب خوب باشه ولی دونستن ابزارهایی مثل تبلو و ممکنه در شاخه‌های دیگه ای به شما کمک کنه.

پایگاه‌های داده

حواستون هست که دانشمند داده با داده‌ها کار می کنه دیگه؟ و خیلی وقت‌ها این داده‌ها در انواع پایگاه‌های داده هستن. اگر شما مای‌اسکوئل، پستگره و مایکروسافت اسکوئل سرور رو بلد باشین کلی جلو هستین؛ چه برسه به آگاهی عمومی در مورد چیزهایی مثل مونگو و حتی سیستم‌هایی مثل اسپارک و مپ ریدوس. یادتونه گفتم برنامه نویسی هم مهمه؟‌ خیلی وقت‌ها شما با اسکرپ کردن وب یا ای پی آی ها، دارین دیتاهای خودتون رو توی دیتابیس‌هاتون می‌ریزین.

آمار و ریاضی

تا اینجا از بحث های فنی حرف زدیم ولی شما قراره دانشمند باشین نه تکنیسین!‌ در دنیای ریاضی، لازمه مفاهیم اولیه و چیزهایی مثل نمونه‌گیری و توزیع‌ها و میانگین و میانگین وزنی و مد و میانه و این چیزها رو بدونین. همچون احتمالات و توزیع‌‌های احتمالی و مفاهیم پیشرفته‌تری مثل آزمون‌های آماری و اعتبار و خی اسکوئر و دوستانش. برای نمونه به این کتاب و این یکی کتاب مراجعه کنین. شایدم این معرفی کتاب از من به درد بخوره.

یادگیری ماشین

موضوع داغ این روزها، یادگیری ماشین است. الگوریتم‌هایی که بعد از اجراشون حس می‌کنیم ماشین‌ها به شکل جادویی چیزی رو یاد گرفتن که ما به خوبی ازش سردرنمیاریم. برای درک مساله، خوبه حداقل این ده الگوریتم رو بلد باشین:‌ linear regression ،logistic regression ،SVM ،random forests ،Gradient Boosting ،PCA ،k-means ،collaborative filtering ،k-NN و ARIMA. در این بخش همچنین لازمه بفهمیم که چطوری باید پرفرمنس یه مدل رو سنجید، آپتییمایز کرد، کراس ولدیت کرد، توابع خطی و غیرخطی رو دونست و جبرخطی و حسابان رو بلد بود. البته لیست دونستی‌ها اینجا زیاده مثلا overfitting و شبکه‌های عصبی و درخت تصمیم و … و البته چیزهای بزرگی مثل هوش مصنوعی و تفسیر زبان طبیعی و … اگر در دنیای پایتون هستین دونستن کتابخونه‌هایی مثل نامپای، پایتورچ، سایکیتلرن، پانداز و تنسورفلو می‌تونه خط شروع خیلی خوبی به شما بده. کتاب پیشنهادی؟‌ یه نگاه به کار عملی با سایکیت لرن و تنسورفلو بندازین.

اما…

اما اینها فقط دانش عمومی است. برای تبدیل شدن به یه متخصص خوب شما باید یک مهارت دقیقتر هم داشته باشین. مثلا اینها رو بدونین ولی روی مثلا پردازش زبان طبیعی بیشتر کار کرده باشین. یا روی بینایی ماشین یا اصولا اطلاعاتتون از مفاهیم مرتبط با تشخیص تقلب زیاد باشه و موارد مشابه یا سراغ چیزهای مد روزتر مثل یادگیری عمیق یا سیستم‌هایی که خودشون قواعد بازی رو کشف می کنن و اینها برین و ببینین چی دوست دارین و ادامه اش بدین.

درست کردن اعتبار

اما کسی فقط با داشتن دانش، شناخته نمی‌شه. شروع کنین به کار عملی. پروژه‌های نمونه انجام بدین. دیتاهایی که بهش دسترسی دارین رو تفسیر و تحلیل کنین و نتایج و فرمول ها و پیش بینی های جالب بیرون بکشین. یا اصولا از سایت های پر داده ای مثل دیجیکالا و دیوار و شیپور و ایسام و بقیه دیتا در بیارین و یه کار جالب بکنین. اگر خودتون رو سطح بالاتر می بینین می تونین سراغ سایت هایی مثل کگل برین و اسم و رسمی به هم بزنین، حتی اون پایین مایین‌هاش – اونجاها هم به اندازه کافی مهمن!

حرف آخر

این رو هم بگم که این دنیا خیلی بزرگه. من هم متخصصش نیستم و جمع آوری کننده هستم. همونطور که اول بحث گفتم، این حوزه بسیار بزرگه و باز و جای کار زیادی هم داره. لازمه با جامعه اش پیوند بخورین و مقاله بخونین و ببینین بقیه چیکار می کنن و چه نیازهایی دارن. هم با ابزارهای متنوع ور برین و هم با داده‌های مختلف کار کنین و سعی کنین مسائل رو حل کنین. بخشی مهمی از دنیای دیتاساینس، بهتر کردن چیزهایی است که وجود دارن. این رو هم بدونین که مثل بقیه کارها، بخش بزرگی از کار ماجرای علمی اش نیست بلکه ماجرای تکنیسینی است. خیلی وقت ها داده کثیفن و شما کد می نویسین که کمی تمیزشون کنین. خیلی وقت ها فرمت دیتا مناسب نیست و باید یکسانشون کنین. خیلی وقت ها دیتا اونقدر بزرگه که روی یک کامپیوتر جا نمی شه و باید یه فکری بکنین و غیره و غیره. حوصله‌تون سر نره و با هیجان و لذت پیش برین و مساله طرح و حل کنین و چیز جدید یاد بگیرین و به زودی اسم خوبی برای خودتون درست خواهید کرد!

اگر هم فکر کردین چیزی باید اضافه یا کم بشه، خوشحال می شم تو کامنت ها بگین. تخصص منم نیست.

منبع اصلی این مطلب.

مرتبط

جادی تی وی ۰۰۷ – ipython notebook و vcfها

در این قسمت از جادی تی وی، یک برنامه بسیار ساده برای تبدیل یک فایل متنی به چندین فایل کارت ویزیت دیجیتال با استفاده از زبان برنامه نویسی پایتون و ابزار ipython notebook که معمولا دیتا ساینتیست ها ازش استفاده می کنن می نویسیم. هدف آشنایی با یک ضرب المثل بزرگ در دنیای برنامه نویسی است:

برنامه بزرگی که کار می کنه روزی برنامه ساده ای بوده که کار می کرده

و همچنین شناختن ipython و notebookهاش که یکی از پر کاربردترین ابزارهای دیتا ساینتیست‌ هایی هستن که با زبان پایتون کار می‌کنن.

عضویت شما در کانال یوتیوب جادی تی وی و کانال جادی تی وی در آپارات و تبلیغشون بهترین روحیه بخش من برای ادامه ویدئوها است.

شانزده کتاب رایگان و عالی برای هر کسی که می خواد دانشمند داده بشه +‌ پیشنهاد مسیر

این لیست فهرستی است از ۱۶ کتاب مجانی که می تونه به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کنه. شدیدا پیشنهاد می کنم که اگر واقعا علاقمند هستین در این حوزه پیشرفت کنین بهتره به جای دانلود یکضرب این شونزده کتاب،‌ لینک رو ذخیره کنین، یک کتاب رو بگیرین و بخونین و هر وقت تموم شد بیاین به همین لینک و برین سراغ کتاب بعدی. یک مشکل تکنولوژی در این روزها اینه که آدم ها به جای اینکه چیزی که می خوان رو یاد بگیرن توی مغز، چیزی که می خوان رو فقط دانلود می کنن روی هارد (: به هرحال. این شما و این ۱۶ کتاب رایگان برای تبدیل شدن به یک دانشمند داده یا همون دیتا ساینتیست به انتخاب ویلیام شن از کورا.

مرتبط: رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

آر و پایتون

مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتونین برنامه بنویسین. بعضی ها با R کار می کنن و بعضی ها با پایتون و بعضی ها با زبون های دیگه. انتخاب بین این دو بسیار سخته ولی در نهایت من برای شخص خودم بعد از دو سال کار با هر دو، تصمیم گرفتم تمرکزم رو فقط بذارم روی پایتون چون دائم این دو تا زبون رو با هم قاطی می کردم.

thinkpython r_for_data_sceince advancedR

آمار و احتمالات

دانشمند داده خیلی بیشتر از اونی که برنامه نویس باشه، از آمار سر در می یاره. کتاب Think Stats به شما توزیع‌ها رو یاد می ده و روش‌های بررسی نظریه‌های آماری و رگرسیون رو. بعد باید Think Bayes رو بخونین تا با احتمالات شرطی آشنا بشین و در نهایت کتاب پیشرفته بعدی الگوریتم‌های پیشرفته تری رو داره. هر سه کتاب به پایتون نزدیک هستن.

think_stats think_bayes probali_programming

یادگیری ماشینی آماری

کتاب An Introduction to Statistical Learning ساده تر از اون یکی است و برای شروع پیشنهاد می شه. کتاب به R نزدیکه. کتاب دوم مدت ها کتاب مرجع درسی بوده و در جامعه یادگیری ماشینی آماری جایگاه والایی داره و وقتی در این جایگاهه یعنی پیشرفته است و دقت زیادتری می خواد خوندنش. اگر می خواین شروع کنین با کتاب اول شروع کنین.

an_introduction_to_stat_learning the_elements_of_stat_learning

پروسس داده

کتاب The Elements of Data Analytic Style به مهارت های عملی می پردازه – مثل تمیز کردن یا بررسی داده‌ها و نمایش و ارائه و به اشتراک گذاشتن نتایج.

the elemnts of data analytic style

طراحی تجربی

دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تست‌های A/B باید بلد باشین رو بهتون می گه. مبحثی بسیار مدرن که من هنوز ندیدم استارتاپ های ایرانی در ارائه محصول به سراغش رفته باشن.

a first course in design and analysis of experiments

بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS

ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا باهاش دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستن و در نهایت شما رو به یک حرفه ای تبدیل خواهند کرد.
interactive data vis d3 tips tricks

داده کاوی و یادگیری عمیق

دو کتابی که اینجا معرفی می‌شن نوشته آدم‌های بسیار معروفی در این حوزه هستن و تقریبا هر چیزی که لازمه در مورد داده کاوی بدونین رو پوشش می دن. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستم‌های توصیه گر، پیج رنک و تحلیل شبکه‌های اجتماعی رو آ«وزش می ده. کتاب دوم به اسم دیپ لرنینگ که بخش‌های رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.

deep mmds

مصاحبه‌هایی با دانشمندان داده

دیتا ساینس یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستن. دو کتابی که در اینجا معرفی می‌شن هر دو مجموعه مصاحبه‌هایی هستن با دانشمند های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمود. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با هم ندارن و خوندن هر دوشون توصیه می شه.

the data analytics data science handbook

ساخت تیم‌های دانش داده

و در نهایت وقتی دانشمندهای داده اینقدر مهم شدن، مدیرها هم نیاز به تیم‌هایی از اونها یا حداقل همکاری اونها در تیم‌هاشون دارن. کتاب Data Driven‌ قبلا توی این سایت معرفی شده و نوشته مشهورترین دیتا ساینتیست‌ها است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمان‌های بزرگ دارن با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم رو در سازمانشون پیاده کنن و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمی‌ترین کتاب‌های این حوزه است (یعنی ۲۰۱۱).

data driven building data science teams understanding cdo

تکرار حرف اول

نمی شه آدم در همه چیز حرفه ای باشه. باید یک حوزه رو انتخاب کنین که توش حرفه ای باشین و در بقیه حوزه‌ها دید داشته باشین. اگر تصمیم دارین در این حوزه حرفه ای بشین (یا حداقل دید خوبی پیدا کنین) بهتره به جای دانلود و آرشیو همه کتاب‌ها، یکی یکی شروع به خوندنشون کنین. توصیه من شروع کردن با Data Driven و بعد Data Sceince Handbook است و همزمان یکی از کتاب‌های یادگیری آر یا پایتون و بعد Think Stats و Mining of Massive Datasets و دو فصل اول Experimental Design. بعدش خودتون دید کافی دارین که چطوری ادامه بدین.


مرتبط
رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

توجه: منبع اصلی این کتاب در حال آپدیت شدن دائمی است. الان دیگه خوبه به منبع اصلی برای دیدن کتاب های رایگان مرتبط با دیتاساینس و دانش داده سر بزنین.