این لیست فهرستی است از ۱۶ کتاب مجانی که می تونه به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کنه. شدیدا پیشنهاد می کنم که اگر واقعا علاقمند هستین در این حوزه پیشرفت کنین بهتره به جای دانلود یکضرب این شونزده کتاب، لینک رو ذخیره کنین، یک کتاب رو بگیرین و بخونین و هر وقت تموم شد بیاین به همین لینک و برین سراغ کتاب بعدی. یک مشکل تکنولوژی در این روزها اینه که آدم ها به جای اینکه چیزی که می خوان رو یاد بگیرن توی مغز، چیزی که می خوان رو فقط دانلود می کنن روی هارد (: به هرحال. این شما و این ۱۶ کتاب رایگان برای تبدیل شدن به یک دانشمند داده یا همون دیتا ساینتیست به انتخاب ویلیام شن از کورا.
مرتبط: رادیوگیک ۵۳: آشنایی با دادههای بزرگ
آر و پایتون
مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتونین برنامه بنویسین. بعضی ها با R کار می کنن و بعضی ها با پایتون و بعضی ها با زبون های دیگه. انتخاب بین این دو بسیار سخته ولی در نهایت من برای شخص خودم بعد از دو سال کار با هر دو، تصمیم گرفتم تمرکزم رو فقط بذارم روی پایتون چون دائم این دو تا زبون رو با هم قاطی می کردم.
آمار و احتمالات
دانشمند داده خیلی بیشتر از اونی که برنامه نویس باشه، از آمار سر در می یاره. کتاب Think Stats به شما توزیعها رو یاد می ده و روشهای بررسی نظریههای آماری و رگرسیون رو. بعد باید Think Bayes رو بخونین تا با احتمالات شرطی آشنا بشین و در نهایت کتاب پیشرفته بعدی الگوریتمهای پیشرفته تری رو داره. هر سه کتاب به پایتون نزدیک هستن.
یادگیری ماشینی آماری
کتاب An Introduction to Statistical Learning ساده تر از اون یکی است و برای شروع پیشنهاد می شه. کتاب به R نزدیکه. کتاب دوم مدت ها کتاب مرجع درسی بوده و در جامعه یادگیری ماشینی آماری جایگاه والایی داره و وقتی در این جایگاهه یعنی پیشرفته است و دقت زیادتری می خواد خوندنش. اگر می خواین شروع کنین با کتاب اول شروع کنین.
پروسس داده
کتاب The Elements of Data Analytic Style به مهارت های عملی می پردازه – مثل تمیز کردن یا بررسی دادهها و نمایش و ارائه و به اشتراک گذاشتن نتایج.
طراحی تجربی
دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تستهای A/B باید بلد باشین رو بهتون می گه. مبحثی بسیار مدرن که من هنوز ندیدم استارتاپ های ایرانی در ارائه محصول به سراغش رفته باشن.
بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS
ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا باهاش دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستن و در نهایت شما رو به یک حرفه ای تبدیل خواهند کرد.
داده کاوی و یادگیری عمیق
دو کتابی که اینجا معرفی میشن نوشته آدمهای بسیار معروفی در این حوزه هستن و تقریبا هر چیزی که لازمه در مورد داده کاوی بدونین رو پوشش می دن. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستمهای توصیه گر، پیج رنک و تحلیل شبکههای اجتماعی رو آ«وزش می ده. کتاب دوم به اسم دیپ لرنینگ که بخشهای رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.
مصاحبههایی با دانشمندان داده
دیتا ساینس یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستن. دو کتابی که در اینجا معرفی میشن هر دو مجموعه مصاحبههایی هستن با دانشمند های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمود. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با هم ندارن و خوندن هر دوشون توصیه می شه.
ساخت تیمهای دانش داده
و در نهایت وقتی دانشمندهای داده اینقدر مهم شدن، مدیرها هم نیاز به تیمهایی از اونها یا حداقل همکاری اونها در تیمهاشون دارن. کتاب Data Driven قبلا توی این سایت معرفی شده و نوشته مشهورترین دیتا ساینتیستها است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمانهای بزرگ دارن با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم رو در سازمانشون پیاده کنن و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمیترین کتابهای این حوزه است (یعنی ۲۰۱۱).
تکرار حرف اول
نمی شه آدم در همه چیز حرفه ای باشه. باید یک حوزه رو انتخاب کنین که توش حرفه ای باشین و در بقیه حوزهها دید داشته باشین. اگر تصمیم دارین در این حوزه حرفه ای بشین (یا حداقل دید خوبی پیدا کنین) بهتره به جای دانلود و آرشیو همه کتابها، یکی یکی شروع به خوندنشون کنین. توصیه من شروع کردن با Data Driven و بعد Data Sceince Handbook است و همزمان یکی از کتابهای یادگیری آر یا پایتون و بعد Think Stats و Mining of Massive Datasets و دو فصل اول Experimental Design. بعدش خودتون دید کافی دارین که چطوری ادامه بدین.
مرتبط
– رادیوگیک ۵۳: آشنایی با دادههای بزرگ
توجه: منبع اصلی این کتاب در حال آپدیت شدن دائمی است. الان دیگه خوبه به منبع اصلی برای دیدن کتاب های رایگان مرتبط با دیتاساینس و دانش داده سر بزنین.