جادی تی وی ۰۰۷ – ipython notebook و vcfها

در این قسمت از جادی تی وی، یک برنامه بسیار ساده برای تبدیل یک فایل متنی به چندین فایل کارت ویزیت دیجیتال با استفاده از زبان برنامه نویسی پایتون و ابزار ipython notebook که معمولا دیتا ساینتیست ها ازش استفاده می کنن می نویسیم. هدف آشنایی با یک ضرب المثل بزرگ در دنیای برنامه نویسی است:

برنامه بزرگی که کار می کنه روزی برنامه ساده ای بوده که کار می کرده

و همچنین شناختن ipython و notebookهاش که یکی از پر کاربردترین ابزارهای دیتا ساینتیست‌ هایی هستن که با زبان پایتون کار می‌کنن.

عضویت شما در کانال یوتیوب جادی تی وی و کانال جادی تی وی در آپارات و تبلیغشون بهترین روحیه بخش من برای ادامه ویدئوها است.

شانزده کتاب رایگان و عالی برای هر کسی که می خواد دانشمند داده بشه +‌ پیشنهاد مسیر

این لیست فهرستی است از ۱۶ کتاب مجانی که می تونه به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کنه. شدیدا پیشنهاد می کنم که اگر واقعا علاقمند هستین در این حوزه پیشرفت کنین بهتره به جای دانلود یکضرب این شونزده کتاب،‌ لینک رو ذخیره کنین، یک کتاب رو بگیرین و بخونین و هر وقت تموم شد بیاین به همین لینک و برین سراغ کتاب بعدی. یک مشکل تکنولوژی در این روزها اینه که آدم ها به جای اینکه چیزی که می خوان رو یاد بگیرن توی مغز، چیزی که می خوان رو فقط دانلود می کنن روی هارد (: به هرحال. این شما و این ۱۶ کتاب رایگان برای تبدیل شدن به یک دانشمند داده یا همون دیتا ساینتیست به انتخاب ویلیام شن از کورا.

مرتبط: رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

آر و پایتون

مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتونین برنامه بنویسین. بعضی ها با R کار می کنن و بعضی ها با پایتون و بعضی ها با زبون های دیگه. انتخاب بین این دو بسیار سخته ولی در نهایت من برای شخص خودم بعد از دو سال کار با هر دو، تصمیم گرفتم تمرکزم رو فقط بذارم روی پایتون چون دائم این دو تا زبون رو با هم قاطی می کردم.

thinkpython r_for_data_sceince advancedR

آمار و احتمالات

دانشمند داده خیلی بیشتر از اونی که برنامه نویس باشه، از آمار سر در می یاره. کتاب Think Stats به شما توزیع‌ها رو یاد می ده و روش‌های بررسی نظریه‌های آماری و رگرسیون رو. بعد باید Think Bayes رو بخونین تا با احتمالات شرطی آشنا بشین و در نهایت کتاب پیشرفته بعدی الگوریتم‌های پیشرفته تری رو داره. هر سه کتاب به پایتون نزدیک هستن.

think_stats think_bayes probali_programming

یادگیری ماشینی آماری

کتاب An Introduction to Statistical Learning ساده تر از اون یکی است و برای شروع پیشنهاد می شه. کتاب به R نزدیکه. کتاب دوم مدت ها کتاب مرجع درسی بوده و در جامعه یادگیری ماشینی آماری جایگاه والایی داره و وقتی در این جایگاهه یعنی پیشرفته است و دقت زیادتری می خواد خوندنش. اگر می خواین شروع کنین با کتاب اول شروع کنین.

an_introduction_to_stat_learning the_elements_of_stat_learning

پروسس داده

کتاب The Elements of Data Analytic Style به مهارت های عملی می پردازه – مثل تمیز کردن یا بررسی داده‌ها و نمایش و ارائه و به اشتراک گذاشتن نتایج.

the elemnts of data analytic style

طراحی تجربی

دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تست‌های A/B باید بلد باشین رو بهتون می گه. مبحثی بسیار مدرن که من هنوز ندیدم استارتاپ های ایرانی در ارائه محصول به سراغش رفته باشن.

a first course in design and analysis of experiments

بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS

ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا باهاش دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستن و در نهایت شما رو به یک حرفه ای تبدیل خواهند کرد.
interactive data vis d3 tips tricks

داده کاوی و یادگیری عمیق

دو کتابی که اینجا معرفی می‌شن نوشته آدم‌های بسیار معروفی در این حوزه هستن و تقریبا هر چیزی که لازمه در مورد داده کاوی بدونین رو پوشش می دن. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستم‌های توصیه گر، پیج رنک و تحلیل شبکه‌های اجتماعی رو آ«وزش می ده. کتاب دوم به اسم دیپ لرنینگ که بخش‌های رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.

deep mmds

مصاحبه‌هایی با دانشمندان داده

دیتا ساینس یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستن. دو کتابی که در اینجا معرفی می‌شن هر دو مجموعه مصاحبه‌هایی هستن با دانشمند های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمود. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با هم ندارن و خوندن هر دوشون توصیه می شه.

the data analytics data science handbook

ساخت تیم‌های دانش داده

و در نهایت وقتی دانشمندهای داده اینقدر مهم شدن، مدیرها هم نیاز به تیم‌هایی از اونها یا حداقل همکاری اونها در تیم‌هاشون دارن. کتاب Data Driven‌ قبلا توی این سایت معرفی شده و نوشته مشهورترین دیتا ساینتیست‌ها است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمان‌های بزرگ دارن با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم رو در سازمانشون پیاده کنن و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمی‌ترین کتاب‌های این حوزه است (یعنی ۲۰۱۱).

data driven building data science teams understanding cdo

تکرار حرف اول

نمی شه آدم در همه چیز حرفه ای باشه. باید یک حوزه رو انتخاب کنین که توش حرفه ای باشین و در بقیه حوزه‌ها دید داشته باشین. اگر تصمیم دارین در این حوزه حرفه ای بشین (یا حداقل دید خوبی پیدا کنین) بهتره به جای دانلود و آرشیو همه کتاب‌ها، یکی یکی شروع به خوندنشون کنین. توصیه من شروع کردن با Data Driven و بعد Data Sceince Handbook است و همزمان یکی از کتاب‌های یادگیری آر یا پایتون و بعد Think Stats و Mining of Massive Datasets و دو فصل اول Experimental Design. بعدش خودتون دید کافی دارین که چطوری ادامه بدین.


مرتبط
رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

توجه: منبع اصلی این کتاب در حال آپدیت شدن دائمی است. الان دیگه خوبه به منبع اصلی برای دیدن کتاب های رایگان مرتبط با دیتاساینس و دانش داده سر بزنین.

دوستای من تو لینکدین چیکاره هستن؟ بازنمایی اطلاعات با R

می دونین که من این چند وقت از داده‌ها، زبان برنامه نویسی آر و اینجور چیزها بیشتر می نویسم. هدفم اینه که کارهای جالب روزمره که برای یاد گرفتن بیشتر این چیزها می شه کرد رو باهاتون شریک بشم. یک جور دستگرمی برنامه نویسی ولی مهمتر از اون آماده شدن ذهنی برای اتفاق‌های بزرگی که در دنیای برنامه نویسی در جریان هستن.

در این مجموعه، امروز با الهام از کار مشابه در این فروم (که متاسفانه دیدنش نیازمند ساخت اکانت است با R و بسته تازه منتشر شده ای به اسم Rlinkedin که می تونه این زبون عددی / آماری رو به سایت لیندکین که شبکه اجتماعی بازار کار تخصصی است وصل کنه و به این برسه که دوستان من اکثرا چنین عناوین شغلی ای دارن:

title

اما چطوری؟ برای شروع باید اول بسته Rlinkedin رو نصب کنیم که با توجه به بسته devtools کار راحتی است:

require(devtools)
install_github("mpiccirilli/Rlinkedin")
require(Rlinkedin)

بعد لازمه شناسه خودمون رو به این بسته معرفی کنیم. من روش راحت رو باز می کنم و می گم فقط نیازمند این هستم که این بسته در این لحظه وصل بشه به اکانت من:

in.auth <- inOAuth()

این دستور یک لینک بهم می ده که کافیه تو براوزر بازش کنم و توی لیندکین لاگین کنم. حالا بسته Rlinkedin به لیندکین وصل شده و کار راحته.

در قدم اول همه کانتکت‌هایی که دارم رو توی یک ساختار ذخیره می کنم:

my.connections <- getMyConnections(in.auth)

و حالا مثلا بخش عناوین شغلی این ساختار رو به شکل متنی در یک متغیر می ریزم:

text <- toString(my.connections$title)

و با استفاده از بسته wordcloud و بعد از کمی تمیز کاری (حذف کاما، کوچیک کردن کل حروف و ...) و شمردن تکرار کلمات، ابر کلمات رو می کشم. در ابر کلمات اندازه فونت هر کلمه مرتبط با تعداد تکرار اون کلمه است و در نتیجه مثلا می بینیم که بیشتر دوست‌های من Developer هستن که نکته مثبتی است:

title

و البته معلومه که حالا که اینجا هستیم با خطی مثل

text <- toString(my.connections$industry)

می تونیم حوزه‌ای که افراد مرتبط با من کار می کنن رو هم در بیارم و ابرش رو بکشم که این یکی هم معقول و قابل دفاع است:

industries

اگر خوشتون اومد و روی لینکدین هستین و معقول می دونین، خوشحال می شم پروفایل من روی لینکدین رو روی BIG DATA یا Hadoop یا R یا Data Science یا NewSQL یا هر چیزی که دوست دارین من رو Endorse کنین که البته نمی دونم دقیقا به چه دردم خواهد خورد ولی حداقلش اینه که هی روی MySQL و PHP‌ و شبکه و لینوکس ایندورس نمی شم! خوش[بین] باشین و خندون و از اطلاعات و قشنگی‌شون لذت ببرین.