پی دی اف رایگان کتاب مبانی یونیکس و اینترنت اثر اریک ریموند

کتاب ابریک ریموند هکر افسانه ایدوست خوبم مهدی فتاحی ترجمه ای که قدیمترها از کتاب مبانی یونیکس و اینترنت انجام داده رو برام فرستاده تا با دیگران به اشتراک بذارمش. مبانی یونیکس و اینترنت نوشته اریک ریموند هکر افسانه ای است. این کتاب نسبتا عجیبه. چیزی بین مقدماتی و پیشرفته که البته معنی اش «سطح میانی» نیست. اریک ریموند اینجا سعی کرده به شکل خلاصه مفاهیمی پیچیده رو توضیح بده و نگاه کردن به کتاب خالی از لطف نیست.

مرتبط:

چرا گنو لینوکس رو دوست دارم: پاسخ دادن به اینکه آیا سیستم ما وضعیت عادی داره یا مورد حمله است

ما سروری داریم که تازه تحویلش دادیم ولی هر روز حوالی ظهر با مشکل مواجه می شه. کار اصلی رو پروسه ای انجام می ده که اینجا بهش می گیم A. چندین پروسه A می تونن همزمان بالا باشن و کار کنن و ما گفتیم حداکثر این تعداد باید ۱۰۰ باشه. یعنی در صورت زیاد شدن بار، ۱۰۰ تا A بالا می یان و تقریبا صد برابر بهتر از یک A کار می کنن. یک بررسی سریع نشون می ده که در لحظه بروز مشکل دقیقا ۱۰۰ تا از پروسه A فعاله:

# ps -ef | grep A | wc -l
101

مشخصه دیگه: ps -ef پروسه ها رو نشون می ده، grep A فقط خط هایی که توشون A هست رو جدا می کنه و در نهایت wc -l تعداد خط ها رو می شمره (اگر گفتین چرا به جای ۱۰۰ تا شده صد و یکی؟).

علی الحساب تعداد Aها رو به حداکثر ۱۰۰۰ عدد افزایش می دیم و می ریم سراغ سوالی که مطرحه:

آیا ما مورد حمله هستیم؟ آیا حوالی ظهر سیستمی شروع به کار با سیستم ما می کنه که فشار رو به شکل غیرعادی بالا می بره؟ یا واقعا این شرایط عادی است و اینقدر از این سیستم استفاده می شه؟

ما لاگ هایی به این شکل داریم که حاصل کار A هستن:

127.0.0.1 -  26/Jul/2015:03:48:53 +0430 "POST /index.php?_url=xxxxx" 200 /home/adp/www/xxx/public/index.php 357.489 2048 86.72%
127.0.0.1 -  26/Jul/2015:03:48:58 +0430 "POST /index.php?_url=qqqq" 200 /home/adp/www/xxx/public/index.php 91.281 1280 98.60%
127.0.0.1 -  26/Jul/2015:03:49:32 +0430 "GET /index.php?aaa" 200 /home/adp/www/xxx/public/index.php 373.649 1792 56.20%
127.0.0.1 -  26/Jul/2015:03:50:03 +0430 "HEAD /index.php" 200 /home/adp/www/xxx/public/index.php 43.501 1280 91.95%
127.0.0.1 -  26/Jul/2015:03:55:03 +0430 "HEAD /index.php" 200 /home/adp/www/xxxx/public/index.php 63.519 1280 94.46%

من از چند روز پیش این لاگ ها رو فعال کردم تا همه درخواست ها ذخیره بشن و حالا کافیه بشمرم ببینم چه خبره! اول بذارین همه لاگ هار و به همدیگه بچسبونیم:

jadi@funlife:/tmp/dir$ ls -ltrh 
total 36M
-rw------- 1 jadi jadi 9.2M Jul 22 03:17 www.access.log-20150722
-rw------- 1 jadi jadi 6.0M Jul 23 03:10 www.access.log-20150723
-rw------- 1 jadi jadi 6.4M Jul 24 03:25 www.access.log-20150724
-rw------- 1 jadi jadi 2.5M Jul 25 03:25 www.access.log-20150725
-rw------- 1 jadi jadi 7.4M Jul 26 03:45 www.access.log-20150726
-rw------- 1 jadi jadi 4.2M Jul 26 15:17 www.access.log
jadi@funlife:/tmp/dir$ cat www.access.log-* www.access.log > all.log
jadi@funlife:/tmp/dir$ ls -ltrh 
total 72M
-rw------- 1 jadi jadi 9.2M Jul 22 03:17 www.access.log-20150722
-rw------- 1 jadi jadi 6.0M Jul 23 03:10 www.access.log-20150723
-rw------- 1 jadi jadi 6.4M Jul 24 03:25 www.access.log-20150724
-rw------- 1 jadi jadi 2.5M Jul 25 03:25 www.access.log-20150725
-rw------- 1 jadi jadi 7.4M Jul 26 03:45 www.access.log-20150726
-rw------- 1 jadi jadi 4.2M Jul 26 15:17 www.access.log
-rw-rw-r-- 1 jadi jadi  36M Jul 26 15:30 all.log

راحت و سر راست. دستور cat که محتوای فایل ها رو نشون می ده، کل فایل ها رو چسبونده به هم تا یک فایل بزرگ به اسم all.log داشته باشیم که هر خطش چنین فرمی داره:

127.0.0.1 -  26/Jul/2015:03:48:53 +0430 "POST /index.php?_url=xxxxx" 200 /home/adp/www/xxx/public/index.php 357.489 2048 86.72%

کافه من تاریخ رو جدا کنم. دستور کات همیشه دوست منه:

jadi@funlife:/tmp/dir$ cut -d' ' -f4 all.log | head
20/Jul/2015:12:03:35
20/Jul/2015:12:03:36
20/Jul/2015:12:03:39
20/Jul/2015:12:03:39

جذاب نیست؟ به سادگی گفتم کات کن با جدا کننده اسپیس و فیلد چهارم رو به من بده ولی حالا فقط چند خط اول رو نشون بده (head). عملا کار تموم شده! کافیه این خطها رو بشمرم؛ البته بعد از حذف کردن ثانیه و دقیقه. برای حذف اینها کافیه شش کاراکتر آخر هر خط رو بردارم یا با همون دستور کات دوباره بگم بر اساس :‌ جدا کنه و فیلد اول و دوم رو به من بده. این راه دوم برای من سر راست تره:

jadi@funlife:/tmp/dir$ cut -d' ' -f4 all.log | cut -d: -f1,2 | head
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12
20/Jul/2015:12

چقدر عالی. دیگه فقط کافیه سورت کنیم و بگیم بشمره. دستور uniq‌ می تونه با سوییچ های مختلف کارهای مختلف کنه. مثلا فقط خط های غیرتکراری بده، فقط خط های تکراری رو بده، از هر خط بیشتر از یکبار نده، بشمره از هر خط چند تا هست و … و البته این دستور وابسته به اینه که ورودی اش مرتب شده باشه. پس:

jadi@funlife:/tmp/dir$ cut -d' ' -f4 all.log | cut -d: -f1,2 | sort -n | uniq -c > data
jadi@funlife:/tmp/dir$ head data
   2795 20/Jul/2015:12
   2363 20/Jul/2015:13
   2383 20/Jul/2015:14
   2251 20/Jul/2015:15
   1796 20/Jul/2015:16
   1599 20/Jul/2015:17
    843 20/Jul/2015:18
    704 20/Jul/2015:20
    765 20/Jul/2015:19
   1039 20/Jul/2015:21

چه کردیم! (: فقط کافیه ترسیمش کنیم:

تعداد درخواست های سرور

و هر کسی که آمار یا حداقل نمودارهای نرمال بدونه می تونه بگه اتفاق غیرعادی ای در جریان نیست – حداقل در سطح درخواست ها. از ساعت هشت درخواست ها بالا می رن و بعد به شکلی نسبتا طبیعی افزایش پیدا می کنن تا آخر وقت اداری که دوباره آروم آروم پایین بیان. این پترن برای سایتی که مردم باهاش کار می کنن طبیعی است. مطمئنا می شه برنامه ما رو بهتر کرد ولی هدف من به عنوان مدیر سیستم این هست و بود که نشون بدم اتفاقی غیر عادی (درخواست ناگهانی از یک سیستم سر یک ساعت مشخص، حمله هکرها و …) در جریان نیست که تقریبا ثابت شده. اگر نمودارهای این تیپی دوست دارین بگین که بازم نمودارهایی واقعی از کارهای واقعی یک مدیر سیستم رو با هم مرور کنیم.

انتشار سلام دنیای شماره شش: پرینترهای سه بعدی. بعد از مدت نسبتا طولانی انتظار، شماره ششم مجله سلام دنیا‌ نسخه جدیدش رو منتشر کرد. تمرکز این شماره روی چاپگرهای ۳ بعدی است و مطالب جذابی از پشت صحنه نوشته شدن گیت، سخت افزارهای باز، داده های بزرگ و غیره داره و البته در بخش آخر من داستان علمی تخیلی ضروری ای با عنوان «انسان ناخودآگاه» رو توش ترجمه کرده ام که معلومه پیشنهادش می کنم. جولای 26, 2015 ، یک دیدگاه

رادیو گیک شماره ۵۴ – میره به حجله شادوماد

در شماره ۵۴ رادیو گیک، دور تا دور جهان رو می گردیم! از فرانسه و آمریکا در بخش اخبار می گذریم و به ایران می یام تا در مورد مذاکرات بگیم و پیشنهادهایی برای اینکه چطوری حکومت می تونه تا حدی باعث پیشرفت استارتاپ ها و شرکت های کوچیک بشه. بودن حسن روحانی در این شماره باعث نمی شه در مورد مدل موی عروس و لباس های کودکستان گپ نزنیم! در بخش آخر با یکی از بهترین متخصصین امنیت در جهان مرور می کنیم که «چرا رمزگذاری می کنیم؟»؛ جوابش خلاصه اش اینه: چون به نفع جامعه است.

مشترک رادیو گیک بشین


آر اس اس رادیو گیک

اپلیکیشن اندروید رادیو گیک

رادیو گیک در آیتونز

رادیو گیک در ساوند کلاود

اپلیکیشن iOS

اخبار

ویزای کار در آمریکا و مشکل آموزش کار توسط آمریکایی‌ها به مهاجران
کاخ سفید

خبر جالبیه و خب آمریکا هم توش داره دیگه… دوست و برادر و البته فعلا نه به دوست و برادری چین و روسیه (: ماجرا اینه که در یک کنفرانس خبری یک خبرنگار از دبیر دپارتمان امنیت داخلی آمریکا در مورد خبری که توش گفته می شه تعدادی از کارمندان دیزنی لند اخراج شدن ولی در ماه آخر مجبورن کاری که می کردن رو به مهاجرانی که با ویزای کار به آمریکا اومدن آموزش بدن جواب داده که «باید جلوی این اتفاق رو گرفت و اگر اینطوری ویزای h1b شکست خورده است». بحث پیچیدگی اقتصاد و سیاست (:

دولت فرانسه و حمایت از ODF و رد کردن فرمت مایکروسافت
کلیت خبر که توضیح بیشتری از تیتر لازم نداره. توضیح اهمیت بحث. رد شدن فرمت داکیومنت مایکروسافت علی رغم اینکه ایزو گرفته بود و البته ایزو گرفتن فرمت ODF. اهمیت مالکیت بر محتوای داکیومنت ها و در قدم آخر آزاد بودنش برای کسانی که مالیات تولیدشون رو دادن.

در اعماق

خبری که شاید نشنیده باشین: مذاکرات تموم شد

نظرات خودم. بحث مهمل اینکه موفق می شه یا نه. موفقیت داخلی برای هر دو طرف. نشونه ای از جهت حرکت که حتی اگر خودش مهم نباشه حرکت و جهتش مهمه. علاقمندی همه به توافق – پیروز نشدیم و شکست هم نخوردیم حرف زدیم کنار اومدیم. آینده و ارتباط احتمالی با جهان.
و حالا که حرف دولته بحث قانون دسترسی آزاد به اطلاعات رو هم بگم که به شکل بی سر و صدایی به عنوان یک ابلاغیه از طرف دولت اعلام شده و حرکت بسیار خوبی است.. بحث استارتاپ ها حضور دولت در همه جا و حق دسترسی به اطلاعاتی که با پول من درست می شه. بحث رقابت رو هم بکنم.

اوراکل و ورودی دیرهنگام به ابر موبایلی
اوراکل

ظاهرا وقتی همه مشغول اینترنت چیزها بودن، اوراکل درگیر خریدن شرکت های دیگه بوده و حالا تازه داره سعی می کنه به بقیه برسه و در ایونت آنلاین ۵ ساعته اش کلی چیز معرفی کرده: سرویس های ابری ۲۴ ساعته (اسمش منو یاد زمانی می ندازه که زیر خبرنامه ها می نوشتن «عضو خبرنامه رایگان ما بشین» یا «سایت ما ۲۴ ساعته قابل دسترسی است»). این سرویس IaaS، Pass, Saas و غیره رو به هم پیوند می ده و مدعی است که RDBMS و NoSQL و بیگ دیتا و سرویس های پروسس و اتصال داده هم داره! اما بخش متفاوت با دیگران Mobile Backend as a Service است. MBaaS. در این سیستم تلاش شده شما به عنوان توسعه دهنده موبایل با حجم بزرگی API سر و کار داشته باشین و به جای سر و کله زدن با اینفرااستراکچر، ای پی آی ها رو صدا بزنین. اکثر شرکتهای مبتنی بر MBaaS قبلی توسط شرکت های غول خریداری شدن و الان اوراکل نشون داده که اینبار به جای خرید می خواد بره سراغ ساختن. این پلتفرم همین الان امکانات مدیریت کاربران، پوش نوتیفیکیشن، ذخیره سازی آبجکت ها، دسترسی آفلاین، تحلیل، انواع دیتابیس رو داره و حتی می شه APIهای تردپارتی رو بهش وصل کرد و اس دی کی مناسب برای کوردوا، آی او اس و اندروید رو هم داده. [کمی بحث در مورد مدل توسعه موبایل]

وصل کردن مغز موش‌ها به همدیگه و ساختن اینترنت مغزها
اتصال مغز موش
اینترنت چیزها رو بیخیال بشین! اینترنت مغزها داره می یاد! از دانشگاه دوک هلند زیاد شنیدیم… اینبار هم محققی اونجا مغز چهار تا موش رو به هم شبکه کرده و نتیجه نهایی مغزی است که بهتر از مغز هر کدوم از موش‌ها می تونه محاسبه کنه! این مغز که بهش brainet می گن حاصل اتصال مغز چند حیوان به همدیگه و انتقال اطلاعات در زمان واقعی بین اونها است – از طریق اجزایی که بهش «رابط مستقیم مغز به مغز» نام برده شده و نتیجه اش می شه یک کامپیوتر ارگانیک. در مقاله دیگه ای به سه میمون اشاره شده که مغزشون به هم وصل شده و می تونن یک بازوی رباتیک که به یک کنترل کننده سه بعدی وصل شده رو بعد از چند روز و بدون آموزش دیدن به خوبی کنترل کنن! دانشگاه دوک ظاهرا جایی که لازمه هم علمی ها هم علاقمندان علمی تخیلی زیر نظرش بگیرن!

تبریک و تقبیح

گوشی کمودور

تبریک می گیم به شرکت عالی کمودور که به بازار برگشته، با یک گوشی بامزه و خوب اندرویدی. کمی توضیح در مورد نوستالژی و شبیه سازهای روی این گوشی

و تبریکی هم داریم به انگلیسی ها که یک دایناسور کامل با بافت غیراستخوانی فسیل شده پیدا کردن که اتفاق بزرگی است.

و تسلیت به گوگل به خاطر گم کردن یکی از هاردورهای شبکه اش! [ماجرا رو بگم]

نامه ها

بخش آخر

چرا رمزگذاری می کنیم

ترجمه مقاله Why We Encrypt از بروس اشنیر

رمزگذاری از داده‌های ما حفاظت می‌کند؛ چه وقتی این داده ها روی کامپیوترهای ما نشسته‌اند یا داخل دیتاسنترها ذخیره شده اند یا زمانی که حال انتقال روی اینترنت هستند. رمزگذاری از صحبت‌های ما حفاظت می‌کند، چه تصویر باشند، چه صدا و چه نوشته. رمزگذاری حافظ خلوت و حریم شخصی ما است. از ناشناس بودن ما حفاظت می کند و گاهی حتی از زندگی ما.

این حفاظت برای همگان اهمیت دارد. راحت است درک کنیم که رمزنگاری چگونه از روزنامه‌نگاران، مدافعان حقوق بشر و فعالان سیاسی در کشورهای تمامیت خواه حمایت می‌کند اما رمزگذاری از بقیه ما هم محافظت می‌کند. رمزگذاری از اطلاعات ما در مقابل جنایتکاران حفاظت می‌کند. از اطلاعات ما در مقابل رقبا، همسایه‌ها و افراد خانواده هم حفاظت می‌کند. همچنین از حمله‌کنندگان بدخواه و از اتفاق‌ها.

رمزگذاری زمانی بهترین نتیجه را می دهد که همیشه حاضر و خودکار باشد. دو شکل رمزگذاری که ما همیشه در حال استفاده از آن هستیم – آدرس های https و لینک بین گوشی همراه و دکل‌های مخابراتی – کارکردی فوق العاده دارند چون همیشه حاضرند و به شکل خودکار انجام می‌شوند؛ حتی بدون اینکه متوجه حضورشان باشیم.

رمزگذاری باید همیشه به شکل پیش‌فرض فعال باشد و نه به شکل گزینه‌ای که وقتی کار حساسی داریم می‌توانیم آن را روشن کنیم.

این مهم است چون اگر از رمزگذاری فقط در مواقعی که با داده‌های مهم کار می کنیم استفاده کنیم، آن‌گاه خود رمزگذاری نشان دهنده اهمیت کار در حال انجام خواهد بود. اگر فقط افراد ناراضی از حکومت در یک کشور از رمزگذاری استفاده کنند، حاکمان روشی ساده برای شناسایی‌شان برای آن‌ها خواهند داشت اما اگر همه همیشه از رمزگذاری استفاده کنند، رمز دیگر یک نشانه نخواهد بود و هیچ کس نمی‌تواند تفاوت یک چت ساده و یک بحث حساس را متوجه شود و دولت‌ها نخواهند توانست مخالفان را از بقیه جمعیت تشخیص دهند. هر بار که شما از رمزگذاری استفاده می‌کنید، مشغول دفاع از کسی هستید که برای حفظ جانش به آن وابسته است.

مهم است فراموش نکنیم که رمزگذاری به شکلی جادویی تضمین کننده امنیت نیست. روش‌های زیادی برای خنثی کردن رمزگذاری موجود است و معمولا هم درباره آن‌ها در خبرها می‌خوانیم. رمزگذاری از کامپیوتر یا تلفن شما در مقابل هک شدن حفاظت نمی‌کند و نمی‌تواند متادیتای شما را مخفی کند – برای مثال آدرس ایمیل باید بدون رمز باشد تا بتوان ایمیل را به مقصد رساند.

اما رمزگذای مهمترین تکنولوژی حفاظت از خلوت شخصی است که در حال حاضر به آن دسترسی داریم و از قضا روشی دقیقا برای حفاظت علیه شنود همگانی از آن نوعی که دولت‌ها از طریق آن در تلاش برای کنترل شهروندان و جنایتکاران در تلاش برای یافتن نقاط ضعف قربانیان هستند. با اجبار هر دوی این گروه‌ها به تمرکز روی افراد به جای کلیت جامعه، ما در حال دفاع از کلیت جامعه خواهیم بود.

امروزه شاهد فشار دولت‌ها علیه رمزگذاری هستیم. بسیاری کشورها – از دولت‌هایی مانند چین و روسیه تا کشورهای دموکراتیک تری مانند انگلستان و آمریکا – یا در حال صحبت در این مورد هستند که باید جلوی رمزگذاری‌های قوی گرفته شود یا اصولا این قوانین را تصویب کرده‌اند. این خطرناک است چرا که از نظر فنی غیرممکن است و تلاش برای آن باعث صدمه‌ای جدی به امنیت اینترنت خواهد شد.

از این بحث دو نتیجه نهایی گرفته می شود. اول اینکه باید شرکت‌ها را به سمت پیشنهاد رمزگذاری به همگان به شکل پیش‌فرض سوق دهیم. دوم اینکه باید در مقابل فشار دولت‌ها به منظور تضعیف رمزگذاری مقاومت کنیم. هر قدم به منظور ضعیف کردن رمزها، حتی اگر به اسم اعمال قانون صورت گیرد ریسک ما را بالا می‌برد. حتی با وجودی که مجرمین هم ممکن است از رمزگذاری‌های قوی استفاده کنند، در نهایت و در کل با بودن رمزگذاری قوی عمومی، امنیت بسیار بیشتری خواهیم داشت.

اصل این مقاله ابتدا در Securing Safe Space Online منتشر شده.

موسیقی

شهر کهنه، مرد کهنه، درد نو

فرصت کار: دعوت به همکاری در تیم توسعه محصول زورق

there-are-two-type-of-programmers

زورق وب‌سایت جامع خدمات جامع سفر و رزرواسیون آنلاین هتل و پرواز است. هدف ما تبدیل شدن به بزرگ ترین سرویس دهنده آنلاین خدمات سفر است و برای رسیدن به این هدف به آدم‌هایی نیاز داریم که مشتاق یادگیری و پیشرفت باشند، ممکن کردن ناممکن‎ها برایشان هیجان انگیز باشد و از حل مسئله و رسیدن به بهترین راه حل برای رضایت مشتری، انرژی بگیرند.

ما در زورق، در حال طراحی و پیاده سازی سیستم های رزرواسیون خدمات آنلاین سفر هستیم و می‎خواهیم با استفاده از تجربه‎ گذشته و نگاه به آینده، محصولی بسازیم که کاملا مطابق با نیاز کاربر باشد؛ انتخاب و خرید آنلاین سفر را راحت و آسان کند و از پروسه ای طولانی و خسته کننده تجربه‎ای لذت بخش بسازد.

امروز در حال توسعه تیم محصول خود هستیم و به آدم هایی با تجربه های زیر نیاز داریم:

خصوصیات کلی

  • درک چهارچوب توسعه نرم افزاری چابک. فریم ورک مورد استفاده ما اسکرام است. چیز ترسناکی نیست و در صورتی که با این شیوه آشنایی ندارید، در کنار ما یاد می‌گیرید.
  • تجربه استفاده از Git برای ورژن کنترل

رزومه تان را برای ما ایمیل کنید: HR@hr.zoraq.com

Visual/UI Designer

  • At least 3 years professional experience in visual design
  • High levels of competence with Adobe Creative Suite, including Photoshop and Illustrator. (bonus: Sketch)
  • Experience in designing for multiple platforms (Desktop, Mobile & Tablet web / apps)
  • Strong knowledge of design fundamentals, layout, typography, visual Hierarchy in Web Design, and web specifications.
  • Participate on developing product strategies and working closely with developers.
  • Knowledge of Animation principles and Motion graphics experience are a plus.

Back-end Developer

Role: Design and implement service based system

  • Expert in SOA system design and implement
  • Expert in Web API and WCF
  • Expert in object-oriented and modular design and software architecture
  • Familiar with MVC and Entity Framework
  • At least three years of related experience

Role: Design and implement Web Application

  • Expert in ASP.NET MVC design and implement
  • Expert in object-oriented and modular design and software architecture
  • Familiar with Unit testing, deployment strategy and continuous integration strategies
  • Familiar with WCF
  • Familiar with SPA and java-script frameworks
  • At least three years of related experience

Front-end Developer

  • Efficient, well-structured use of HTML5 and CSS3
  • Experience with Bootstrap
  • Knowledge in JavaScript, JQuery or similar JavaScript frameworks
  • Familiarity with version control systems such as Git, Bitbucket etc
  • Familiarity with AngularJS framework is a big plus
  • An understanding of the latest features and trends in UI design

رزومه تان را برای ما ایمیل کنید: HR@hr.zoraq.com

شانزده کتاب رایگان و عالی برای هر کسی که می خواد دانشمند داده بشه +‌ پیشنهاد مسیر

این لیست فهرستی است از ۱۶ کتاب مجانی که می تونه به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کنه. شدیدا پیشنهاد می کنم که اگر واقعا علاقمند هستین در این حوزه پیشرفت کنین بهتره به جای دانلود یکضرب این شونزده کتاب،‌ لینک رو ذخیره کنین، یک کتاب رو بگیرین و بخونین و هر وقت تموم شد بیاین به همین لینک و برین سراغ کتاب بعدی. یک مشکل تکنولوژی در این روزها اینه که آدم ها به جای اینکه چیزی که می خوان رو یاد بگیرن توی مغز، چیزی که می خوان رو فقط دانلود می کنن روی هارد (: به هرحال. این شما و این ۱۶ کتاب رایگان برای تبدیل شدن به یک دانشمند داده یا همون دیتا ساینتیست به انتخاب ویلیام شن از کورا.

مرتبط: رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ

آر و پایتون

مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتونین برنامه بنویسین. بعضی ها با R کار می کنن و بعضی ها با پایتون و بعضی ها با زبون های دیگه. انتخاب بین این دو بسیار سخته ولی در نهایت من برای شخص خودم بعد از دو سال کار با هر دو، تصمیم گرفتم تمرکزم رو فقط بذارم روی پایتون چون دائم این دو تا زبون رو با هم قاطی می کردم.

thinkpython r_for_data_sceince advancedR

آمار و احتمالات

دانشمند داده خیلی بیشتر از اونی که برنامه نویس باشه، از آمار سر در می یاره. کتاب Think Stats به شما توزیع‌ها رو یاد می ده و روش‌های بررسی نظریه‌های آماری و رگرسیون رو. بعد باید Think Bayes رو بخونین تا با احتمالات شرطی آشنا بشین و در نهایت کتاب پیشرفته بعدی الگوریتم‌های پیشرفته تری رو داره. هر سه کتاب به پایتون نزدیک هستن.

think_stats think_bayes probali_programming

یادگیری ماشینی آماری

کتاب An Introduction to Statistical Learning ساده تر از اون یکی است و برای شروع پیشنهاد می شه. کتاب به R نزدیکه. کتاب دوم مدت ها کتاب مرجع درسی بوده و در جامعه یادگیری ماشینی آماری جایگاه والایی داره و وقتی در این جایگاهه یعنی پیشرفته است و دقت زیادتری می خواد خوندنش. اگر می خواین شروع کنین با کتاب اول شروع کنین.

an_introduction_to_stat_learning the_elements_of_stat_learning

پروسس داده

کتاب The Elements of Data Analytic Style به مهارت های عملی می پردازه – مثل تمیز کردن یا بررسی داده‌ها و نمایش و ارائه و به اشتراک گذاشتن نتایج.

the elemnts of data analytic style

طراحی تجربی

دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تست‌های A/B باید بلد باشین رو بهتون می گه. مبحثی بسیار مدرن که من هنوز ندیدم استارتاپ های ایرانی در ارائه محصول به سراغش رفته باشن.

a first course in design and analysis of experiments

بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS

ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا باهاش دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستن و در نهایت شما رو به یک حرفه ای تبدیل خواهند کرد.
interactive data vis d3 tips tricks

داده کاوی و یادگیری عمیق

دو کتابی که اینجا معرفی می‌شن نوشته آدم‌های بسیار معروفی در این حوزه هستن و تقریبا هر چیزی که لازمه در مورد داده کاوی بدونین رو پوشش می دن. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستم‌های توصیه گر، پیج رنک و تحلیل شبکه‌های اجتماعی رو آ«وزش می ده. کتاب دوم به اسم دیپ لرنینگ که بخش‌های رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.

deep mmds

مصاحبه‌هایی با دانشمندان داده

دیتا ساینس یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستن. دو کتابی که در اینجا معرفی می‌شن هر دو مجموعه مصاحبه‌هایی هستن با دانشمند های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمود. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با هم ندارن و خوندن هر دوشون توصیه می شه.

the data analytics data science handbook

ساخت تیم‌های دانش داده

و در نهایت وقتی دانشمندهای داده اینقدر مهم شدن، مدیرها هم نیاز به تیم‌هایی از اونها یا حداقل همکاری اونها در تیم‌هاشون دارن. کتاب Data Driven‌ قبلا توی این سایت معرفی شده و نوشته مشهورترین دیتا ساینتیست‌ها است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمان‌های بزرگ دارن با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم رو در سازمانشون پیاده کنن و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمی‌ترین کتاب‌های این حوزه است (یعنی ۲۰۱۱).

data driven building data science teams understanding cdo

تکرار حرف اول

نمی شه آدم در همه چیز حرفه ای باشه. باید یک حوزه رو انتخاب کنین که توش حرفه ای باشین و در بقیه حوزه‌ها دید داشته باشین. اگر تصمیم دارین در این حوزه حرفه ای بشین (یا حداقل دید خوبی پیدا کنین) بهتره به جای دانلود و آرشیو همه کتاب‌ها، یکی یکی شروع به خوندنشون کنین. توصیه من شروع کردن با Data Driven و بعد Data Sceince Handbook است و همزمان یکی از کتاب‌های یادگیری آر یا پایتون و بعد Think Stats و Mining of Massive Datasets و دو فصل اول Experimental Design. بعدش خودتون دید کافی دارین که چطوری ادامه بدین.


مرتبط
رادیوگیک ۵۳:‌ آشنایی با داده‌های بزرگ