جادی تی وی ۰۰۸ – وب اسکرپینگ با پایتون و پیدا کردن کتاب‌هایی از نویسنده‌های خاص

چالش کتابخوانی رو که یادتونه؟ در قدم نهم قراره کتابی بخونم که از نویسنده ای باشه که حرف اول اسم و فامیلش عین منه: J M. اما چطوری چنین کتابی پیدا کنیم؟ در این شماره از جادی.تی.وی، همراه با هم و قدم به قدم وب رو دنبال چنین نویسنده ای می‌گردیم و یاد می‌گیریم چطوری می‌شه بخش هایی از وب رو با تکنیک های برنامه نویسی شخم زد؛ که بهش میگن اسکرپ کردن وب.

لینک یوتوب

  • Saeed Sheikholeslami

    مرسی . طبق معمول عالی . همین ویدئوکست هات منو عاشق پایتون کرد ;)

  • محمد جواد

    خیلی خوب وبد

  • محمد جواد

    خیلی خوب بود

  • میلاد

    واو ۱۹۸ مگ ! بریم ببینیم‌جادی چی داره برامون!

    اینم لینک مدیافایر واسه دوستان:
    http://www.mediafire.com/?dbtwgqaklwl9cw5

  • رهاRaHa

    خیلی عالیه جادی جان
    ممنون

  • محمد شیران

    برای وب اسکرپینگ در پایتون http://scrapy.org/ فرمورک فوق العاده ساده و در عین حال حرفه ای هست.

  • Alierza Bashiri

    من هم برای ترویج TDD و سرگرمی یک چیزی نوشتم:‌ http://git.io/vEzSz

  • مصطفی

    جالب بود دستت درد نکنه :)
    این پایتون تو کد ته هیچیو نمیبنده ظاهرا! :))

    • محمد شیران

      پایتون روی تورفتگی (Indent) کدها بسیار سختگیر و حساس هست. در واقع هر کد بلاک رو میزان تورفتگی اون مشخص میکنه.

      • مصطفی

        بسیار هم عالی! :) واجب شد پایتون یاد بگیرم :)
        قاعدتا خیلی منظم تر میشن کدها…

  • فرزام

    واقعا ممنون، من همیشه برای crawl کردن مجبور بودم که source صفحه رو بخونم تا بتونم پارسش کنم، این selector gadget واقعا خیلی کارمو راحت کرد.

  • Arman Yazdani

    چه خوبه قسمتایی که برنامه باگ داره رو از ویدئوها پاک نمیکنی، تو همین باگا کلی چیز آموزشی هست
    اکثرا کات میکنن که به نظر من جالب نیس

    • jadijadi

      خب برنامه نویسی واقعی همینه. آدم شروع می کنه،‌اشتباه می کنه، سرچ می کنه و بالاخره پیدا می کنه. اتفاقا این رو باید یاد بدن وگرنه برنامه درست رو که هرکس بخونه می فهمه چیکار می کنه.. بحث اینه که چطوری می رسیم به اون (:

  • sadiq

    خیلی ممنون! راستش ایده‌ای که خیلی وقت بود تو ذهنم میچرخید تا یک
    برنامه برای نمایش حجم بسته اینترنتم بنویسم.بعد دیدن ویدیو بلاخره استارت
    رو زدم و نوشتم و اضافش کردم به ترمینالم!! حالا با دستور get_internetinfo
    خیلی سریع تمام اطلاعات بسته اینترنتم رو می‌ببینم.قسمت عجیبش این بود که
    کلا بیست خط نشد!

    ->البته مجبور شدم تا با سایت افتضاح مخابراتمون
    سر و کله بزنم،قصد داشتم رو گیت بزارم اما متاسفانه سایت های مخابرات
    استان‌ها فرق میکنه و ضمنا خیلی ها اینترنتشون رو از شرکت‌های خصوصی
    میخرند.

    ->تو کلیپ چند بار خواستی که از سلکتور های سی‌اس‌اس
    استفاده کنی ولی نتونستی، فکر کنم علی‌رغم توصیه خودت حوصله نکرده بودی
    داکیومنت beautifullsoup رو بخونی صرفا جهت استفاده در آینده کشف کردم میشه
    با تابع select از سلکتور‌های سی‌اس‌اس استفاده کرد البته همه‌ی
    سلکتور‌هارو ساپورت نمیکنه.

    اگه وقت کردی و امکانش بود در مورد خود
    وبلاگ‌نویسی و مقایسه اون با شبکه‌های اجتماعی و تفاوت‌هاش بنویس ، من
    میخوام وبلاگ‌نویسی رو شروع کنم و به عنوان یکی از خواننده های وبلاگت چون
    جادی رو به عنوان یه وبلاگ نویس فوق‌العاده موفق و با‌تجربه قبول دارم خیلی
    دوست دارم در مورد این مدت طولانی وبلاگ‌نویسیت بدونم.(اگه نوشتی خواهشا
    با جزئیات بنویس. مثلا چرا دامنه مستقل و اونم net؟ چرا طراحی
    مینیمالیسیتی؟ تجربه‌هات و خاطره‌هات با وبلاگ.)

    • jadijadi

      مرسی از راهنمایی ها (:

    • jadijadi

      قسمت های آخر رو هم بگم. خب اسمم جادی است و جادی.نت خالی بود (:‌ مینیمال است چون به نظرم نیازی به جزییات نداره. البته در معیارهای امروزی خیلی هم مینیمال نیست. تقریبا تم استاندارد وردپرس است.

  • سامان

    سلام جادی عزیز؛ من یک سوالی برام پیش اومده… با توجه به اینکه من برنامه نویس نیستم و اظهار نظری راجع به بعد آموزشی مطلب نمیتونم داشته باشم … میخواستم بدونم آیا نتایجی که از اسکرپ بدست میاد بیشتر(بدرد بخورتر) از اونی هست که با سرچ گوگل بدست میاد.

    • jadijadi

      اینها دو بحث مختلف هستن. در اسکراپینگ ماشین کار می کنه در سرچ گوگل من (: مثلا کار بالا رو تو به راحتی نمی تونی با سرچ و دست انجام بدی. دردسرش زیاده ولی برای یک ماشین کاری نداره که کل اون ها رو نگاه کنه، جی.ام. ها رو جدا کنه، ببره تو فلان سایت سرچشون کنه و بعد رو کتاب اولشون کلیک کنه. اما خب همینکار رو یک آدم بکنه هم اشتباه بیشتری می کنه هم اعصابش از این کار مزخرف خورد می شه (:

  • حسین

    بسیار عالی و آموزنده بود
    ممنون
    همین که یه برنامه واقعی نوشتی بدون اینکه از قبل چندبار نوشته باشیش خیلی آموزندگی داره که مهمترینش اینه که آدم میبینه حتی حرفه ای ها هم برنامه هاشون بار اول درست اجرا نمیشه :)

  • Pingback: قدم نهم چالش کتابخوانی ۱۳۹۴ – Cape Fear | کیبرد آزاد()

  • Ramin

    The BeautifulSoup library was named after a Lewis Carroll poem of the same name in Alice’s Adventures in Wonderland.

    “Beautiful Soup, so rich and green,

    Waiting in a hot tureen!

    Who for such dainties would not stoop?

    Soup of the evening, beautiful Soup!”

    • jadijadi

      چه جالب. نمی دونستم. مرسی گفتی.

  • Ramin Zahedi

    جادی جان چون از CSS Selector استفاده می کنی باید خروجی CSS Selector رو به تابع select بدی و نه به تابع findALL البته همین تابع select هم خیلی پشتیبانی محدودی داره از CSS Selector ها. و کار بهتر استفاده از خود lxml هست که جدیدا میشه CSS Selector بهش داد.

    • jadijadi

      مرسی از راهنمایی… خیلی خوبه اگر به شکل کد بنویسی که هم راحتتر بگی هم راحتتر استفاده کنیم (:‌ می رم نگاهی بندازم.

  • micro

    راه حل ای با راهنمایی های کامل برای infinite scroll ها دارین؟ ای کاش به این موضوع هم می پرداختید.