Get Mystery Box with random crypto!

اکسل اطلاعات ۳۸۲۰۰ آگهی فروش ملک در شهر تهران از سایت دیوار ا | یادداشت‌های اقتصادی

اکسل اطلاعات ۳۸۲۰۰ آگهی فروش ملک در شهر تهران از سایت دیوار

این اطلاعات شامل:
- منطقه
- مساحت
- سال ساخت
- تعداد اتاق
- وجود پارکینگ، انباری و آسانسور
- قیمت

@pyfiance

برای دریافت این داده‌ها از کتابخانه scrapy در #پایتون استفاده شده است.

کار با این داده‌ها می‌تواند یک تمرین خوب در زمینه پیش‌پردازش داده و استخراج اطلاعات از آن باشد. به طور مثال همانطور که در تصویر پست قبل (+) مشاهده می‌شود، منطقه مربوط با هر آگهی باید از ستون "Address" استخراج گردد. همچنین در ستون قیمت، اولا اعداد به فارسی است که در محاسبات دچار مشکل می‌شوید و دوم اینکه در کنار قیمت عبارت تومان نوشته شده که باز هم در انجام محاسبات شما را دچار مشکل می‌کند و سوم اینکه برخی آگهی‌ها عبارت «توافقی» به جای قیمت درج شده که باید راهکاری برای آن در نظر گرفت. کار با داده‌های باینری، حذف و یا پر کردن داده‌های مفقوده، شناسایی داده های پرت، فیلتر کردن داده‌های هر منطقه و استخراج میانگین قیمتی هر منطقه، دسته بندی داده های بر اساس سال ساخت، انجام مدلسازی‌های آماری و یادگیری ماشین برای پیش‌بینی قیمت ملک و ... از جمله مزیت‌های این دیتاست است.