اکسل اطلاعات ۳۸۲۰۰ آگهی فروش ملک در شهر تهران از سایت دیوار ا | یادداشتهای اقتصادی
اکسل اطلاعات ۳۸۲۰۰ آگهی فروش ملک در شهر تهران از سایت دیوار
این اطلاعات شامل: - منطقه - مساحت - سال ساخت - تعداد اتاق - وجود پارکینگ، انباری و آسانسور - قیمت
@pyfiance
برای دریافت این دادهها از کتابخانه scrapy در #پایتون استفاده شده است.
کار با این دادهها میتواند یک تمرین خوب در زمینه پیشپردازش داده و استخراج اطلاعات از آن باشد. به طور مثال همانطور که در تصویر پست قبل (+) مشاهده میشود، منطقه مربوط با هر آگهی باید از ستون "Address" استخراج گردد. همچنین در ستون قیمت، اولا اعداد به فارسی است که در محاسبات دچار مشکل میشوید و دوم اینکه در کنار قیمت عبارت تومان نوشته شده که باز هم در انجام محاسبات شما را دچار مشکل میکند و سوم اینکه برخی آگهیها عبارت «توافقی» به جای قیمت درج شده که باید راهکاری برای آن در نظر گرفت. کار با دادههای باینری، حذف و یا پر کردن دادههای مفقوده، شناسایی داده های پرت، فیلتر کردن دادههای هر منطقه و استخراج میانگین قیمتی هر منطقه، دسته بندی داده های بر اساس سال ساخت، انجام مدلسازیهای آماری و یادگیری ماشین برای پیشبینی قیمت ملک و ... از جمله مزیتهای این دیتاست است.