"پیکره متنی فارسی ناب"
امروزه، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدلهای پایه در این حوزه همان مدلهای زبانی هستند که به حجم زیادی از داده متنی نیاز دارند
پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق است.ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر مثل فارسی،بیشتر احساس میشود
ما،برای این مسئله راهحل پیکره ناب را معرفی کردهایم
ناب مجموعه پاکسازی شده،به صورت کاملا متن باز و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است
ناب شامل حدود130گیگابایت دیتا متنی (250میلیون پاراگراف و 15میلیارد کلمه)است
ما پیکره ناب را بر روی مخزن دیتاست Huggingface قرار دادهایم،پس شما میتوانید با استفاده از تمام یا بخشی از ناب،برای آموزش مدل خود استفاده کنید
huggingface.co/datasets/SLPL/naab
همچنین نسخه خام پیکره ناب به همراه ابزار پاکسازی متن در اختیار عموم قرار گرفته
huggingface.co/datasets/SLPL/naab-raw
مقاله به زبان انگلیسی
arxiv.org/abs/۲۲۰۸.۱۳۴۸۶
مقاله به زبان فارسی
b2n.ir/q46261