Get Mystery Box with random crypto!

'پیکره متنی فارسی ناب' امروزه، پردازش زبان طبیعی به عنوان یک | عصر گویش | هوش مصنوعی

"پیکره متنی فارسی ناب"

امروزه، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدلهای پایه در این حوزه همان مدلهای زبانی هستند که به حجم زیادی از داده متنی نیاز دارند

پیکره‌ متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق است.ضرورت این مسئله به خصوص برای زبان‌های با منابع کمتر مثل فارسی،بیشتر احساس میشود

ما،برای این مسئله راه‌حل پیکره ناب را معرفی کرده‌ایم

ناب مجموعه پاک‌سازی شده،به صورت کاملا متن باز و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است

ناب شامل حدود130گیگابایت دیتا متنی (250میلیون پاراگراف و 15میلیارد کلمه)است

ما پیکره ناب را بر روی مخزن دیتاست Huggingface قرار داده‌ایم،پس شما میتوانید با استفاده از تمام یا بخشی از ناب،برای آموزش مدل خود استفاده کنید
huggingface.co/datasets/SLPL/naab

همچنین نسخه خام پیکره ناب به همراه ابزار پاک‌سازی متن در اختیار عموم قرار گرفته
huggingface.co/datasets/SLPL/naab-raw

مقاله به زبان انگلیسی
arxiv.org/abs/۲۲۰۸.۱۳۴۸۶
مقاله به زبان فارسی
b2n.ir/q46261