Get Mystery Box with random crypto!

Amazon releases 51-language dataset (including Persian) for la | Tensorflow(@CVision)

Amazon releases 51-language dataset (including Persian) for language understanding

https://www-amazon-science.cdn.ampproject.org/c/s/www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding?_amp=true

یکی از تسک‌های مهم و آینده‌دار در پردازش زبان طبیعی، فهم چندزبانی (MMNLU) است که به کمک Transfer Learning و Multi-task learning به یک مدل یادگیری ماشین واحد اجازه می‌دهد representation مشترکی برای زبان‌های مختلف (حتی با دیتای محدود به ازای بعضی از زبان‌ها) یاد بگیرد. از چنین مدلی می‌توان در ساخت چت‌بات‌ها و دستیارهای صوتی چندزبانه استفاده کرد.
دو مسئله اصلی در ساخت سیستم‌های NLU مسئله‌های intent classification و slot filling است. مثلا وقتی سیستم با عبارت «برای تعطیلات آخر هفته یک اتاق در هتل هیلتون استانبول رزرو کن» روبه‌رو می‌شود، intent در اینجا «رزرو هتل» و slot ها عبارتند از:
{زمان: تعطیلات آخر هفته، مقصد: استانبول، محل اقامت: هتل هیلتون}

دیتاست جدید Amazon موسوم به MASSIVE حدود ۱۷۰۰۰ عبارت یکسان به ازای ۵۱ زبان مختلف از جمله فارسی به تفکیک intent و slotها دارد.