Amazon releases 51-language dataset (including Persian) for language understanding
https://www-amazon-science.cdn.ampproject.org/c/s/www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding?_amp=true
یکی از تسکهای مهم و آیندهدار در پردازش زبان طبیعی، فهم چندزبانی (MMNLU) است که به کمک Transfer Learning و Multi-task learning به یک مدل یادگیری ماشین واحد اجازه میدهد representation مشترکی برای زبانهای مختلف (حتی با دیتای محدود به ازای بعضی از زبانها) یاد بگیرد. از چنین مدلی میتوان در ساخت چتباتها و دستیارهای صوتی چندزبانه استفاده کرد.
دو مسئله اصلی در ساخت سیستمهای NLU مسئلههای intent classification و slot filling است. مثلا وقتی سیستم با عبارت «برای تعطیلات آخر هفته یک اتاق در هتل هیلتون استانبول رزرو کن» روبهرو میشود، intent در اینجا «رزرو هتل» و slot ها عبارتند از:
{زمان: تعطیلات آخر هفته، مقصد: استانبول، محل اقامت: هتل هیلتون}
دیتاست جدید Amazon موسوم به MASSIVE حدود ۱۷۰۰۰ عبارت یکسان به ازای ۵۱ زبان مختلف از جمله فارسی به تفکیک intent و slotها دارد.