سیستمهای یادگیری بر اساس نمونهها کار می کنن. باید از چیزها نمونه های زیادی داشته باشیم تا بتونیم به ماشین ها بگیم «اینها رو نگاه کن، حالا سعی کن تکرارش کنی». مثلا اگر قراره ماشین یاد بگیره گربه چیه باید چند هزار عکس گربه ببینه یا اگر قراره صدای ما رو به متن تبدیل کنه، باید چند صد ساعت صدا و متن داشته باشه. حالا معلومه که چرا سیستم های مرتبط با صوت فارسی، عقب از بقیه هستن: چون نمونه هاشون کمه.
شرکت های مختلف برای حل این مشکل راه حل های مختلف دارن. مثلا ممکنه یک شرکت ارائه دهنده نقشه، چند ده نفر رو بذاره که اسم همه خیابون ها رو چندین بار بخونن تا بعدا کامپیوتر بفهمه «یوسف آباد» چطوری تلفظ می شه و اگر شما گفتین «یوسف آباد» بفهمه ماجرا چیه. اما همه که یه مرکز تماس ندارن و حتی اگر هم داشته باشن، در نهایت به چند صد ساعت صدا می رسن. پس چیکار کنیم؟
پروژه بنیاد موزیلا قراره با هممون کمک کنه. هم به همه تولید کننده های سیستم های مرتبط با صوت فارسی [و هر زبون دیگه] و هم به همه مصرف کننده هایی که لازم داریم کامپیوترها صدامون رو بفهمن. توی پروژه صدای مشترک موزیلا، شما صداتون رو اهدا می کنین، ترسناک نیست! در واقع می رین و چند تا جمله رو با صدای طبیعی خودتون می خونین و دیتابیسی از متن و صدا رو کامل می کنن. اگر هم ترجیح دادین، می تونین به جای خوندن جمله، جمله های بقیه رو گوش بدین و اعتبار سنجی کنین. دیتابیسی که درسته می شه، آزاد است و در اختیار هر کسی که بعدا بخواد روش کار کنه.
پروژه صدای مشترک ابتکار موزیلا برای کمک به آموزش ابزارهای یادگیری ماشین است تا بدانند مردم واقعی چگونه صحبت میکنند.
توی این پروژه شما حتی می تونین سن و جنس خودتون رو هم بزنین و دیتایی غنی تر برای هر کسی درست کنین که می خواد به کامپیوترها «فهمیدن» صدا رو آموزش بده. همونطور که گفتم این دیتابیس کاملا آزاد و قابل استفاده توسط همه است و مشارکت توش باعث می شه زندگی همه فارسی زبان ها آسونتر و با کیفیت تر بشه. پس به صفحه پروژه صدای مشترک موزیلا برین و چند تا جمله بخونین و حتی مثل من صفحه اش رو باز بذارین و گاه گداری برای رفع کسالت هم که شده، چند تا جمله از خودتون اهدا کنین یا به جمله های بقیه گوش بدین و بگین درست خوندنش یا نه. اینطوری همه با هم به پیشرفت زبان فارسی در دنیای کامپیوتر کمک کردیم و زودتر به دنیایی می رسیم که توش اگر کسی دوست نداره، مجبور نباشه تایپ کنه.