رونمایی از خطایاب املایی فارسی در نمایشگاه الکامپ

به روز رسانی: سنا توی کامنت‌ها یک لینک دیگه گذاشته که احتمالا نویسندگان برنامه سعی کرده‌اند برای حفظ آبرو تفاوت این برنامه با برنامه‌های غلط‌یاب دیکته‌ای رو توضیح بدن. توی اونجا توضیح دقیق‌تری هست از اینکه این برنامه سه کار می‌کنه:

اين خطاياب قابليت تشخيص حدودا ۲۰ نوع خطاي گرامري را داشته و پيشنهاد تصحيح را ارائه مي‌دهد. علاوه بر اين مي‌توان ويژگي‌هايي همچون قابليت تشخيص كلمات جاافتاده در اصطلاحات پركاربرد زبان، تنظيم ميزان حساسيت خطاياب به خطاهاي معنايي، خطاهابي بخشي از متون،‌امكان سفارشي كردن تنظيمات مختلف براي كاربر و همچنين امكان حذف (افزودن) قواعد گرامري،‌حذف (افزودن) كلمان واژگان و فعال و غيرفعال كردن يكايك مراحل خطايابي و تصحيح را براي اين نرم‌افزار برشمرد.

خب اگر اینکارها رو بکنه خوبه (: البته حدس من اینه که فقط برای مایکروسافت آفیس خواهد بود ولی مهم نیست (: در عین حال فکر کنم نویسندگان برنامه در حال حاضر بیشتر از من و شما به خون اون کسی که اینو افتتاح کرده و بهش گفته «غلط‌یاب املایی» تشنه باشن (:


خارجی‌ها یک اصطلاح اینترنتی دارند به نام WTF؟! صوت تعجب است با چاشنی شوک و در عین حال اشاره به چرند بودن یک موضوع. دقیقا در مودر تیترهایی مثل بالا می‌گن. فرض کنید قائم مقام دبیر شورای عالی اطلاع رسانی بیاد بگه که «در حال حاضر فضاهای رایانه‌ای به صورت لاتین است که برای برخی اقشار مردم استفاده از آن غیرقابل انجام است.» (فارسی‌اش اینه که «اکثریت فضاهای رایانه ای انگلیسی هستند که برای مردم قابل استفاده نیست.») و بعد با هیجان اعلام کنه که یک غلط‌یاب زبان فارسی قراره برای اولین بار رونمایی بشه (: اونهم با حجم کوچیک ۶۰ مگ که حتی می‌تونه ی و گ رو هم اصلاح کنه (گاف هم مگه اصلاح می‌خواد؟! کاف دو جور عربی و فارسی داره ولی گ که فقط فارسیه دیگه اگر خدا بخواد).

راستش تنها چیزی که از این خبر دستگیر من می‌شه اینه که دوباره بازار دروغ داغه و یکسری آدم از بی سوادی یک سری دیگه که کلا وظیفه‌اش باسواد بودنه، سوء استفاده می‌کنن و پول‌های کلان به جیب می‌زنن. مشخصا آقای وزیر و وکیل که نیازی به تحقیق کردن ندارن چون به هرحال پول‌ها جابجا شده و پروژه‌ها انجام ولی برای ثبت در تاریخ یک اسکرین شات براتون می‌ذارم از کامپیوتر خودم:

این عکس یک متن ساده رو در یک ادیتور خیلی ساده نشون می‌ده که از سال‌ها پیش با نصب یک بسته ۲ مگابایتی به نام aspell-fa می‌تونسته غلط‌یابی فارسی انجام بده. نصب این بسته باعث می‌شه که نه فقط ادیتورها که هر برنامه دیگه که جعبه تایپ متن داشته باشه هم بتونه غلط‌یابی کنه. همین قابلیت از نسخه ۲ در فایرفاکس هم بوده و شکی ندارم که آفیس هم بسته‌های خودش رو داشته (:

البته اشکالی نداره… به هرحال دوستان هم باید از پول مالیات‌های ما نون بخورن دیگه… و خب چه خبری خوشحال‌کننده‌تر از اینکه نرم افزار ويراستيار به عنوان اولين نرم افزار خطاياب املايي به همت کارگروه خط و زبان فارسي در محيط رايانه اي دبيرخانه شورايعالي اطلاع رساني در سالن دولت الکترونيک شانزدهمين نمايشگاه بين المللي الکامپ رونمايي شد

  • Pingback: Tweets that mention رونمایی از خطایاب املایی فارسی در نمایشگاه الکامپ -- Topsy.com()

  • شهریار

    پس اونی که مایکروسافت داده چی؟

  • mail@example.com

    ای جادیییییی تا دلت بخواد از این موارد در این سرزمین شگفتی ها وجود دارد و تا زمانی که ما شایسته سالاری واقعی انجام ندیم سیستم آموزشی درستی نداشته باشیم و کشور رو از اقتصاد نفتی نجات ندیم چنین چیزهایی باید دید و آآآآآآآآه کشید….

  • سنا

    درسته که کیف داره مسخره شون بکنیم، ولی فکر می کنم این بار کار اشتباهی باشه.

    تو این خبر دقیق توضیح داده که چیزی که تو بازار هست چه فرقی با غلطیاب جدیدشون داره:
    http://www.farsnews.com/newstext.php?nn=8908180534
    البته تو همون خبر مهر هم که گذاشتی نوشته. ببینم، مگه aspell می تونه نکات «دستوری» (فعل و فاعل و …) رو هم تصحیح کنه؟
    تا جایی که من می دونم aspell فقط کلمات رو چک می کنه، نه ارکان جمله رو.

  • admin

    سنا بحث مسخره کردن و کیف کردن نیست. بحث افسوس خوردن است برای کسانی که اصولا نمی فهمن چی می گن و چیکار می کنن. در مورد نرم افزار خوبه که لینک رو دادی. اضافه می کنم به متن اصلی با یک توضیح

  • خوب، من دقیقاً مطمئن نیستم، اما اینطورا که تو ذهنم هست نرم‌افزارهای خطایاب املایی فارسی (حتی مال خود مایکروسافت و اون دیکشنریهای aspell و hunspell رایگان) قواعد گرامری (تصریف به قول جام جم) نداره، یعنی مثلاً تمام صورتهای فعل (می‌روم، می‌روی، …) توی دیکشنریهاشون هست به جای این که اینطوری باشه که «رو» توش باشه و مشخص باشه ریشۀ مضارعه حالتها از توش ساخته بشه، بنابراین خیلی پیش میاد که بعضی صورتهای فعلها رو توش نداشته باشه و خطا بگیره. بنابراین اگه این خطایاب، قواعد دستورزبانی رو توش داشته باشه و حتی علاوه بر غلطهای کلمه‌ای غلطهای دستورزبانی رو هم چک کنه ، خوب، یه چیز جدیدیه.
    ضمناً من خبر جام جم رو که دیده‌م، منظورش از 60 مگ اندازۀ برنامه نیست، بلکه میزان حافظه‌ایه که مصرف می‌کنه (که البته به نظرم بازم زیاده).
    در هر حال، سؤالی که برای من همیشه وجود داشته اینه که شورای عالی اطلاع‌رسانی که یه سازمان دولتیه و با بودجۀ عمومی داره کار می‌کنه چرا نرم‌افزارهایی که تولید می‌کنه (عموماً اینطور که من فهمیده‎م کار رو میدن به پیمانکار) فقط باینریهاش رو میده، چرا کدش رو باز نمی‌کنن؟ آیا دنبال سود هستن؟ می‌خوان بفروشنش؟

  • فرود

    هدف مشخصه، این که حرفی زده بشه :)‌ البته من همیشه برام این سوال هست اینها که دختربچه ۱۳ -۱۶ سالشون انرژی هسته ای تو زیر زمین خونشون درست میکنه، این کارهای ساده چه چیزی داره که اینقدر بزرگش میکنن!!!

  • pej
  • مرتضی

    تا اونجایی که من شنیدم قراره مجانی بزارنش روی سایتشون. ضمناً اونی که سنا گذاشته هم یه پروژه‌ی دیگس. اینطور که من برداشت کردم این‌ها صورت‌های صرف شده رو خودشون می‌سازن بجای این‌که ذخیره کنن. به هرحال من فکر می‌کنم باید صبر کنیم و ببینیم واقعاً چطور کار می‌کنه. در مورد اولین بودنش هم که باید بگم اولین نیست قاعدتاً ولی ظاهراً از روش‌های مرسوم منحصراً مبتنی بر فاصله‌ی کلمات (مثلا اسپل که گفتین) کار نمی‌کنه. این روش‌ها فقط یک لغتنامه می‌خوان و هرکلمه‌ای که تو اون لغتنامه نباشه غلطه و بر حسب فاصله نوشتاری پیشنهاد می‌دن.

  • آرش بدیع مدیری

    در نمایشگاه رسانه‌های دیجیتال غرفه‌ای بود که نرم‌افزاری می‌فروخت به قیمتی یکی-دو میلیون تومان، کارش این بود که جفت کلید RSA تولید می‌کرد. هر چقدر مسئول شعبه را سوال پیچ کردیم که این چه کاری می‌کند که آن یک خط کد به رایگان نمی‌کند جوابی نداد!

  • آزاده

    بهتره قبل از اينكه به بقيه تهمت بزنين، يك كم فكر كنيد. چه طور قبل از اينكه چيزي بدونيد مي آييد با نرم افزاري مثل aspell مقايسه مي كنيد؟ شما كه هنوز تشخيص نداديد اون نرم افزاري كه در فارس ازش صحبت شده يك نرم افزار ديگه است چه جوري تشخيص دادي كه نرم افزار ويراستيار همون aspell است. جاي تاسف داره واقعا

  • David

    حالا جالب اینجاس فقط دخترا از این نرم افزار دفاع میکنن (پسرا واقعیتو میبینن)

  • الیاد

    تا جایی که می‌دونم WTF مخفف What The Fuck است.

  • بگذارید اول از همه ببینیم نیاز چیه، ایده ی مورد نظر برای رفع اون نیاز چیه و الان تا کجا پیش رفته.
    نیاز اینه که نرم افزاری وجود داشته باشه (حالا به صورت پلاگین، کتابخانه، تابع یا هر چیز دیگر) که نثر متن فارسی ما رو چک کنه و در صورت لزوم تصحیح کنه.
    ایده هایی که در این زمینه (در کل دنیا) وجود داره مربوط به روش های مختلف پردازش زبان طبیعی (NLP) است.
    به طور کلی 3 سطح مختلف در NLP وجود داره که اولیش خطایابی املایی است. در ساده ترین حالت این امر یک جستجوی ساده در یک دیکشنری است، که اصلا هم براش فرقی نمی کنه که زبان فارسی باشه یا حتی آنگولایی. ولی حتی در همان هم کلی نکته ی ظریف نهفته است. مثلا اینکه وقتی طرف خطا تایپ کرد خود نرم افزار بیاد و بهترین کلمه ی جایگزین رو براش حدس بزنه. اگر دقت کنی مثلا در همین تصویر Aspell ای که تو گذاشتی گزینه ی مورد نظر تو، 5امین گزینه از لیست کلمات موجود در دیکشنری بود و این خیلی بده. خیلی خیلی بده. یعنی Aspell نمی فهمه که “ببین منت” اولویتش خیلی کمتر از “ببینم” است!!! البته باز هم برای یک نرم افزار آزاد بین المللی خیلی خوبه ولی اصلا نیازهای ما را در زبان فارسی رفع نمی کند.
    قدم های بعدی اینه که حتی همین غلط یاب املایی context sensitive باشه. یعنی به کلمات قبل و بعدش برای حدس هاش نگاه کنه. تا اینجا هم هیچ ربطی به فارسی بودن نداره و فقط یک جستجو در دیکشنری است. حتی در همان هم معیار موفقیت درصد درست تشخیص دادن خطاهاست. که برای یک نرم افزار کاربردی باید بالای 90 درصد باشه. چون اگر قرار باشد تو هر متنی که من می نویسم کلی غلط بیخود بگیره من ترجیح می دم اصلا ازش استفاده نکنم.
    سطح بعدی خطایابی نحویه. تو خطایابی نحوی که اتفاقا خیلی خیلی خیلی سخته، باید از انواع روش های NLP استفاده کنی که خودش از جمله پیچیده ترین روش های هوش مصنوعیه. این سطح کاملا به زبان بستگی داره چون گرامر زبان های مختلف فرق می کنه. فقط در همین حد بدون که الان در کشورهای توسعه یافته هم به شدت دارن روی این قضیه کار می کنن. و به جز انگلیسی موفق ترین کشور در پردازش زبان طبیعی، اون هم فقط تا سطح نحو، سوئد هست. برای اثباتش هم برو و تو Google Translate یک متن انگلیسی با گرامر سخت رو بهش بده تا سوئدی کنه و دوباره برگردوندش به انگلیسی و ببین که چقدر قشنگ اون رو به جمله ای بسیار نزدیک به همان جمله ی اصلی بر می گرداند. ولی حتی در مورد آلمانی و فرانسوی هم چنین موفقیتی وجود نداره و برای فارسی هم که کلا ما در سطح زیر صفریم.
    آخرین سطح هم خطایابی معناییه. که خیلی خیلی خیلی سخت و تو انگلیسی هم هنوز (درست-حسابی) پیاده سازی نشده. مثلا بفهمه که جمله ی “سیب علی را خورد” غلطه از لحاظ معنا!!!

  • همه ی اینا رو که تازه مقدمه ای بر NLP بود رو گفتم تا فقط بتونی صورت مساله رو درک کنی و این که حتی تو همون غلط یابی املایی هم می تونه کلی جای کار وجود داشته باشه.
    توصیه ی من اینه که تا زمانی که خودت ادعایی رو بررسی نکردی اینقدر راحت در موردش قضاوت نکن. من حتی از اینکه تو فکرم هم اینقدر راحت در مورد موارد مختلف “قضاوت کنم” متنفرم.
    حالا قبول که دولت پشت این پروژه است و پول مالیات های تو داره می ره تو جیب اونا، ولی این دلیل نمی شه که اونا نفت(مفت) خوری کرده باشن، اول برو نگاه کن که چه کاری کردن و بعد ببین که آیا ارزشش رو داشته یا نه و تازه بعد اگر ارزش نداشت فحششون بده!
    این مساله در کشورهای دیگر هم وجود داره. تو آمریکا هم تکنولوژی های برتر در دست ارتش و نظام حکومتی اونجاست که شک نکن حتما داره ازشون استفاده ی نطامی و خودخواهانه می شه.
    باز حالا این پروژه که خوبه چون تقریبا اصلا نمی شه ازش استفاده نظامی کرد. چون یک مقوله ی فرهنگیه. چون به فرهنگ و زبان فارسی مربوطه.

  • در مورد متن باز بودن هم باید بگم که من هم واقعا دوست دارم که پروژه های فرهنگی و ملی (می دونم کلا با این عبارت به شدت مخالفی ولی فعلا بهش گیر نده) متن-باز باشن تا همه بتونن ازش استفاده کنن ولی این رو بدان که حتی برای اون هم یک بسترهایی لازمه. تو کشوری که قانون کپی رایت وجود نداره، اگر کد برنامه ای پخش بشه خیلی از شرکت های رقیب همون برنامه رو با لوگوی خودشان خواهند فروخت. حتی اگر آن اتفاق هم رخ ندهد، ولی باز هم حتی حقوق معنوی تولیدکننده حفظ نخواهد شد و آن شرکت به عنوان یک شرکت گمنام در نهایت نابود خواهد شد.
    متن-باز کردن یک محصول تجاری (کاربردی) فرهنگ می خواهد و خیلی چیزهای دیگر، که هنوز در ایران وجود ندارد.
    تازه بازگشت سرمایه را چی کار می خواهی بکنی؟ برای یک محصول فرهنگی که enterprise support معنا ندارد. چون بازار هدف مردم هستند.
    البته فکر کنم بسیاری از کتابخانه ها و نرم افزارهای ملی قابل دستیابی باشند ولی شاید متن-باز نیستند، چون هنوز بازار ما احساس امنیت لازم را نمی کند

  • در نهایت من هم مثل خانم آزاده بسیار متاسفم که اقشار تحصیل کرده ی ما هم اینقدر راحت در مورد مسائلی که تسلط کافی روی آنها ندارند، آن هم با نثری اینگونه زننده انتقاد می کنند، آن هم انتقاد ناسالم!
    راستی این اطلاعات رو در مورد ویراستیار من از اینجا دارم که یکی از دوستانم در این پروژه نقش دارد و به همین دلیل تا حدی من هم از اوضاع کاری شان با خبرم.
    حالا اگر باز هم سوالی داشتید، بگید برم بپرسم، اگر تونستم جواب بدم.
    جادی جان! من هم خودم به شخصه از تو انتظار نداشتم که به رسانه های حکومتی مزخرفی مثل فارس و … اعتماد کنی، اون هم از لحاظ علمی. خب اون که معلومه که گ عربی نداریم و منظور همون ک بوده که تو عربی همزه روش داره ولی تو فارسی نه و کلا 2 تا کد یونیکد مختلف براشون وجود داره. ویراستیار هم ک رو باسه office مزخرف (!) مایکروسافت درست می کنه، وگرنه تو لینوکس که از همون اول درست هست.
    و واقعا ای کاش یاد بگیریم که تا جایی که می توانیم به جای انتقاد، پیشنهاد دهیم. به جای افسوس خوردن کاری کنیم. به جای اینکه به سرزمین شگفتی هایمان ناله کنیم، ما هم مثل آلمانی ها افتخار کنیم که نه تنها آریایی هستیم، بلکه ایرانی هستیم، تا اونوقت بتونیم بعد از 2 تا جنگ جهانی هنوز یک کشور توسعه یافته بشیم.
    تا زمانی که ما خودمون رو درست نکنیم (و اگر درستیم درست تر نکنیم) کشور و فرهنگ مون همینی که هست باقی خواهد ماند!

  • سینا

    راستی در آخرین خبر بالاخره سایت ویراستیار به راه افتاد. امکان دانلود و نصب رایگان نرم‌افزار بر روی ورد مایکروسافت هم وجود داره. حالا گرچه متن-باز نیست ولی خوب حداقل مجانیه و سازگار با ورد مایکروسافت که اکثریت ایرانی‌ها از اون استفاده می‌کنن؛ شاید همین هم برای ارتقای نگارش فارسی کافی باشه.
    http://www.virastyar.com/