شما عضو این انجمن نبوده یا وارد نشده اید. لطفا برای مشاهده کامل انجمن و استفاده از آن وارد شوید یا ثبت نام کنید .

امتیاز موضوع:
  • 17 رأی - میانگین امتیازات: 3.12
  • 1
  • 2
  • 3
  • 4
  • 5

[-]
کلمات کلیدی
دست با خواندن segmentation نوشته قدیمی jigsaw مصنوعی training واتیکان ocr متون هوش

خواندن متون دست نوشته قدیمی با هوش مصنوعی
#1
در ایتالیا ۱۲۰ دانش آموز دبیرستانی به حل مشکلی با قدمتی تاریخی راجع به اینکه چگونه پژوهشگران به کتابخانه‌های مخفی واتیکان دسترسی پیدا کنند کمک کردند.

[تصویر:  do.php?img=4983]

مجموعه‌ی عظیمی از اسناد در واتیکان وجود دارد که جزئیات فعالیت‌های واتیکان از قرن هشت به بعد را نشان می‌دهد. قفسه‌های کتابخانه‌های مخفی واتیکان دارای طولی حدود ۸۵ کیلومتر است و حاوی ۳۵۰۰۰ جلد کاتالوگ است. اما اسنادی که پژوهشگران اسکن و آپلود کرده‌اند کمتر از یک اینچ ضخامت دارد. در این جا از اسناد رونویسی شده قابل جستجو توسط کامپیوتر خبری نیست. علت آن است که به‌نظر می‌رسد واتیکان تمایلی به اشتراک گذاری این اطلاعات نداشته است. البته آن‌ها توانایی انجام چنین کاری را هم ندارند؛ حتی نرم افزار OCR (نرم افزار تشخیص نوری حروف) نیز نمی‌تواند به‌سادگی از پس نامنظمی‌های موجود در متون دست نویس برآید. بنابراین اگر پژوهشگران بخواهند این اسناد را ببینند، چاره‌ای ندارند جز اینکه شخصا کتابخانه‌ها را بازدید کنند (با فرض این که واتیکان اجازه دسترسی آن‌ها به این متون را صادر کند).

در حال حاضر گروهی از پژوهشگران دانشگاه روماتری در ایتالیا پروژه‌ای برای حل این مشکل دارند و از هوش مصنوعی برای رونویسی از این اسناد استفاده می‌کنند. مطالعه‌ی آن‌ها در ژورنال ERCIM News منتشر شده است.

مشکل این است که عملکرد کامیپوتر در خواندن دست‌نوشته‌ی انسان چندان خوب نیست. بنابراین نخستین مرحله در پروژه این بود که دانش آموزان خوانده دست‌نوشته را به کامپیوتر آموزش دهند (Training). دانش‌آموزان با استفاده از یک برنامه‌ی کامپیوتری آنلاین تهیه‌شده توسط پژوهشگران، باید به این پرسش پاسخ می‌دادند که آیا یک حرف دست‌نوشته که از دو صفحه‌ی نمونه‌برداری‌شده از اسناد واتیکان، با حالت‌های مختلف یک حرف که توسط خط‌شناسان (افرادی که خطوط قدیمی را مطالعه می‌کنند) تایید شده است، هم خوانی دارد یا نه.
برای نمونه، یک دانش آموز با دیدن یک سری از M های نوشته شده با دست که توسط کارشناسان تایید شده بود، باید بررسی می‌کرد چه چیزی در متون شبیه این حرف M است. اگر آن حرف شبیه M بود به آن رای مثبت داده می‌شد و در غیر این صورت رای منفی. اگر به‌اندازه‌ی کافی رای مثبت جمع می‌شد، آن حرف دست‌نوشته یک برچسب می‌خورد: مثلا تایید می‌شد که حرف M است. کار این ۱۲۰ دانش آموز برای آموزش داده‌ها، فقط چند ساعت زمان برد.

[تصویر:  do.php?img=4982]

اما هوش مصنوعی نیاز با آموزش بیشتری هم داشت. پژوهشگران در مرحله‌ی بعد برای آموزش هوش مصنوعی به‌منظور شناسایی حروف دست نوشته از روشی به‌نام jigsaw segmentation استفاده کردند. آنها به جای نگریستن به دست‌نوشته به‌عنوان یک سری از کلمات، یا حتی ترکیبی از حروف، به‌دنبال خطوط اضافی مربوط به دست‌نوشته‌ها بودند؛ مثلا کشیدگی انتهای حروف که توسط نویسنده‌ی دست‌نوشته انجام شده است. روش کار به این صورت بود که مثلا دست‌نوشته‌ی M شبیه یک حرف نبود، بلکه شبیه سه خط کنار هم بود. بر اساس آنچه از بخش آموزش توسط داده‌های دانش‌آموزان به دست آمده بود، این علامات می‌توانست حرف M یا نشانه‌ی III باشد (عدد سه). پژوهشگران برای کمک به هوش مصنوعی در خواندن این علامت‌ها، آن را با یک مجموعه‌ی ۱/۵ میلیون کلمه‌ای از زبان لاتین تغذیه کردند؛ زبانی که این متن‌ها بر اساس آن نوشته شده بود. در ادامه با کمک این اطلاعات، می‌توانستند تعیین کنند که قرار گرفتن سه خط در کنار هم در جایی از متن، احتمالا نشان‌دهنده‌ی یک M است و نه III. دلیل چنین برداشتی هم این است که وجود نماد III در میان حروف یک کلمه‌ی لاتین دور از ذهن می‌نماید.

زمانی که پژوهشگران هوش مصنوعی را با چهار صفحه از نسخه‌های واتیکانی مورد آزمایش قرار دادند، ۶۵ درصد از کلمات به درستی رونویسی شد. پژوهشگران بر این باورند که رونوشت‌های ایجادشده به‌اندازه‌ای دقیق هستند که می‌توانند پایه‌ای قابل اطمینان برای خط‌شناسان مهیا کنند تا آنها بتوانند فرآیند رونوشت‌برداری خود را سریع‌تر پیش ببرند. دانشمندان در پی بهبود بخشیدن به این سیستم هستند. این موضوع به‌ویژه زمانی اهمیت خود را بیشتر نشان می‌دهد که واتیکان تنها اجازه‌ی در اختیار داشتن سه سند در روز را برای افراد محفوظ داشته است. بنابراین پژوهشگران از این راه می‌توانند بررسی کنند که کدام اسناد بیشتر به‌کارشان می‌آید و تصمیم به بررسی همان موارد بگیرند.

اگر از همه‌ی موارد دسترس رونوشت‌برداری شود، شاید پژوهشگران کل دنیا نهایتا بتوانند کل این مجموعه را با کلمات کلیدی مورد جستجو قرار دهند و اسناد حاوی آن واژه‌های کلیدی را شناسایی و سپس اجازه‌ی مشاهده آن سند را دریافت کنند؛ یا اینکه حتی شاید بتوانند اطلاعاتی درمورد این اسناد به‌دست آورند؛ بدون اینکه نیاز باشد که به واتیکان سفر کنند.


پاسخ
 سپاس شده توسط saberi ، hoboot


لطفاً توجه داشته باشید که ارسال‌های جدیدی که در این انجمن ثبت می‌شوند، ابتدا باید توسط یکی از مدیران تأیید شوند و پس از تأیید مدیر، قابل دیدن خواهند بود.
[-]
پاسخ سریع
پیام
پاسخ خود به این مطلب را در این کادر بنویسید.
شکلک‌ها
gol like think wink
laugh right left happy
Sad Heart Huh cofee
love hi new  
[شکلک‌های بیش‌تر]

تایید انسان بودن کاربر
لطفاً جعبه زیر را تیک بزنید. این فرآیند از فعالیت ربات‌ها جلوگیری می‌کند.

موضوع‌های مشابه…
موضوع نویسنده پاسخ بازدید آخرین ارسال
  هوش مصنوعی ابری soli11 2 753 ۰۰/۱۲/۱۶، ۰۹:۲۱ صبح
آخرین ارسال: reyhanes7770
  پلی‌استیشن 5 با بازی‌های کنسول PS3 و نسخه‌های قدیمی‌تر از آن سازگ ati88 1 787 ۰۰/۱۱/۱۴، ۰۱:۱۴ عصر
آخرین ارسال: reyhanes7770
  جنین های مصنوعی soli11 0 651 ۹۸/۹/۱۸، ۱۲:۰۴ عصر
آخرین ارسال: soli11
  عکس های قدیمی را با Google Photos رنگی کنید hoboot 0 952 ۹۷/۲/۲۰، ۰۹:۴۲ عصر
آخرین ارسال: hoboot
  تشخیص بیماری قلبی با اسکن چشم به کمک هوش مصنوعی گوگل سحر 0 1,386 ۹۶/۱۲/۲، ۱۱:۱۲ صبح
آخرین ارسال: سحر
  استفاده از هوش مصنوعی برای تشخیص افرادی که قصد خودکشی دارند نگار 0 1,306 ۹۶/۸/۲۲، ۰۳:۱۲ صبح
آخرین ارسال: نگار
  مسنجر قدیمی یاهو در تاریخ 15 مرداد تعطیل می‌شود نسیم 1 2,495 ۹۵/۳/۲۵، ۱۲:۳۷ صبح
آخرین ارسال: نسیم

پرش به انجمن:


کاربرانِ درحال بازدید از این موضوع: 1 مهمان