تشخیص دستخط

(تغییرمسیر از تشخیص دست خط)

تشخیص دستخط یا تشخیص دست‌نویس (HWR)، همچنین با عنوان تشخیص متن دست‌نویس (HTR) نیز شناخته می‌شود، توانایی رایانه برای دریافت و تفسیر ورودی دست‌نویس قابل فهم از منابع منبعی مانند اسناد کاغذی، عکس، صفحه نمایش لمسی و دستگاه‌های دیگر است. تصویر متن نوشته‌شده توسط اسکن نوری (تشخیص شخصیت نوری) یا تشخیص کلمه هوشمند می‌تواند «خارج از خط» باشد.

امضا ستاره کشور Tex Tex Williams

از سوی دیگر، حرکات نوک قلم ممکن است «روی خط» احساس شود، به عنوان مثال توسط یک صفحه نمایش رایانه ای مبتنی بر قلم، یک کار معمولاً آسان‌تر است، زیرا سرنخ‌های بیشتری در دسترس است.

یک سیستم تشخیص دستخط، قالب بندی را انجام می‌دهد، تقسیم‌بندی صحیح را در کاراکترها انجام می‌دهد و محتمل‌ترین کلمات را پیدا می‌کند.

تشخیص خارج از خط

ویرایش

تشخیص دست نوشته‌های خارج از خط شامل تبدیل خودکار متن در تصویر به کدهای حروف قابل استفاده در رایانه و برنامه‌های پردازش متن است. داده‌های به دست آمده توسط این فرم به عنوان نمایشی استاتیک از دست‌نویس در نظر گرفته می‌شوند.

تشخیص دست نوشته‌های خارج از خط نسبتاً دشوار است، به دلیل اینکه افراد مختلف دارای سبک‌های مختلف نوشتاری هستند؛ و از امروز، موتورهای OCR در درجه اول به متن چاپ شده ماشینی و ICR برای متن «چاپ شده» (نوشته شده با حروف بزرگ) متمرکز شده‌اند.

تکنیک‌های سنتی

ویرایش

استخراج کاراکتر

ویرایش

تشخیص دست نوشته‌های خارج از خط شامل تبدیل خودکار متن در تصویر به کدهای حروف قابل استفاده در رایانه و برنامه‌های پردازش متن است. داده‌های به دست آمده توسط این فرم به عنوان نمایشی استاتیک از دست‌نویس در نظر گرفته می‌شوند؛ تشخیص دست نوشته‌های خارج از خط نسبتاً دشوار است، زیرا افراد مختلف دارای سبک‌های مختلف نوشتاری هستند؛ و از امروز، موتورهای OCR در درجه اول به متن چاپ شده ماشینی و ICR برای متن «چاپ شده» (نوشته شده با حروف بزرگ) متمرکز شده‌اند.

شخصیت‌شناسی

ویرایش

پس از وقوع استخراج کاراکترهای فردی، از یک موتور شناسایی برای شناسایی شخصیت رایانه مربوط استفاده می‌شود. چندین تکنیک تشخیص متفاوت در حال حاضر موجود است.

استخراج ویژگی
ویرایش

استخراج ویژگی‌ها با روشی مشابه شناسه‌های شبکه عصبی کار می‌کند. با این حال، برنامه نویسان باید به صورت دستی خواصی را که احساس می‌کنند مهم هستند تعیین کنند. این روش به شناسه کنترل بیشتری در مورد ویژگیهای مورد استفاده در شناسایی می‌دهد. با این وجود، هر سیستمی با استفاده از این روش نیاز به توسعه قابل ملاحظه ای بیشتر از یک شبکه عصبی دارد زیرا این خصوصیات به‌طور خودکار آموخته نمی‌شوند.

تکنیک‌های مدرن

ویرایش

استخراج ویژگی‌ها با روشی مشابه شناسه‌های شبکه عصبی کار می‌کند. با این حال، برنامه نویسان باید به صورت دستی خواصی را که احساس می‌کنند مهم هستند تعیین کنند. این روش به شناسه کنترل بیشتری در مورد ویژگیهای مورد استفاده در شناسایی می‌دهد. با این وجود، هر سیستمی با استفاده از این روش نیاز به توسعه قابل ملاحظه ای بیشتر از یک شبکه عصبی دارد زیرا این خصوصیات به‌طور خودکار آموخته نمی‌شوند.

تشخیص آنلاین

ویرایش

به رسمیت شناختن دست‌نوشته به صورت آنلاین، تبدیل متن به صورت خودکار روی دیجیتایزر یا PDA، که در آن یک سنسور حرکات نوک قلم و همچنین تعویض قلم به بالا را انجام می‌دهد، شامل تبدیل خودکار متن است. این نوع داده‌ها به عنوان جوهر دیجیتال شناخته می‌شوند و می‌توان آن را به عنوان یک نمایش دیجیتالی از دست‌نویس در نظر گرفت. سیگنال به دست آمده به کدهای حرف تبدیل می‌شود که در برنامه‌های رایانه ای و پردازش متن قابل استفاده هستند.

عناصر یک رابط تشخیص خط خطی به‌طور معمول شامل موارد زیر است:

  • یک قلم یا قلم برای کاربر که می‌تواند با آن بنویسد. یک سطح حساس به لمس، که ممکن است با یک صفحه نمایش خروجی با آن یا در مجاورت آن باشد. یک نرم‌افزار نرم‌افزاری که حرکات قلم را در سطح نوشتار تفسیر می‌کند و سکته‌های حاصله را به متن دیجیتالی ترجمه می‌کند؛ و تشخیص خارج از خطا مشکل است.

روند کلی

ویرایش

فرایند تشخیص دست خط آنلاین را می‌توان در چند مرحله کلی تقسیم کرد:

هدف از پیش پردازش دور انداختن اطلاعات نامربوط در داده‌های ورودی است که می‌تواند بر شناخت تأثیر منفی بگذارد. [۳] این مربوط به سرعت و دقت است. پیش پردازش معمولاً از باریک سازی، عادی سازی، نمونه برداری، صاف کردن و جابجایی تشکیل می‌شود. [۴] مرحله دوم استخراج ویژگی است. از قسمت بردار دو یا چند بعدی دریافت شده از الگوریتم‌های پیش پردازش، داده‌های بعدی بالاتر استخراج می‌شوند. هدف از این مرحله برجسته کردن اطلاعات مهم برای مدل شناخت است. این داده‌ها ممکن است شامل اطلاعاتی مانند فشار قلم، سرعت یا تغییر جهت نوشتن باشد. آخرین مرحله بزرگ طبقه‌بندی است. در این مرحله از مدلهای مختلفی برای نقشه‌برداری از ویژگیهای استخراج شده در کلاسهای مختلف و در نتیجه شناسایی کاراکترها یا کلماتی که ویژگیها نشان می‌دهند استفاده می‌شود.

سخت‌افزار

ویرایش

محصولات تجاری با شناسایی دست‌نویس به عنوان جایگزینی برای ورودی صفحه کلید در اوایل دهه ۱۹۸۰ معرفی شدند. مثالها شامل پایانه‌های دست‌نویس مانند Pencept Penpad [5] و ترمینال نقطه فروش Inforite است. [۶] با روی کار آمدن بازار مصرف گسترده رایانه‌های شخصی، چندین محصول تجاری برای جایگزینی صفحه کلید و ماوس روی رایانه شخصی با یک سیستم اشاره گر / دست خط منفرد، مانند آنهایی که از PenCept ، [7] CIC [۸] و دیگران معرفی شده‌اند. . اولین رایانه قابل حمل تبلت از نوع تجاری قابل دسترسی GRiDPad از GRiD Systems بود که در سپتامبر ۱۹۸۹ منتشر شد. سیستم عامل آن مبتنی بر MS-DOS بود.

در اوایل دهه ۱۹۹۰، سازندگان سخت‌افزار از جمله NCR , IBM و EO رایانه‌های لوحی را منتشر کردند که سیستم عامل PenPoint را توسعه داده بودند و توسط GO Corp توسعه داده شده بودند. رایانه لوحی IBM اولین کسی بود که از نام ThinkPad استفاده کرد و از تشخیص دست خط IBM استفاده کرد. این سیستم به رسمیت شناختن بعداً به Microsoft Windows برای Pen Computing و IBM's Pen برای سیستم عامل / ۲ ارسال شد. هیچ‌کدام از اینها از نظر تجاری موفق نبودند.

پیشرفت در الکترونیک باعث شد قدرت محاسباتی لازم برای تشخیص دست‌نویس در یک فاکتور شکل کوچکتر از رایانه‌های لوحی قرار بگیرد، و تشخیص دست خط اغلب به عنوان یک روش ورودی برای PDAهای دستی استفاده می‌شود. اولین PDA که ورودی کتبی را ارائه داد، اپل نیوتن بود که مردم را به مزیت یک رابط کاربری ساده‌تر در معرض دید عموم قرار داد. با این وجود، این دستگاه به دلیل غیرقابل اعتماد بودن نرم‌افزار، که سعی در یادگیری الگوهای نوشتن کاربر داشت، یک موفقیت تجاری نبود. در زمان انتشار سیستم عامل نیوتن ۲٫۰، که در آن تشخیص دست‌نویس بسیار بهبود یافته‌است، از جمله ویژگی‌های منحصر به فردی که هنوز در سیستم‌های تشخیص فعلی مانند تصحیح خطای مدلس یافت نمی‌شود، اولین تصور منفی بود. پس از قطع مصرف اپل نیوتون، این ویژگی به صورت سیستم عامل Inkwell (Macintosh) به Mac OS X 10.2 یا بعد از آن منتقل شده‌است.

پالم بعداً یک سری موفقیت‌آمیز از PDAها را بر اساس سیستم تشخیص گرافیتی راه اندازی کرد. گرافیتی با تعیین مجموعه ای از اشکال «بدون شک» یا یک زمانه برای هر شخصیت، قابلیت استفاده را بهبود بخشید. این امر امکان ورود به اشتباه را کاهش می‌دهد، اگرچه حفظ الگوهای سکته مغزی باعث افزایش منحنی یادگیری برای کاربر می‌شود. تشخیص دستخط گرافیتی برای نقض حق ثبت اختراع که توسط زیراکس برگزار شد، پیدا شد و پالم جایگزین گرافیتی را با یک نسخه دارای مجوز از شناسه دست‌نویس CIC کرد که ضمن حمایت از اشکال بدون لغو، از قبل ثبت اختراع زیراکس را نیز انجام داد. دادگاه یافتن از نقض تجدیدنظر برگردانده شد، و سپس در تجدید نظر بعدی دوباره معکوس شد. طرفین درگیر پس از آن مذاکره در مورد توافق‌نامه در مورد این و سایر اختراعات ثبت شده گرافیتی (Palm OS).

PC یک رایانه نوت بوک ویژه است که به یک تبلت دیجیتایزر و قلم مجهز است و به کاربر امکان می‌دهد متن را روی صفحه دستگاه دست نوشته کند. سیستم عامل دست خط را به رسمیت می‌شناسد و آن را به متن تحریر تبدیل می‌کند. ویندوز ویستا و ویندوز ۷ شامل ویژگی‌های شخصی‌سازی هستند که الگوهای نوشتاری یا واژگان کاربر انگلیسی، ژاپنی، چینی سنتی، چینی ساده شده و کره ای را یادمی‌گیرند. این ویژگی‌ها شامل «جادوگر شخصی‌سازی» می‌شوند که نمونه‌هایی از دست نوشته‌های کاربر را درخواست می‌کند و از آنها برای بازیابی سیستم برای تشخیص دقت بالاتر استفاده می‌کند. این سیستم با سیستم پیشرفته تر تشخیص دست‌نویس در سیستم عامل Windows Mobile برای PDAها متمایز است.

اگرچه تشخیص دست‌نویس یک فرم ورودی است که عموم مردم به آن عادت کرده‌اند، اما در رایانه‌های رومیزی یا لپ تاپ به کاربرد گسترده‌ای نرسیده‌است. هنوز هم به‌طور کلی پذیرفته شده‌است که ورودی صفحه کلید هم سریعتر و هم قابل اطمینان تر است. از سال ۲۰۰۶، بسیاری از PDAها دست نوشته‌ای را ارائه می‌دهند، گاهی اوقات حتی دست خط طبیعی را می‌پذیرند، اما دقت هنوز هم یک مشکل است، و برخی از مردم حتی یک صفحه کلید ساده روی صفحه نیز کارآمدتر می‌یابند.

نرم‌افزار

ویرایش

ماژول‌های نرم‌افزاری اولیه می‌توانند دست‌نویس چاپ را در جایی که کاراکترها از هم جدا شده‌اند درک کنند. با این حال، نوشتن نوشتاری دست خط با شخصیت‌های متصل، پارادوکس سیر را نشان می‌داد، مشکلی که در تقسیم‌بندی شخصیت‌ها وجود دارد. اولین نویسنده برنامه تشخیص الگوی کاربردی در سال ۱۹۶۲ شلیا گوبمن، سپس در مسکو بود. [۹] نمونه‌های تجاری از شرکت‌هایی مانند ارتباطات اطلاعاتی و IBM گرفته شده‌است.

در اوایل دهه ۱۹۹۰، دو شرکت به نام‌های ParaGraph International و Lexicus با سیستم‌هایی رو به رو شدند که می‌توانند تشخیص خط دست خط را درک کنند. ParaGraph در روسیه مستقر شد و توسط دانشمند رایانه استپان پاچیکوف تأسیس شد و Lexicus توسط Ronjon Nag و Chris Kortge که در دانشگاه استنفورد دانشجو بودند، تأسیس شد. سیستم ParaGraph CalliGrapher در سیستم‌های Apple Newton مستقر شد و سیستم Lexicus Longhand به‌صورت تجاری برای سیستم عامل PenPoint و Windows ساخته شد. Lexicus در سال ۱۹۹۳ توسط موتورولا به دست آمد و به توسعه سیستم‌های نوشتاری پیش‌بینی موتورنولا در چینی پرداخت. پاراگراف در سال ۱۹۹۷ توسط SGI به‌دست آمد و تیم تشخیص دستخط آن یک بخش P&I تشکیل دادند که بعداً توسط Vadem توسط SGI به‌دست آمد. مایکروسافت شناسایی دست‌نویس CalliGrafher و سایر فناوریهای جوهر دیجیتال را که توسط P&I از Vadem در ۱۹۹۹ ساخته شده‌است، به دست آورد.

Wolfram Mathematica (8.0 یا بالاتر) همچنین یک دست خط یا عملکرد تشخیص متن TextRecognize را فراهم می‌کند.

پژوهش

ویرایش
 
روشی که برای بهره‌برداری از اطلاعات متنی در سیستم تفسیر آدرس دست‌نویس اول ساخته شده توسط سارگور سریاری و جاناتان هال استفاده می‌شود

شناخت دست‌نویس دارای یک جامعه فعال از دانشگاهیان است که آن را مطالعه می‌کنند. بزرگ‌ترین کنفرانس برای تشخیص دست‌نویس، کنفرانس بین‌المللی مرزهای شناختن دست‌نویس (ICFHR) است که در سالهای حتی عددی برگزار می‌شود، و کنفرانس بین‌المللی تجزیه و تحلیل اسناد و شناسایی اسناد (ICDAR)، که در سالهای عجیب و غریب برگزار می‌شود. هر دو کنفرانس توسط IEEE و IAPR تأیید شده‌است. مناطق فعال تحقیقاتی شامل موارد زیر است:

  • تشخیص آنلاین
  • تشخیص آفلاین
  • تأیید امضا تفسیر آدرس پستی پردازش بانکی شناخت نویسنده

نتایج از سال ۲۰۰۹

ویرایش

از سال ۲۰۰۹، شبکه‌های عصبی مکرر و شبکه‌های عصبی عمیق پیشرو در گروه تحقیقاتی یورگن اشمیتبر در آزمایشگاه آزمایشگاهی AI AI Swiss Swiss IDSIA، برنده چندین مسابقه بین‌المللی دست‌نویس شدند. [۱۱] به‌طور خاص، حافظه کوتاه مدت دو طرفه و چند بعدی بلند مدت (LSTM) [12] [13] از الکس گریوز و همکاران. در کنفرانس بین‌المللی تجزیه و تحلیل اسناد و اسناد (ICDAR) در سال ۲۰۰۹ موفق به کسب سه رقابت در زمینه تشخیص دست‌نویس مرتبط شد، بدون آنکه دانش قبلی در مورد سه زبان مختلف (فرانسوی، عربی، فارسی) داشته باشید. روشهای یادگیری عمیق مبتنی بر GPU برای شبکه‌های فیدبک توسط Dan Ciresan و همکارانش در IDSIA برنده مسابقه ICDAR 2011 آفلاین تشخیص دست‌نویس چینی شدند. شبکه‌های عصبی آنها همچنین اولین شناسنده الگوی مصنوعی برای دستیابی به عملکرد رقابتی بشر [۱۴] در مسئله معروف رقم‌های دست‌نویس MNIST [15] یان لکان و همکارانش در NYU بودند.

جستارهای وابسته

ویرایش
  • اثر هوش مصنوعی کاربردهای هوش مصنوعی امضای الکترونیک تجزیه و تحلیل حرکت دست‌نویس تشخیص شخصیت هوشمند راه حل تشخیص شخصیت جوهر زنده Neocognitron تشخیص شخصیت نوری محاسبه قلم تشخیص طرح قلم (محاسبات) رایانه لوحی

منابع

ویرایش

مشارکت‌کنندگان ویکی‌پدیا. «Handwriting recognition». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۱۰ ژوئیهٔ ۲۰۲۰.