ایزیری ۶۲۱۹

ایزیری ۶۲۱۹ (تلفظ ISIRI 6219) یا استاندارد فناوری اطلاعات - تبادل و شیوهٔ نمایش اطلاعات فارسی براساس یونی کد، استانداردی برای یکسان‌سازی شیوه تبادل و ذخیره اطلاعات کامپیوتری به زبان فارسی است.

روند تدوین

این استاندارد توسط موسسه استاندارد و تحقیقات صنعتی ایران (ماتصا) برای تعریف و یکسان‌سازی استفاده از حروف و الفبای فارسی در محیط کامپیوتر در اردیبهشت ۱۳۸۱ تدوین شده‌است. این استاندارد در حال حاضر (تیر ۱۳۸۸) جدیدترین استاندارد در این زمینه و جایگزین کلیه استانداردهای قدیمی‌تر ایزیری ۳۳۴۲، ایزیری ۲۹۰۰ و استانداردهای غیر رسمی ویندوز ۱۲۵۶، ایران‌سیستم، پانیذ و سایه‌است. ایزیری ۶۲۱۹ کاملاً بر اساس یونی‌کد بوده و توسط گروهی از افراد متخصص و مسلط در این زمینه نگاشته شده‌است. مسائل مطرح شده در ایزیری ۶۲۱۹ از روز تدوین آن تاکنون مقبولیت روزافزونی داشته و روز به روز در نرم‌افزارهای بیشتری رعایت شده‌است. مثلاً راحت‌تر شدن جستجو و مقایسه اطلاعات فارسی که توسط منابع مختلف ثبت شده، رفع مشکل انواع «ی» در فونت‌های مایکروسافت و بقیه، تمایز قطعی بین انواع «ی»‌ها و انواع «ک»‌ها، رواج گسترده زبان فارسی در محیط لینوکس و… همگی از ثمرات این استاندارد است.

به علت آن که در استاندارد یونی‌کد به ازای خیلی از حروف مثل «ی»، «ک»، «الف» و خیلی از اعداد و خیلی از نشانه‌ها و لیگاتورها تعداد زیادی کاراکتر یونی‌کد شبیه به هم وجود دارد، خیلی از افراد و کاربردها در استفاده از آن‌ها دچار ابهام می‌شوند. مثلاً مطابق توضیحات بلوک عربی یونی‌کد حدود ده «ی» مختلف وجود دارد که استفاده از هر کدام فقط در استاندارد یک یا چند کشور مجاز است. مهم‌ترین موضوعی که ایزیری ۶۲۱۹ به آن پرداخته، مشخص کردن کاراکترهای مجاز و غیر مجاز برای خط/زبان فارسی در ایران است. مثلاً این استاندارد فقط حرف «ی» فارسی با کد U+06CC و «ئ» همزه‌دار با کد U+0626 را برای خط/زبان فارسی مجاز اعلام کرده‌است. موضوع مهم بعدی که ایزیری ۶۲۱۹ به آن می‌پردازد نحوه نمایش حروف و کلمات فارسی از دیدگاه چپ و راست چینی (و نه شکل قلم) است. این قواعد مشکلات مرتبط با به هم ریختگی حروف و کلمات فارسی به خصوص به هنگام استفاده همزمان با حروف و کلمات لاتین را حل می‌کند. ایزیری ۶۲۱۹، الگوریتم شماره ۹ یونیکد که به الگوریتم دو جهته معروف است را به عنوان مرجع و بخشی از خود معرفی کرده‌است.

خصوصیات ایزیری ۶۲۱۹

حرف «ی» بی‌نقطه نچسب عربی با کد U+0649 «همان ی که به نام الف مقصوره شهرت دارد که ودر حروف موسی و عیسی و غیره در عربی بکار برده می‌شود» که متون فارسی را کاملاً به هم می‌ریزد از متون فارسی حذف می‌شود. از به هم ریختگی‌های خیلی آزار دهنده ایجاد شده توسط این نوع «ی» می‌توان به تکه‌تکه شدن کلمات حاوی «ی» در خیلی از موبایل‌های امروزی و خیلی از نرم‌افزارهای قدیمی ویندوز نام برد.
به جای اعداد لاتین یا حتی اعداد عربی، از اعداد فارسی استفاده می‌شود. این اعداد در ویندوزهایی که Regional Settings آن‌ها تغییر پیدا کرده به صورت ظاهراً فارسی نمایش داده می‌شوند، ولی وقتی که به PDF تبدیل می‌شوند یا در محیط‌های دیگری از طریق وب دیده می‌شوند به همان صورت غلط لاتین دیده می‌شوند.
جلوگیری از درهم‌ریختگی متون ترکیبی فارسی و انگلیسی در اکثر نرم‌افزارها و محیط‌های (Platform) امروزی. به عنوان مثال نمایش برعکس پرانتزها، جابجایی حروف نشانه‌ای مثل سمی‌کالن، نقطه و… حتی وقتی که کلمات کاملاً انگلیسی هستند و صرفاً در یک محیط دو زبانه (دو جهته یا Bidirectional) نمایش داده می‌شوند. ایزیری ۶۲۱۹ این کار را با استفاده از کاراکترهای ویژه الگوریتم شماره ۹ مثل RIGHT-TO-LEFT EMBEDDING انجام می‌دهد.
یکسان‌سازی استفاده از علائم در خط و زبان فارسی. مثلاً در این استاندارد استفاده از دابل کوتیشن و تک کوتیشن رایج در متون انگلیسی ممنوع و به جای آنها، کاراکترهای «» که شبیه دو علامت کوچکتر یا بزرگتر به هم چسبیده هستند به عنوان «گیومه فارسی» معرفی شده‌است. در این استاندارد کاراکترهای مشخصی هم برای ممیز فارسی، جداکننده هزارگان فارسی و… در نظر گرفته شده‌است.

نکات تکمیلی:

حروف فارسی معرفی شده در یونی‌کد همگی بر اساس بلوک عربی هستند. دلیل آن هم این است که ما هیچ بلوک یا بخش واحدی در یونی‌کد برای خط فارسی یا دیگر خط/زبان‌های مبتنی بر عربی مثل اردو و کردی نداریم.
استاندارد ایزیری ۶۲۱۹ کاری به چیدمان حروف فارسی در صفحه کلید ندارد؛ ولی خود استاندارد ایزیری ۹۱۴۷ که چیدمان حروف و علایم فارسی بر روی صفحه کلید کامپیوتر را معین می‌کند، بر اساس همین استاندارد ایزیری ۶۲۱۹ طراحی شده‌است.
ایزیری ۶۲۱۹ مستقل از شکل نمایشی (Glyph) حروف است. مثلاً نمی‌گوید آخر حرف «ف» چقدر باید به بالا کشیده شده باشد.

جستارهای وابسته

ایزیری ۹۱۴۷