پیکره متنی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Yusef saadat (بحث | مشارکت‌ها)
ویرایش منبع
Yusef saadat (بحث | مشارکت‌ها)
افزودن بخش روش‌های فراهم ساختن پیکره
خط ۱:
در [[زبان‌شناسی پیکره‌ای]]، '''پیکرهٔ متنی''' یا '''پیکرهٔ واژگانی''' (به‌اختصار: '''پیکره''') {{انگلیسی|text corpus, corpus}} به مجموعه‌ای خام از داده‌های زبانیِ نوشتاری یا گفتاری گفته می‌شود که می‌توان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابی‌ها و [[تحلیل آماری|تحلیل‌های آماریِ]] [[زبان‌شناسی|زبان‌شناختی]] و نیز در [[فرهنگ‌نویسی]]، دستورنویسی، [[گویش‌شناسی]] و جز آنها.<ref>{{یادکرد کتاب|عنوان=فرهنگ جامع زبان فارسی، جلد آ|نام خانوادگی=صادقی|نام=علی‌اشرف|ناشر=|سال=۱۳۹۲|شابک=|مکان=|صفحات=راهنمای استفاده از فرهنگ، صفحهٔ ۱۰}}</ref>
 
== روش‌های فراهم ساختن پیکره ==
در گذشته، فراهم ساختن پیکره‌های زبانی برای تألیف فرهنگ بسیار وقت‌گیر، پرزحمت و پرهزینه بود، مثلاً زنده‌یاد دهخدا برای تألیف لغت‌نامه سالیان درازی متون منظوم و منثور زبان فارسی را سطر به سطر خواند و برگه‌های انبوهی حاوی واژه‌ها، شواهد و ارجاعات آنها فراهم آورد. مجموعۀ داده‌های زبانی‌ای که دهخدا به روش سنتیِ برگه‌نویسی فراهم آورد، به‌لحاظ حجم، به‌ویژه درمورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانۀ ما بی‌نظیر بوده و هست.
امروزه، پیشرفت‌های شگرف بشر در زمینۀ فناوری اطلاعات، به‌ویژه رایانه، استفاده از این ابزار را برای گردآوری داده‌های زبانی و تألیف فرهنگ‌های مختلف براساس این داده‌ها ناگزیر می‌سازد. چنان‌که در کشورهای پیشرفته، روش سنتی گردآوری داده‌ها به‌کلی متروک شده و فرهنگ‌های گوناگونی، ازجمله کوبیلد (Cobuild)، فرهنگ بیست‌جلدی آکسفُرد و جز آنها براساس پیکره‌های زبانی رایانه‌ای تألیف یا تکمیل می‌گردند.