پیکره متنی: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
Yusef saadat (بحث | مشارکتها) ویرایش منبع |
Yusef saadat (بحث | مشارکتها) افزودن بخش روشهای فراهم ساختن پیکره |
||
خط ۱:
در [[زبانشناسی پیکرهای]]، '''پیکرهٔ متنی''' یا '''پیکرهٔ واژگانی''' (بهاختصار: '''پیکره''') {{انگلیسی|text corpus, corpus}} به مجموعهای خام از دادههای زبانیِ نوشتاری یا گفتاری گفته میشود که میتوان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابیها و [[تحلیل آماری|تحلیلهای آماریِ]] [[زبانشناسی|زبانشناختی]] و نیز در [[فرهنگنویسی]]، دستورنویسی، [[گویششناسی]] و جز آنها.<ref>{{یادکرد کتاب|عنوان=فرهنگ جامع زبان فارسی، جلد آ|نام خانوادگی=صادقی|نام=علیاشرف|ناشر=|سال=۱۳۹۲|شابک=|مکان=|صفحات=راهنمای استفاده از فرهنگ، صفحهٔ ۱۰}}</ref>
== روشهای فراهم ساختن پیکره ==
در گذشته، فراهم ساختن پیکرههای زبانی برای تألیف فرهنگ بسیار وقتگیر، پرزحمت و پرهزینه بود، مثلاً زندهیاد دهخدا برای تألیف لغتنامه سالیان درازی متون منظوم و منثور زبان فارسی را سطر به سطر خواند و برگههای انبوهی حاوی واژهها، شواهد و ارجاعات آنها فراهم آورد. مجموعۀ دادههای زبانیای که دهخدا به روش سنتیِ برگهنویسی فراهم آورد، بهلحاظ حجم، بهویژه درمورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانۀ ما بینظیر بوده و هست.
امروزه، پیشرفتهای شگرف بشر در زمینۀ فناوری اطلاعات، بهویژه رایانه، استفاده از این ابزار را برای گردآوری دادههای زبانی و تألیف فرهنگهای مختلف براساس این دادهها ناگزیر میسازد. چنانکه در کشورهای پیشرفته، روش سنتی گردآوری دادهها بهکلی متروک شده و فرهنگهای گوناگونی، ازجمله کوبیلد (Cobuild)، فرهنگ بیستجلدی آکسفُرد و جز آنها براساس پیکرههای زبانی رایانهای تألیف یا تکمیل میگردند.
|