استاندارد استثناء کردن ربات‌ها: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
جز حذف زمان‌دار
بدون خلاصۀ ویرایش
خط ۱:
{{حذف زمان‌دار/پیغام
|اهمیت= عدم سرشناسی موضوع
|timestamp = 20160828181632۲۰۱۶۰۸۲۸۱۸۱۶۳۲
}}
 
'''استاندارد استثنا کردن ربات هاربات‌ها''' که همچنین به پروتکل استثناکردن رباتهاربات‌ها شناخته میشودمی‌شود یا به زبان ساده ترساده‌تر همان robots.txtمیباشدtxt می‌باشد معیاری است که برای ارتباط با web crawlers و web robots است. توسط وبسایت هاوبسایت‌ها استفاده میشودمی‌شود این استاندارد چگونگی آگاهی دادن بهwebبه robotweb هاrobotها دربارهدربارهٔ اینکه کدام قسمت از وبسایت هاوبسایت‌ها نباید مورد پیمایش قرار گیرد را مشخص میکند رباتمی‌کند. هاربات‌ها اغلب برای دسته بندیدسته‌بندی کردن وبسایت هاوبسایت‌ها توسط موتور هایموتورهای جستجو مورد استفاده قرار میگیرندالبتهمیگیرند همهالبته رباتهاهمهٔ ازاینربات‌ها از این معیارها پیروی نمیکنندنمی‌کنند حتی email harvesters, spambots malwareورباتهاییmalware کهو آسیبربات‌هایی پذیریکه هایآسیب‌پذیری‌های امنیتی راچک میکنندمی‌کنند ممکن است کار خودراخود ازرا قسمتاز هاییقسمت‌هایی از وبسایت شروع کنند که به آنها اجازه ورود داده نشده.{{سرخط}}
 
'''== تاریخچه''' {{سرخط}}==
این استاندارد توسط فردی به نامMartijn Koster در فوریه سال 1994در حالیکه مشغول به کار برای Nexorبرروی(لیست پستی)www-talk mailing listبود ارائه شد که درواقع اصلی ترین کانال ارتباط برای فعالیت های WWW-related در آن زمان محسوب می شد . Charles Stross ادعا میکند که او بعد از نوشتن یک خزنده وب مخرب که موجب قطع ارتباط سهوی(denial of service )برای سرور های Koster شدباعث شد تا kosterاین پیشنهاد را بدهد {{سرخط}}
 
این موضوع به سرعت به یک استاندارد غیر رسمی تبدیل شد که انتظار میرفت خزنده های وب حال وآینده از آن پیروی کنند البته اکثر آنها از جمله دسته ای که به کمک موتورهای جستجو کار میکردند مانند Lycos وAltaVista پیرو این استاندارد بودند {{سرخط}}
این استاندارد توسط فردی به نامMartijnنام Martijn Koster در فوریه سال 1994در۱۹۹۴در حالیکه مشغول به کار برای Nexorبرروی(Nexor بر روی لیست پستی) www-talk mailing listبودبود ارائه شد که درواقع اصلی تریناصلی‌ترین کانال ارتباط برای فعالیت هایفعالیت‌های WWW-related در آن زمان محسوب می شد می‌شد. Charles Stross ادعا میکندمی‌کند که او بعد از نوشتن یک خزندهخزندهٔ وب مخرب که موجب قطع ارتباط سهوی (denial of service )برای سرور هایسرورهای Koster شدباعثشد باعث شد تا kosterاینkoster این پیشنهاد را بدهد {{سرخط}}.
'''درباره استاندارد''' {{سرخط}}
 
زمانی که صاحب سایت قصد دادن دستورالعمل ها به یک web robotsرا دارد آنها یک فایل متنی درواقعrobots.txt را درریشه یک وبسایت قرار میدهند مانند(e.g. https://www.example.com/robots.txt) این فایل نوشتاری, شامل دستوالعمل دریک قالب بندی خاص میباشد (مثال زیررا ببینید )رباتهایی که از این دستور العمل ها پیروی میکنند , سعی میکنند که قبل از گرفتن فایل دیگری از این وبسایت ,این فایل رو بگیرند(fetch)و دستورالعمل ها را بخوانند . درصورت موجودنبودن این فایل رباتها بافرض اینکه صاحب سایت قصد ارائه هیچ دستورالعمل خاصی را ندارد, کل سایت را میخزند .{{سرخط}}
این موضوع به سرعت به یک استاندارد غیر رسمی تبدیل شد که انتظار میرفتمی‌رفت خزنده هایخزنده‌های وب حال وآیندهو آینده از آن پیروی کنند البته اکثر آنها از جمله دسته ایدسته‌ای که به کمک موتورهای جستجو کار میکردندمی‌کردند مانند Lycos وAltaVistaو AltaVista پیرو این استاندارد بودند {{سرخط}}.
یک فایل robots.txt مانند یک درخواست (request)عمل میکند که درواقع چشم پوشی از فایل ها یا دایرکتوری های خاص را هنگام خزیدن یک وبسایت برای رباتها مشخص میکند.{{سرخط}}
 
== دربارهٔ استاندارد ==
 
زمانی که صاحب سایت قصد دادن دستورالعمل هادستورالعمل‌ها به یک web robotsراrobots را دارد آنهاآن‌ها یک فایل متنی درواقعrobotsدرواقع robots.txt را درریشهدر ریشه یک وبسایت قرار میدهند می‌دهند مانند(e.g. https://www.example.com/robots.txt) این فایل نوشتاری,نوشتاری، شامل دستوالعمل دریکدر قالبیک بندیقالب‌بندی خاص میباشدمی‌باشد (مثال زیررازیر ببینیدرا ببینید)رباتهایی ربات‌هایی که از این دستور العمل هادستورالعمل‌ها پیروی میکنند ,می‌کنند، سعی میکنندمی‌کنند که قبل از گرفتن فایل دیگری از این وبسایتوبسایت، ,این فایل رورا بگیرند(fetch) و دستورالعمل هادستورالعمل‌ها را بخوانند . درصورت موجودنبودنموجود نبودن این فایل رباتهاربات‌ها بافرض اینکه صاحب سایت قصد ارائهارائهٔ هیچ دستورالعمل خاصی را ندارد,ندارد، کل سایت را میخزند می‌خزند.{{سرخط}}
 
یک فایل robots.txt مانند یک درخواست (request)عمل میکندمی‌کند که درواقع چشم پوشی از فایل هافایل‌ها یا دایرکتوری هایدایرکتوری‌های خاص را هنگام خزیدن یک وبسایت برای رباتها مشخص میکندمی‌کند.{{سرخط}}
 
== جستارهای وابسته ==
 
== منابع ==
{{پانویس}}لینک هابه صفحه هایی که در robots.txt لیست شده اند اگر به صفحه های دیگری که پیمایش شده اند لینک باشند هنوز هم میتوانند درنتایج جستجو ظاهر شوند .{{سرخط}}
 
{{پانویس}}
هر robots.txtفقط میتواند یک منبع(origin) را پوشش دهد برای یک وبسایت که دارای چندین ساب دامین است هر ساب دامین باید یک robots.txt داشته باشند مثلا اگر example.com یک robots.txt داشته باشد اما a.example.comنداشته باشد قوانینی که بر روی example.com اعمال میشود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل وپورت به robots.txt خودش نیاز دارد
 
; http://example.com/robots.txt برای https://example.com:8080/ یا https://example.com/. کار نمیکند {{سرخط}}
{{پانویس}}لینک هابهها صفحهبه هاییصفحه‌هایی که در robots.txt لیست شده اندشده‌اند اگر به صفحه هایصفحه‌های دیگری که پیمایش شده اندشده‌اند لینک باشند هنوز هم میتوانندمی‌توانند درنتایجدر نتایج جستجو ظاهر شوند .{{سرخط}}
تعداد زیادی از سرچ اینجین ها از جمله Ask,AOL,Baidu,Bing,Google,Yahoo!وYandex ازاین استاندارد ها پیروی میکنند {{سرخط}}
 
'''مثال ها''' {{سرخط}}
هر robots.txtفقطtxt میتواندفقط می‌تواند یک منبع (origin) را پوشش دهد برای یک وبسایت که دارای چندین ساب دامینزیردامنه است هر سابزیر دامیندامنه باید یک robots.txt داشته باشند مثلامثلاً اگر example.com یک robots.txt داشته باشد اما a.example.comنداشتهcom نداشته باشد قوانینی که بر روی example.com اعمال میشودمی‌شود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل وپورتو پورت به robots.txt خودش نیاز دارد .
این دستور به همه رباتها میگوید که مینوانند ازهمه فایل ها بازدید کنند چون علامت * یه معنی همه رباتها میباشد و چون دستور <code>disallow</code> هیچ مقداری ندارد به این معنی است که هیچ صفحه ای disallowed نشده{{سرخط}}
 
; http://example.com/robots.txt برای https://example.com:8080/ یا https://example.com/. کار نمیکند {{سرخط}}نمی‌کند
 
تعداد زیادی از سرچ اینجین‌ها از جمله Ask، AOL، Baidu، Bing، Google، Yahoo! و Yandex از این استانداردها پیروی می‌کنند.
 
== مثال‌ها ==
 
این دستور به همههمهٔ رباتهاربات‌ها میگویدمی‌گوید که مینوانند ازهمهاز فایلهمه هافایل‌ها بازدید کنند چون علامت * یه معنی همه رباتهاربات‌ها میباشدمی‌باشد و چون دستور <code>disallow</code> هیچ مقداری ندارد به این معنی است که هیچ صفحه ایصفحه‌ای disallowed نشده{{سرخط}}.
 
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow:{{سرخط}}</code>
{{پایان چپ چین}}
 
این نتیجه را میتوانمی‌توان ازیکاز یک robot.txt file خالی ویاو یا حتی بدون robot.txt file به دست آورد{{سرخط}} .
این دستور به همه رباتها میگوید که وارد وبسایت نشوند {{سرخط}}
 
این دستور به همه رباتها میگویدمی‌گوید که وارد وبسایت نشوند {{سرخط}}:
 
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow: /{{سرخط}}</code>
{{پایان چپ چین}}
 
این مثال به همه رباتها میگویدمی‌گوید که وارد سه دایرکتوری نشوند {{سرخط}}:
 
{{چپ چین}}
<code>User-agent: *{{سرخط}}
سطر ۳۹ ⟵ ۵۹:
{{پایان چپ چین}}
 
این مثال به همه رباتها میگویدمی‌گوید که وارد یک پوشه خاص نشوند{{سرخط}}:
 
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow: /directory/file.html{{سرخط}}</code>
{{پایان چپ چین}}
 
توجه کنید که همه فایل هایفایل‌های دیگر در این دایرکتوریدایرکتوری، ,پیموده میشوند {{سرخط}}می‌شوند.
این مثال به یک ربات خاص میگوید که وارد وبسایت نشود {{سرخط}}
 
این مثال به یک ربات خاص میگویدمی‌گوید که وارد وبسایت نشود {{سرخط}}:
 
{{چپ چین}}
<code>User-agent: BadBot # replace 'BadBot' with the{{سرخط}} actual user-agent of the bot{{سرخط}}
Disallow: /{{سرخط}}</code>
{{پایان چپ چین}}
 
این مثال به دو ربات خاص میگویدمی‌گوید که وارد یک دایروکتوری خاص نشوند{{سرخط}}:
 
{{چپ چین}}
<code>User-agent: BadBot # replace 'BadBot' with the {{سرخط}}actual user-agent of the bot{{سرخط}}
سطر ۵۶ ⟵ ۸۲:
Disallow: /private/{{سرخط}}</code>
{{پایان چپ چین}}
 
این مثال نشان میدهدمی‌دهد که چطور کامنت هاکامنت‌ها مورد استفاده قرار میگیرند{{سرخط}}می‌گیرند.
 
{{چپ چین}}
<code># Comments appear after the "#" symbol at the {{سرخط}}start of a line, or after a directive{{سرخط}}
سطر ۶۲ ⟵ ۹۰:
Disallow: / # keep them out{{سرخط}}</code>
{{پایان چپ چین}}
 
</code>همچنین میتوان چندین ربات راهمراه با قوانین خودشان لیست کرد {{سرخط}}
</code>
تعدادی کمی از سایت ها مانند google از چندین user-agent پشتیبانی میکند که با استفاده از رشته های user-agent خاص به اپراتور اجازه قطع دسترسی از زیرمجموعه ی سرویس های آنهارا میدهد {{سرخط}}
 
</code>همچنین میتوانمی‌توان چندین ربات راهمراهرا همراه با قوانین خودشان لیست کرد {{سرخط}}.
 
تعدادی کمی از سایت هاسایت‌ها مانند google از چندین user-agent پشتیبانی میکندمی‌کند که با استفاده از رشته هایرشته‌های user-agent خاص به اپراتور اجازه قطع دسترسی از زیرمجموعه ی سرویسزیرمجموعهٔ هایسرویس‌های آنهاراآن‌ها میدهدرا {{سرخط}}می‌دهد.
 
{{چپ چین}}
<code>User-agent: googlebot # all Google {{سرخط}}services