استاندارد استثناء کردن رباتها: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
جز حذف زماندار |
Smmsadrnezh (بحث | مشارکتها) بدون خلاصۀ ویرایش |
||
خط ۱:
{{حذف زماندار/پیغام
|اهمیت= عدم سرشناسی موضوع
|timestamp =
}}
'''استاندارد استثنا کردن
این استاندارد توسط فردی به نامMartijn Koster در فوریه سال 1994در حالیکه مشغول به کار برای Nexorبرروی(لیست پستی)www-talk mailing listبود ارائه شد که درواقع اصلی ترین کانال ارتباط برای فعالیت های WWW-related در آن زمان محسوب می شد . Charles Stross ادعا میکند که او بعد از نوشتن یک خزنده وب مخرب که موجب قطع ارتباط سهوی(denial of service )برای سرور های Koster شدباعث شد تا kosterاین پیشنهاد را بدهد {{سرخط}}▼
این موضوع به سرعت به یک استاندارد غیر رسمی تبدیل شد که انتظار میرفت خزنده های وب حال وآینده از آن پیروی کنند البته اکثر آنها از جمله دسته ای که به کمک موتورهای جستجو کار میکردند مانند Lycos وAltaVista پیرو این استاندارد بودند {{سرخط}}▼
▲این استاندارد توسط فردی به
زمانی که صاحب سایت قصد دادن دستورالعمل ها به یک web robotsرا دارد آنها یک فایل متنی درواقعrobots.txt را درریشه یک وبسایت قرار میدهند مانند(e.g. https://www.example.com/robots.txt) این فایل نوشتاری, شامل دستوالعمل دریک قالب بندی خاص میباشد (مثال زیررا ببینید )رباتهایی که از این دستور العمل ها پیروی میکنند , سعی میکنند که قبل از گرفتن فایل دیگری از این وبسایت ,این فایل رو بگیرند(fetch)و دستورالعمل ها را بخوانند . درصورت موجودنبودن این فایل رباتها بافرض اینکه صاحب سایت قصد ارائه هیچ دستورالعمل خاصی را ندارد, کل سایت را میخزند .{{سرخط}}▼
▲این موضوع به سرعت به یک استاندارد غیر رسمی تبدیل شد که انتظار
یک فایل robots.txt مانند یک درخواست (request)عمل میکند که درواقع چشم پوشی از فایل ها یا دایرکتوری های خاص را هنگام خزیدن یک وبسایت برای رباتها مشخص میکند.{{سرخط}}▼
== دربارهٔ استاندارد ==
▲زمانی که صاحب سایت قصد دادن
▲یک فایل
== جستارهای وابسته ==
== منابع ==
{{پانویس}}لینک هابه صفحه هایی که در robots.txt لیست شده اند اگر به صفحه های دیگری که پیمایش شده اند لینک باشند هنوز هم میتوانند درنتایج جستجو ظاهر شوند .{{سرخط}}▼
{{پانویس}}
هر robots.txtفقط میتواند یک منبع(origin) را پوشش دهد برای یک وبسایت که دارای چندین ساب دامین است هر ساب دامین باید یک robots.txt داشته باشند مثلا اگر example.com یک robots.txt داشته باشد اما a.example.comنداشته باشد قوانینی که بر روی example.com اعمال میشود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل وپورت به robots.txt خودش نیاز دارد ▼
; http://example.com/robots.txt برای https://example.com:8080/ یا https://example.com/. کار نمیکند {{سرخط}}▼
▲
▲هر robots.
این دستور به همه رباتها میگوید که مینوانند ازهمه فایل ها بازدید کنند چون علامت * یه معنی همه رباتها میباشد و چون دستور <code>disallow</code> هیچ مقداری ندارد به این معنی است که هیچ صفحه ای disallowed نشده{{سرخط}}▼
▲; http://example.com/robots.txt برای
تعداد زیادی از سرچ اینجینها از جمله Ask، AOL، Baidu، Bing، Google، Yahoo! و Yandex از این استانداردها پیروی میکنند.
== مثالها ==
▲این دستور به
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow:{{سرخط}}</code>
{{پایان چپ چین}}
این نتیجه را
این دستور به همه رباتها میگوید که وارد وبسایت نشوند {{سرخط}}▼
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow: /{{سرخط}}</code>
{{پایان چپ چین}}
این مثال به همه رباتها
{{چپ چین}}
<code>User-agent: *{{سرخط}}
سطر ۳۹ ⟵ ۵۹:
{{پایان چپ چین}}
این مثال به همه رباتها
{{چپ چین}}
<code>User-agent: *{{سرخط}}
Disallow: /directory/file.html{{سرخط}}</code>
{{پایان چپ چین}}
توجه کنید که همه
این مثال به یک ربات خاص میگوید که وارد وبسایت نشود {{سرخط}}▼
{{چپ چین}}
<code>User-agent: BadBot # replace 'BadBot' with the{{سرخط}} actual user-agent of the bot{{سرخط}}
Disallow: /{{سرخط}}</code>
{{پایان چپ چین}}
این مثال به دو ربات خاص
{{چپ چین}}
<code>User-agent: BadBot # replace 'BadBot' with the {{سرخط}}actual user-agent of the bot{{سرخط}}
سطر ۵۶ ⟵ ۸۲:
Disallow: /private/{{سرخط}}</code>
{{پایان چپ چین}}
این مثال نشان
{{چپ چین}}
<code># Comments appear after the "#" symbol at the {{سرخط}}start of a line, or after a directive{{سرخط}}
سطر ۶۲ ⟵ ۹۰:
Disallow: / # keep them out{{سرخط}}</code>
{{پایان چپ چین}}
</code>همچنین میتوان چندین ربات راهمراه با قوانین خودشان لیست کرد {{سرخط}}▼
</code>
تعدادی کمی از سایت ها مانند google از چندین user-agent پشتیبانی میکند که با استفاده از رشته های user-agent خاص به اپراتور اجازه قطع دسترسی از زیرمجموعه ی سرویس های آنهارا میدهد {{سرخط}}▼
▲تعدادی کمی از
{{چپ چین}}
<code>User-agent: googlebot # all Google {{سرخط}}services
|