מה הקובץ Robots.txt בתחום?
כלי מנהלי אתרים אתרי אינטרנט סאו גיבור / / March 19, 2020
עודכן לאחרונה ב
אחת הטעויות הגדולות ביותר עבור בעלי אתרים חדשים אינה לבחון את קובץ ה- robots.txt שלהם. אז מה זה בכל מקרה, ומדוע כל כך חשוב? יש לנו את התשובות שלך.
אם אתה הבעלים של אתר ואכפת לך ממצב הבריאות SEO שלך, עליך להכיר את עצמך היטב לקובץ robots.txt בדומיין שלך. תאמינו או לא, מדובר במספר גבוה באופן מטריד של אנשים שמשיקים במהירות דומיין, מתקינים אתר וורדפרס מהיר ולעולם לא טורחים לעשות שום דבר עם קובץ robots.txt שלהם.
זה מסוכן. קובץ robots.txt שהוגדר בצורה לא טובה יכול למעשה להרוס את בריאות SEO של האתר שלך, ולפגוע בסיכויים שיש לך להגדיל את התנועה שלך.
מה הקובץ Robots.txt?
ה Robots.txt שם זה נקרא בשם הקובץ מכיוון שהוא בעצם קובץ שמכיל הוראות לרובוטי האינטרנט (כמו רובוטים של מנועי חיפוש) על הדרך ומה הם יכולים לסרוק באתר האינטרנט שלך. זה היה תקן אינטרנט ואחריו אתרים מאז 1994 וכל סורקי האינטרנט הגדולים עומדים בתקן.
הקובץ מאוחסן בפורמט טקסט (עם סיומת .txt) בתיקיית השורש של אתר האינטרנט שלך. למעשה, אתה יכול להציג את קובץ ה- robot.txt של כל אתר פשוט על ידי הקלדת הדומיין ואחריו /robots.txt. אם תנסה את זה עם groovyPost, תראה דוגמה לקובץ robot.txt מובנה היטב.
הקובץ פשוט אך יעיל. קובץ דוגמה זה אינו מבדיל בין רובוטים. הפקודות מונפקות לכל הרובוטים באמצעות ה- סוכן משתמש: * הנחיה. משמעות הדבר היא כי כל הפקודות העוקבות אחריה חלות על כל הרובוטים שמבקרים באתר כדי לסרוק אותו.
ציון סורקי רשת
תוכל גם לציין כללים ספציפיים לסורקי אינטרנט ספציפיים. לדוגמה, ייתכן שתאפשר ל- Googlebot (הסורק באינטרנט של Google) לסרוק את כל המאמרים באתר שלך, אך ייתכן שתרצה אל תאפשר לסורק האינטרנט הרוסי Yandex Bot לסרוק מאמרים באתר שלך עם מידע מזערי רוסיה.
ישנם מאות סורקי רשת שגורמים לאינטרנט למידע על אתרי אינטרנט, אך עשרת הנפוצים ביותר שכדאי לדאוג להם מופיעים כאן.
- Googlebot: מנוע החיפוש של גוגל
- Bingbot: מנוע החיפוש Bing של מיקרוסופט
- סליפמנוע חיפוש של יאהו
- DuckDuckBot: מנוע חיפוש של DuckDuckGo
- Baiduspider: מנוע חיפוש באידו סיני
- YandexBot: מנוע חיפוש Yandex הרוסי
- Exabot: מנוע חיפוש Exalead הצרפתי
- Facebot: בוט הסריקה של פייסבוק
- ia_archiver: הסורק של דירוג האינטרנט של אלכסה
- MJ12 בוט: מסד נתונים לאינדקס קישורים גדול
אם ניקח את התרחיש לדוגמה לעיל, אם רצית לאפשר ל- Googlebot להוסיף אינדקס של כל האתר שלך, אך רצית לעשות זאת חסום את Yandex לאינדקס של תוכן המאמר מבוסס רוסית שלך, תוסיף את השורות הבאות ל- robots.txt שלך קובץ.
סוכן משתמש: googlebot
Disallow: Disallow: / wp-admin /
בטל: /wp-login.php
משתמש-סוכן: yandexbot
Disallow: Disallow: / wp-admin /
בטל: /wp-login.php
בטל: / רוסיה /
כפי שאתה יכול לראות, החלק הראשון חוסם רק את גוגל לסרוק את דף הכניסה שלך ודפי הניהול של WordPress. החלק השני חוסם את Yandex מאותו דבר, אך גם את כל האזור באתר שלך בו פרסמת מאמרים עם תוכן אנטי-רוסיה.
זו דוגמא פשוטה לאופן השימוש באפשרות בטל פקודה לשלוט בסורקי אתרים ספציפיים המבקרים באתר שלך.
פקודות Robots.txt אחרות
אי-אישור אינו הפקודה היחידה שיש לך גישה אליה בקובץ robots.txt שלך. אתה יכול גם להשתמש בכל אחת מהפקודות האחרות שתכוון כיצד רובוט יכול לסרוק את האתר שלך.
- בטל: אומר לסוכן המשתמש להימנע מסריקת כתובות אתרים ספציפיות, או קטעים שלמים באתר שלך.
- להתיר: מאפשר לך לכוונן דפים או תיקיות משנה ספציפיים באתר שלך, למרות שאולי לא אישרת את תיקיית האב. לדוגמה, אתה יכול לאפשר: / בערך /, אך לאפשר: / אודות / ryan /.
- עיכוב זחילה: זה אומר לסורק להמתין מספר x שניות לפני שהוא מתחיל לסרוק את תוכן האתר.
- מפת אתר: ספק למנועי חיפוש (Google, Ask, Bing ו- Yahoo) את מיקום מפת האתר שלך ב- XML.
זכור כי בוטים יעשו זאת רק האזן לפקודות שסיפקת כשאתה מציין את שם הבוט.
טעות נפוצה שאנשים מבצעים היא איסור אזורים כמו / wp-admin / מכל הבוטים, אך לאחר מכן ציין קטע googlebot ורק אי-אסור לאזורים אחרים (כמו / בערך /).
מכיוון שהבוטים עוקבים רק אחר הפקודות שאתה מציין בקטע שלהם, עליך לשנות מחדש את כל הפקודות האחרות שציינת עבור כל הבוטים (באמצעות * user-agent).
- בטל: הפקודה נהגה לומר לסוכן משתמש שלא לסרוק כתובת URL מסוימת. רק שורה אחת "הרשה:" מותרת לכל כתובת אתר.
- אפשר (ישים רק עבור Googlebot): הפקודה לומר ל- Googlebot שהיא יכולה לגשת לדף או לתיקיית משנה למרות שדף האם שלה או תיקיית המשנה עשויים להיות אסורים.
- עיכוב זחילה: כמה שניות סורק צריך לחכות לפני שהוא טוען וסרוק תוכן עמוד. שים לב ש- Googlebot לא מאשר פקודה זו, אך ניתן להגדיר את קצב הסריקה במסוף החיפוש של Google.
- מפת אתר: משמש לקריאת המיקום של מפת האתר (ים) של XML המשויכים לכתובת אתר זו. שים לב פקודה זו נתמכת רק על ידי Google, Ask, Bing ו- Yahoo.
זכור כי robots.txt נועד לעזור לבוטים לגיטימיים (כמו בוטים של מנועי חיפוש) לסרוק את האתר שלך בצורה יעילה יותר.
יש הרבה סורקים מפחידים שזוחלים את האתר שלך כדי לעשות דברים כמו לגרד כתובות דוא"ל או לגנוב את התוכן שלך. אם אתה רוצה לנסות להשתמש בקובץ robots.txt שלך כדי לחסום את הסורקים האלה לסרוק כל דבר באתר שלך, אל תטרח. יוצרי הסורקים הללו מתעלמים בדרך כלל מכל מה ששמת בקובץ robots.txt שלך.
מדוע לא לאסור דבר?
הגדרת מנוע החיפוש של גוגל לסרוק כמה שיותר תוכן איכותי באתר האינטרנט שלך הוא הדאגה העיקרית עבור רוב בעלי האתרים.
עם זאת, גוגל רק מוציאה מוגבלת תקציב זחילה ו קצב זחילה באתרים בודדים. שיעור הסריקה הוא כמה בקשות בשנייה שתבצע Googlebot לאתר שלך במהלך אירוע הסריקה.
חשוב יותר הוא תקציב הסריקה, והוא מספר הסכום הכולל של בקשות ש- Googlebot תבקש לסרוק את האתר שלך בפגישה אחת. גוגל "מוציאה" את תקציב הסריקה שלה על ידי התמקדות באזורים באתר שלך שהם פופולריים מאוד או שהשתנו לאחרונה.
אינך עיוור למידע זה. אם אתה מבקר כלי מנהלי האתרים של גוגל, אתה יכול לראות כיצד הסורק מתמודד עם האתר שלך.
כפי שאתה יכול לראות, הסורק שומר על פעילותו באתר שלך די קבועה מדי יום. זה לא סורק את כל האתרים, אלא רק את האתרים שהיא מחשיבה שהם החשובים ביותר.
מדוע להשאיר ל- Googlebot להחליט מה חשוב באתר שלך, כאשר אתה יכול להשתמש בקובץ robots.txt שלך כדי לומר לו מה הם העמודים החשובים ביותר? זה ימנע מ- Googlebot לבזבז זמן על דפים בעלי ערך נמוך באתר שלך.
מיטוב תקציב הסריקה שלך
כלי מנהלי האתרים של גוגל מאפשר לך גם לבדוק אם Googlebot קורא את קובץ ה- robots.txt שלך בסדר והאם יש שגיאות.
זה עוזר לך לאמת שבנית נכון את קובץ ה- robots.txt שלך.
אילו דפים עליך לבטל מ- Googlebot? זה טוב עבור קידום אתרים באתר שלך לאפשר את הקטגוריות הבאות של דפים.
- דפים משוכפלים (כמו דפים ידידותיים להדפסה)
- דפי תודה שעוקבים אחר הזמנות מבוססות טפסים
- טפסים להזמנת הזמנות או מידע
- דפי קשר
- דפי כניסה
- דפי מכירות של מגנט עופרת
אל תתעלם מקובץ ה- Robots.txt שלך
הטעות הגדולה ביותר שבעלי אתרים חדשים עושים היא אפילו לא להסתכל בקובץ robots.txt שלהם. המצב הגרוע ביותר יכול להיות שקובץ robots.txt למעשה חוסם את האתר שלך, או אזורים באתר שלך, לסרוק בכלל.
הקפד לבדוק את קובץ robots.txt שלך וודא שהוא ממוטב. בדרך זו, גוגל ומנועי חיפוש חשובים אחרים "רואים" את כל הדברים הנהדרים שאתה מציע לעולם באמצעות אתר האינטרנט שלך.