Zarejestruj się

Zarejestruj się w naszej społecznościowej wyszukiwarce pytań i odpowiedzi, aby zadawać pytania, odpowiadać na pytania innych i nawiązywać kontakty z innymi ludźmi.

Zaloguj się

Zaloguj się do naszej społecznościowej wyszukiwarki pytań i odpowiedzi, aby zadawać pytania, odpowiadać na pytania innych i nawiązywać kontakty z innymi ludźmi.

Nie pamiętam hasła

Zapomniałeś hasła? Wpisz swój adres e-mail. Otrzymasz link i utworzysz nowe hasło za pośrednictwem poczty elektronicznej.

Captcha Kliknij obrazek, aby zaktualizować captcha.

Wpisz swoją nazwę użytkownika.

Proszę wpisać swój adres e-mail.

Wybierz odpowiedni tytuł pytania, aby łatwo można było na nie odpowiedzieć.

Wybierz odpowiednią sekcję, aby łatwo można było wyszukać pytanie.

Proszę wybrać odpowiednie słowa kluczowe Expytanie, ankieta.

Wpisz opis dokładnie i szczegółowo.

Wybierz typ wideo.

Tutaj umieść identyfikator wideo: https://www.youtube.com/watch?v=sdUUx5FdySs Przykład: "sdUUx5FdySs".

Proszę krótko wyjaśnić, dlaczego uważasz, że to pytanie powinno zostać zgłoszone.

Proszę krótko wyjaśnić, dlaczego uważasz, że ta odpowiedź powinna zostać zgłoszona.

Proszę krótko wyjaśnić, dlaczego uważasz, że ten użytkownik powinien zostać zgłoszony.

Zarejestruj się, żeby uzyskać dostęp do pełnej funkcjonalności platformy!

Co to jest robots.txt i dlaczego ten plik jest potrzebny?

Co to jest robots.txt i dlaczego ten plik jest potrzebny?

Co to jest Robots.txt ? Ten plik określa, które strony witryny trafiają do wyników wyszukiwania. To niezwykle ważne dla SEO i podstawowego bezpieczeństwa informacji. Przeczytaj nasz artykuł o tym, czym jest ten plik i jak go używać.

Spis treści:

  1. Co to jest robots.txt
  2. Dlaczego jest potrzebny ten plik?
  3. Zasady dla robots.txt
  4. Przykłady treści robots.txt
  5. Jak stworzyć plik indeksowy
  6. Wniosek

Co to jest robots.txt

Robots.txt, znany również jako plik indeksowy, to dokument tekstowy zawierający zasady indeksowania strony internetowej przez wyszukiwarki. Dzięki tym instrukcjom Google i inne podobne serwisy wiedzą, które treści na stronie mogą być analizowane i dodawane do indeksu, a które nie. Właściciel strony może w każdej chwili stworzyć taki plik i określić zasady, jakie chce. Wyszukiwarki będą wtedy zmuszone do ich przestrzegania.

Dlaczego jest potrzebny ten plik?

Za pomocą pliku robots.txt można zablokować dostęp botów wyszukiwarek do dowolnych sekcji witryny, stron internetowych, a nawet pojedynczych plików, czy to obrazów, audio czy wideo.

W ten sposób można zapobiec pojawianiu się tych treści w wynikach wyszukiwania. W ten sposób nie będą one widoczne dla osób trzecich. Ale jest pewien haczyk. Jeśli strona, którą zablokowałeś przed skanowaniem, jest połączona z inną witryną, może nadal pokazywać się w wynikach wyszukiwania. Aby temu zapobiec, dodaj regułę „noindex” do kodu tej strony.

Jeśli natomiast promujesz swoją witrynę w wyszukiwarkach, ale zauważyłeś, że albo cały zasób, albo niektóre jego strony nie pojawiają się w wynikach wyszukiwania, w takich sytuacjach należy najpierw sprawdzić plik robots.txt. Być może zawiera on zakaz indeksowania.

Zasady dla robots.txt

Reguły – lub instrukcje – dotyczące skanowania witryny, które można dodać do pliku indeksu, nazywane są dyrektywami. Przyjrzyjmy się głównym z nich.

Dyrektywa User-agent (obowiązkowa)

Dyrektywa ta otwiera grupę reguł i określa, które roboty wyszukiwawcze muszą wykonać wszystkie reguły z bieżącej grupy. Składnia będzie: „User-agent: nazwa robota”.

Na przykład, jeśli chcesz stworzyć grupę reguł dla wyszukiwarki Google, napiszesz dyrektywę w następujący sposób:

User-agent: Googlebot

W przypadku robota Binga wygląda to tak:

User-agent: bingbot

Jeśli chcesz stworzyć uniwersalną grupę reguł dla wszystkich wyszukiwarek jednocześnie, użyj gwiazdki zamiast nazwy robota:

User-agent: *

Dyrektywy Disallow i Allow (obowiązkowe)

Każda grupa reguł musi zawierać co najmniej jedną z dwóch dyrektyw: Disallow lub Allow.

Dyrektywa Disallow określa sekcję witryny, stronę lub plik, które nie mogą być indeksowane przez aktualnego robota wyszukiwania. Składnia: „Disallow: ścieżka do sekcji/strony/pliku względem folderu głównego”.

Na przykład, aby uniemożliwić robotom indeksowanie strony hidden-page.html z folderu głównego, dodaj następujący tekst do pliku robots.txt:

Disallow: /hidden-page.html

A jeśli chcesz całkowicie uniemożliwić skanowanie stron, dyrektywa powinna być napisana w następujący sposób:

Disallow: /

Dyrektywa Allow określa sekcję witryny, strony lub pliku, którą bieżący robot może skanować. Składnia: „Allow: path to section/page/file relative to root folder”.

Ten wpis oznacza, że obecny robot może indeksować tylko stronę visible-page.html z folderu głównego i nie ma prawa indeksować reszty witryny.

Allow: /visible-page.html Disallow: /

Dyrektywa Sitemap (opcjonalnie)

Sitemap określa mapę strony (ang. sitemap), czyli plik zawierający informacje o tym, które strony należy przeskanować i w jakiej kolejności. W ten sposób dyrektywa ta sprawia, że indeksowanie Twojej strony jest bardziej efektywne. Składnia: „Sitemap: pełny link do pliku sitemap. Przykładowy wpis:

Sitemap: http://www.site.com/sitemap.xml

Przykłady treści robots.txt

Dla jasności przyjrzyjmy się, jak poszczególne dyrektywy są napisane razem. Poniżej przedstawiono przykłady wypełnionych plików indeksowych. Uwaga: Domyślnie, wyszukiwarki mogą przeszukiwać wszystkie sekcje, strony i pliki, które nie są zablokowane przez regułę Disallow.

Przykład 1. Całkowicie uniemożliwić rakarzom Google’a indeksowanie Twojej strony i dodać sitemapę:

User-agent: Googlebot Disallow: / Sitemap: http://www.site.com/sitemap.xml

Przykład 2. Całkowicie uniemożliwić indeksowanie strony przez roboty Google i Bing:

User-agent: Googlebot User-agent: bingbot Disallow: /

Przykład 3. W pierwszej grupie zabroń robotowi Google indeksować wszystkie linki zaczynające się od „http://site.com/nogooglebot/”; w drugiej grupie pozwól reszcie robotów na całkowite indeksowanie:

User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: /

Przeczytaj więcej o składni i dyrektywach na stronach internetowych wyszukiwarek.

Jak stworzyć plik indeksowy

Jeśli używasz kreatora stron internetowych, takiego jak Blogger lub Wix, prawdopodobnie możesz napisać dyrektywy bezpośrednio w ustawieniach platformy.

Ale w większości przypadków reguły muszą być dodane w osobnym pliku. Oto jak to zrobić:

Utwórz zwykły plik tekstowy. Możesz to zrobić na przykład w Wordpadzie lub standardowym Notatniku Windows.
Dodaj do pliku niezbędne dyrektywy i zapisz go jako „robots.txt”.
Wgraj plik z indeksem do katalogu strony. Jak to zrobić, zależy od hostingu, z którego korzystasz. Jeśli nie wiesz, przeczytaj instrukcję jak wgrać pliki na swoją platformę.
Sprawdź dostępność pliku robots.txt na stronie. Aby to zrobić wystarczy wpisać adres site.com/robots.txt, gdzie site.com to domena Twojej strony.

Wniosek

  • Robots.txt to dokument tekstowy, który zawiera zasady indeksowania strony przez wyszukiwarki.
  • Plik ten może być wykorzystany do kontrolowania dostępu botów wyszukiwarek do dowolnej sekcji witryny, strony internetowej, a nawet poszczególnych plików – obrazów, klipów audio lub wideo. W ten sposób można zakazać lub zezwolić na pojawienie się tych materiałów w wynikach wyszukiwania. Dlatego robots.txt jest bardzo ważny dla SEO.
  • Właściciel strony może w każdej chwili stworzyć robots.txt, przepisać niezbędne zasady i dodać plik do strony. Wyszukiwarki będą wtedy zmuszone do stosowania się do tych instrukcji.

Related Posts

Cele i zadania SEO

Zostaw komentarz

Captcha Kliknij obrazek, aby zaktualizować captcha.