Back to Question Center
0

Semalt jout tips oer hoe't jo mei bots, spiders en kroblers helje

1 answers:

Neist it meitsjen fan sykmasjine friendly URLs kin de .htaccess-triem Webmasters besjogge bepaalde botsjes fan tagong ta har webside. Ien manier om dizze robots te blokkearjen is troch de robots.txt-bestân. Ross Barber, lykwols Semalt Customer Success Manager, stelt dat hy in oantal crawlers sjoen hat dy't dizze fersyk ignorearje. Ien fan 'e bêste manieren is it te brûken fan' e .htaccess-bestân om har te stopjen fan jo ynhâld.

Wat binne dizze bots?

Se binne in soarte fan software dy't brûkt wurdt troch sykmasines om nije ynhâld fan 'e ynternet te wiskjen foar yndeksearingsdoelen.

Se dogge de folgjende taken:

  • Besykje websiden dy't jo hawwe ferbûn mei
  • Kontrolearje jo HTML-koade foar flaters
  • Se bewarje hokker websiden jo ferbine en sjogge wat websiden ferwize nei jo ynhâld
  • Seksje jo yndeks

Guon bots binne lykwols bang en sykje jo side foar e-mailadressen en foarmen dy't normaal brûkt wurde om jo net-winske berjochten of spam te stjoeren. Oaren sjogge sels foar feiligerslûzels yn jo koade.

Wat is nedich om web crawlers te blokkearjen?

Foardat jo de .htaccess-bestân brûke, moatte jo de neikommende dingen kontrolearje:

1. Jo side moat rinne op in Apache-tsjinner. Tsjintwurdich, sels dizze webhostingbedriuwen dy't heul moasten yn har baan, jouwe jo tagong ta de ferplichte triem.

2. Jo moatte tagong krije ta jo rôze serverlogs fan jo webside, sadat jo fine kinne hokker botsjes jo websiden besykje.

Tink derom dat jo gjin manier wêrop jo alle skealike botsjes bewarje kinne, útsein jo allinich har blokkearje, ek dyjingen dy't jo beskôgje dat jo helpe kinne. Nije bots binne elke dei kommen, en âlderen wurde feroare. De effektivste manier is om jo koade te befêstigjen en te meitsjen foar bots foar jo spam.

Knoppen identifisearje

Bots kinne bepaald wurde troch it IP-adres of fan 'e "Agent Agent String", dy se yn' e HTTP-kopers stjoere. Sa brûkt Google bygelyks "Googlebot."

Jo kinne dizze list mei 302 bots nedich wêze as jo al de namme fan 'e bot hawwe dat jo graach wolle brûke. Htaccess

In oare manier is om alle log-bestannen fan 'e tsjinner te downloaden en te iepenjen mei in tekstbewurker. assistint fan jo webhost.

As jo ​​witte wat de side besocht is, of de tiid fan besykjen, is it makliker om te kommen mei in net winske bot. Jo kinne de log-bestân mei dizze parameter sykje

Ea, hasto oanjûn wat bots jo nedich ha blokkearje; Jo kinne dan se yn 'e .htaccess-bestân opnimme. Tink derom dat it boten fan 'e bot net genôch is om it te stopjen. It kin weromgean mei in nije IP of namme.

Hoe se har te blokkearjen

Laden in kopy fan 'e .htaccess-bestân. Meitsje reservaten as jo nedich binne.

Metoade 1: blokkearje troch IP

Dizze koade snippet blokkearret de bot mei it IP-adres 197.0.0.1

Diening bestellen, Allow

fan 197.0.0.1

De earste line betsjuttet dat de tsjinner alle oanfragen oanpasse sil oerienkomme mei de patroanen dy't jo oanjûn hawwe en alle oaren befetsje

De twadde line fertelt de server om in 403 út te jaan: ferbeane side

Method 2: Blokkearje troch brûkersagenten

De maklikste manier is om Apache's werkenne motor te brûken

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

De earste rige soarget derfoar dat it werjaan fan it werjaan fan module is ynskeakele. Rigel twa is de kondysje dy't de regel jildt foar. De "F" yn rigel 4 fertelt de server om in 403 werom te krijen: ferbean, wylst de "L" betsjut dit is de lêste regel.

Jo sille dan de .htaccess-bestân op jo server uploade en de besteande oerskriuwe. Mei de tiid moatte jo de IP's bot aktualisearje. As jo ​​in flater meitsje, lês dan de reservekopy dy't jo makke hawwe.

November 29, 2017
Semalt jout tips oer hoe't jo mei bots, spiders en kroblers helje
Reply