Internetul abisal

Profundă Web ( de asemenea , ascunse Web sau Web invizibil ) sau ascunse Web se referă la o parte a World Wide Web , care nu pot fi găsite atunci când cercetarea folosind normale de motoarele de căutare . Spre deosebire de Deep Web, site - urile web accesibile prin intermediul motoarelor de căutare sunt numite Clear Web, Visible Web sau Surface Web . Deep web-ul constă în mare parte din baze de date tematice ( baze de date de specialitate ) și site-uri web. Pe scurt, este un conținut care nu este accesibil în mod liber și / sau conținut care nu este indexat de motoarele de căutare sau care nu ar trebui indexat.

Tipuri de deep web

Potrivit Sherman & Price (2001), se disting cinci tipuri de web invizibil: „Web opac” (Web opac), „Web privat”, „Web proprietar” (web proprietar), „Web invizibil” (web invizibil)) și „Web cu adevărat invizibil” (de fapt web invizibil).

Web opac

Opac Web (. Engleză Opac Engl:. Opacă ) sunt pagini web care pot fi indexate, dar , în prezent , din motive de eficiență tehnică sau cost-eficiență să nu fie indexate (adâncimea de căutare, frecvența vizitelor).

Motoarele de căutare nu iau în considerare toate nivelurile de director și subpagini ale unui site web. Când capturați pagini web, crawlerele web controlează prin linkuri către următoarele pagini web. Crawlerele web în sine nu pot naviga, chiar se pierd în structuri de directoare profunde , nu pot captura pagini și nu își pot găsi drumul înapoi la pagina de start. Din acest motiv, motoarele de căutare iau în considerare adesea cel mult cinci sau șase niveluri de directoare. Documentele extinse și, prin urmare, relevante pot fi localizate la niveluri ierarhice inferioare și nu pot fi găsite de motoarele de căutare din cauza profunzimii limitate a indexării.

În plus, există formate de fișiere care pot fi înregistrate doar parțial (de exemplu fișiere PDF , Google indexează doar o parte dintr-un fișier PDF și face conținutul disponibil ca HTML).

Există o dependență de frecvența indexării unui site web (zilnic, lunar). În plus , sunt afectate bazele de date actualizate constant, precum datele de măsurare online . Sunt incluse, de asemenea , site- uri web fără hyperlinkuri sau sisteme de navigare, site-uri web neconectate, URL- uri pustnice sau pagini orfane ( orfane pentru orfani ).

Web privat

Privat web descrie site - uri care ar putea fi indexate, dar nu sunt indexate din cauza restricțiilor de acces ale webmaster.

Acestea pot fi site-uri web din intranet (site-uri web interne), dar și date protejate prin parolă (înregistrare și, eventual, parolă și autentificare ), acces doar pentru anumite adrese IP , protecție împotriva indexării de către Robots Exclusion Standard sau protecție împotriva indexării de către meta - Etichetați valorile noindex , nofollow și noimageindex în codul sursă al site-ului web.

Web proprietar

Cu site - urile web proprietare se înțelege indexarea, dar sunt disponibile numai (gratuit sau plătit) numai după recunoașterea unei condiții de utilizare sau prin introducerea unei parole.

Astfel de site-uri web pot fi apelate de obicei numai după identificare ( baze de date de specialitate bazate pe web ).

Web invizibil

Invizibil Web include site - uri care ar putea fi indexate dintr - un punct de vedere pur tehnic, dar nu sunt indexate din motive comerciale sau strategice - cum ar fi baze de date cu un formular web.

Web cu adevărat invizibil

Cu Truly Invisible sunt apelate site - uri web , care nu pot fi indexate din motive tehnice (încă). Acestea pot fi formate de baze de date care au fost create înainte de WWW (unele gazde), documente care nu pot fi afișate direct în browser , formate non-standard (de ex. Flash ), precum și formate de fișiere care nu pot fi capturate datorită complexității lor (grafic formate). În plus, există date comprimate sau site-uri web care pot fi operate doar prin navigarea utilizatorului utilizând grafică (hărți de imagine) sau scripturi ( cadre ).

Baze de date

Pagini web de baze de date create dinamic

Crawlerele web funcționează aproape exclusiv pe site-urile de date statice și nu pot ajunge la multe site-uri dinamice ale bazelor de date, deoarece pot ajunge la pagini mai profunde doar prin hyperlinkuri . Acele pagini dinamice pot fi adesea atinse numai prin completarea unui formular HTML , lucru pe care un crawler nu îl poate face în acest moment.

Furnizorii de baze de date cooperative permit motoarelor de căutare să acceseze conținutul bazei de date prin mecanisme precum JDBC , spre deosebire de bazele de date necooperante (normale) , care oferă acces la baza de date doar printr-un formular de căutare.

Gazde și baze de date de specialitate

Gazdele sunt furnizori de informații comerciale care grupează baze de date specializate de la diferiți producători de informații într-o singură interfață. Unii furnizori de baze de date (gazde) sau producători de baze de date înșiși operează baze de date relaționale , ale căror date nu pot fi accesate fără o opțiune specială de acces (limbaj de recuperare, instrument de recuperare). Crawlerele web nu înțeleg nici structura, nici limba necesară pentru a citi informațiile din aceste baze de date. Multe gazde furnizează servicii online din anii 1970 și, în unele cazuri, operează sisteme de baze de date în bazele lor de date care au fost create cu mult înainte de WWW.

Exemple de baze de date: cataloage de biblioteci ( OPAC ), prețuri la bursă, orare, texte legale, schimburi de locuri de muncă, știri, brevete, agende telefonice, magazine web, dicționare.

Estimarea cantității de date

Potrivit unui studiu al BrightPlanet publicat în 2001, următoarele proprietăți au apărut pentru deep web:

Cantitatea de date din Deep Web este de aproximativ 400 până la 550 de ori mai mare decât cea din Surface Web. 60 dintre cele mai mari site-uri web din Deep Web conțin numai 7.500 de terabyți de informații, adică de 40 de ori mai mult decât Surface Web. Se pare că există peste 200.000 de site-uri web profunde. Potrivit studiului, site-urile web de pe Deep Web au în medie cu 50% mai multe accesări pe lună și sunt conectate mai des decât site-urile de pe Surface Web. Deep web este, de asemenea, cea mai rapidă categorie de informații noi de pe web. Cu toate acestea, web-ul profund nu este cunoscut publicului care caută pe Internet. Mai mult de jumătate din deep web este localizat în baze de date specifice subiectului.

Deoarece BrightPlanet oferă un ajutor de căutare comercială cu DQM2, specificația de dimensiune (posibil mult supraestimată) trebuie privită cu mare prudență. Există câteva date care trebuie curățate din estimarea BrightPlanet a cantității de date din Deep Web:

  • Duplicate din cataloagele bibliotecii care se suprapun
  • Centrul Național de Date Climatice de colectare a datelor (361 terabytes)
  • Date NASA (296 terabytes)
  • colecții de date suplimentare (Centrul Național de Date Oceanografice și Centrul Național de Date Geofizice, Rețeaua dreptului de a ști, Alexa, ...)

Numărul de seturi de date arată că studiul supraestimează de zece ori dimensiunea rețelei web profunde. Cu toate acestea, furnizorul de informații LexisNexis are doar 4,6 miliarde de înregistrări, mai mult de jumătate din numărul înregistrărilor de la liderul motorului de căutare Google. Prin urmare, rețeaua profundă este cu siguranță mult mai mare decât rețeaua de suprafață.

Într-un studiu realizat de Universitatea din California, Berkeley în 2003, următoarele valori au fost determinate ca dimensiune a internetului: Surface Web - 167 terabytes, Deep Web - 91.850 terabytes. Fondurile tipărite ale Bibliotecii Congresului din Washington, una dintre cele mai mari biblioteci din lume, sunt de 10 terabyți.

În general, informațiile despre Deep Web nu trebuie luate prea în serios. La urma urmei, multe site-uri web nu intră singure într-un motor de căutare. Un site web creat privat nu este vizitat imediat. Dar puteți, de asemenea, să înregistrați o astfel de pagină sau să așteptați până când propria pagină a fost conectată la alte pagini care au fost deja indexate de crawlerele.

Vezi si

literatură

Link-uri web

Dovezi individuale

  1. ^ Gary Price, The Invisible Web: descoperirea surselor de informații pe care motoarele de căutare nu le pot vedea . CyberAge Books, Medford, NJ 2001, ISBN 0-910965-51-X (engleză).
  2. ^ Michael K. Bergman: The Deep Web: Surfacing Hidden Value . În: The Journal of Electronic Publishing , volumul 7, 2001, nr
  3. Internet Archive Wayback Machine ( Memento din 14 martie 2006 în Internet Archive )
  4. Internet ( memento al originalului din 15 octombrie 2004 în Internet Archive ) Info: Arhiva link - ul a fost introdus în mod automat și nu a fost încă verificată. Vă rugăm să verificați linkul original și arhivă conform instrucțiunilor și apoi eliminați această notificare. sims.berkeley.edu @ 1@ 2Șablon: Webachiv / IABot / www.sims.berkeley.edu