최초의 검색 엔진은 무엇을 평가했나요? 인터넷 검색 엔진이 작동하는 방식. 검색 엔진은 인터넷에서 무엇을, 어떻게 검색합니까?

31.03.2019

분류

검색지역별(조건부)

현지의

예를 들어 하나 이상의 사이트나 로컬 네트워크에서 World Wide Web의 모든 부분에 대한 정보를 검색하도록 설계되었습니다.

글로벌

전체 인터넷 또는 인터넷의 상당 부분에서 정보를 검색하도록 설계되었습니다. 이러한 검색 엔진의 대표자는 다음과 같습니다. 검색 엔진구글, 얀덱스 등 검색 엔진정보를 검색하다 다양한 방식예를 들어 텍스트, 비디오, 이미지, 지리적 개체, 개인 데이터 등이 있습니다. 이 경우 검색 엔진이 작업할 수 있는 파일은 텍스트 형식일 수 있습니다(예: .html, .htm, .txt, . doc, .rtf...) 및 그래픽(.gif, .png, .svg...) 또는 멀티미디어(비디오 및 사운드). 지금까지 가장 일반적인 방법은 텍스트 문서를 검색하는 것이었습니다.

검색어

검색을 위한 초기 정보는 검색어입니다.

기능

검색 엔진은 여러 기능을 수행합니다.

링크 검색

페이지 및 기타 사이트 문서에 대한 링크를 검색합니다.

자동

수동 모드

사용자는 자신의 사이트 페이지에 대한 링크를 검색 엔진 데이터베이스에 추가합니다.

웹사이트 문서 색인 생성

문서에서 검색 관련 정보를 추출하고, 해당 정보를 검색 엔진에 적합한 형식으로 변환하고, 해당 정보를 검색 엔진 데이터베이스에 저장합니다.

색인된 문서의 데이터베이스 검색

여러 단계로 구성될 수 있음

검색어와 일치하는 문서 찾기

검색어와의 관련성에 따라 문서 순위 지정

문서 클러스터링

노트

또한보십시오

검색 엔진(목록)
흔하다
지역	Accoona(중국/미국) Alleba(필리핀) Ansearch(호주/미국/영국/뉴질랜드) 항구 (러시아) Daum(한국) Guruji.com(인도) [email protected](러시아) Maktoob(근동) Meta.ua(우크라이나) Miner.hu(헝가리) Najdi.si(슬로베니아) Onkosh(근동) 램블러(러시아) Rediff(인도) SAPO(포르투갈) Search.ch(스위스) 세삼(노르웨이/스웨덴) 사람! (이스라엘)
...리더
어간 형성 모음
메타 검색	AskNet.ru Brainboost Clusty Dogpile FarSEER 정확한us.ru Excite HotBot Info.com Ixquick Krozilo Mamma Metacrawler MetaLib 니그마무수한 검색 SideStep Surfwax Turbo10 WebCrawler GlobalFileSearch
열려 있는 / 무료
어린이	AGAKIDS(러시아) 어린이에게 물어보세요(영국) Frag Finn(독일) Kids AOL(미국) Kids Yahoo! (미국) 퀸투라 어린이(러시아) 가족 Yandex(러시아) 고굴(러시아)

위키미디어 재단. 2010.

다른 사전에 "검색 엔진"이 무엇인지 확인하십시오.

검색 엔진- (검색 엔진): 웹 페이지를 색인화하는 웹 서버 사용 가능한 서버(예: Yandex)... 출처: 인터넷 리소스. 시각 장애인을 위한 접근성 요구 사항. GOST R 52872 2007 (일자 Rostekhregulirovaniya 명령에 의해 승인됨... ... 공식 용어

검색 엔진- 사용 가능한 서버(예: Yandex)에서 웹 페이지를 색인화하는 웹 서버입니다. [GOST R 52872 2007] 주제 정보 기술일반적으로 EN 검색 엔진... 기술 번역가 가이드

인터넷에서 특수 웹사용자가 특정 요청에 따라 이 요청과 일치하는 사이트에 대한 링크를 받을 수 있는 사이트입니다. 검색 시스템은 세 가지 구성 요소로 구성됩니다. 1개의 검색 로봇; 2개의 시스템 인덱스; 그리고 3개의 프로그램,... ... 금융 사전

인터넷에서 다음과 같은 기능을 수행하는 검색 엔진입니다. 여러 검색 엔진에 검색 요청을 보냅니다. 수신된 응답으로부터 요약(한 페이지에)을 생성합니다. 영어로: 메타 검색 엔진 동의어: Meta caterpillar 영어 동의어: Metacrawler... ... 금융 사전

이 글은 완전히 다시 작성되어야 합니다. 토론 페이지에 설명이 있을 수 있습니다. 프로그래밍 방식으로 검색 엔진 하드웨어 복합체기능을 제공하는 웹 인터페이스로 ... Wikipedia

검색 시스템- – (영어 검색 엔진, 동의어: 검색 엔진, 검색 서버, 검색 엔진) – 인터넷에서 정보를 검색하는 도구입니다. 일반적으로 검색 엔진의 작업은 두 단계로 구성됩니다. 특별 프로그램 ( 검색 로봇, 기관총, 요원,... ... 미디어 백과사전 - 검색 엔진은 인터넷에서 정보를 검색할 수 있는 기능을 제공하는 웹사이트입니다. 대부분의 검색 엔진은 World Wide Web 사이트에서 정보를 검색하지만, 다음에서 파일을 검색할 수 있는 시스템도 있습니다. FTP 서버, 물품은... ... 위키피디아

서적

인터넷에서 세부 사항 검색의 효율성 문제에 대해 I. A. Semenov. 버클리 조사에 따르면 2003년 현재 인터넷상의 정보량은 258.85테라바이트로 추산되는데, 이는 공개적으로 이용 가능한 데이터에 불과하다. Internet World Stats에 따르면, 성장세는... 전자책

물론, 인기 있는 검색 엔진 목록은 여기서 끝나지 않습니다. 그 수는 수백 개에 이릅니다. 그러나 나는 이것이 영어 사이트에서 작업하기에 충분할 것이라고 확신합니다.

위에 제시된 거의 모든 검색 엔진은 키릴 문자로 작동할 수 있습니다. 하지만 러시아어로 정보를 검색하려면 여전히 국내 검색 엔진을 추천합니다.

다른 러시아어 검색 엔진도 있지만 이것들이 가장 인기가 있으며, 특히 처음 두 엔진이 가장 인기가 있습니다.

쌀. 4.1. 구글 검색 엔진

인터넷에서 흑인 PR에 대응하는 책에서 작가 쿠진 알렉산더 블라디미로비치

"전투" 인터넷 리소스를 홍보하고 콘텐츠로 채우기 위한 도구인 검색 엔진 및 디렉토리 이 섹션은 "Internet Intelligence: A Guide to Action" 책의 일부 자료를 사용하여 작성되었습니다.

책 블로그에서. 생성 및 홍보 작가 Yushchuk 예브게니 블라디미로비치

블로그를 홍보하고 콘텐츠로 채우는 도구인 검색 엔진 및 디렉토리 블로그 콘텐츠 자동화에 대해 이야기하겠습니다. 흥미로운 내용, 즉, 다른 블로거보다 더 빠르게 블로그 자료를 찾는 방법은 대부분의 독자가 할 수 없을 것 같습니다.

인터넷 인텔리전스 [행동 지침] 책에서 작가 Yushchuk 예브게니 레오니도비치

검색 엔진에서 회사 이름과 관련된 쿼리 컴파일

자신의 손으로 컴퓨터 조립하기 책에서 작가 Vatamanyuk 알렉산더 이바노비치

5.2. 널리 사용되는 운영 체제에는 여러 가지가 있습니다. 운영체제, 각각 고유한 보급률이 있습니다. 일부 시스템은 네트워킹에 더 적합하고 다른 시스템은 네트워킹에 더 적합합니다. 배터리 수명, 성능 저하 없이 모든 것을 결합할 수 있기 때문에

Win2K FAQ(v. 6.0) 책에서 발췌 저자 샤시코프 알렉세이

(6.10) 혼합 네트워크, 넷웨어 및 NT, 클라이언트 W2kPro 및 W98이 있습니다. W98을 사용하는 컴퓨터는 W2k를 사용하는 컴퓨터에 로그인할 수 없습니다. 이 문제를 해결하려면 IPX/SPX는 Novell 클라이언트에만, TCP/IP는 Novell 클라이언트에만 바인딩하는 프로토콜을 사용하여 바인딩해야 합니다. 마이크로소프트 클라이언트. 속성에서 할 수 있습니다 네트워크 연결메뉴

책 초록, 교과 과정, 컴퓨터 졸업장에서 작가

검색 엔진 좀 더 구체적이고 구체적인 자료를 선택해야 하는 경우 특별한 정보, 더 나은 사용 검색 엔진. 검색 엔진은 인터넷 검색을 위한 일련의 특수 프로그램입니다. 그들은 본질적인 단점이 없습니다.

책 인터넷에서. 새로운 기회. 트릭과 효과 작가 Balovsyak Nadezhda Vasilievna

검색 엔진의 작동 방식 및 쿼리를 올바르게 구성하는 방법 최신 검색 엔진은 인터넷에서 정보를 검색하도록 설계된 일련의 특수 프로그램입니다. 작동 원리는 다음과 같습니다.

책 인터넷에서 100%. 자세한 튜토리얼: 초보자부터 전문가까지 작가 글래드키 알렉세이 아나톨리에비치

인기 있는 온라인 영화관 인기 있는 무료 온라인 영화관 중 하나는 http://vsekino.tv에 있습니다(그림 7.5). 쌀.

인터넷 책에서 - 쉽고 간단합니다! 작가 알렉산드로프 에고르

인기 있는 카탈로그 가장 인기 있고 전체 카탈로그세계에서 의심할 여지없이 영어 Yahoo! (http://dir.yahoo.com) (그림 4.4). 쌀. 4.4. 가장 인기 있는 카탈로그 Yahoo! 링크 디렉토리는 종종 검색 엔진과 결합된다는 점에 유의해야 합니다.

모두를 위한 Yandex 책에서 저자 Abramzon M. G.

1.11.3. 인기글 목록 업데이트 인기 게시물하루에 한 번 발생합니다. 이러한 레코드가 수십 개 선택되지만 가장 인기 있는 레코드 중 일부만 제출됩니다. 제목 페이지검색 섹션. 나머지는 총 기록 링크에서 볼 수 있습니다.

인터넷에서 모든 파일을 찾고 다운로드하는 방법 책에서 저자 라이트먼 M.A.

1.11.6. 인기 카테고리 이전에 블로거 순위, 서비스, 가장 인기 있는 게시물에 대해 이야기했다면 이제 카테고리에 대해 이야기하겠습니다. 메시지의 카테고리는 작성자에 의해 결정됩니다. 어떻게, 왜, 왜 - 주제, 패션, 기분에 따라 다릅니다. 하지만

Windows 7의 첫 번째 단계 책에서 발췌. 초보자 가이드 작가 콜리스니첸코 데니스 N.

1.11.7. 인기 뉴스 Yandex 서비스의 뉴스 등급은 다른 지표 중에서 별도의 블록으로 강조 표시됩니다. 소식. 블로그에서 가장 많이 거론되는 뉴스들입니다. 인기 뉴스 목록은 5~10분마다 업데이트됩니다. 의 링크를 따라가시면

책에서 노트북을 만나다 저자 주코프 이반

인기 있는 트래커 전 세계에는 사용할 수 있는 서비스를 제공하는 토렌트 트래커가 많이 있습니다. 다음은 가장 인기 있는 추적기입니다.? http://lostfilm.tv는 TV 시리즈 전문 추적기입니다. 일반적으로 릴리스에는 전문적인 더빙 및 품질이 있습니다.

IT 보안이라는 책에서: 기업을 위험에 빠뜨릴 가치가 있습니까? 린다 맥카시

10.2.1. 인터넷 검색 엔진에는 다음이 포함됩니다. 엄청난 양정보. 결국 인터넷에서는 누구나 웹사이트를 만들 수 있으므로 새로운 사이트의 수가 매일 증가하고 있습니다. 검색 엔진은 인터넷을 검색하는 데 사용됩니다. 검색 엔진은 특별합니다.

작가의 책에서

인기 있는 인터넷 애플리케이션 ICQ(ICQ) ICQ는 중앙 집중식 인스턴트 메시징 서비스입니다. 서비스 사용자(즉, 귀하)는 클라이언트 프로그램(소위 "메신저")을 사용하여 작업합니다. 메시지는 즉시 전송됩니다. 당신은 또한 수

작가의 책에서

인기 있는 우편 목록 Bugtraq 메일링 목록 이 목록에서는 다음 내용을 설명합니다. 취약점 UNIX, 사용 방법 및 종료 방법. 그 목적은 시스템을 해킹하는 방법을 가르치는 것이 아니라 취약점을 발견하는 방법, 이에 대한 정보를 공유하는 방법, 시스템을 해킹하는 방법을 가르치는 것입니다.

검색 엔진은 어떻게 작동하나요? 인터넷의 놀라운 점 중 하나는 수억 개의 웹 리소스가 우리에게 제공될 준비가 되어 있다는 것입니다. 하지만 나쁜 점은 우리가 필요하더라도 우리 앞에 나타나지 않는 수백만 페이지가 있다는 것입니다. 왜냐하면... 우리에게 단순히 알려지지 않았습니다. 인터넷에서 무엇을, 어디서 찾을 수 있는지 알아내는 방법은 무엇입니까? 이를 위해 우리는 일반적으로 검색 엔진을 사용합니다.

인터넷 검색 엔진은 특별한 사이트입니다. 글로벌 네트워크는 사람들이 찾을 수 있도록 돕기 위해 고안되었습니다. 월드 와이드 웹그들에게 필요한 정보. 검색 엔진이 기능을 수행하는 방식에는 차이가 있지만 일반적으로 3가지 주요 기능과 동일한 기능이 있습니다.

이들 모두는 주어진 키워드를 기반으로 인터넷(또는 인터넷의 일부 부문)을 "검색"합니다.
- 모든 검색 엔진은 검색하는 단어와 해당 단어를 찾은 장소를 색인화합니다.
- 모든 검색 엔진에서는 사용자가 이미 색인화되어 데이터베이스에 포함된 웹 페이지를 기반으로 단어 또는 키워드 조합을 검색할 수 있습니다.

최초의 검색 엔진은 최대 수십만 페이지의 색인을 생성했으며 하루에 1,000~2,000개의 요청을 받았습니다. 오늘날 최고의 검색 엔진은 수억 개의 페이지를 지속적으로 색인화하고 있으며 하루에 수천만 건의 요청을 처리하고 있습니다. 아래에서는 검색 엔진이 어떻게 작동하는지, 그리고 우리가 관심 있는 질문에 답할 수 있도록 검색된 모든 정보를 "결합"하는 방법에 대해 설명합니다.

웹을 살펴보자

사람들이 이야기할 때 인터넷 검색 엔진기계는 실제로 검색 엔진을 의미합니다. 세계 인터넷 . 웹이 가장 널리 보급되기 전에 보이는 부분인터넷에는 사람들이 인터넷에서 정보를 찾는 데 도움이 되는 검색 엔진이 이미 있었습니다. "gopher"와 "Archie"라는 프로그램은 다음 위치에 있는 파일을 색인화할 수 있었습니다. 다른 서버, 에 연결됨 인터넷 인터넷필요한 프로그램이나 문서를 검색하는 데 소요되는 시간을 크게 줄였습니다. 지난 세기 80년대 후반에는 Gopher, Archie, Veronica 등을 사용하는 능력이 "인터넷 작업 능력"의 동의어였습니다. 검색 프로그램. 오늘날 대부분의 인터넷 사용자는 검색 범위를 World Wide Web, 즉 WWW로만 제한합니다.

작은 시작

어디서 찾는지 알려드리기 전에 필수서류또는 파일인 경우 이 파일이나 문서는 이미 어느 시점에서 발견되었을 것입니다. 수억 개의 기존 웹 페이지에 대한 정보를 찾기 위해 검색 엔진은 특수 로봇 프로그램을 사용합니다. 이 프로그램은 스파이더("스파이더")라고도 하며 페이지에서 찾은 단어 목록을 작성하는 데 사용됩니다. 그러한 목록을 구성하는 과정을 다음과 같이 부릅니다. 웹 크롤링(웹 크롤링). "유용한"(의미 있는) 단어 목록을 추가로 작성하고 캡처하려면 검색 스파이더가 다른 많은 페이지를 "살펴보아야" 합니다.

누구든지 어떻게 시작하나요? 거미(거미) 웹에서의 여행은요? 대개 출발점세계 최대의 서버이자 매우 인기 있는 웹페이지입니다. 거미는 그러한 사이트에서 여행을 시작하고, 발견된 모든 단어를 색인화하고, 다른 사이트에 대한 링크를 따라 계속해서 이동합니다. 따라서 스파이더 로봇은 점점 더 큰 웹 공간의 "조각"을 덮기 시작합니다. Google.com은 학술 검색 엔진으로 시작되었습니다. 이 검색 엔진이 어떻게 만들어졌는지 설명하는 기사에서 Sergey Brin과 Lawrence Page(Google의 창립자이자 소유주)는 Google의 스파이더가 얼마나 빨리 작동하는지에 대한 예를 제시했습니다. 그 중 몇 가지가 있으며 일반적으로 검색은 3개의 거미를 사용하여 시작됩니다. 각 스파이더는 웹 페이지에 대한 최대 300개의 동시 개방 연결을 지원합니다. 최대 로드 시 Google 시스템은 4개의 스파이더를 사용하여 초당 100페이지를 처리하고 약 600KB/초의 트래픽을 생성할 수 있습니다.

스파이더에게 처리하는 데 필요한 데이터를 제공하기 위해 Google은 스파이더에게 점점 더 많은 URL을 제공하는 것 외에는 아무것도 하지 않는 서버를 보유했습니다. URL을 IP 주소로 변환하는 도메인 이름 서버(DNS) 측면에서 인터넷 서비스 제공업체에 의존하지 않기 위해 Google은 자체 서버 DNS는 페이지 인덱싱에 소요되는 모든 시간을 최소한으로 줄입니다.

언제 구글 로봇방문 HTML 페이지, 다음 두 가지 사항을 고려합니다.

페이지당 단어(텍스트);
- 해당 위치(페이지 본문의 어느 부분).

다음과 같은 서비스 섹션에 위치한 단어 제목, 부제, 메타 태그다른 것들은 사용자 검색어에 특히 중요한 것으로 표시되었습니다. Google Spider는 "a", "an" 및 "the"와 같은 감탄사를 제외하고 페이지에서 모든 유사한 단어의 색인을 생성하도록 만들어졌습니다. 다른 검색 엔진은 색인 생성에 대해 약간 다른 접근 방식을 사용합니다.

모든 검색 엔진 접근 방식과 알고리즘은 궁극적으로 스파이더 로봇이 더 빠르고 효율적으로 작동하도록 만드는 것을 목표로 합니다. 예를 들어 일부 검색 로봇은 색인 생성 중에 제목, 링크 및 페이지에서 가장 자주 사용되는 최대 100개의 단어에 포함된 단어를 추적하며, 심지어 페이지에 있는 텍스트 콘텐츠의 처음 20줄에 있는 각 단어까지 추적합니다. 특히 라이코스의 인덱싱 알고리즘이 바로 이것이다.

AltaVista와 같은 다른 검색 엔진은 "a", "an", "the" 및 기타 중요하지 않은 단어를 포함하여 페이지의 모든 단일 단어를 색인화하는 반대 방향으로 이동합니다.

메타 태그

메타 태그를 사용하면 웹 페이지 소유자가 콘텐츠의 본질을 정의하는 키워드와 개념을 지정할 수 있습니다. 이는 특히 해당 키워드가 페이지 텍스트에서 최대 2-3회 반복될 수 있는 경우 매우 유용한 도구입니다. 이 경우 메타 태그는 검색 로봇을 다음으로 "지시"할 수 있습니다. 올바른 선택페이지 색인 생성을 위한 키워드. 페이지 자체의 콘텐츠와 전혀 관련이 없는 인기 검색어 및 개념이 포함된 메타 태그를 "속일" 가능성이 있습니다. 검색 로봇은 예를 들어 메타 태그와 웹 페이지 콘텐츠의 상관 관계를 분석하고 페이지 콘텐츠와 일치하지 않는 메타 태그(각각 키워드)를 고려에서 "제거"함으로써 이 문제에 대처할 수 있습니다.

이 모든 것은 웹 리소스 소유자가 실제로 원하는 검색 단어에 대한 검색 결과에 포함되기를 원하는 경우에 적용됩니다. 그러나 소유자가 로봇에 의해 색인이 생성되는 것을 전혀 원하지 않는 경우가 종종 있습니다. 그러나 그러한 경우는 우리 기사의 주제가 아닙니다.

지수 구성

스파이더가 새로운 웹 페이지를 찾는 작업을 마치면 검색 엔진은 찾은 모든 정보를 나중에 사용하기 편리하도록 배치해야 합니다. 여기서 중요한 두 가지 주요 구성 요소는 다음과 같습니다.

데이터와 함께 저장된 정보
- 이 정보가 색인화되는 방법.

가장 간단한 경우, 검색 엔진은 단순히 단어를 배치하고 URL 주소, 어디에 위치해 있는지. 그러나 이 단어가 문서의 어느 부분(메타 태그 또는 일반 텍스트)에 있는지, 이 단어가 한 번 또는 반복적으로 사용되는지, 그리고 다른 중요한 관련 리소스에 대한 링크에 포함되어 있습니다. 즉, 이 방법은 사이트 순위를 매기지 않으며 사용자에게 관련 결과를 제공하지 않습니다.

유용한 데이터를 제공하기 위해 검색 엔진은 단어와 해당 URL의 정보만 저장하는 것이 아닙니다. 검색 엔진은 페이지에서 단어가 언급된 횟수(빈도)에 대한 데이터를 저장하고 단어에 "가중치"를 할당한 다음 가중치 순위에 따라 검색 목록(결과)을 생성하는 데 도움이 됩니다. 이 단어, 해당 위치(링크, 메타 태그, 페이지 제목 등)를 고려합니다. 각 상업용 검색 엔진에는 색인 생성 중 키워드의 "가중치"를 계산하는 자체 공식이 있습니다. 이는 검색 엔진이 동일한 검색어에 대해 완전히 다른 결과를 생성하는 이유 중 하나입니다.

발견된 정보를 처리할 때 다음으로 중요한 점은 볼륨을 줄이기 위한 코딩입니다. 디스크 공간그것을 저장하기 위해. 예를 들어, 원본 Google 기사에서는 단어의 가중치 데이터를 저장하는 데 2바이트(각각 8비트)가 사용된다고 설명합니다. 이는 단어 유형(큰 또는 큰)을 고려합니다. 대문자로), 문자 자체의 크기(Font-Size) 및 사이트 순위에 도움이 되는 기타 정보를 제공합니다. 이러한 각 정보 "조각"에는 완전한 2바이트 세트에 2~3비트의 데이터가 필요합니다. 결과적으로, 엄청난 양의 정보를 매우 컴팩트한 형태로 저장할 수 있습니다. 정보가 "압축"되면 이제 인덱싱을 시작할 차례입니다.

인덱싱에는 하나의 목표가 있습니다. 빠른 탐색 필요한 정보. 인덱스를 구축하는 방법에는 여러 가지가 있지만 가장 효과적인 방법은 해시 테이블(해시 테이블). 해싱은 특정 공식을 사용하여 각 단어에 숫자 값을 할당합니다.

모든 언어에는 다음으로 시작하는 문자가 있습니다. 더 많은 단어나머지 알파벳 글자보다 예를 들어 섹션에서 "M"으로 시작하는 단어 영어 사전문자 "X"보다 훨씬 더 많습니다. 이는 가장 많은 것으로 시작하는 단어를 검색한다는 것을 의미합니다. 인기있는 편지다른 어떤 단어보다 시간이 더 걸릴 것입니다. 해싱(해싱)은 이 차이를 균등화하여 평균 검색 시간을 줄이고 인덱스 자체를 실제 데이터와 분리합니다. 해시 테이블에는 해시 값과 해당 값에 해당하는 데이터에 대한 포인터가 포함되어 있습니다. 효과적인 인덱싱 + 효율적인 배치함께 제공하다 고속사용자가 매우 복잡한 검색어를 요청하는 경우에도 검색이 가능합니다.

검색 엔진의 미래

부울 연산자("and", "or", "not")를 기반으로 한 검색은 문자 그대로의 검색입니다. 검색 엔진은 검색어정확히 입력된 대로입니다. 예를 들어, 입력한 단어에 여러 의미가 있을 때 문제가 발생할 수 있습니다. 예를 들어 "열쇠"는 "문을 여는 수단"을 의미할 수도 있고, 서버에 로그인하기 위한 "비밀번호"를 의미할 수도 있습니다. 단어의 한 가지 의미에만 관심이 있다면 분명히 두 번째 의미에 대한 데이터는 필요하지 않을 것입니다. 물론 단어의 불필요한 의미를 기반으로 데이터 출력을 제외하는 리터럴 쿼리를 작성할 수 있지만 검색 엔진 자체가 도움이 될 수 있다면 좋을 것입니다.

미래의 검색 엔진 알고리즘에 대한 연구 분야 중 하나는 개념적 정보 검색입니다. 이는 관련 데이터를 찾기 위해 특정 검색 키워드나 문구가 포함된 페이지의 통계 분석을 사용하는 알고리즘입니다. 이러한 "개념적 검색 엔진"에는 각 페이지에 훨씬 더 많은 저장 공간이 필요하고 각 요청을 처리하는 데 더 많은 시간이 필요하다는 것은 분명합니다. 현재 많은 연구자들이 이 문제를 연구하고 있습니다.

개발 분야에서도 작업이 집중적으로 수행되고 있습니다. 검색 알고리즘쿼리를 기반으로 자연어(자연어 쿼리).

자연 쿼리의 기본 아이디어는 마치 건너편에 앉아 있는 동료에게 질문하는 것처럼 쿼리를 작성할 수 있다는 것입니다. 부울 연산자에 대해 걱정하거나 복잡한 쿼리를 작성하는 데 어려움을 겪을 필요가 없습니다. 오늘날 가장 인기 있는 자연어 검색 사이트는 AskJeeves.com입니다. 쿼리를 키워드로 변환한 다음 사이트를 색인화할 때 사용합니다. 이 접근 방식은 다음과 같은 경우에만 작동합니다. 간단한 쿼리. 그러나 진전은 멈추지 않습니다. 곧 우리는 우리 자신의 "인간 언어"로 검색 엔진과 "대화"할 가능성이 있습니다.

05/04/25 5.4K

소개

인터넷에서 정보를 찾는 주요 방법 중 하나는 검색 엔진을 이용하는 것입니다. 검색 엔진은 매일 인터넷을 크롤링합니다. 웹 페이지를 방문하여 거대한 데이터베이스에 입력합니다. 이를 통해 사용자는 일부 키워드를 입력하고 제출을 누른 다음 어떤 페이지가 쿼리와 일치하는지 확인할 수 있습니다.

검색 엔진의 작동 방식을 이해하는 것은 웹마스터에게 필수적입니다. 이들에게는 검색 엔진의 관점에서 문서의 올바른 구조와 전체 서버 또는 웹사이트가 매우 중요합니다. 이것이 없으면 문서는 검색 엔진에 대한 사용자 요청에 대한 응답으로 충분히 자주 나타나지 않거나 전혀 색인화되지 않을 수도 있습니다.

웹마스터는 자신의 페이지 순위를 높이고 싶어하며 이는 이해할 수 있습니다. 결국 검색 엔진에 대한 모든 요청은 문서에 대한 수백, 수천 개의 해당 링크를 생성할 수 있습니다. 대부분의 경우 처음 10개 링크만 쿼리와 충분히 관련됩니다.

대부분의 사용자는 상위 10위를 따르는 링크를 거의 보지 않기 때문에 당연히 문서가 상위 10위 안에 들기를 원할 것입니다. 즉, 해당 문서에 대한 링크가 11번째라면 아예 존재하지 않았던 것과 다름이 없습니다.

주요 검색엔진

수백 개의 검색 엔진 중 웹마스터에게 정말 중요한 것은 무엇입니까? 물론 널리 알려져 있고 자주 사용됩니다. 그러나 동시에 서버를 설계할 대상 사용자를 고려해야 합니다. 예를 들어, 서버에 다음과 같은 고도로 전문화된 정보가 포함되어 있는 경우 최신 방법소 젖을 짜는 중이라면 검색 엔진에 의존해서는 안 될 것입니다. 범용. 이런 경우에는 비슷한 문제를 겪고 있는 동료들과 링크를 교환해 보는 것이 좋습니다. :) 먼저 용어를 정의해 보겠습니다.

두 가지 유형이 있습니다 정보 기지웹 페이지에 관한 데이터: 검색 엔진 및 디렉토리.

검색 엔진: (스파이더, 크롤러)은 문서 데이터베이스를 보충하기 위해 지속적으로 인터넷을 탐색합니다. 일반적으로 이는 개인의 노력이 필요하지 않습니다. 예를 들어 Altavista 검색 엔진이 있습니다.

각 문서의 디자인은 검색 엔진에 매우 중요합니다. 큰 중요성제목, 메타 태그 및 페이지 콘텐츠가 있습니다.

카탈로그: 검색 엔진과 달리 정보는 개인의 주도로 카탈로그에 입력됩니다. 추가된 페이지는 카탈로그에 허용된 카테고리와 엄격하게 연결되어야 합니다. 디렉토리의 예로는 Yahoo가 있습니다. 페이지 디자인은 중요하지 않습니다. 아래에서는 주로 검색 엔진에 대해 이야기하겠습니다.

알타비스타

이 시스템은 1995년 12월에 문을 열었습니다. DEC가 소유합니다. 1996년부터 그는 Yahoo와 협력해 왔습니다.

익사이트 검색

1995년 말에 출시된 이 시스템은 빠르게 발전했습니다. 1996년 7월 Magellan을 인수했고, 1996년 9월 WebCrawler를 인수했습니다. 그러나 둘 다 서로 별도로 사용합니다. 아마도 미래에는 함께 일하게 될 것입니다.

이 시스템에는 Excite Reviews라는 디렉토리도 있습니다. 모든 사이트가 여기에 포함되어 있는 것은 아니기 때문에 이 디렉토리에 들어가는 것은 행운입니다. 단, 이 디렉토리의 정보는 기본적으로 검색엔진에서 사용되지 않으나, 검색결과를 본 후 확인이 가능합니다.

핫봇

1996년 5월 출시. Wired 소유. Berkeley Inktomi 검색 엔진 기술을 기반으로 합니다.

InfoSeek

1995년보다 조금 일찍 출시된 이 앱은 널리 알려져 있으며 검색 및 접근이 용이합니다. 현재 "Ultrasmart/Ultraseek"에는 약 5천만 개의 URL이 포함되어 있습니다.

기본 검색 옵션은 Ultrasmart입니다. 이 경우 두 디렉터리 모두에서 검색이 수행됩니다. Ultraseek 옵션을 사용하면 쿼리 결과가 없이 반환됩니다. 추가 정보. 정말 새로운 검색 기술또한 검색을 더 쉽게 만들고 InfoSeek에 대해 읽을 수 있는 기타 여러 기능을 제공합니다. 검색 엔진에는 InfoSeek Select라는 별도의 디렉토리가 있습니다.

라이코스

가장 오래된 검색 엔진 중 하나인 Lycos는 대략 1994년 5월부터 운영되어 왔습니다. 널리 알려져 자주 사용됩니다. 여기에는 포인트 검색 엔진(1995년부터 작동)과 A2Z 카탈로그(1996년 2월부터 작동)가 포함됩니다.

오픈텍스트

OpenText 시스템은 1995년보다 조금 일찍 등장했습니다. 1996년 6월부터 Yahoo와 제휴를 맺기 시작했습니다. 점차적으로 그 위치를 잃어가고 있으며 곧 주요 검색 엔진에서 사라지게 될 것입니다.

웹크롤러

1994년 4월 20일 개관 연구 프로젝트워싱턴 대학교. 1995년 3월 America Online에 인수되었습니다. WebCrawler Select 디렉토리가 있습니다.

야후

야후의 가장 오래된 디렉토리는 1994년 초에 출시되었습니다. 널리 알려지고 자주 사용되며 가장 존경받는 제품입니다. 1996년 3월에는 어린이를 위한 Yahooligans라는 또 다른 Yahoo 카탈로그가 출시되었습니다. 점점 더 많은 지역 및 상위 Yahoo 디렉토리가 나타나고 있습니다.

Yahoo는 구독 기반이므로 일부 사이트는 포함되지 않을 수 있습니다. Yahoo 검색에서 적절한 결과가 나오지 않으면 사용자는 검색 엔진을 사용할 수 있습니다. 이것은 매우 간단하게 수행됩니다. Yahoo에 쿼리가 작성되면 디렉토리는 해당 쿼리를 주요 검색 엔진으로 전달합니다. 요청을 충족하는 주소 목록의 첫 번째 링크는 디렉터리의 주소이고 그 다음에는 검색 엔진, 특히 Altavista에서 받은 주소가 있습니다.

검색 엔진의 특징

각 검색 엔진에는 다양한 기능이 있습니다. 페이지를 만들 때 이러한 기능을 고려해야 합니다.

검색 엔진 유형

"전체 텍스트" 검색 엔진은 일부 불용어만 제외하고 웹페이지의 모든 단어를 색인화합니다. "추상" 검색 엔진은 각 페이지의 일종의 추출을 생성합니다.

웹마스터의 경우 웹페이지에 있는 모든 단어를 분석하여 사용자 쿼리와의 관련성을 판단하므로 전체 텍스트 엔진이 더 유용합니다. 그러나 추상 검색 엔진의 경우 전체 텍스트 페이지보다 페이지 색인이 더 잘 생성될 수 있습니다. 이는 페이지에서 사용되는 동일한 단어의 빈도와 같은 추출 알고리즘에서 나올 수 있습니다.

크기

검색 엔진의 크기는 색인된 페이지 수에 따라 결정됩니다. 예를 들어, 검색 엔진에서 큰 사이즈거의 모든 페이지가 색인화될 수 있으며, 평균 볼륨에서는 서버가 부분적으로 색인화될 수 있으며, 볼륨이 낮으면 페이지가 검색 엔진 디렉토리에 전혀 포함되지 않을 수 있습니다.

업데이트 기간

일부 검색 엔진은 사용자의 요청에 따라 페이지를 즉시 색인화한 다음 아직 색인화되지 않은 페이지를 계속해서 색인화합니다.
다른 사람들은 가장 자주 "크롤링"할 수 있습니다. 인기 페이지다른 네트워크보다

문서 색인 날짜

일부 검색 엔진은 특정 문서가 색인화된 날짜를 표시합니다. 이는 사용자가 검색 엔진에서 링크가 얼마나 "최신"으로 반환되는지 이해하는 데 도움이 됩니다. 다른 사람들은 사용자가 그것에 대해 추측하도록 내버려 둡니다.

제출된 페이지

이상적으로 검색 엔진은 다음 링크의 결과로 모든 서버의 모든 페이지를 찾아야 합니다. 실제 사진은 다르게 나오네요. 서버 페이지를 직접 지정하면(URL 추가) 훨씬 일찍 검색 엔진 색인에 나타납니다.

제출되지 않은 페이지

하나 이상의 서버 페이지가 지정되면 검색 엔진은 확실히 찾을 것입니다 다음 페이지제공된 링크를 통해. 그러나 시간이 더 걸립니다. 일부 시스템은 즉시 전체 서버를 인덱싱하지만 대부분은 인덱스에 지정된 페이지를 기록한 후 나중에 서버 인덱싱을 그대로 둡니다.

인덱싱 깊이

이 옵션은 다음이 아닌 경우에만 적용됩니다. 지정된 페이지. 검색 엔진이 색인을 생성할 지정된 페이지 이후의 페이지 수를 보여줍니다.

대부분의 대형 시스템에는 인덱싱 깊이에 대한 제한이 없습니다. 실제로 이것은 전적으로 사실이 아닙니다. 일부 페이지의 색인이 생성되지 않는 몇 가지 이유는 다음과 같습니다.

프레임 구조를 그다지 주의 깊게 사용하지 않음(제어(프레임세트) 파일에 링크를 복제하지 않음)
일반 링크로 이미지맵을 복제하지 않고 사용

프레임 지원

검색 로봇이 프레임 구조 작업 방법을 모르는 경우 인덱싱 중에 프레임이 있는 많은 구조가 누락됩니다.

이미지맵 지원

이는 서버 프레임 구조와 거의 동일한 문제입니다.

비밀번호로 보호된 디렉토리 및 서버

일부 검색 엔진은 사용자 이름과 비밀번호를 제공하면 이러한 서버를 색인화할 수 있습니다. 이것이 왜 필요한가요? 사용자가 서버에 있는 내용을 볼 수 있도록 합니다. 이를 통해 최소한 그러한 정보가 존재한다는 사실을 알 수 있으며 아마도 그들은 귀하의 정보를 구독하게 될 것입니다.

링크 주파수

주요 검색 엔진은 문서가 웹의 다른 위치에서 얼마나 자주 연결되는지에 따라 문서의 인기를 결정할 수 있습니다. 일부 시스템은 이러한 데이터를 기반으로 해당 문서를 색인화하는 데 시간을 들일 가치가 있는지 여부를 "결론"합니다.

학습능력

서버가 자주 업데이트되면 검색 엔진은 서버를 더 자주 다시 색인화하고, 드물게 업데이트하면 덜 자주 다시 색인화합니다.

인덱싱 제어

특정 검색 엔진을 관리하는 데 사용할 수 있는 도구를 보여줍니다. 모든 주요 검색 엔진은 robots.txt 파일의 지침을 따릅니다. 일부는 색인된 문서 자체의 META 태그를 사용한 제어도 지원합니다.

리디렉션

일부 사이트는 방문자를 한 서버에서 다른 서버로 리디렉션하며 이 매개변수는 문서와 연결될 URL을 나타냅니다. 검색 엔진이 리디렉션을 처리하지 않으면 존재하지 않는 파일에 대한 문제가 발생할 수 있으므로 이는 중요합니다.

안전한 단어

일부 검색 엔진은 색인에 특정 단어를 포함하지 않거나 사용자 쿼리에 해당 단어를 포함하지 않을 수 있습니다. 이러한 단어는 일반적으로 전치사 또는 단순히 매우 자주 사용되는 단어로 간주됩니다. 그러나 미디어 공간을 절약하기 위해 포함되지 않았습니다. 예를 들어 Altavista는 다음과 같은 쿼리에 대해 web이라는 단어를 무시합니다. 웹 개발자링크는 두 번째 단어에 대해서만 제공됩니다. 이를 피할 수 있는 방법이 있습니다.

관련성 결정 알고리즘에 미치는 영향

검색 엔진은 반드시 문서 내 키워드의 반복 위치와 빈도를 사용합니다. 그러나 관련성 정도를 높이는 추가 메커니즘은 각 시스템마다 다릅니다. 이 매개변수는 특정 기계에 어떤 메커니즘이 존재하는지 정확하게 보여줍니다.

스팸 벌금

모든 주요 검색 엔진은 사이트가 URL 추가를 통해 여러 번 자신을 나열하거나 동일한 내용을 여러 번 언급하는 방식으로 순위를 높이려고 하는 것을 좋아하지 않습니다. 예어등. 대부분의 경우 이러한 행위(스팸, 스태킹)가 처벌되고, 반대로 사이트 등급이 하락합니다.

META 태그 지원

이론적으로 모든 검색 엔진은 페이지를 색인화할 때 메타데이터를 고려해야 하지만 실제로는 모든 검색 엔진이 이를 수행하는 것은 아닙니다.

제목

이 매개변수는 검색 엔진이 사용자의 요청에 대한 응답으로 사용자에 대한 링크 제목을 생성하는 방법을 보여줍니다.

설명

이 매개변수는 검색 엔진이 사용자의 요청에 대한 응답으로 사용자에 대한 링크 설명을 생성하는 방법을 보여줍니다.

URL 상태 확인

웹마스터에게 검색 엔진의 매우 유용한 기능은 해당 서버가 얼마나 깊이 색인되어 있는지, 검색 엔진 색인에 있는지 여부를 확인할 수 있는지 여부입니다.

오래된 데이터 삭제

서버를 닫거나 다른 주소로 이동할 때 웹마스터의 조치를 결정하는 매개변수입니다. 가능한 작업에는 두 가지가 있습니다. 기존 콘텐츠를 삭제하고 robots.txt 파일을 다시 작성하는 것입니다.

콘텐츠 제거: 검색 엔진이 문서를 다시 색인화하려고 시도했지만 찾지 못한 경우 색인의 이전 링크가 제거됩니다. 이 경우 검색 엔진의 데이터 업데이트 기간에 따라 다릅니다.
robots.txt: 검색 엔진이 이 파일을 요청하고 서버가 색인 생성에서 완전히 닫힌 것을 "확인"하면 이 서버에 있는 파일에 대한 모든 링크가 색인에서 제거됩니다.

좋다 나쁘다

소개..........................................................................................................................2

1 검색 엔진: 구성, 기능, 작동 원리

1.1 검색엔진의 구성 ..............................................................................3

1.2 검색엔진의 특징 ..............................................................4

1.3 검색엔진의 원리 ..............................................4

2 검색 엔진 기능 개요

2.1 외국 검색 엔진: 구성 및 작동 원리………12

2.2 러시아어 검색 엔진: 구성 및 작동 원리….…..14

결론..........................................................................................................16

참고문헌 목록...........................................................17

소개

검색 엔진은 오랫동안 러시아 인터넷의 필수적인 부분이 되었습니다. 비록 다양한 수단을 사용하더라도 기본 소스 노드로부터의 수신부터 사용자에게 검색 기능 제공에 이르기까지 정보 처리의 모든 단계를 독립적으로 제공하기 때문입니다. 종종 불린다 자율 검색 엔진 시스템 .

검색 엔진은 이제 정보 검색 도구뿐만 아니라 비즈니스에 대한 유혹적인 영역을 나타내는 거대하고 복잡한 메커니즘입니다. 이러한 시스템은 자동 색인 알고리즘에 어느 정도 존재하는 정보 선택 원칙이 다를 수 있습니다. 스캐닝 프로그램 및 등록을 담당하는 카탈로그 직원의 행동 규칙. 일반적으로 두 가지 주요 지표가 비교됩니다.

IPS가 작동하는 공간 규모는 다음과 같습니다.

그리고 그녀의 전문 분야.

대부분의 검색 엔진 사용자는 검색 엔진 작동 원리, 사용자 요청 처리 체계, 이러한 시스템의 구성 및 작동 방식에 대해 생각해 본 적이 없습니다(또는 생각했지만 답을 찾지 못했습니다). 검색 엔진은 에이전트가 기업을 돌아다니며 정보를 데이터베이스에 수집하는 헬프 데스크에 비유할 수 있습니다. 서비스에 접속하면 이 데이터베이스에서 정보가 검색됩니다. 데이터베이스의 데이터는 오래된 것이므로 에이전트가 주기적으로 업데이트합니다. 일부 기업은 자체적으로 자신에 대한 정보를 보내므로 에이전트가 해당 기업에 올 필요가 없습니다. 다시 말해서, 안내 데스크데이터베이스에 데이터를 생성하고 지속적으로 업데이트하는 기능과 클라이언트의 요청에 따라 데이터베이스에서 정보를 검색하는 기능이 있습니다.

1 검색 엔진: 구성, 기능, 작동 원리

1.1 검색엔진의 구성

검색 시스템은 인터넷을 검색하고 텍스트 구문 형식으로 지정된 사용자 요청에 응답하도록 설계된 소프트웨어 및 하드웨어 복합체입니다. 검색어), (요청에 따라) 관련성 순으로 정보 출처에 대한 링크 목록을 발행합니다. 가장 큰 국제 검색 엔진: Google, Yahoo, MSN. 러시아 인터넷에서는 Yandex, Rambler, Aport가 있습니다.

마찬가지로 검색 엔진은 웹 서버를 크롤링하고 검색 엔진 데이터베이스를 생성하는 소위 로봇(또는 스파이더)이라는 두 부분으로 구성됩니다.

로봇의 기반은 주로 자체적으로 형성되며(로봇 자체가 새로운 리소스에 대한 링크를 찾습니다) 검색 엔진에 사이트를 등록하는 리소스 소유자에 의해 훨씬 덜 형성됩니다. 데이터베이스를 구성하는 로봇(네트워크 에이전트, 스파이더, 웜) 외에도 발견된 링크의 등급을 결정하는 프로그램이 있습니다.

검색 엔진의 작동 원리는 사용자가 쿼리 필드에 지정한 키워드에 대해 내부 카탈로그(데이터베이스)를 쿼리하고 관련성에 따라 순위가 매겨진 링크 목록을 생성하는 것입니다.

특정 사용자 요청을 처리할 때 검색 엔진은 내부 리소스를 기반으로 정확하게 작동하며(경험이 부족한 사용자가 흔히 생각하는 것처럼 웹을 통한 여정을 시작하지 않음) 내부 리소스는 당연히 제한된다는 점에 유의해야 합니다. 검색 엔진 데이터베이스가 지속적으로 업데이트된다는 사실에도 불구하고 검색 엔진은 모든 웹 문서를 색인화할 수 없습니다. 해당 문서의 수가 너무 많습니다. 따라서 찾고 있는 리소스가 특정 검색 엔진에 알려지지 않았을 가능성이 항상 있습니다.

1.2 검색엔진의 특징

진행 중 검색 과정네 단계로 표현됩니다: 공식화(검색이 시작되기 전에 발생); 작업(검색 시작); 결과 개요(사용자가 검색 후 보는 결과) 및 개선(결과를 검토한 후 동일한 요구 사항에 대한 다른 공식을 사용하여 검색으로 돌아오기 전). 보다 편리한 비선형 정보 검색 체계는 다음 단계로 구성됩니다.

자연어로 필요한 정보를 수정합니다.

필요한 것을 선택 검색 서비스특정 정보 검색 언어(IRL)로 정보 요구 사항을 기록하는 네트워크 및 정확한 형식화;

생성된 쿼리 실행

수신된 문서 링크 목록의 사전 처리 및 선택

필수 서류를 위해 선택한 주소에 연락합니다.

발견된 문서의 내용을 미리 봅니다.

나중에 연구하기 위해 관련 문서를 저장합니다.

쿼리 확장을 위해 관련 문서에서 링크를 추출합니다.

저장된 문서의 전체 배열을 연구합니다.

정보 요구가 완전히 충족되지 않으면 첫 번째 단계로 돌아갑니다.

1.3 검색 엔진의 작동 방식

모든 검색 엔진의 목표는 사람들이 찾고 있는 정보를 제공하는 것입니다. 사람들에게 "올바른" 요청을 하도록 가르치십시오. 검색엔진의 운영원리에 부합하는 검색어는 불가능합니다. 따라서 개발자는 사용자가 원하는 정보를 정확하게 찾을 수 있도록 하는 검색 엔진용 알고리즘과 작동 원리를 만듭니다. 이는 검색 엔진이 사용자가 정보를 검색할 때 생각하는 것과 동일한 방식으로 "생각"해야 함을 의미합니다.

대부분의 검색 엔진은 사전 색인 생성 원칙에 따라 작동합니다. 대부분의 검색 엔진의 데이터베이스는 동일한 원리로 작동합니다.

또 다른 건설 원칙이 있습니다. 직접 검색. 키워드를 검색하여 책을 페이지별로 넘기는 것으로 구성됩니다. 물론 이 방법은 효율성이 훨씬 떨어집니다.

반전된 인덱스 버전에서는 검색 엔진이 파일 크기 문제에 직면합니다. 일반적으로 크기가 상당히 큽니다. 이 문제는 일반적으로 두 가지 방법으로 해결됩니다. 첫 번째는 불필요한 모든 것이 파일에서 제거되고 검색에 실제로 필요한 것만 남게 된다는 것입니다. 두 번째 방법은 각 위치에 대해 절대 주소가 아닌 상대 주소를 기억하는 것입니다. 현재 위치와 이전 위치의 차이를 해결합니다.

따라서 검색 엔진이 수행하는 두 가지 주요 프로세스는 사이트 색인화, 페이지 색인화 및 검색입니다. 일반적으로 색인 생성 프로세스는 검색 엔진에 문제를 일으키지 않습니다. 문제는 하루에 백만 건의 요청을 처리하는 것입니다. 와 연결되어 있어요 대용량대규모 컴퓨터 단지에서 처리되는 정보. 주요 요인검색에 참여하는 서버의 수를 결정하는 가 검색 부하입니다. 이는 정보를 검색할 때 발생하는 몇 가지 이상한 점을 설명합니다.

검색 엔진은 5개의 개별 소프트웨어 구성 요소로 구성됩니다.

거미:웹 페이지를 다운로드하는 브라우저와 유사한 프로그램입니다.

무한 궤도:페이지에 있는 모든 링크를 자동으로 따라가는 "여행" 스파이더입니다.

인덱서:스파이더가 다운로드한 웹 페이지를 분석하는 "블라인드" 프로그램입니다.

데이터베이스:다운로드 및 처리된 페이지의 저장.

검색 엔진 결과 엔진(결과 전달 시스템):데이터베이스에서 검색 결과를 검색합니다.

거미:스파이더는 웹페이지를 다운로드하는 프로그램입니다. 웹사이트에 연결하고 페이지를 로드할 때 브라우저처럼 작동합니다. 거미에는 시각적 구성 요소가 없습니다. 특정 페이지를 볼 때와 브라우저에서 "HTML 코드 보기"를 선택할 때 동일한 동작(다운로드)을 관찰할 수 있습니다.

무한 궤도:스파이더가 페이지를 다운로드하는 것처럼 페이지를 제거하고 모든 링크를 찾을 수 있습니다. 링크나 미리 결정된 주소 목록을 기반으로 스파이더가 다음에 어디로 가야 할지 결정하는 것이 이 작업입니다.

인덱서:인덱서는 페이지를 다양한 부분으로 구문 분석하고 분석합니다. 페이지 제목, 제목, 링크, 텍스트, 구조적 요소, 굵게 표시된 요소, ITALIC 요소 및 페이지의 기타 스타일 부분과 같은 요소를 격리하고 분석합니다.

데이터 베이스:데이터베이스는 검색 엔진이 다운로드하고 분석하는 모든 데이터의 저장소입니다. 이를 위해서는 막대한 자원이 필요한 경우가 많습니다.

찾다 엔진 결과:결과 시스템은 페이지 순위를 지정합니다. 사용자의 요청을 충족하는 페이지와 정렬 순서를 결정합니다. 이는 검색 엔진 순위 알고리즘에 따라 발생합니다. 이 정보는 우리에게 가장 귀중하고 흥미로운 정보입니다. 최적화 프로그램이 상호 작용하여 검색 결과에서 사이트 위치를 향상시키려고 노력하는 것은 검색 엔진의 이 구성 요소이므로 앞으로는 영향을 미치는 모든 요소를 자세히 고려할 것입니다. 결과 순위.

검색 색인은 세 단계로 작동하며, 그 중 처음 두 단계는 준비 단계이며 사용자에게 표시되지 않습니다. 먼저, 검색 색인은 다음에서 정보를 수집합니다. 세계 넓은 편물 . 이를 위해 그들은 사용합니다 특별 프로그램, 유사한 브라우저. 이들은 특정 웹 페이지를 검색 색인 서버에 복사하고, 스캔하고, 해당 리소스가 있는 모든 하이퍼링크를 찾고, 해당 리소스가 포함된 하이퍼링크를 다시 찾는 등의 작업을 수행할 수 있습니다. 유사한 프로그램~라고 불리는 벌레, 거미, 애벌레, 크롤러, 거미그리고 다른 유사한 이름. 각 검색 색인은 이 목적을 위해 자체 색인을 사용합니다. 독특한 프로그램, 그는 종종 스스로 발전합니다. 많은 최신 검색 엔진은 네트워크를 모니터링하는 자동 프로그램의 개발 및 구현과 관련된 실험 프로젝트에서 탄생했습니다. 이론적으로는 성공적인 진입으로 거미한 번의 다이빙으로 전체 웹 공간을 정리할 수 있지만 시간이 많이 걸리며 이전에 방문한 리소스에서 발생하는 변경 사항을 모니터링하고 "죽은"링크, 즉 관련성을 잃은 것입니다.