검색 엔진이란 무엇입니까? 검색 엔진이란 무엇입니까? 구글 검색 엔진. 야후 검색 엔진

17.03.2019

많은 사용자가 입력하는 쿼리(질문)에 대한 답변을 받기 위해서는 인터넷이 필요합니다.

검색 엔진이 없다면 사용자는 필요한 사이트를 독립적으로 검색하고 기억하고 적어야 합니다. 많은 경우에 "수동으로" 적합한 것을 찾는 것은 매우 어렵고 종종 불가능합니다.

검색 엔진은 우리를 위해 웹사이트에 있는 정보를 검색, 저장 및 정렬하는 일상적인 작업을 모두 수행합니다.

유명한 Runet 검색 엔진부터 시작하겠습니다.

러시아어로 된 인터넷 검색 엔진

1) 국내 검색엔진부터 살펴보겠습니다. Yandex는 러시아뿐만 아니라 벨로루시, 카자흐스탄, 우크라이나, 터키에서도 작업합니다. 영어로 된 Yandex도 있습니다.

2) 구글 검색 엔진미국에서 우리에게 왔고 러시아어로 현지화되었습니다.

3) 국내 검색엔진 Mail ru를 동시에 대표하는 소셜 네트워크 VKontakte, Odnoklassniki, My World, 유명한 Answers Mail.ru 및 기타 프로젝트.

4) 지능형 검색 시스템

니그마(Nigma) http://www.nigma.ru/

2017년 9월 19일 이후로 "지적"이라는 별명은 작동하지 않았습니다. 제작자는 더 이상 재정적 이익을 얻지 못하고 CocCoc이라는 다른 검색 엔진으로 전환했습니다.

5) 잘 알려진 회사 Rostelecom이 Sputnik 검색 엔진을 만들었습니다.

제가 쓴 어린이를 위해 특별히 설계된 Sputnik이라는 검색 엔진이 있습니다.

6) Rambler는 국내 최초의 검색 엔진 중 하나였습니다.

세계에는 다른 유명한 검색 엔진이 있습니다:

빙,
야후!,
덕덕고,
바이두,
에코시아,

검색 엔진이 어떻게 작동하는지, 즉 사이트가 어떻게 색인화되고, 색인 결과를 분석하고, 검색 결과를 생성하는지 알아보겠습니다. 검색 엔진의 작동 원리는 거의 동일합니다. 인터넷에서 정보를 검색하고, 저장하고, 사용자 요청에 따라 전달하기 위해 정렬합니다. 그러나 검색 엔진이 사용하는 알고리즘은 크게 다를 수 있습니다. 이러한 알고리즘은 비밀로 유지되며 공개가 금지됩니다.

동일한 쿼리를 입력하면 검색 문자열검색 엔진이 다르면 다른 답변을 얻을 수 있습니다. 그 이유는 모든 검색 엔진이 자체 알고리즘을 사용하기 때문입니다.

검색 엔진의 목적

우선, 검색 엔진이 상업적인 조직이라는 것을 알아야 합니다. 그들의 목표는 이익을 얻는 것입니다. 이익을 얻을 수 있습니다 문맥 광고, 기타 유형의 광고, 필요한 사이트 홍보부터 검색 결과 상단까지. 일반적으로 방법은 여러 가지가 있습니다.

이는 청중의 규모, 즉 이 검색 엔진을 사용하는 사람의 수에 따라 다릅니다. 관객수가 많을수록 더사람들에게 광고가 표시됩니다. 따라서 이 광고에는 더 많은 비용이 듭니다. 검색 엔진은 자체 광고를 통해 잠재 고객을 늘릴 수 있을 뿐만 아니라 서비스 품질, 알고리즘 및 검색 편의성을 향상하여 사용자를 유치함으로써 사용자를 늘릴 수 있습니다.

여기서 가장 중요하고 어려운 것은 대부분의 사용자 쿼리에 대해 관련 결과를 제공하는 완벽하게 작동하는 검색 알고리즘을 개발하는 것입니다.

검색 엔진의 작업과 웹마스터의 작업

각 검색 엔진에는 고유한 알고리즘이 있으며 이를 고려해야 합니다. 엄청난 양 다양한 요인사용자 요청에 따라 정보를 분석하고 결과를 집계할 때:

특정 사이트의 연령,
웹사이트 도메인 특성,
사이트 콘텐츠의 품질과 유형,
탐색 기능 및 사이트 구조,
유용성(사용자의 편의성),
행동 요인(검색 엔진은 사용자가 원하는 것을 사이트에서 찾았는지 또는 사용자가 다시 검색 엔진으로 돌아와서 동일한 쿼리에 대한 답변을 다시 찾는지 여부를 결정할 수 있습니다)
등.

이 모든 것은 사용자 요청에 따른 결과가 최대한 관련성이 있고 사용자 요청을 충족시키기 위해 정확하게 필요합니다. 동시에 검색 엔진 알고리즘은 끊임없이 변화하고 개선되고 있습니다. 그들이 말했듯이 완벽에는 한계가 없습니다.

반면에 웹마스터와 최적화 프로그램은 사이트를 홍보하기 위한 새로운 방법을 끊임없이 고안하고 있지만 항상 정직하지는 않습니다. 알고리즘 개발자의 임무 검색 엔진– 부정직한 최적화 프로그램의 "나쁜" 사이트가 TOP에 표시되지 않도록 변경하세요.

검색 엔진은 어떻게 작동하나요?

이제 검색 엔진이 실제로 어떻게 작동하는지 이야기해 보겠습니다. 이는 최소한 세 단계로 구성됩니다.

스캐닝,
인덱싱,
범위.

인터넷상의 사이트 수는 그야말로 천문학적입니다. 그리고 모든 사이트는 정보입니다. 정보 내용, 독자(살아있는 사람)를 위해 만들어졌습니다.

스캐닝

이것은 새로운 정보를 수집하고, 링크를 분석하고, 사용자의 요청에 응답하여 사용자에게 반환하는 데 사용할 수 있는 새로운 콘텐츠를 검색하기 위해 인터넷을 돌아다니는 검색 엔진입니다. 검색을 위해 검색 엔진에는 검색 로봇 또는 스파이더라는 특수 로봇이 있습니다.

검색 로봇은 다음과 같은 프로그램입니다. 자동 모드웹사이트를 방문하여 정보를 수집하세요. 크롤링은 기본일 수 있습니다(로봇이 처음으로 새 사이트를 방문함). 사이트에서 정보를 처음 수집하여 검색 엔진 데이터베이스에 입력한 후 로봇은 일정하게 해당 페이지를 방문하기 시작합니다. 변경사항이 발생한 경우(추가됨 새로운 콘텐츠, 이전 항목이 삭제됨) 이러한 모든 변경 사항은 검색 엔진에 기록됩니다.

검색 스파이더의 주요 임무는 새로운 정보를 찾아 다음 처리 단계, 즉 인덱싱을 위해 검색 엔진에 보내는 것입니다.

인덱싱

검색 엔진은 데이터베이스에 이미 포함되어 있는(인덱싱된) 사이트 중에서만 정보를 검색할 수 있습니다. 크롤링이 특정 사이트에서 사용할 수 있는 정보를 검색하고 수집하는 프로세스라면 인덱싱은 이 정보를 검색 엔진 데이터베이스에 입력하는 프로세스입니다. 이 단계에서 검색 엔진은 이 정보 또는 해당 정보를 데이터베이스에 입력할지 여부와 입력 위치, 데이터베이스의 어느 섹션에 입력할지 자동으로 결정합니다. 예를 들어 Google은 로봇이 인터넷에서 찾은 거의 모든 정보를 색인화하는 반면 Yandex는 더 까다롭고 모든 정보를 색인화하지 않습니다.

새로운 사이트의 경우 인덱싱 단계가 길어질 수 있으므로 검색 엔진 방문자는 새로운 사이트를 기다리는 데 오랜 시간이 걸릴 수 있습니다. ㅏ 새로운 정보는 오래되고 잘 홍보된 사이트에 표시되며 거의 즉시 색인이 생성될 수 있으며 거의 즉시 "색인", 즉 검색 엔진 데이터베이스에 들어갈 수 있습니다.

범위 지정

순위는 특정 검색 엔진의 데이터베이스에 이전에 색인화되어 입력된 정보를 순위에 따라 배열하는 것입니다. 즉, 검색 엔진이 사용자에게 처음에 어떤 정보를 표시할 것인지, 어떤 정보가 배치될 것인지를 말합니다. 순위”가 낮아졌습니다. 순위는 클라이언트(사용자)에 대한 검색 엔진 서비스 단계에 따라 결정될 수 있습니다.

검색 엔진 서버에서는 수신된 정보가 처리되고 광범위한 모든 종류의 쿼리에 대한 결과가 생성됩니다. 여기가 검색 엔진 알고리즘이 작동하는 곳입니다. 데이터베이스에 포함된 모든 사이트는 주제별로 분류되며, 주제는 요청 그룹으로 나뉩니다. 각 요청 그룹에 대해 예비 문제가 편집될 수 있으며 이후에 조정될 수 있습니다.

점점 더 많은 사람들이 의심할 여지 없는 혜택을 누리고 있습니다. 그 중 하나는 빠른 탐색다양한 정보. 마스터링하는 노인 사용자의 수 전세계 네트워크. 기회 효과적인 검색~에 월드 와이드 웹검색엔진을 대표합니다. 대부분의 검색 엔진은 인터넷 사이트에서 정보를 검색하며 하드웨어와 소프트웨어의 복합체입니다.

일반적으로 검색 엔진은 글로벌 글로벌 네트워크(Google, Yahoo! 등)를 포괄하는 검색 엔진과 네트워크의 러시아어 부분(러시아, CIS 국가)인 Runet으로 나눌 수 있습니다.

구글 검색 엔진

인터넷 서비스 제공 및 특히 정보 검색 분야의 확실한 세계적 리더는 Google (Google)입니다. 구글 주식회사 Inc. 191개 언어로 정보를 제공하고 매월 400억 건 이상의 요청을 처리하며 시장의 60% 이상을 차지합니다. 구글은 1998년 세르게이 브린(Sergey Brin)과 래리 페이지(Larry Page)에 의해 설립되었습니다. 네트워크에서 사이트 색인 생성은 여러 업체에서 수행됩니다. 검색 로봇 (특별 프로그램), 그 중 주요한 것은 사용자 에이전트. 로봇은 글로벌 네트워크를 스캔하고 네트워크에 나타나는 새로운 사이트를 데이터베이스에 입력합니다. 젊은 사이트는 특별한 조치가 있을 때까지 소위 "샌드박스"(대기 영역)에 머무르는 경우가 많습니다. 구글 알고리즘사이트가 검색 엔진에 나타날 준비가 된 것으로 간주하지 않습니다.

검색 엔진 야후!

세계에서 두 번째로 인기 있는 검색 엔진 회사는 Yahoo! 인터넷 검색 부문 시장의 약 6%를 점유하고 있다. 야후 회사! 1994년 미국인 Dzvid Fileo와 Jerry Yang에 의해 만들어졌습니다. 회사는 경쟁이 상대적으로 낮았던 90년대 후반에 특히 빠르게 발전했습니다. 1997년에 이 회사는 무료 서비스를 최초로 도입한 회사 중 하나였습니다. 우편 서비스- 야후! 우편.

Yandex 검색 엔진

– 러시아 검색 엔진. Yandex 웹사이트는 러시아에서 인기 순위 1위를 차지했습니다. 검색어 수 기준으로 세계 5위를 차지하고 있습니다. 5천만 명이 넘는 사람들이 이 시스템의 서비스를 사용하고 있습니다. Yandex 검색 엔진은 1997년에 공식적으로 도입되었으며 다음 해에 러시아 인터넷 규모는 두 배로 늘어났습니다. Yandex 회사 자체는 CompTek 주주들에 의해 2000년에 설립되었습니다. Arkady Volozh가 총감독이되었습니다. 검색 서비스 외에도 Yandex News, Yandex Products, Yandex Guru, Yandex Postcards, Yandex Bookmarks가 개설되었습니다. 2010년에 이 회사는 영문판 yandex.com 도메인에서 국제 수준에 도달했습니다. 새로운 것들이 나타났습니다 전문 서비스, Yandex 서비스, Yandex 음악, Yandex 부동산, . 2011년에 등장 새로운 서비스러시아 전역의 경로를 표시할 수 있는 Yandex 지도.

2012 년에 최고 경영자 Yandex LLC Arkady Volozh는 Yandex를 유럽 시장에 출시할 계획입니다.

검색 엔진 Rambler

검색 엔진 램블러 시스템(English Wanderer, Tramp)는 1996년 Dmitry Kryukov에 의해 만들어졌습니다. 제외하고

검색 서비스이자 정보 인터넷 포털이기도 합니다. 2011년부터 Rambler는 자신의 회사를 포기했습니다. 검색 알고리즘 Yandex 기술로 완전히 전환되었습니다.

검색 엔진 메일 Ru

Mail.Ru는 Runet에서 인기 순위 3위를 차지했습니다. 그는 그의 것으로 더 잘 알려져 있습니다. 우편 서비스@mail.ru. 사이트에는 강력한 기능다음으로 검색 이메일그리고 주소록. 2006년부터 검색 서비스 Yandex 엔진에서 구현되기 시작했습니다. 이전에는 Google의 엔진이 사용되었습니다. Mail Ru는 2010년부터 자체 엔진을 사용해 왔습니다.

세상에는 수백 개의 검색 엔진이 있습니다. 러시아에서 가장 인기 있는 것은 Yandex와 Google입니다. 이 두 가지 가장 강력한 검색 엔진은 끊임없는 경쟁자이며 새로운 서비스와 개발 품질로 사용자를 유치하려고 노력합니다.

Google과 Yandex 중 어떤 검색 엔진을 선택해야 합니까?

블로그를 성공적으로 유지하고 개발하려면 먼저 블로그가 어떤 알고리즘으로 작동하는지 알아야 합니다. 이러한 질문에 대한 답변을 명확하게 이해하면 검색 엔진에서 웹사이트 홍보 문제를 성공적으로 해결할 수 있습니다. 그러나 웹 사이트의 검색 엔진 최적화에 대한 대화는 아직 진행 중이지만 현재로서는 검색 엔진에 대한 약간의 이론이 있습니다.

인터넷 검색 엔진이란 무엇입니까?

Wikipedia를 살펴보면 다음과 같은 사실을 알 수 있습니다.

"검색 엔진은 인터넷에서 정보를 검색할 수 있는 기능을 제공하는 웹 인터페이스를 갖춘 소프트웨어 및 하드웨어 복합체입니다."

이제 우리가 이해할 수 있는 언어로. 특정 주제에 대한 정보가 긴급하게 필요하다고 가정해 보겠습니다. 신속하게 찾을 수 있도록 검색 엔진이 만들어졌습니다. 검색 양식에 검색어를 입력하면 높은 확률로 우리가 찾을 수 있는 사이트 목록이 제공되는 사이트입니다. 를 찾고 있습니다. 이 목록을 검색 결과라고 합니다. 페이지당 10개의 사이트가 포함된 수백만 개의 페이지로 구성될 수 있습니다. 웹마스터의 주요 임무는 최소한 상위 10위 안에 드는 것입니다.

인터넷에서 무언가를 검색하면 일반적으로 검색 결과의 첫 번째 페이지에서 해당 항목을 찾을 수 있으며 두 번째 페이지로 이동하는 경우는 거의 없으며 다음 페이지로 이동하는 경우는 훨씬 적습니다. 즉, 사이트 순위가 높을수록 더 많은 방문자가 해당 페이지를 방문하게 됩니다. ㅏ 높은 트래픽(일일 방문자 수)는 무엇보다도 잘할 수 있는 기회입니다.

인터넷 검색 엔진은 인터넷에서 정보를 어떻게 찾고, 검색 결과에 어떤 기준으로 장소를 배포합니까?

몇 마디로 말하면, 인터넷 검색 엔진- 이것은 스파이더 로봇이 지속적으로 네트워크를 스캔하고 인터넷에 들어오는 모든 텍스트를 기억하는 전체 웹입니다. 수신된 데이터를 분석하여 검색 엔진은 가장 관련성이 높은 문서를 선택합니다. 검색어, 즉 관련성이 있으며 검색 결과가 형성됩니다.

가장 흥미로운 점은 검색 엔진이 읽을 수 없다는 것입니다. 그러면 그들은 어떻게 정보를 찾나요? 검색 엔진 알고리즘은 몇 가지 기본 원칙으로 요약됩니다. 우선 기사의 제목과 설명, 단락 제목, 텍스트의 의미 하이라이트, 기사의 주제와 반드시 일치해야 하는 키워드의 밀도에 주의를 기울입니다. 이 대응이 정확할수록 더 높아집니다. 검색 결과웹사이트가 있을 겁니다. 또한 정보의 양과 기타 여러 요소를 고려해야 합니다. 예를 들어 웹 리소스의 권한은 해당 리소스에 연결되는 사이트의 수와 권한에 따라 달라집니다. 권위가 클수록 순위가 높아집니다.

검색 결과에서 사이트의 순위를 높이기 위한 일련의 조치입니다. 특정 요청~라고 불리는 검색 엔진 최적화. 이제는 전체 과학– . 그러나 이에 대해서는 나중에 더 자세히 설명합니다.

~에 이 순간세상에는 수많은 검색엔진이 있습니다. 가장 인기있는 이름을 지정하겠습니다. 서쪽에는 Google, Bing 및 Yahoo가 있습니다. Runet에서는 Yandex, Mail.ru, Rambler 및 Nigma가 있습니다. 기본적으로 사용자는 세계 선두 기업을 선호하며, 가장 인기 있는 기업을 선호합니다. 러시아어 인터넷 Yandex 시스템이 되었습니다.

약간의 역사. Google은 1997년 모스크바 출신의 사람에 의해 만들어졌습니다. 세르게이 브린그리고 그 미국인 친구 래리 페이지스탠포드 대학에서 공부하는 동안.

Google의 특징은 다른 검색 엔진이 바쁜 동안 가장 관련성이 높은 검색 결과를 논리적 순서에 따라 검색 결과의 첫 번째 위치에 가져왔다는 것입니다. 단순 비교웹페이지의 단어와 쿼리의 단어입니다.

같은 해 9월 23일에 발표되었으며, Yandex 시스템, 2000년부터 별도의 회사인 "Yandex"로 존재하기 시작했습니다.

더 이상 지루하게 하지 않겠습니다. 이제 좀 더 명확해졌으면 좋겠습니다. 인터넷 검색 엔진이 뭐야?. 검색 엔진 알고리즘이 지속적으로 발전하고 있다는 점은 주목할 가치가 있습니다. 매일 검색 엔진은 사용자의 요구 사항을 파악하고 검색 결과에 가장 관련성이 높은 요구 사항을 표시하는 능력이 향상되고 있습니다. 관련 정보, 다양한 요소(지역, 사용자가 이미 요청한 쿼리, 검색 과정에서 방문한 사이트, 해당 사이트에서 방문한 곳 등)를 기반으로 합니다.

곧 Google과 Yandex는 우리에게 필요한 것과 우리가 생각하는 것을 우리보다 더 잘 알게 될 것입니다!

대략적으로 말하면 오늘날 인터넷은 다음과 같다고 안전하게 말할 수 있습니다. 거대한 "덤프"그것이 무엇이든 유용하든 그렇지 않든 모든 정보를 찾을 수 있는 곳!!! 하지만 정보를 효과적으로 검색하려면 몇 가지 도구가 필요합니다. 결국 초보자가 길을 잃은 수백만 개의 사이트가 있습니다!

검색어에 따라 정보의 순위를 매기려면 검색 엔진. 이는 순식간에 핵심 쿼리를 찾는 데 도움이 되는 서비스입니다. 필요한 정보.

검색 엔진인터넷상의 진정한 정보 전달자입니다. 그들은 귀하에게 유용할 수 있는 모든 사이트의 존재를 알고 있습니다.

얻으려면 일반적인 인상검색 엔진에 대해서는 적어도 30분 동안 사용해야 합니다. 바로 이해하실 겁니다 엄청난 기회, 동일한 검색 엔진이 우리에게 열립니다.

본질적으로 검색 엔진이란 무엇입니까 ???이것은 다른 사이트에 대한 정보를 데이터베이스에 로드하고 필요한 경우 이를 당사에 제공하는 사이트입니다. 예를 들어, 검색 엔진은 컴퓨터 주제에 관한 수백 개의 사이트를 알고 있으며, 우리가 에 대한 정보를 제공하도록 요청하면 0.5초 안에 데이터베이스에서 해당 사이트를 찾아 유용성 순으로 순위를 매깁니다. 목록의 첫 번째 사이트는 그의 의견으로는 다음과 같은 내용을 가장 잘 알려주는 사이트가 될 것입니다. Windows 설치플래시 드라이브에서. 그리고 누구와도 마찬가지다 주요 쿼리. 개조, 정원, 동물 등에 관한 내용 등!

오늘은 러시아 인터넷가장 인기 있는 검색 엔진은 얀덱스. 그리고 전 세계에서 가장 멋진 검색 엔진에 대해 이야기한다면 이것은 물론입니다. Google!!! 구글은 좋은 기업이에요!

검색 시스템은 인터넷을 검색하고 관련성 순으로 정보 소스에 대한 링크 목록을 생성하여 텍스트 구문(검색 쿼리) 형식으로 지정된 사용자 요청에 응답하도록 설계된 소프트웨어 및 하드웨어 복합체입니다. 요청에 따라). 가장 큰 국제 검색 엔진: "Google", "야후", "MSN". 러시아 인터넷에서는 다음과 같습니다. "얀덱스", "램블러", "아포트".

검색 엔진의 주요 특징을 설명하겠습니다.

완전성

완전성은 검색 시스템의 주요 특징 중 하나이며, 이는 주어진 요청을 충족하는 인터넷상의 총 문서 수에 대한 요청으로 발견된 문서 수의 비율입니다. 예를 들어, 인터넷에 '자동차 선택 방법'이라는 문구가 포함된 페이지가 100개 있는데 그 중 해당 쿼리에 대해 60개만 검색된 경우 검색 완성도는 0.6이 됩니다. 분명히 검색이 완전할수록 사용자가 필요한 문서가 인터넷에 전혀 존재한다면 찾지 못할 가능성이 줄어 듭니다.

정확성

정확성은 검색 엔진의 또 다른 주요 특성으로, 발견된 문서가 사용자의 쿼리와 일치하는 정도에 따라 결정됩니다. 예를 들어, "자동차 선택 방법"이라는 쿼리에 100개의 문서가 포함되어 있고 그 중 50개에는 "자동차 선택 방법"이라는 문구가 포함되어 있고 나머지에는 단순히 다음 단어("올바른 라디오를 선택하고 설치하는 방법")가 포함되어 있습니다. a car”), 검색 정확도는 50/100(=0.5)과 동일한 것으로 간주됩니다. 어떻게 보다 정확한 검색, 더 빠르다 사용자가 찾을 것입니다필요한 문서 중에서 "쓰레기"의 종류가 덜 발견될수록 발견된 문서가 요청과 일치하지 않는 경우가 줄어듭니다.

관련성

관련성은 검색에서 똑같이 중요한 구성 요소로, 문서가 인터넷에 게시된 순간부터 검색 엔진 색인 데이터베이스에 입력될 때까지의 시간을 특징으로 합니다. 예를 들어 출현 다음날 흥미로운 소식, 많은 사용자가 관련 검색어가 있는 검색 엔진을 찾았습니다. 객관적으로 이 주제에 대한 뉴스 정보가 게시된 지 하루도 채 지나지 않았지만, 대형 검색 엔진의 소위 "빠른 데이터베이스" 덕분에 주요 문서는 이미 색인화되어 검색이 가능합니다. 하루에 여러번 업데이트됩니다.

검색 속도

검색 속도는 부하 저항과 밀접한 관련이 있습니다. 예를 들어 Rambler Internet Holding LLC에 따르면 현재 업무 시간 동안 Rambler 검색 엔진은 초당 약 60개의 요청을 받습니다. 이러한 작업 부하에는 개별 요청의 처리 시간을 줄여야 합니다. 여기서는 사용자와 검색 엔진의 관심사가 일치합니다. 방문자는 가능한 한 빨리 결과를 얻기를 원하며 검색 엔진은 후속 쿼리 계산 속도가 느려지지 않도록 가능한 한 빨리 요청을 처리해야 합니다.

시계

결과의 시각적 표현은 중요한 구성 요소입니다. 편리한 검색. 대부분의 쿼리에서 검색 엔진은 수백 또는 수천 개의 문서를 찾습니다. 불분명한 쿼리나 부정확한 검색으로 인해 검색결과의 첫 페이지에도 항상 필요한 정보만 포함되지는 않습니다. 이는 사용자가 찾은 목록 내에서 직접 검색을 수행해야 하는 경우가 많다는 것을 의미합니다. 검색 엔진 결과 페이지의 다양한 요소는 검색 결과를 탐색하는 데 도움이 됩니다. 예를 들어 Yandex에 대한 검색 결과 페이지에 대한 자세한 설명은 링크에서 확인할 수 있습니다. http://help.yandex.ru/search/?id=481937.

4. 검색 엔진 개발의 간략한 역사

인터넷 개발 초기에는 사용자 수가 적었고, 이용 가능한 정보의 양도 상대적으로 적었습니다. 대부분의 경우 연구진만이 인터넷에 접속할 수 있었습니다. 당시에는 인터넷에서 정보를 검색하는 작업이 지금만큼 시급하지는 않았습니다.

네트워크 정보 리소스에 대한 액세스를 구성하는 첫 번째 방법 중 하나는 오픈 디렉토리사이트, 주제에 따라 그룹화된 리소스에 대한 링크. 첫 번째 프로젝트는 1994년 봄에 오픈한 Yahoo.com 웹사이트였습니다. Yahoo 디렉토리의 사이트 수가 크게 증가한 후 디렉토리에서 필요한 정보를 검색하는 기능이 추가되었습니다. 완전한 의미에서는 아직 검색 엔진이 아니었습니다. 검색 영역모든 인터넷 리소스가 아닌 디렉터리에 있는 리소스로만 제한되었습니다.

링크 디렉토리는 과거에 널리 사용되었지만 현재는 그 인기를 거의 완전히 잃었습니다. 방대한 양의 현대 카탈로그조차도 인터넷에서 무시할 수 있는 부분에 대한 정보만 포함하고 있기 때문입니다. DMOZ 네트워크의 가장 큰 디렉토리(오픈 디렉토리 프로젝트라고도 함)에는 500만 개의 리소스에 대한 정보가 포함되어 있으며 Google 검색 엔진 데이터베이스는 80억 개 이상의 문서로 구성되어 있습니다.

최초의 본격적인 검색 엔진은 1994년에 출시된 WebCrawler 프로젝트였습니다.

1995년에는 검색 엔진인 Lycos와 AltaVista가 등장했습니다. 후자는 수년 동안 인터넷 정보 검색 분야의 선두 주자였습니다.

1997년 Sergey Brin과 Larry Page는 스탠포드 대학교 연구 프로젝트의 일환으로 Google 검색 엔진을 만들었습니다. 안에 현재 Google은 전 세계에서 가장 인기 있는 검색 엔진입니다!

1997년 9월, 러시아어 인터넷에서 가장 인기 있는 검색 엔진인 Yandex가 공식적으로 발표되었습니다.

현재 자체 데이터베이스와 검색 알고리즘을 갖춘 Google, Yahoo 및 MSN의 세 가지 주요 국제 검색 엔진이 있습니다. 대부분의 다른 검색 엔진(그 중 다수)은 나열된 세 가지 결과를 어떤 형태로든 사용합니다. 예를 들어 AOL 검색(search.aol.com)은 다음을 사용합니다. 구글 데이터베이스, AltaVista, Lycos 및 AllTheWeb - Yahoo 데이터베이스.

5. 검색시스템의 구성 및 운영원리

러시아의 주요 검색 엔진은 Yandex이며, Rambler.ru, Google.ru, Aport.ru, Mail.ru가 그 뒤를 따릅니다. 또한 현재 Mail.ru는 Yandex 검색 엔진과 데이터베이스를 사용하고 있습니다.

거의 모든 주요 검색 엔진은 다른 검색 엔진과 다른 자체 구조를 가지고 있습니다. 그러나 모든 검색 엔진에 공통된 주요 구성 요소를 식별하는 것은 가능합니다. 구조의 차이는 이러한 구성 요소의 상호 작용 메커니즘을 구현하는 형태로만 나타날 수 있습니다.

인덱싱 모듈

인덱싱 모듈은 세 가지 보조 프로그램(로봇)으로 구성됩니다.

Spider는 웹 페이지를 다운로드하도록 설계된 프로그램입니다. 스파이더는 페이지를 다운로드하고 해당 페이지에서 모든 내부 링크를 검색합니다. 각 페이지의 HTML 코드가 다운로드됩니다. 로봇은 HTTP 프로토콜을 사용하여 페이지를 다운로드합니다. 거미는 다음과 같이 작동합니다. 로봇은 "get/path/document" 요청과 기타 HTTP 요청 명령을 서버에 보냅니다. 이에 대한 응답으로 로봇은 서비스 정보와 문서 자체가 포함된 텍스트 스트림을 수신합니다.

페이지 URL

페이지를 다운로드한 날짜

서버 응답 http 헤더

페이지 본문(html 코드)

크롤러("여행" 스파이더)는 페이지에 있는 모든 링크를 자동으로 따라가는 프로그램입니다. 페이지에 있는 모든 링크를 선택합니다. 그 임무는 링크나 미리 결정된 주소 목록을 기반으로 스파이더가 다음에 어디로 가야 할지 결정하는 것입니다. 크롤러는 발견된 링크를 따라 검색 엔진에 아직 알려지지 않은 새 문서를 검색합니다.

인덱서(Robot Indexer)는 스파이더가 다운로드한 웹페이지를 분석하는 프로그램이다. 인덱서는 페이지를 구성 요소 부분으로 구문 분석하고 자체 어휘 및 형태론적 알고리즘을 사용하여 분석합니다. 텍스트, 제목, 링크, 구조 및 스타일 기능, 특수 서비스 HTML 태그 등 다양한 페이지 요소를 분석합니다.

따라서 인덱싱 모듈을 사용하면 링크를 사용하여 특정 리소스 세트를 크롤링하고, 발견된 페이지를 다운로드하고, 수신된 문서에서 새 페이지에 대한 링크를 추출하고, 이러한 문서에 대한 완전한 분석을 수행할 수 있습니다.

데이터 베이스

데이터베이스 또는 검색 엔진 인덱스는 데이터 저장 시스템으로, 인덱싱 모듈에 의해 다운로드되고 처리되는 모든 문서의 특수 변환된 매개변수가 저장되는 정보 배열입니다.

검색서버

검색서버는 가장 중요한 요소전체 시스템은 검색의 품질과 속도가 기능의 기반이 되는 알고리즘에 직접적으로 좌우되기 때문입니다.

검색 서버는 다음과 같이 작동합니다.

사용자로부터 받은 요청은 형태소 분석을 거칩니다. 데이터베이스에 포함된 각 문서의 정보 환경이 생성됩니다(이후 요청에 따라 스니펫 형식으로 표시됨). 텍스트 정보검색결과 페이지에서)

수신된 데이터는 다음과 같이 전송됩니다. 입력 매개변수 특수 모듈순위.

데이터는 모든 문서에 대해 처리되며, 그 결과 각 문서에는 사용자가 입력한 쿼리와 검색 엔진 인덱스에 저장된 이 문서의 다양한 구성 요소의 관련성을 특징으로 하는 자체 등급이 있습니다.

사용자의 선택에 따라 이 등급은 추가 조건(예: 소위 "고급 검색")에 의해 조정될 수 있습니다.

다음으로, 스니펫이 생성됩니다. 즉, 발견된 각 문서에 대해 제목, 쿼리와 가장 잘 일치하는 짧은 초록, 문서 자체에 대한 링크가 문서 테이블에서 추출되고 발견된 단어가 강조 표시됩니다.

검색 결과는 검색 결과 페이지인 SERP(검색 엔진 결과 페이지) 형식으로 사용자에게 전송됩니다.

보시다시피 이러한 모든 구성 요소는 서로 밀접하게 관련되어 있으며 상호 작용하여 엄청난 양의 리소스가 필요한 검색 시스템 작동을 위한 명확하고 다소 복잡한 메커니즘을 형성합니다.

모든 인터넷 리소스를 다루는 검색 엔진은 없습니다.

각 검색 엔진은 고유한 방법을 사용하여 인터넷 자원에 대한 정보를 수집하고 정기적으로 업데이트되는 자체 데이터베이스를 구성합니다. 이 데이터베이스에 대한 액세스 권한이 사용자에게 부여됩니다.

검색 엔진은 리소스를 검색하는 두 가지 방법을 구현합니다. 주제로 검색카탈로그 - 정보 형태로 제시계층적 구조 . ~에상위 레벨 - 일반 카테고리("인터넷", "비즈니스", "예술", "교육" 등), 다음 수준에서는 카테고리가 섹션 등으로 구분됩니다. 최대낮은 수준

- 특정 웹페이지 또는 기타 정보 리소스에 대한 링크입니다. 키워드 검색(색인 검색 또는 상세 검색) - 사용자가 검색 엔진에 보냅니다.요구 , 키워드로 구성됩니다. 체계보고

요청 시 발견된 리소스 목록을 사용자에게 제공합니다.

대부분의 검색 엔진은 두 가지 검색 방법을 결합합니다.

검색 엔진은 지역적, 글로벌적, 지역적, 전문적일 수 있습니다.

러시아 인터넷 부분(Runet)에서 가장 인기 있는 범용 검색 엔진은 Rambler(www.rambler.ru), Yandex(www.yandex.ru), Aport(www.aport.ru), Google(www. google.ru).대부분의 검색 엔진

포털 형태로 구현됩니다.포털(영어에서. - 문정문

포털은 전문화될 수 있습니다(예:www. 박물관. 루) 및 일반(예:www. 킬로미터. 루).

키워드로 검색

검색에 사용되는 키워드 세트를 검색 기준 또는 검색 주제라고도 합니다.

요청은 하나의 단어 또는 연산자로 결합된 단어 조합(시스템이 수행해야 하는 작업을 결정하는 기호)으로 구성될 수 있습니다. 예를 들어, 요청 "Moscow St. Petersburg"에는 AND 연산자(공백이 인식되는 방식)가 포함되어 있습니다. 이는 Moscow와 St. Petersburg라는 두 단어가 모두 포함된 문서를 검색해야 함을 나타냅니다.

검색이 관련성이 있으려면(영어 관련 - 관련, 관련) 몇 가지 일반 규칙을 고려해야 합니다.

쿼리에 단어가 사용되는 형식에 관계없이 검색에서는 러시아어 규칙에 따라 모든 단어 형식을 고려합니다. 예를 들어, "티켓"이라는 쿼리는 "티켓", "티켓" 등의 단어도 찾습니다.

불필요한 참고문헌을 보는 것을 피하기 위해 고유명사에만 대문자를 사용해야 합니다. 예를 들어, "대장장이"의 요청에 따라 대장장이와 Kuznetsov에 대해 이야기하는 문서가 발견됩니다.

몇 개의 키워드를 사용하여 검색 범위를 좁히는 것이 좋습니다.

필요한 주소가 발견된 처음 20개 주소에 포함되지 않은 경우 요청을 변경해야 합니다.

각 검색 엔진은 자체 쿼리 언어를 사용합니다. 이에 대해 알아보려면 검색 엔진에 내장된 도움말을 사용하세요.

대규모 사이트에는 웹 페이지 내에 정보 검색 시스템이 내장되어 있을 수 있습니다.

일반적으로 이러한 검색 시스템의 쿼리는 글로벌 검색 엔진과 동일한 규칙에 따라 작성되지만 여기서 도움말에 대한 친숙도는 불필요하지 않습니다.

고급 검색

검색 엔진은 사용자가 복잡한 쿼리를 생성할 수 있는 메커니즘을 제공할 수 있습니다. 링크 따라가기 고급 검색검색 매개변수를 편집하고, 추가 매개변수를 지정하고, 검색 결과를 표시하는 데 가장 편리한 형식을 선택할 수 있습니다. 다음은 Yanex 및 Rambler 시스템에서 고급 검색 중에 설정할 수 있는 매개변수에 대해 설명합니다.

매개변수 설명	Yandex의 이름	이름을 입력하세요램블러
어디를 볼 것인가 키워드 (문서 제목, 본문 텍스트 등)	사전 필터	텍스트로 검색...
문서에 어떤 단어가 있어야 하고 없어야 하는지, 그리고 얼마나 정확하게 일치해야 하는지	사전 필터	검색어 검색... 다음 단어가 포함된 문서 제외...
키워드는 얼마나 멀리 떨어져 있어야 합니까?	사전 필터	검색어 사이의 거리...
문서 날짜 제한		문서 날짜...
하나 이상의 사이트로 검색을 제한하십시오.	사이트/톱	다음 사이트에서만 문서를 검색하세요...

문서 언어로 검색 제한		문서 언어...
문서 검색특정 이름이나 캡션이 있는 사진이 포함된 경우	영상
페이지 검색객체를 포함하는	특수 개체
검색결과 발표양식	이슈 형식	검색 결과 표시

일부 검색 엔진(예: Yandex)에서는 자연어로 쿼리를 입력할 수 있습니다. 찾아야 할 사항을 작성합니다(예: 모스크바에서 상트페테르부르크까지 기차표 주문). 시스템은 요청을 분석하고 결과를 생성합니다. 만족스럽지 않으면 쿼리 언어로 전환하세요.