간단히 구현하는 방법으로 인덱싱입니다. 주제: 문서 색인화: 정의, 기본 프로세스. 구글 데이터베이스

09.03.2019

검색 엔진에서 발생하는 각 프로세스는 독특하고 흥미롭습니다. 검색 엔진의 아키텍처를 알면 사이트가 검색 결과에서 "떨어지는" 이유나 순위가 높아지는 이유를 이해할 수 있습니다. 각 프로세스를 개별적으로 고려해 보겠습니다.

인덱싱은 검색 로봇이 사이트를 방문하여 페이지에서 다양한 정보를 수집하고 이를 입력하는 프로세스입니다. 특수 기지데이터. 그런 다음 이 데이터가 처리되고 문서에서 추출된 색인이 작성됩니다. 검색 엔진은 사용자 요청에 따라 사이트에 대한 링크를 검색하고 제공하는 것은 색인을 통해 이루어집니다.

Yandex 검색 엔진을 예로 들어 인덱싱 프로세스를 살펴보겠습니다.

검색 엔진에는 두 가지 유형의 로봇이 있습니다. 빠른그리고 메인. 메인 로봇의 임무는 모든 콘텐츠를 색인화하는 것이고, 고속 로봇의 임무는 최신 정보를 데이터베이스에 입력하는 것입니다. 검색 로봇 플래너는 방문 경로를 작성하고 이를 "거미"에게 전송합니다. 거미는 선택한 페이지를 순회하며 정보를 펌핑합니다. 인덱싱 중에 문서에서 새 링크가 발견되면 해당 링크가 일반 목록에 추가됩니다.

첫 번째 방문에서 스파이더는 리소스 상태를 확인합니다. 해당 특성이 Yandex의 요구 사항을 충족하면 사이트가 데이터베이스에 입력됩니다. 스파이더가 이미 색인화된 페이지를 다시 방문하면 해당 페이지에 포함된 정보가 업데이트됩니다.

문서가 색인에 포함되어 있습니다. 다음과 같은 방법으로: 검색로봇 자체가 외부를 탐색할 때 자동으로 내부 링크, 사이트 소유자가 특수 양식이나 사이트에 설치된 Yandex.Metrica를 통해 URL을 직접 추가한 경우이기 때문입니다. 이 서비스는 색인 생성을 위해 페이지 URL을 Yandex로 전송합니다. 필요한 경우 인터페이스에서 지표를 비활성화할 수 있습니다. 이 옵션.

사이트 페이지 색인 생성 및 업데이트 속도

이상적으로는 생성되자마자 새 페이지, 즉시 색인을 생성해야 합니다. 그러나 정보의 양이 많으면 새 페이지를 색인화하고 이전 페이지를 업데이트하기가 어렵습니다. 검색 엔진 로봇은 지속적으로 데이터베이스를 업데이트하지만 사용자가 데이터베이스를 사용할 수 있으려면 ' 기본 검색" 데이터베이스가 완전히 전송되지 않았습니다. 검색 엔진의 판단에 따라 미러 사이트, 검색 스팸이 포함된 페이지, 기타 불필요한 문서는 제외됩니다.

거울을 감지하는 로봇, robots.txt 파일에 지정된 미러 사이트를 확인합니다. 동일한 경우 검색 엔진 결과에는 기본 미러라는 사이트가 하나만 표시됩니다.

특별한 로봇이 Yandex.Webmaster의 "URL 추가" 양식을 통해 추가된 사이트의 가용성을 확인합니다.

다른 유형의 색인 로봇이 있습니다: 비디오 및 웹사이트 픽토그램(아이콘)의 색인 생성기; Yandex.Catalog의 사이트 성능을 확인하는 로봇; Yandex.News 등과 같은 사이트의 "빠른" 콘텐츠 인덱서

사이트를 색인화하는 과정에는 시간이 오래 걸리며, 색인 데이터베이스를 업데이트하는 과정에도 시간이 소요된다는 점을 이해하는 것이 중요합니다. 따라서 사이트 변경 결과는 1~2주 후에나 표시됩니다.

Yandex 검색 엔진은 다음을 통해 사용자 질문에 답변합니다. 필요한 서류인터넷에는. 그리고 크기 현대 인터넷엑사바이트, 즉 수십억 바이트로 계산됩니다. 물론 Yandex는 질문을 받을 때마다 전체 인터넷을 크롤링하지 않습니다. 말하자면 검색 엔진은 숙제를 합니다.

인터넷 검색은 두 부분으로 구성됩니다. 첫 번째는 검색 엔진이 인터넷을 크롤링하여 서버에 복사본을 생성한다는 것입니다. 두 번째는 사용자가 요청을 설정하고 검색 엔진 서버로부터 응답을 받는 것입니다.

Yandex 검색 기준 검색 색인- 존재하는 모든 단어를 저장하는 데이터베이스 검색하는 것으로 알려짐사이트의 위치는 페이지 주소와 위치로 표시됩니다. 색인은 책이나 주소록의 주제 색인과 비교할 수 있습니다. 일반 주제 색인과 달리 색인에는 용어뿐만 아니라 일반적으로 모든 단어가 포함됩니다. 그리고 주소록과 달리 각 수신자 단어에는 하나가 아니라 많은 "등록 장소"가 있습니다.

답변 준비

검색 엔진이 검색하는 데이터를 준비하는 것을 인덱싱이라고 합니다. 특별한 컴퓨터 시스템- 검색 로봇 - 정기적으로 인터넷을 크롤링하고 문서를 다운로드하여 처리합니다. 일종의 인터넷 스냅샷이 생성되어 검색 엔진 서버에 저장되고 새로운 크롤링이 있을 때마다 업데이트됩니다.

Yandex에는 기본 검색 로봇과 빠른 검색 로봇(Orange라고 함)이라는 두 개의 검색 로봇이 있습니다. 메인 로봇은 인터넷 전체를 색인화하고, 오렌지는 검색이 가장 많은 정보를 찾을 수 있도록 하는 역할을 담당합니다. 신선한 문서, 몇 분 또는 몇 초 전에 나타났습니다. 각 로봇에는 색인을 생성해야 하는 문서 주소 목록이 있습니다.

크롤링하는 동안 로봇은 이미 알려진 사이트에서 새 링크를 발견하면 해당 링크를 목록에 추가하여 색인된 페이지 수를 늘립니다. 그러나 사이트 소유자는 Yandex.Webmaster 서비스를 통해 기본 Yandex 로봇이 자신의 리소스를 찾도록 돕고 페이지 업데이트 빈도 등을 제안할 수 있습니다.

먼저, 스케줄러 프로그램은 문서가 탐색되는 순서인 경로를 만듭니다. 동시에 스케줄러는 인용이나 문서 업데이트 빈도 등 검색 엔진에 중요한 사이트 특성을 고려합니다. 경로를 생성한 후 플래너는 이를 검색 로봇의 다른 부분인 "거미"에 제공합니다. 스파이더는 정기적으로 문서를 크롤링합니다. 주어진 경로. 사이트가 제대로 작동하고 액세스 가능하면 스파이더는 경로를 따라 계획된 문서를 다운로드합니다. 다운로드한 문서의 종류(html, pdf, swf 등), 인코딩, 언어 등을 판단하여 해당 데이터를 스토리지로 보냅니다.

거기서 프로그램은 문서를 하나씩 분석합니다. 문서의 HTML 마크업을 지우고 깨끗한 텍스트를 남겨두고 각 단어의 위치에 대한 데이터를 선택하여 색인에 추가합니다. 원본 형식의 문서 자체도 다음 크롤링 때까지 저장소에 남아 있습니다. 덕분에 사용자는 사이트를 일시적으로 사용할 수 없는 경우에도 Yandex에서 문서를 찾고 볼 수 있습니다. 사이트가 폐쇄되거나 문서가 삭제 또는 업데이트된 경우 Yandex는 서버에서 사본을 삭제하거나 새 사본으로 교체합니다.

검색 색인, 문서 유형, 인코딩, 언어 및 저장된 문서 사본에 대한 데이터가 함께 구성됩니다. 데이터베이스 검색. 지속적으로 업데이트되지만, 이 업데이트를 사용자가 사용할 수 있으려면 '기본 검색'으로 전환해야 합니다. 기본 검색 - 사용자의 쿼리에 응답하는 서버입니다. 전체 검색 데이터베이스가 여기로 전송되는 것이 아니라 스팸, 중복 사이트(미러) 및 기타 불필요한 문서 없이 유용한 부분만 전송됩니다.

기본 로봇 저장소의 검색 데이터베이스 업데이트는 며칠에 한 번씩 "패킷" 검색에 포함됩니다. 이 프로세스는 서버에 추가 로드를 생성하므로 Yandex에 액세스하는 사용자 수가 적은 밤에 수행됩니다. 먼저, 베이스의 새 부품이 이전 크롤링과 동일한 부품 옆에 배치됩니다. 그런 다음 업데이트로 인해 검색 품질이 저하되지 않는지 확인하기 위해 다양한 요소를 비교하여 확인합니다. 검사에 성공하면 데이터베이스의 새 부분이 이전 부분을 대체합니다.

Orange 로봇은 실시간 검색을 위해 설계되었습니다. 플래너와 스파이더는 새로운 문서를 찾고 그 중 최소한 어느 정도 흥미로운 것을 선택하도록 구성되어 있습니다. Orange는 이러한 각 문서를 즉시 처리하여 기본 검색에 업로드합니다. 인터넷의 전체 용량에 비해 긴급한 문서가 많지 않기 때문에 매일 서버가 로드되는 동안에도 실시간으로 데이터베이스 업데이트가 가능합니다.

인덱싱 시스템의 유형. 개념의 형태학적 분석 및 정규화.

인덱싱은 자연어 텍스트를 외국어로 번역하는 과정입니다. 인덱싱은 인덱싱 프로세스를 자세히 설명하고 FP 사용 규칙을 포함하여 일련의 규칙을 나타내는 일련의 지침을 기반으로 합니다.

색인 시스템(SI)은 주어진 어휘 단위 사전 세트와 NL 사용 규칙에 따라 텍스트를 자연어에서 외국어로 번역하는 방법 및 도구 세트입니다. IPL 사용 규칙 외에도 색인 시스템에는 색인 프로세스의 특정 단계를 규제하는 다양한 지침, 규정, 방법 등이 포함될 수 있습니다.

기존 시스템인덱싱은 서로 매우 다르며 이를 설명합니다. 일반 구성그리고 구조는 불가능하다. 그러나 공통 기능이 있으면 색인 시스템 클래스에 대한 체계적인 아이디어를 제공할 수 있습니다.

다섯 가지 가장 중요한 이유에 따라 인덱싱 시스템의 유형을 고려해 보겠습니다(그림 5.1).

1. 그러나 인덱싱 프로세스의 자동화 정도는 구별됩니다.

수동 인덱싱

자동 인덱싱;

자동화된 인덱싱.

2. 제어 가능성의 정도에 따라 시스템이 구별됩니다.

사전 없이;

어려운 어휘로;

무료 사전과 함께.

3. 텍스트 단어 선택 알고리즘의 특성에 따라 다음 시스템이 구별됩니다.

텍스트를 순차적으로 보기(모든 의미를 지닌 단어가 선택됨)

텍스트에서 단어를 선택하기 위한 경험적 절차(단어는 직관적으로 또는 주어진 절차에 따라 선택됨):

통계적인 단어 선택 절차를 통해(사용 빈도 분포에 따라 정보가 있는 단어만 선택)

4. 사전 편찬 제어의 특성에 따라 시스템이 구별됩니다.

사전 편찬 제어가 없습니다.

와 함께 완전한 통제하에있는;

중간 제어 기능이 있습니다.

사전 편찬 제어는 다음을 제공합니다.

패러다임 관계가 있는 어휘 단위의 규범적 사전에 기초한 동의어, 다의어 및 동음이의어 제거;

형태학적 규범 사전을 기반으로 한 단어의 정규화.

전체 제어 시스템은 사전적 제어 기능을 모두 구현합니다. 중간 제어 기능을 갖춘 인덱싱 시스템에서는 이러한 기능이 부분적으로 구현됩니다.

쌀. 5.1. 인덱싱 시스템의 유형

5. 단어의 형태소 분석의 성격에 따라 시스템이 구별됩니다.

형태소 사전 사용

기본 어휘 사전 사용

단어 잘림을 이용한 형태소 분석을 사용합니다.

형태학적 분석이 없는 색인 시스템이 가능합니다.

색인 시스템의 예:

1) 무료 인덱싱 프로세스다음과 같다. 색인 작성기는 자신의 생각에 텍스트의 내용을 반영하는 단어나 문구를 기록합니다. 그는 본문에는 없지만 그의 관점에서는 본문의 의미를 표현하는 데 중요한 단어를 선택할 수 있습니다. 선택된 단어 목록은 해당 문서의 검색 이미지입니다. 이는 사전 없이, 경험적 단어 선택 절차를 사용하고, 사전적 제어 및 형태소 분석 없이 수동 색인을 사용하는 색인 시스템입니다.

2) 프로세스 준자유 인덱싱위에서 설명한 것과 유사하지만, 생성된 목록의 단어는 사전과 연관되어 있으며, 일치하지 않는 단어는 POD에서 폐기되고 포함되지 않습니다.

3) ~에 하드 인덱싱단어는 텍스트에서만 가져옵니다. POD에는 사전에 있는 단어만 포함됩니다. 사전에 용어를 포함하기 전에 주요 어휘 사전을 기반으로 형태학적 정규화가 수행됩니다.

4) ~에 정적 자동 코딩지정된 통계 절차를 사용하여 텍스트에서 단어를 선택한 후 위치 통계 알고리즘을 사용하여 단어를 잘라내어 통계적으로 인코딩합니다.

그 밖에도 다양한 인덱싱 시스템이 있습니다.

처음에는 특별히 교육을 받은 전문가가 색인 작업을 수행했습니다. 대상 지역, 문서의 의미론적 내용에 대한 심층 분석을 수행하고 이를 특정 클래스, 제목 및 핵심 용어에 할당(색인)할 수 있습니다. 이 경우에는 높은 자격을 갖춘 직원이 필요했기 때문에 간접비가 높았습니다. 또한, 색인 생성 과정은 다소 주관적이었습니다. 따라서 문서 색인화를 자동화하는 작업이 발생했습니다.

자동 인덱싱에는 두 가지 접근 방식이 있습니다. 첫 번째는 사전 사용을 기반으로 합니다. 키워드 IPT 기반 시스템에 사용됩니다. 이러한 시스템의 인덱싱은 순차적으로 수행됩니다. 자동 검색문서 본문에서 핵심 용어. 문서 검색 공간을 나타내는 인덱스가 구축됩니다. 이러한 인덱스에는 직접 인덱스와 반전 인덱스의 두 가지 가능한 유형이 있습니다.

직접 색인 유형은 문서 용어 체계에 따라 구축됩니다. 이 경우 검색 공간은 nxm 차원의 행렬로 표시됩니다. 이 행렬의 행은 문서의 검색 이미지를 나타냅니다.

반전된 유형의 인덱스는 역구성인 "용어 문서"에 따라 구축됩니다. 따라서 검색 공간은 전치된 형태로만 유사한 행렬로 표시됩니다. 이 경우 문서의 검색 이미지는 행렬의 열입니다.

자동 인덱싱에 대한 두 번째 접근 방식은 다음과 같습니다. 전체 텍스트 시스템. 색인 생성 과정에서 문서 텍스트의 모든 단어에 대한 정보가 색인에 입력됩니다(따라서 "전체 텍스트"라는 이름이 붙음).

개념의 형태학적 분석 및 정규화.색인화 프로세스의 주요 단계는 주요 의미론적 내용을 반영하는 텍스트 개념을 선택하는 것뿐만 아니라 선택된 개념과 코딩에 대한 형태소 분석 및 사전적 제어로 구성됩니다.

텍스트의 정보 개념을 선택하는 절차는 이전 주제에서 논의한 기본 어휘 단위의 사전을 구성할 때 개념을 선택하는 프로세스와 유사합니다.

형태소 분석, 사전 편찬 제어 및 개념 코딩 절차의 본질을 더 자세히 고려해 보겠습니다. 다양한 방식사전.

형태소 사전을 사용한 형태소 분석 절차는 다음과 같이 구성됩니다.

1) 단어의 일반적인 문법 클래스와 그 구성원을 어간과 어미로 결정합니다(어간과 어미 사전에 따라).

2) 명사의 성별을 식별합니다(단어의 기본을 기반으로 함).

3) 단어의 굴절 클래스 수를 식별합니다(일반화된 문법 클래스, 성별, 어미, 줄기의 최종 문자 조합 기준).

4) 단어에 대한 문법 정보 세트의 수를 결정할 때.

이 분석의 결과는 정규화된 단어와 그 문법 정보 세트의 수입니다.

정규화된 단어는 문자 코드 또는 단어 코드로 대체하여 인코딩됩니다. 첫 번째 경우 각 문자는 문자 코드 사전에 따라 해당 코드로 대체됩니다. 두 번째 경우에는 단어가 어휘 단위 사전에 따라 식별되고 해당 단어의 숫자나 사전 코드로 대체됩니다.

검색 결과를 발행할 때 수행되는 단어 해독은 정규화된 부분의 번호 또는 코드와 해당 문법 정보의 번호에 따라 단어의 문자 코드(그리고 단어 자체)를 형성하는 것으로 구성됩니다.

구문을 사용할 때 형태소 분석 절차는 다음을 포함하여 훨씬 더 복잡해집니다.

1. 단어 사전의 요소를 사용하여 문구의 단어를 식별합니다. 문법 정보와 함께 사전에 따른 숫자로 대체합니다.

2. 문구 전체의 문법 구조 식별 - 파싱(구문 단어의 문법 정보를 기반으로 함).

3. 주어진 단어 번호와 코드화된 구문의 문법 구조의 조합에 해당하는 구문의 번호를 사전에서 검색합니다.

4. 구문의 번호에 따라 문법 구조와 구조 자체의 해당 번호를 사전에서 선택합니다. 선택한 문법 구조와 두 번째 단계에서 얻은 코드 구문의 문법 구조를 비교합니다. 구조가 일치하면 개념도 동일합니다. 분석된 문구는 해당 번호 또는 코드로 대체됩니다. 마지막 두 단계는 의미 분석 단계입니다.

문구의 디코딩은 다음과 같습니다.

1) 해당 단어 번호 집합의 구문 수와 문법 구조의 수에 따라 사전에서 선택합니다.

2) 단어의 형태와 그 연결에 대한 정보를 추출하고, 구문의 단어 순서를 (문법 구조에 따라) 복원합니다.

3) 문구의 문자 코드 및 조합 자체의 형성.

기본 어휘 단위 사전의 형태학적 분석에는 2단계가 포함됩니다. 단어와 사전의 비교(일치하는 개념의 수 식별 및 결정)와 개념 집합의 수 식별은 문자 코드 또는 개념을 사용하여 수행됩니다. 코드 (사전에 따르면).

IPS는 단어 절단을 통한 형태소 분석을 널리 사용합니다. 이 경우에는 다음이 사용됩니다. 다양한 절차잘림:

a) 사전(기본, 어미 등) 사용

b) 사전을 사용하지 않고 (가장 단순한 선험적 규칙에 따라)

c) 위치 통계 장치를 사용한 단어의 통계적 절단.

a)의 경우 형태소 분석, 인코딩 및 디코딩 절차는 형태소 사전을 사용할 때와 동일합니다. b) 단어의 시작 및/또는 끝이 잘린 경우 특정 규칙. 단어의 잘린 부분은 문자 코드를 사용하여 인코딩됩니다. 디코딩이 없습니다. c) 단어의 절단시에는 위치통계의 장치와 사전을 사용한다. 단어는 문자 코드를 사용하여 인코딩되며 디코딩도 없습니다.

단어가 잘리면 정규화 및 비형태소 분석만 수행됩니다.

통제 질문

1. 자동화된 정보 검색 시스템의 생성과 기능을 보장하는 논리적 의미 도구의 일부인 색인 시스템의 역할과 위치는 무엇입니까?

2. 색인 시스템의 예를 들어보세요.

3. 색인 시스템은 어떤 유형학적 기준으로 나눌 수 있습니까?

4. 색인 과정에서 다양한 유형의 사전을 사용할 때 형태소 분석, 사전 편찬 제어 및 개념 코딩 절차의 본질은 무엇입니까?

친구 여러분, 오늘 저는 검색 엔진에 관한 일련의 기사를 계속합니다. 이번이 네 번째로 나는 이에 대한 견해를 제시할 것이다. 검색 엔진내부에서 검색 엔진 기술에 대해. 무엇을 위해? 내 해설자 중 한 명이 자신의 작업을 연구하는 것에 대해 "눈으로 적을 알아야 합니다"라고 말했습니다. :). 글쎄, 이 "적"을 더 자세하고 신중하게 연구해 봅시다.

이전 세 기사를 읽지 않은 분들을 위해 다음 링크를 참조하세요: , .

이제 기사를 읽어보자

최신 검색 엔진은 수만 건의 조회수를 처리하여
잠깐만. 어떻게 이런 일이 발생하나요?

물리적 수준의 검색 엔진

최신 검색 엔진은 다음과 같습니다. 극도로 복잡한 구조, 수십만 개, Google에서는 수백만 개로 구성 물리적 서버. 여기에 저장된 모든 내용은 전 세계 데이터 센터에 분산되어 안정적으로 보호됩니다.

Yandex 서버룸

1997년 창립 당시 Yandex 사용자에 대한 요청을 처리하고 검색 결과를 발행하는 것은 회사 창립자 중 한 사람의 사무실에 있고 현대 서버보다 약한 단 하나의 서버에서만 처리되었습니다. 가정용 컴퓨터! 2000년까지 Yandex가 약 50개의 서버를 보유했다면 모든 것이 얼마나 빨리 변했는지 상상할 수 있습니까? 매달 서버 수가 증가했고 시간이 지남에 따라 자체 데이터 센터가 등장했습니다(현재 Yandex에는 이미 4개의 서버가 있습니다). 현대의 데이터 센터는 수백 대의 서버로 구성되어 있습니다. 단일 네트워크, 이를 통해 대량의 요청과 서비스에 대한 높은 트래픽을 처리할 수 있습니다. 다음은 전형적인 예입니다. 2012년 2월 Yandex 검색 트래픽만 2,830만 명에 달했습니다.

검색 엔진 작동의 논리적 다이어그램

사용자가 인터넷에서 무언가를 찾고 싶을 때 쿼리를 입력합니다. 이 요청은 "로드 밸런서"에 의해 처리됩니다. 특수 장치, 사용자의 요청을 가장 적게 로드된 요청으로 자동 리디렉션합니다. 이 순간무리 이를 통해 사용 가능한 컴퓨팅 성능을 가장 효율적으로 사용할 수 있습니다.

그 다음에 검색어다음으로 리디렉션됩니다. "메타검색". 이 시스템은 필요한 모든 데이터를 수신하고 이 요청이 어떤 유형의 데이터에 속하는지 알고 있습니다. 같은 단계에서 요청의 철자가 확인되고, 요청이 어느 지역에서 왔는지, 해당 요청에 대한 지역 사이트를 표시할 가치가 있는지도 결정됩니다.

Yandex 요청 처리를 위한 논리 다이어그램

다음으로 Metasearch는 시스템에 유사한 요청이 있었는지 확인합니다. 최근에. 이는 세계와 인터넷에서 발생하는 특정 순간(중요한 사건, 재난 또는 심지어 광고 캠페인신제품), 일부는 지속적으로 인기가 있습니다(예: 이벤트 관련). 소셜 네트워크에서). 검색 엔진은 부하를 줄이기 위해 사용자 쿼리에 대한 답변을 일정 시간 동안 캐시에 저장하고, 반복 요청 시 답변을 새로 생성하는 대신 미리 만들어진 결과를 표시합니다. 검사 결과 캐시에서 미리 만들어진 답변을 찾지 못하면 검색 엔진은 새로운 답변을 생성하기 시작하고 사용자의 요청은 "기본 검색" 서버로 전달됩니다. 정확히 기본 검색에는 검색 엔진 색인이 포함됩니다., 별도의 부분으로 나누어 서버에 분산됩니다. 부분 검색이 항상 더 빠르기 때문입니다. 각 서버에 여러 개의 복사본이 있다는 점은 주목할 가치가 있습니다. 이를 통해 정보 손실을 방지할 수 있을 뿐만 아니라 로드를 분산할 수도 있습니다. 에서 정보를 얻은 경우 특정 서버수요가 너무 많아 서버 중 하나에 과부하가 걸릴 경우 이 서버의 복사본을 연결하면 문제가 해결됩니다. 검색 결과를 바탕으로 각 핵심 검색 서버는 사용자의 검색어와 관련된 결과를 메타 검색으로 반환합니다. 다음으로 순위 알고리즘이 관련됩니다. "매트릭스넷", 이는 검색 결과각각의 특정 링크가 있을 것입니다.

이제 모든 웹사이트 소유자에게 가장 시급한 문제로 넘어가서 알아보겠습니다. 무슨 일이야?

인덱싱 프로세스

색인 생성은 검색 로봇이 사이트를 "크롤링"하고 해당 페이지에서 다양한 정보를 수집하여 특수 데이터베이스에 입력하는 프로세스입니다. 여기부터 시작하겠습니다. 개인적인 지인! 🙂 그런 다음 이 데이터는 어떻게든 처리되고 문서(웹 페이지)에서 추출된 색인이 그 위에 구축됩니다. 검색 엔진은 색인을 통해 사용자 요청에 따라 사이트를 검색하고 링크를 제공합니다.
Yandex를 예로 들어 인덱싱 프로세스를 살펴보겠습니다. 검색 엔진에는 고속(빠른 로봇)과 기본의 두 가지 유형의 로봇이 있습니다.
메인 로봇의 임무는 모든 콘텐츠를 색인화하는 것이고, 고속 로봇의 임무는 최신 정보를 데이터베이스에 입력하는 것입니다. 검색 로봇 플래너는 방문 경로를 작성하고 이를 "거미"에게 전송합니다. 거미는 선택한 페이지를 순회하며 정보를 펌핑합니다. 인덱싱 중에 문서에서 새 링크가 발견되면 해당 링크가 일반 목록에 추가됩니다.

Yandex 인덱싱 프로세스의 순서.

문서는 두 가지 방법으로 색인에 추가됩니다.

1) 검색로봇 자체가 외부, 내부 링크를 따라가면 자동으로,

2) 또는 사이트 소유자가 다음을 통해 URL을 직접 추가할 수도 있습니다. 특별한 형태(“addurilka”) 또는 사이트에 설치된 Yandex.Metrica를 통해. 이것은 전송합니다 페이지 URL Yandex의 색인 생성을 위해. 원하는 경우 사이트에 지표 코드를 설치하거나 인터페이스에서 이 옵션을 비활성화할 수 없습니다.

솔직히 말해서 Yandex Metrica가 웹 사이트 페이지의 색인 생성 속도를 높이는 데 기여하는지 여부와 해당 작업에 대한 웹 마스터의 의견은 찬사에서 타협하지 않는 비판에 이르기까지 정반대입니다. 어떤 사람들은 이 작업이 인덱싱 속도에 긍정적인 영향을 미친다고 믿는 반면, 다른 사람들은 이 프로세스가 느려진다고 믿습니다. 해설자님, 공유해 주세요. 개인적인 경험그리고 관찰!

이제 우리는 원활하게 개념으로 넘어갔습니다.

인덱싱 및 페이지 새로 고침 속도

이상적으로는 새로 생성된 페이지가 즉시 색인화되어야 합니다. 그러나 정보의 양이 많으면 새 페이지를 색인화하고 이전 페이지를 업데이트하기가 어렵습니다. 검색 엔진 로봇은 검색 데이터베이스를 지속적으로 업데이트하지만 사용자가 이를 사용할 수 있으려면 "기본 검색"으로 전환해야 합니다. 데이터베이스가 완전히 전송되지 않았습니다. 미러 사이트, 검색 스팸 및 기타 불필요한 페이지가 포함되어 있다고 판단되는 페이지 검색 엔진, 문서. 그러나 일부 정보 유형의 경우 이 업데이트 속도가 허용되지 않습니다. 예를 들어 뉴스 사이트를 색인화하는 프로세스입니다. 게시된 뉴스는 추가된 직후 검색 엔진에서 사용할 수 있어야 합니다. 자주 업데이트되는 페이지의 색인 생성 속도를 높이기 위해 특별한 "빠른 로봇"하루에 여러 번 뉴스 사이트를 방문하는 사람.

검색 로봇이 게으르다고 생각하지 마십시오. 검색 로봇은 가능한 한 많은 색인을 생성하려고 노력합니다. 추가 정보그러나 색인 생성 프로세스에 제한을 가하는 여러 가지 요소가 있습니다. 예를 들어 색인에 직접 들어갈 가능성은 리소스의 권한, 페이지 중첩 수준, 가용성에 따라 달라집니다. 사이트맵 파일, 사이트의 정상적인 색인 생성을 방해하는 오류가 없습니다. 웹사이트 색인 생성을 관리하는 주요 도구는 robots.txt, 메타 태그, 태그, noindex 및 nofollow 속성입니다.
Robots.txt는 텍스트 파일, 모든 항목에 대한 인덱싱 매개변수를 설정할 수 있습니다. 검색 로봇즉시 그리고 별도로.
noindex 태그와 메타 태그는 텍스트나 페이지 자체의 색인을 생성하는 역할을 하며, nofollow는 링크의 색인을 생성하는 역할을 합니다. 게다가 일반 텍스트웹사이트에 게시된 모든 최신 검색 엔진은 폐쇄된 형식의 문서를 색인화할 수 있습니다. 이러한 파일에 저장되는 데이터 유형에는 몇 가지 제한 사항이 있습니다. 따라서 PDF에서는 텍스트 콘텐츠만 색인화됩니다. 플래시 문서에서는 다음 위치에만 있는 텍스트입니다.
특정 블록 등

검색 엔진 로봇의 유형

기존의 모든 검색 로봇 중에서 네 가지 주요 로봇을 강조할 가치가 있습니다.
➜➜ 인덱싱 로봇,
➜➜ 이미지 로봇,
➜➜ 사이트 미러용 로봇;
➜➜ 웹사이트나 페이지의 기능을 확인하는 로봇.
일부 타사 로봇은 적절한 사용자 에이전트를 지정하여 Yandex 로봇으로 위장할 수 있습니다. 정품여부를 확인하실 수 있습니다
역방향 DNS 쿼리를 기반으로 한 식별을 사용하는 로봇.

어떤 로봇이 당신에게 적합한지 결정하세요
로그인하면 로그인을 사용할 수 있습니다.
일반적으로 사용 가능한 파일
관리자 패널이나 FTP에서. 모두
기존 로봇이 표현됩니다.
동일한 계획을 기반으로 하지만 각각
그것은 자신의 이름을 가지고 있습니다. 에-
예: “Mozilla/5.0(호환 가능;
YandexBot/3.0; +http://yandex.
com/bots)" - 주요 색인 -
얀덱스 로봇.

색인 로봇은 페이지를 발견하고 색인하여 주요 검색의 기반을 만듭니다. 로봇은 이미지를 기반으로 인덱스에 들어갑니다. 그래픽 정보, 이는 해당 서비스의 출력에 나중에 표시됩니다(예: Yandex.Images 또는 구글 이미지. 미러를 감지하는 로봇은 robots.txt 파일에 지정된 사이트의 미러를 확인합니다. 동일한 경우 검색 엔진 결과에는 기본 미러라는 하나의 사이트만 포함됩니다.

다른 유형의 인덱싱 로봇도 있습니다. 사이트의 픽토그램(아이콘); Yandex.Catalog의 사이트 성능을 확인하는 로봇; 뉴스 사이트 등의 "빠른" 콘텐츠 색인 생성기
인덱싱 프로세스에는 시간이 오래 걸리며, 이어서 인덱스 데이터베이스를 업데이트하는 프로세스에도 시간이 필요하다는 점을 이해하는 것이 중요합니다. 따라서 사이트 변경 결과는 1~2주 후에나 표시될 수 있습니다. Yandex.Webmaster의 "URL 추가" 양식을 통해 추가된 사이트의 가용성을 확인하는 특수 로봇도 있습니다.

너무 긴 글로 지루하게 하기보다는 이 정도만 말씀드리겠습니다.

계속…

(10회 방문, 오늘 1회 방문)

문서 인덱싱

(체계화, 주체화, 좌표색인화)

색인화는 문서 내용 및/또는 의미의 표현입니다. 정보 요청정보 검색 언어(GOST 7.74-96). 문서 색인에는 분류(체계화), 주제(주체 식별), 좌표(좌표 색인)의 세 가지 유형이 있습니다.

주제 색인화 - 주제 표제의 언어로 표현된 문서의 주제 내용 색인화입니다.

분류 색인화는 모든 분류 시스템의 개념과 코드를 사용하여 문서를 체계화하는 것입니다.

좌표 색인은 다양한 키워드나 설명자를 사용하여 정보 요청의 주요 의미 내용에 대한 다중 측면 표현을 제공하는 색인입니다.

분야 명

지도

BBK 테이블에서 결정된 분류 지수

서지 기관에서 사용하는 다른 분류의 색인(예: TBC 또는 지역 역사 문서용 표)

내장된 Khavkina 테이블에 의해 결정됩니다. 분류지수가 있는 경우 저장 후 자동 추가

903: 데이터베이스의 문서 암호

자동으로 생성된 문서 ID

906: 체계적 암호

서지기관이 정한 배열코드

60: 지식 섹션

업종 전체의 이름을 포함한 일련번호

자연어로 주제를 간략하게 표현

타이틀 색인

다항식 주제 표제의 첫 번째 요소

첫 번째 소제목

주제 제목의 제목으로 표현되는 개체의 주요 특성, 구성, 상태, 속성 등을 지정합니다.

두 번째 소제목

주제 제목의 첫 번째 소제목에 표현된 주제 고려의 세부 사항

능률

세 번째 소제목

주제 제목의 두 번째 소제목에 표현된 주제 고려의 세부 사항

수학적 계산

지리적 소제목

주제 고려의 지리적(영토적) 측면을 반영하고 특정 영역과의 연관성을 보여줍니다.

지리적 소제목

연대순 자막

기간을 지정하거나 특정 날짜. 가리키다 아라비아 숫자, 구두 공식시대와 기간

2005년~2008년

20세기 후반

610: 표준화되지 않은 키워드

전달하는 키워드(문서 텍스트의 문구) 이 텍스트관점에서 상당한 의미적 부하 정보 검색. 더 깊은 수준에서 문서 내용을 추가로 공개하려면 KS를 사용하는 것이 좋습니다. 즉, PR을 사용하여 문서의 주요 주제와 해당 측면을 설명하고, KS를 사용하여 추가 세부 사항과 측면 주제를 설명합니다. 문서의. 문서의 본문에서 직접 선택하여 제목 및 주제 제목에 없는 경우 이 필드에 입력합니다.

작가

도플러 효과

건강 캠프

600 : 성격

(그 사람에 대해) – 사람의 이름

해당 사람이 문서의 주제인 경우 제목이 해당 사람의 이름인 주제 표제입니다. 필드 700 "저자" 및 701 "기타 개별 저자"와 유사한 하위 필드를 포함합니다.

성, 이니셜

이니셜 확장

타티아나 그리고리예브나

이름의 필수적인 부분

날짜 이외의 이름에 대한 추가

필롤 박사. 과학(민속학자), 국가 수상자. UR상(2004)

생활 날짜

성의 변형

성격 (그 사람에 대해)

조직의 전체 이름은 한 줄에 기록됩니다.

Izhstal, 스포츠 하키 팀

331: 추상

문서에 대한 간략한 설명, 내용, 목적, 형식 및 기타 기능을 설명합니다.

인덱싱 프로세스에는 다음 단계가 포함됩니다.

– 문서 내용의 주요 구성 요소 식별,

– 정보 검색 언어를 사용하여 식별된 콘텐츠 구성 요소를 표시합니다.

인덱싱 프로세스에서는 다음 사항을 고려합니다.

– 사용자의 정보 요구,

– 일반 및 특정 색인 기술.

문서에 할당된 주제 표제(SU)는 최대한의 완전성과 정확성을 바탕으로 목록화되는 문서의 내용을 반영해야 합니다. 원칙적으로 문서에는 적절한 PR이 할당되어야 하며, 그 표현은 문서 주제에 대한 개념 범위와 가장 밀접하게 일치하는 개념 범위를 표현합니다. 문서의 주제에 대한 개념의 범위보다 더 넓은 개념의 범위를 표현하는 일반화 제목은 적절한 PR을 사용하는 것이 불합리한 경우 할당됩니다.

문서에 할당된 PR 수는 다양할 수 있으며 목록화되는 문서의 내용에 따라 달라집니다. 인덱서는 문서에 하나 이상의 ID를 할당할 수 있습니다.

관련 주제에 대한 문서가 있으면 새로운 주제 제목이 생성됩니다. 새로운 PR을 공식화하려면 용어 체계의 현재 상태에 해당하는 용어를 사용해야 합니다. 용어의 사용은 다음을 기반으로 해야 합니다.

§ 산업 백과사전;

§ 현대 용어 사전;

§ 카탈로그 문서.

주제 제목 작성 규칙

1. PR의 구성에는 모든 품사가 포함될 수 있지만 PR의 개념 표현의 주요 언어 형식은 이를 기반으로 하는 명사와 구입니다. PR에 명사가 있어야 합니다.

2. 주제 제목의 제목과 부제목은 주격으로 구성됩니다. 문구를 뒤집을 때 속격을 사용할 수 있습니다. 예: 옴의 법칙.

3. 주제 제목에 사용된 단어는 복수형으로 표현됩니다. 단, 복수형으로 사용되지 않는 용어는 예외입니다. 예: 운송. 호흡. 복수형으로 다른 개념을 지정하는 단어에는 단수형도 허용됩니다. 예를 들어, 극장은 예술의 한 유형이고 극장은 기관의 한 유형입니다.

4. 항목을 전체 및 약식으로 사용할 경우 전체 형식이 우선 적용됩니다. 단, 짧은 형식이 개체의 전체 이름을 대체하고 약어가 용어의 일부가 된 단어는 예외입니다. 예: CPSU, 유네스코.

5. 주제명 작성 시 다의미어와 동음이의어를 사용할 경우, 개념의 내용을 명확히 하는 단어(관계어)를 괄호 안에 표시한다. 예: 공연(gnoseol.) 및 공연(이벤트).

6. 주제 제목의 선두 단어 위치에 최대 의미 부하를 전달하는 단어가 포함되어 있는지 확인하기 위해 반전을 사용할 수 있습니다. 반전은 다음과 같은 경우에 사용됩니다.

6.1. 정리, 이론, 방법, 작업, 효과, 현상 등과 같은 개념과 관련됩니다. 예: 확률 이론, 페르마의 정리.

6.2. 소위 "특징이 없는" 형용사에 관하여. 이 경우 명사는 대상의 본질을 정의하는 주요 단어이고 형용사는 대상의 주요 속성이 아니라 사적인 2차 특성을 나타냅니다.

이러한 징후에는 다음이 포함됩니다.

– 일부 특징적이지 않은 외부 기호(크기, 부피, 모양, 색상 등). 예를 들어: 건물 건설폐.

– 물리적 특성 및 상태(고체, 액체, 건조 등). 예: 액체 식품.

– 일부 정량적, 공간적, 시간적 정의 및 관계. 예: 국제 음악 축제.

그 자체로 특징적이지 않은 형용사가 일반적으로 허용되는 용어의 일부인 경우는 예외입니다. 예: 대외 무역.

6.3. 지명에 고유명이 포함된 경우

예: Laptev Sea.

지리적 용어 공식화 규칙

1. 사전에 등재된 지리용어를 작성할 때에는 역사적으로 확립된 더 짧은 일반 국가명을 사용해야 합니다. 확장된 주 공식 명칭은 법적 문헌을 반영할 때만 사용됩니다. 예: 헌법 - 러시아 연방.

지명은 문서에서 고려되는 역사적 기간과 일치해야 합니다. 예를 들어:

뱌트카 주

유스티노프, 도시.

2. 모든 지형 객체의 이름은 해당 지형 객체의 범주(도시, 섬, 강 등)에 속하는지 명확해야 합니다. 이러한 설명은 약어 없이 작성되며 개체 이름 뒤에 쉼표와 공백으로 구분됩니다. 예를 들어.