인덱싱. 정보 검색 언어. 인덱싱 시스템. 인덱싱 프로세스의 목적

22.07.2019

색인 시스템(SI)은 주어진 어휘 단위 사전 세트와 FL 사용 규칙에 따라 텍스트를 자연어에서 FL로 번역하기 위한 방법 및 도구 세트입니다.

인덱싱 시스템의 분류를 고려해 봅시다.

1. 인덱싱 프로세스의 자동화 정도에 따라 다음 시스템이 구별됩니다.

수동 인덱싱

자동 인덱싱

자동화된 인덱싱.

2. 제어 가능성의 정도에 따라 시스템이 구별됩니다.

사전 없이;

어려운 어휘로;

무료 사전과 함께.

3. 텍스트 단어 선택 알고리즘의 특성에 따라 다음 시스템이 구별됩니다.

텍스트를 순차적으로 보기(모든 의미를 지닌 단어가 선택됨)

텍스트에서 단어를 선택하기 위한 경험적 절차(단어는 직관적으로 또는 주어진 절차에 따라 선택됨)

통계적 단어 선택 절차를 통해(사용 빈도 분포에 따라 정보가 있는 단어만 선택)

무료 색인 생성 프로세스는 다음과 같습니다. 색인 작성기는 자신의 의견으로는 텍스트의 내용을 반영하는 단어나 문구를 기록합니다. 그는 본문에는 없지만 그의 관점에서는 본문의 의미를 표현하는 데 중요한 단어를 선택할 수 있습니다. 선택된 단어 목록은 해당 문서의 검색 이미지입니다. 이는 수동으로 인덱싱된 SI입니다.

준자유 색인화 프로세스는 위에서 설명한 것과 유사하지만 AML에 대한 단어는 사전에서만 가져옵니다.

하드 인덱싱을 사용하면 텍스트에서만 단어를 가져옵니다.

처음에 색인화는 문서의 의미론적 내용에 대한 심층 분석을 수행하고 이를 특정 클래스, 제목 및 핵심 용어에 할당(색인)할 수 있는 특별히 훈련된 주제 전문가에 의해 수행되었습니다. 이 경우 숙련된 자격을 갖춘 인덱서 직원이 필요했기 때문에 간접비가 높았습니다. 또한, 색인 생성 과정은 다소 주관적이었습니다. 따라서 문서 색인화를 자동화하는 작업이 발생했습니다.

자동 인덱싱에는 두 가지 접근 방식이 있습니다. 첫 번째는 키워드 사전의 사용을 기반으로 하며 IPT 기반 시스템에서 사용됩니다. 이러한 시스템의 색인화는 문서 텍스트의 주요 용어를 순차적으로 자동 검색하여 수행됩니다. 문서 검색 공간을 나타내는 인덱스가 구축됩니다.

자동 인덱싱에 대한 두 번째 접근 방식은 다음과 같습니다. 전체 텍스트 시스템.색인 생성 과정에서 문서 텍스트의 모든 단어에 대한 정보가 색인에 입력됩니다(따라서 "전체 텍스트"라는 이름이 붙음).

인덱싱 시스템의 유형. 개념의 형태학적 분석 및 정규화.

인덱싱은 자연어 텍스트를 외국어로 번역하는 과정입니다. 인덱싱은 인덱싱 프로세스를 자세히 설명하고 FP 사용 규칙을 포함하여 일련의 규칙을 나타내는 일련의 지침을 기반으로 합니다.

색인 시스템(SI)은 주어진 어휘 단위 사전 세트와 NL 사용 규칙에 따라 텍스트를 자연어에서 외국어로 번역하는 방법 및 도구 세트입니다. IPL 사용 규칙 외에도 색인 시스템에는 색인 프로세스의 특정 단계를 규제하는 다양한 지침, 규정, 방법 등이 포함될 수 있습니다.

기존 인덱싱 시스템은 서로 매우 다르며 일반적인 구성과 구조를 설명하는 것이 불가능합니다. 그러나 공통 기능이 있으면 색인 시스템 클래스에 대한 체계적인 아이디어를 제공할 수 있습니다.

다섯 가지 가장 중요한 이유에 따라 인덱싱 시스템의 유형을 고려해 보겠습니다(그림 5.1).

1. 그러나 인덱싱 프로세스의 자동화 정도는 구별됩니다.

수동 인덱싱

자동 인덱싱;

자동화된 인덱싱.

2. 제어 가능성의 정도에 따라 시스템이 구별됩니다.

사전 없이;

어려운 어휘로;

무료 사전과 함께.

3. 텍스트 단어 선택 알고리즘의 특성에 따라 다음 시스템이 구별됩니다.

텍스트를 순차적으로 보기(모든 의미를 지닌 단어가 선택됨)

텍스트에서 단어를 선택하기 위한 경험적 절차(단어는 직관적으로 또는 주어진 절차에 따라 선택됨):

통계적 단어 선택 절차를 통해(사용 빈도 분포에 따라 정보가 있는 단어만 선택)

4. 사전 편찬 제어의 특성에 따라 시스템이 구별됩니다.

사전 편찬 제어가 없습니다.

모든 권한을 갖고;

중간 제어 기능이 있습니다.

사전 편찬 제어는 다음을 제공합니다.

패러다임 관계가 있는 어휘 단위의 규범적 사전에 기초한 동의어, 다의어 및 동음이의어 제거;

형태학적 규범 사전을 기반으로 한 단어의 정규화.

전체 제어 시스템은 사전적 제어 기능을 모두 구현합니다. 중간 제어 기능을 갖춘 인덱싱 시스템에서는 이러한 기능이 부분적으로 구현됩니다.

쌀. 5.1. 인덱싱 시스템의 유형

5. 단어의 형태소 분석의 성격에 따라 시스템이 구별됩니다.

형태소 사전 사용

기본 어휘 사전 사용

단어 잘림을 이용한 형태소 분석을 사용합니다.

형태학적 분석이 없는 색인 시스템이 가능합니다.

색인 시스템의 예:

1) 무료 인덱싱 프로세스다음과 같다. 색인 작성기는 자신의 생각에 텍스트의 내용을 반영하는 단어나 문구를 기록합니다. 그는 본문에는 없지만 그의 관점에서는 본문의 의미를 표현하는 데 중요한 단어를 선택할 수 있습니다. 선택된 단어 목록은 해당 문서의 검색 이미지입니다. 이는 사전 없이, 경험적 단어 선택 절차를 사용하고, 사전적 제어 및 형태소 분석 없이 수동 색인을 사용하는 색인 시스템입니다.

2) 프로세스 세미 프리 인덱싱위에서 설명한 것과 유사하지만, 생성된 목록의 단어는 사전과 연관되어 있으며, 일치하지 않는 단어는 POD에서 폐기되고 포함되지 않습니다.

3) ~에 하드 인덱싱단어는 텍스트에서만 가져옵니다. POD에는 사전에 있는 단어만 포함됩니다. 사전에 용어를 포함하기 전에 주요 어휘 사전을 기반으로 형태학적 정규화가 수행됩니다.

4) ~에 정적 자동 코딩지정된 통계 절차를 사용하여 텍스트에서 단어를 선택한 다음 위치 통계 알고리즘을 사용하여 단어를 잘라내어 통계적으로 인코딩합니다.

그 밖에도 다양한 인덱싱 시스템이 있습니다.

자동 인덱싱에는 두 가지 접근 방식이 있습니다. 첫 번째는 키워드 사전의 사용을 기반으로 하며 IPT 기반 시스템에서 사용됩니다. 이러한 시스템의 색인화는 문서 텍스트의 주요 용어를 순차적으로 자동 검색하여 수행됩니다. 문서 검색 공간을 나타내는 인덱스가 구축됩니다. 이러한 인덱스에는 직접 인덱스와 반전 인덱스의 두 가지 가능한 유형이 있습니다.

직접 색인 유형은 문서 용어 체계에 따라 구축됩니다. 이 경우 검색 공간은 nxm 차원의 행렬로 표시됩니다. 이 행렬의 행은 문서의 검색 이미지를 나타냅니다.

반전된 유형의 인덱스는 역구성인 "용어 문서"에 따라 구축됩니다. 따라서 검색 공간은 전치된 형태로만 유사한 행렬로 표현됩니다. 이 경우 문서의 검색 이미지는 행렬의 열입니다.

자동 색인화에 대한 두 번째 접근 방식은 전체 텍스트 시스템에서 사용됩니다. 색인 생성 과정에서 문서 텍스트의 모든 단어에 대한 정보가 색인에 입력됩니다(따라서 "전체 텍스트"라는 이름이 붙음).

개념의 형태학적 분석 및 정규화.색인화 프로세스의 주요 단계는 주요 의미론적 내용을 반영하는 텍스트 개념을 선택하는 것뿐만 아니라 선택된 개념과 코딩에 대한 형태소 분석 및 사전적 제어로 구성됩니다.

텍스트의 정보 개념을 선택하는 절차는 이전 주제에서 논의한 기본 어휘 단위의 사전을 구성할 때 개념을 선택하는 프로세스와 유사합니다.

다양한 유형의 사전을 사용할 때 형태소 분석, 사전 편찬 제어 및 개념 코딩 절차의 본질을 더 자세히 고려해 보겠습니다.

형태소 사전을 사용한 형태소 분석 절차는 다음과 같이 구성됩니다.

1) 단어의 일반적인 문법 클래스와 그 구성원을 어간과 어미로 결정합니다(어간과 어미 사전에 따라).

2) 명사의 성별을 식별합니다(단어의 기본을 기반으로).

3) 단어의 굴절 클래스 수를 식별합니다(일반화된 문법 클래스, 성별, 어미, 줄기의 최종 문자 조합 기준).

4) 단어에 대한 문법 정보 세트의 수를 결정할 때.

이 분석의 결과는 정규화된 단어와 그 문법 정보 세트의 수입니다.

정규화된 단어는 문자 코드나 단어 코드로 대체하여 인코딩됩니다. 첫 번째 경우 각 문자는 문자 코드 사전에 따라 해당 코드로 대체됩니다. 두 번째 경우에는 단어가 어휘 단위 사전에 따라 식별되고 해당 단어의 숫자나 사전 코드로 대체됩니다.

검색 결과를 발행할 때 수행되는 단어 해독은 정규화된 부분의 번호 또는 코드와 해당 문법 정보의 번호에 따라 단어의 문자 코드(그리고 단어 자체)를 형성하는 것으로 구성됩니다.

구문을 사용할 때 형태소 분석 절차는 다음을 포함하여 훨씬 더 복잡해집니다.

1. 단어 사전의 요소를 사용하여 구문의 단어를 식별합니다. 문법 정보와 함께 사전에 따른 숫자로 대체합니다.

2. 구문 전체의 문법 구조 식별-구문 분석 (구문 단어의 문법 정보 기반).

3. 주어진 단어 번호와 코드화된 구문의 문법 구조의 조합에 해당하는 구문의 번호를 사전에서 검색합니다.

4. 구문의 번호에 따라 문법 구조와 구조 자체의 해당 번호를 사전에서 선택합니다. 선택한 문법 구조와 두 번째 단계에서 얻은 코드 구문의 문법 구조를 비교합니다. 구조가 일치하면 개념도 동일합니다. 분석된 문구는 해당 번호 또는 코드로 대체됩니다. 마지막 두 단계는 의미 분석 단계입니다.

문구의 디코딩은 다음과 같습니다.

1) 해당 단어 번호 집합의 구문 수와 문법 구조의 수에 따라 사전에서 선택합니다.

2) 단어의 형태와 연결에 대한 정보를 추출하고, 구문의 단어 순서를 (문법 구조에 따라) 복원합니다.

3) 문구의 문자 코드 및 조합 자체의 형성.

기본 어휘 단위 사전의 형태학적 분석에는 2단계가 포함됩니다. 단어와 사전의 비교(일치하는 개념의 수 식별 및 결정)와 개념 집합의 수 식별은 문자 코드 또는 개념을 사용하여 수행됩니다. 코드 (사전에 따르면).

IPS는 단어 절단을 통한 형태소 분석을 널리 사용합니다. 다양한 절단 절차가 사용됩니다.

a) 사전(기본, 어미 등) 사용

b) 사전을 사용하지 않고 (가장 단순한 선험적 규칙에 따라)

c) 위치 통계 장치를 사용한 단어의 통계적 절단.

a)의 경우 형태소 분석, 인코딩 및 디코딩 절차는 형태소 사전을 사용할 때와 동일합니다. b)의 경우, 특정 규칙에 따라 단어의 시작 및/또는 끝이 잘립니다. 단어의 잘린 부분은 문자 코드를 사용하여 인코딩됩니다. 디코딩이 없습니다. c) 단어의 절단시에는 위치통계의 장치와 사전을 사용한다. 단어는 문자 코드를 사용하여 인코딩되며 디코딩도 없습니다.

단어가 잘리면 정규화 및 비형태소 분석만 수행됩니다.

통제 질문

1. 자동화된 정보 검색 시스템의 생성과 기능을 보장하는 논리적 의미 도구의 일부인 색인 시스템의 역할과 위치는 무엇입니까?

2. 색인 시스템의 예를 들어보세요.

3. 색인 시스템은 어떤 유형학적 기준으로 나눌 수 있습니까?

4. 색인 과정에서 다양한 유형의 사전을 사용할 때 형태소 분석, 사전 편찬 제어 및 개념 코딩 절차의 본질은 무엇입니까?

정보 시스템. 자동화된 정보 시스템.

1. 정보 시스템.

2. 정보 검색 언어. 인덱싱 시스템. 인덱싱 프로세스의 목적.

3. 다큐멘터리 정보 시스템. 다큐멘터리 IP 성능 지표.

4. 사실 시스템. 주제 영역이란 무엇입니까? 데이터 모델.

5. 주제 영역의 ER 모델 구축.

6. 관계 정상화 이론.

7. 고유한 엔터티 식별자.

8. AIS의 분류 및 구조

9. AIS 수명주기의 개념. 단계 및 프로세스, AIS 수명주기 모델.

10. AIS 설계 기술.

11. AIS 설계에 대한 구조적 접근.

12. AIS 설계 시 CASE - 도구 사용.

13. SCADA 시스템: 생성 단계, 적용 영역, 기능.

정보 시스템.

정보시스템(IS)인간 활동의 모든 영역에서 가장 흔히 정보 모델을 유지하도록 설계된 시스템입니다. 이 시스템은 흐름을 위한 수단을 제공해야 합니다. 정보 프로세스:

저장

방송

정보의 변환.

정보시스템정보 및 컴퓨팅 시스템이라고도 불리는 정보를 저장하고 처리하는 일련의 상호 연결된 수단이라고 합니다. 데이터는 정보 소스로부터 정보 시스템으로 들어갑니다. 이 데이터는 저장을 위해 전송되거나 시스템에서 일부 처리를 거친 후 소비자에게 전송됩니다.

피드백은 소비자와 정보 시스템 자체 사이에 확립될 수 있습니다. 이 경우 정보시스템이라고 한다. 닫은. 받은 정보에 대한 소비자의 반응을 고려해야 할 때 피드백 채널이 필요합니다.

정보시스템은 다음과 같이 구성된다. 정보의 출처, IC 하드웨어, IS 소프트웨어 부분, 정보 소비자.

자동화 정도에 따라 정보 시스템에는 3가지 등급이 있습니다.

수동 정보 시스템- 정보 처리에 대한 현대적인 기술적 수단이 부족하고 모든 작업이 인간에 의해 수행되는 것이 특징입니다. 예를 들어, 컴퓨터가 없는 회사에서 관리자의 활동에 대해 수동 IS로 작업한다고 말할 수 있습니다.

자동화된 정보 시스템(AIS)- 가장 인기 있는 IP 클래스입니다. 그들은 정보 처리 프로세스에 인간과 기술적 수단이 모두 참여하고 컴퓨터에 주요 역할이 할당된다고 가정합니다.

자동정보시스템- 다양한 로봇이 사람의 개입 없이 모든 정보처리 작업을 수행합니다. 자동 정보 시스템의 예로는 사이트에 대한 정보가 검색 로봇에 의해 자동으로 수집되고 인적 요소가 검색 결과 순위에 영향을 미치지 않는 일부 인터넷 검색 엔진(예: Google)이 있습니다.

정보 검색 언어. 인덱싱 시스템. 인덱싱 프로세스의 목적.

정보 검색 언어,설명하기 위해 고안된 기호 시스템( 인덱싱) 텍스트(문서) 또는 그 부분의 주요 의미 내용을 구현하기 위해 정보 요청의 의미 내용을 표현합니다. 정보 검색. 모든 추상 I.-p. 나. 알파벳(기본 기호 목록), 형성 규칙 및 해석 규칙으로 구성됩니다. 교육 규칙은 단어와 표현을 구성할 때 기본 기호의 어떤 조합이 허용되는지를 설정하고, 해석 규칙은 이러한 단어와 표현을 어떻게 이해해야 하는지를 결정합니다.

I.-p. 나. 특정 산업이나 주제에 대한 정보 요청의 의미와 텍스트의 주요 의미론적 내용을 표현하는 데 필요한 어휘 및 문법적 수단이 있어야 하며, 모호하지 않아야 하며(각 항목에 대해 하나의 해석 허용), 알고리즘 비교 및 식별에 편리해야 합니다(전체 또는 부분) 텍스트의 주요 의미 내용 및 정보 요청의 의미 내용 항목. 특정 I.-p를 개발할 때. 나. 이 언어가 생성되는 산업 또는 주제의 세부 사항, 검색 배열을 구성하는 텍스트의 특성, 이 언어가 생성되는 데 필요한 정보의 성격이 고려됩니다. 정보 검색 시스템.

대부분의 I.-p. 나. 주요 어휘(어휘)는 열거로 지정되며 특정 자연어 어휘의 일부를 나타냅니다. 함께 주요 어휘를 형성하는 자연어에서 선택된 단어와 문구는 주어진 I.-p의 알파벳 역할을 합니다. 나. 그러한 I.-p의 교육 규칙. 나. 구문의 기능을 수행합니다. 일부 I.-p. 나. 기본 어휘는 생성 방법에 따라 (전체 또는 일부) 지정되며, 이는 I.-p. 나. 교육 규칙은 주어진 알파벳에서 I.-p 단어를 구성하는 방법을 설정합니다. I., 그리고 이 단어들로부터 표현(문구)과 그 중 어떤 것이 올바르게 구성될 것인가. I.-p. 나. ~와 다르다 정보 언어그리고로부터 기계어. 20세기 중반. 한모금. 나. 광대하게 사용 된 도서관 및 서지 분류및 디스크립터 유형 언어.

인덱싱 시스템로봇 방문자가 가져온 정보(데이터베이스)의 대규모 축적물입니다. 이 정보는 특정 방식으로 구조화되고 색인화되어 있으므로 나중에 특정 키워드를 사용하여 사이트 목록을 선택하는 것이 더 쉬워집니다.

인덱싱 프로세스에는 다음 단계가 포함되며, 이는 다음 순서로 수행됩니다.

색인 객체로서 문서의 내용을 분석하고 결정합니다.

문서 내용을 특징짓는 개념 선택;

개념을 표시하기 위한 색인 용어 선택;

색인 용어로부터 문서의 검색 이미지를 형성합니다.

각 단계가 적절하게 수행된다면 나열된 단계를 기술적 절차의 일부로 결합할 수 있습니다.

1. 문서의 검색 이미지(SID)는 정보 검색 언어(IRL)의 문법적 수단을 사용하여 선택된 색인 용어로 구성됩니다.

2. 인덱싱 과정에서 문서를 물리적 개체(모양, 부피 등의 측면에서)로 설명하는 것은 권장되지 않습니다. 시스템 사용자의 정보 요구 사항에 대한 문서의 준수 여부를 보다 정확하게 확인할 수 있는 경우 해당 정보를 POD에 반영할 수 있습니다.

인덱싱이란 무엇입니까? 이는 로봇이 사이트 페이지의 콘텐츠를 수신하고 해당 콘텐츠를 검색결과에 포함시키는 과정입니다. 숫자를 보면 색인 로봇의 데이터베이스에는 수조 개의 웹사이트 페이지 주소가 포함되어 있습니다. 매일 로봇은 수십억 개의 주소를 요청합니다.

그러나 인터넷을 색인화하는 이 전체 대규모 프로세스는 작은 단계로 나눌 수 있습니다.

먼저, 색인 생성 로봇은 귀하의 사이트에 페이지가 나타났음을 알아야 합니다. 예를 들어, 인터넷의 다른 페이지를 색인화하거나 링크를 찾거나 nemp 세트를 다운로드하는 등의 작업을 수행할 수 있습니다. 우리는 페이지에 대해 알게 된 후 이 페이지를 크롤링하고 서버에 데이터를 보내 사이트의 이 페이지를 요청하고 콘텐츠를 수신하여 검색 결과에 포함할 계획입니다.

이 전체 과정은 인덱싱 로봇을 귀하의 웹 사이트와 교환하는 과정입니다. 색인 생성 로봇이 보낸 요청이 실제로 변경되지 않고 페이지 주소만 변경된 경우 로봇의 페이지 요청에 대한 서버의 응답은 여러 요인에 따라 달라집니다.

CMS 설정에서;
호스팅 제공업체 설정에서
중간 공급자의 작업에서.

이 답변은 단지 바뀌고 있습니다. 우선 페이지를 요청하면 사이트의 로봇은 다음과 같은 서비스 응답을 받습니다.

이는 HTTP 헤더입니다. 여기에는 로봇이 현재 어떤 콘텐츠가 전송될지 이해할 수 있는 다양한 서비스 정보가 포함되어 있습니다.

첫 번째 헤더에 초점을 맞추고 싶습니다. 이는 로봇이 요청한 페이지의 상태를 인덱싱 로봇에 나타내는 HTTP 응답 코드입니다.

이러한 HTTP 코드 상태는 수십 가지가 있습니다.

가장 인기있는 것에 대해 말씀 드리겠습니다. 가장 일반적인 응답 코드는 HTTP-200입니다. 페이지를 사용할 수 있고, 색인을 생성할 수 있고, 검색 결과에 포함할 수 있으며, 모든 것이 정상입니다.

이 상태의 반대는 HTTP-404입니다. 페이지가 사이트에 없고, 색인할 것도 없고, 검색에 포함할 것도 없습니다. 사이트의 구조를 변경하고 내부 페이지의 주소를 변경할 때 리디렉션을 위해 301 서버를 설정하는 것이 좋습니다. 이는 이전 페이지가 새 주소로 이동했으며 검색 결과에 새 주소를 포함해야 함을 로봇에 표시할 뿐입니다.

로봇이 페이지를 마지막으로 방문한 이후 페이지 콘텐츠가 변경되지 않은 경우 HTTP-304 코드를 반환하는 것이 가장 좋습니다. 로봇은 검색 결과의 페이지를 업데이트할 필요가 없으며 콘텐츠도 전송되지 않는다는 것을 이해합니다.

예를 들어 서버에서 일부 작업을 수행할 때와 같이 사이트를 짧은 기간 동안만 사용할 수 있는 경우 HTTP-503을 구성하는 것이 가장 좋습니다. 사이트와 서버를 현재 사용할 수 없으므로 잠시 후에 다시 돌아와야 함을 로봇에 알립니다. 단기적으로 사용할 수 없는 경우 페이지가 검색 결과에서 제외되는 것을 방지합니다.

이러한 HTTP 코드 및 페이지 상태 외에도 페이지 자체의 콘텐츠를 직접 가져와야 합니다. 일반 방문자의 경우 페이지는 다음과 같습니다.

사진, 텍스트, 탐색 등 모든 것이 매우 아름답습니다. 색인 로봇의 경우 모든 페이지는 소스 코드, HTML 코드 세트일 뿐입니다.

다양한 메타 태그, 텍스트 콘텐츠, 링크, 스크립트, 온갖 종류의 정보. 로봇은 이를 수집하여 검색 결과에 포함시킵니다. 모든 것이 간단한 것 같습니다. 페이지를 요청하고, 상태를 받고, 콘텐츠를 받고, 검색에 포함시켰습니다.

그러나 Yandex 검색 서비스가 웹마스터와 사이트 소유자로부터 서버 응답에 특정 문제가 발생했다는 내용의 500통 이상의 편지를 받는 것은 아무것도 아닙니다.

이러한 모든 문제는 두 부분으로 나눌 수 있습니다.

이는 HTTP 응답 코드의 문제와 페이지의 직접적인 콘텐츠와 관련된 HTML 코드의 문제입니다. 이러한 문제에는 수많은 이유가 있을 수 있습니다. 가장 흔한 경우는 호스팅 제공업체가 인덱싱 로봇을 차단하는 것입니다.

예를 들어 웹사이트를 시작하고 새 섹션을 추가했습니다. 로봇이 사이트를 더 자주 방문하기 시작하여 서버 부하가 증가합니다. 호스팅 제공업체는 모니터링을 통해 이를 확인하고 인덱싱 로봇을 차단하므로 로봇이 귀하의 사이트에 액세스할 수 없습니다. 리소스로 이동합니다. 모든 것이 정상이고, 모든 것이 작동하고, 페이지가 아름답고, 모든 것이 열리고, 모든 것이 훌륭하지만 로봇은 사이트를 색인화할 수 없습니다. 예를 들어 도메인 이름 비용 지불을 잊어버린 경우와 같이 사이트를 일시적으로 사용할 수 없는 경우 사이트는 며칠 동안 비활성화됩니다. 로봇이 사이트에 오면 액세스할 수 없으며 이러한 조건에서는 문자 그대로 잠시 후 검색 결과에서 사라질 수 있습니다.

예를 들어, 디자인을 업데이트하거나 다른 CMS로 전환하거나 업데이트할 때 잘못된 CMS 설정으로 인해 설정이 올바르지 않으면 사이트의 페이지가 검색 결과에서 사라질 수도 있습니다. 예를 들어 사이트 페이지의 소스 코드에 금지된 메타 태그가 있거나 표준 속성이 잘못 설정되어 있습니다. 사이트를 모두 변경한 후 로봇이 페이지에 액세스할 수 있는지 확인하세요.

Yandex 도구가 이에 도움이 될 것입니다. 서버 응답을 확인하기 위해 웹마스터에게:

서버가 로봇에 반환하는 HTTP 헤더와 페이지 자체의 내용을 확인할 수 있습니다.

"인덱싱" 섹션에는 제외된 페이지, 이러한 표시기의 변경 역학을 확인하고 다양한 정렬 및 필터링을 수행할 수 있는 통계가 포함되어 있습니다.

또한 오늘 이 섹션인 "사이트 진단" 섹션에 대해 이미 이야기했습니다. 귀하의 사이트를 로봇이 사용할 수 없게 되면 해당 알림과 권장 사항을 받게 됩니다. 이 문제를 어떻게 해결할 수 있나요? 그러한 문제가 발생하지 않으면 사이트에 액세스할 수 있고 200개의 코드에 응답하고 올바른 콘텐츠가 포함되어 있으면 로봇이 인식하는 모든 페이지를 자동으로 방문하기 시작합니다. 이것이 항상 원하는 결과로 이어지는 것은 아니므로 로봇의 활동은 특정 방식으로 제한될 수 있습니다. 이에 대한 robots.txt 파일이 있습니다. 이에 대해서는 다음 섹션에서 이야기하겠습니다.

로봇.txt

robots.txt 파일 자체는 작은 텍스트 문서로, 사이트의 루트 폴더에 있으며 사이트를 크롤링할 때 따라야 하는 색인 생성 로봇에 대한 엄격한 규칙을 포함하고 있습니다. robots.txt 파일의 장점은 이를 사용하는 데 특별한 또는 전문 지식이 필요하지 않다는 것입니다.

여러분이 해야 할 일은 메모장을 열고 특정 형식 규칙을 입력한 다음 파일을 서버에 저장하는 것뿐입니다. 하루 안에 로봇은 이러한 규칙을 사용하기 시작합니다.

간단한 robots.txt 파일의 예를 들면 다음 슬라이드에 나와 있습니다.

"User-Agent:" 지시어는 규칙이 의도된 로봇을 보여주며 지시어와 보조 사이트맵 및 호스트 지시어를 허용/거부합니다. 약간의 이론, 실습으로 넘어가고 싶습니다.

몇 달 전에 만보계를 사고 싶어서 Yandex를 선택했습니다. 선택에 대한 도움을 시장에 내놓으세요. Yandex의 메인 페이지에서 Yandex로 이동했습니다. 마켓에 접속해 서비스 메인 페이지로 이동했습니다.

아래에서 제가 방문한 페이지의 주소를 확인하실 수 있습니다. 서비스 자체의 주소도 사이트 사용자로서 본인의 식별자를 추가했습니다.

그런 다음 '카탈로그' 섹션으로 이동했습니다.

원하는 하위 섹션을 선택하고 정렬 매개변수, 가격, 필터, 정렬 방법, 제조업체를 구성했습니다.

제품 목록을 받았는데 페이지 주소가 이미 늘어났습니다.

원하는 상품으로 이동하여 '장바구니에 추가' 버튼을 클릭하고 결제를 계속했습니다.

짧은 여행 동안 페이지 주소가 특정한 방식으로 변경되었습니다.

서비스 매개변수가 추가되어 나를 사용자로 식별하고 정렬을 설정하며 사이트의 이 페이지 또는 해당 페이지에서 내가 온 사이트 소유자에게 표시되었습니다.

나는 그러한 페이지, 서비스 페이지가 검색 엔진 사용자에게 그다지 흥미롭지 않을 것이라고 생각합니다. 그러나 인덱싱 로봇이 사용할 수 있는 경우 로봇은 기본적으로 사용자처럼 행동하므로 검색에 포함될 수 있습니다.

그는 한 페이지로 이동하여 클릭할 수 있는 링크를 보고 해당 페이지로 이동하여 로봇의 데이터베이스에 데이터를 로드하고 전체 사이트에 대한 크롤링을 계속합니다. 이러한 주소 범주에는 배송 정보나 사용자 연락처 정보 등 사용자의 개인 데이터도 포함됩니다.

당연히 금지하는 것이 좋습니다. 이것이 바로 robots.txt 파일이 도움이 될 것입니다. 오늘 저녁 웹마스터 마지막에 귀하의 웹사이트로 이동하여 클릭하면 실제로 사용 가능한 페이지를 확인할 수 있습니다.

robots.txt를 확인하기 위해 웹마스터에는 특별한 도구가 있습니다.

다운로드하고, 페이지 주소를 입력하고, 로봇이 접근할 수 있는지 여부를 확인할 수 있습니다.

몇 가지 사항을 변경하고 로봇이 이러한 변경 사항에 어떻게 반응하는지 확인하세요.

robots.txt 작업 시 오류

서비스 페이지를 닫는 긍정적인 효과 외에도 robots.txt를 잘못 처리하면 잔인한 농담을 할 수도 있습니다.

첫째, robots.txt를 사용할 때 가장 일반적인 문제는 실제로 필요한 사이트 페이지, 즉 검색에 있어야 하고 쿼리에 표시되어야 하는 페이지를 닫는 것입니다. robots.txt를 변경하기 전에 닫으려는 페이지가 검색어에 표시되는지 확인하세요. 아마도 일부 매개변수가 포함된 페이지가 검색 결과에 있고 방문자가 검색을 통해 해당 페이지를 방문할 수도 있습니다. 따라서 robots.txt를 사용하고 변경하기 전에 반드시 확인하시기 바랍니다.

둘째, 사이트에서 키릴 주소를 사용하는 경우 이를 robots.txt에 직접 표시할 수 없으며 인코딩해야 합니다. robots.txt는 모든 인덱싱 로봇이 따르는 국제 표준이므로 반드시 코딩이 필요합니다. 키릴 문자를 명시적으로 지정하는 것은 불가능합니다.

세 번째로 가장 많이 발생하는 문제는 서로 다른 검색 엔진의 서로 다른 로봇에 대한 서로 다른 규칙입니다. 한 색인 로봇의 경우 모든 색인 페이지가 닫혔고 두 번째 색인 로봇의 경우 아무것도 닫히지 않았습니다. 결과적으로 하나의 검색 엔진에서는 모든 것이 정상이고 원하는 페이지가 검색에 있지만 다른 검색 엔진에는 쓰레기, 다양한 쓰레기 페이지 등이 있을 수 있습니다. 금지를 설정하는 경우 모든 인덱싱 로봇에 대해 수행해야 합니다.

네 번째로 가장 많이 발생하는 문제는 필요하지 않을 때 Crawl-delay 지시문을 사용하는 것입니다. 이 지시어를 사용하면 인덱싱 로봇의 요청 순수성에 영향을 줄 수 있습니다. 이것은 작은 웹사이트의 실제적인 예이며 작은 호스팅에 배치되어 있으며 모든 것이 정상입니다. 우리는 큰 카탈로그를 추가했고, 로봇이 와서 많은 새 페이지를 보고, 사이트에 더 자주 액세스하기 시작했고, 로드가 증가하고, 다운로드되었으며 사이트에 액세스할 수 없게 되었습니다. Crawl-delay 지시문을 설정하면 로봇이 이를 확인하고 부하를 줄이며 모든 것이 정상이고 사이트가 작동하며 모든 것이 완벽하게 색인화되어 검색 결과에 표시됩니다. 얼마 후 사이트가 더욱 커지고 요청이 많아 이러한 요청을 처리할 준비가 된 새 호스팅으로 이전되었으며 Crawl-delay 지시문을 제거하는 것을 잊어버렸습니다. 결과적으로 로봇은 귀하의 사이트에 많은 페이지가 나타났다는 것을 이해하지만 단순히 설정된 지침 때문에 색인을 생성할 수는 없습니다. Crawl-delay 지시문을 사용한 적이 있다면 현재 지시문이 없는지, 서비스가 색인 생성 로봇의 로드를 처리할 준비가 되었는지 확인하세요.

설명된 기능 외에도 robots.txt 파일을 사용하면 두 가지 매우 중요한 작업, 즉 사이트에서 중복 항목을 제거하고 기본 미러 주소를 표시할 수 있습니다. 이것이 바로 다음 섹션에서 이야기할 내용입니다.

더블스

중복이란 완전히 동일한 콘텐츠를 포함하는 동일한 웹사이트의 여러 페이지를 의미합니다. 가장 일반적인 예는 주소 끝에 슬래시가 있는 페이지와 없는 페이지입니다. 또한 중복은 다른 카테고리의 동일한 제품으로 이해될 수 있습니다.

예를 들어, 롤러 스케이트는 여자아이용일 수 있고, 남자아이용은 동일한 모델이 동시에 두 부분으로 나누어질 수 있습니다. 셋째, 매개변수가 중요하지 않은 페이지입니다. Yandex의 예에서와 같습니다. 시장에서는 이 페이지를 "세션 ID"로 정의합니다. 이 매개변수는 원칙적으로 페이지의 내용을 변경하지 않습니다.

중복 항목을 감지하고 로봇이 어떤 페이지에 액세스하고 있는지 확인하려면 Yandex를 사용할 수 있습니다. 웹마스터.

통계 외에도 로봇이 다운로드한 페이지의 주소도 있습니다. 코드와 마지막 통화가 표시됩니다.

중복으로 인한 문제

복식의 무엇이 그렇게 나쁜가요?

첫째, 로봇은 사이트의 완전히 동일한 페이지에 액세스하기 시작하여 서버에 추가 로드를 생성할 뿐만 아니라 사이트 전체의 크롤링에도 영향을 미칩니다. 로봇은 색인을 생성하고 검색 결과에 포함해야 하는 페이지가 아닌 중복 페이지에 주의를 기울이기 시작합니다.

두 번째 문제는 로봇이 액세스할 수 있는 중복 페이지가 검색 결과에 표시될 수 있고 검색어에 대해 기본 페이지와 경쟁할 수 있다는 것입니다. 이는 당연히 특정 검색어에 대해 검색되는 사이트에 부정적인 영향을 미칠 수 있습니다.

중복을 어떻게 처리할 수 있나요?

우선, "canonical" 태그를 사용하는 것이 좋습니다. 로봇이 색인을 생성하고 검색어에서 찾을 수 있는 기본 표준 페이지를 가리키도록 합니다.

두 번째 경우, 예를 들어 주소 끝에 슬래시가 있고 슬래시가 없는 상황에 대해 301 서버 리디렉션을 사용할 수 있습니다. 리디렉션을 설정했습니다. 중복된 항목이 없습니다.

셋째, 이미 말했듯이 이것은 robots.txt 파일입니다. 거부 지시문과 Clean-param 지시문을 모두 사용하여 중요하지 않은 매개변수를 제거할 수 있습니다.

사이트 미러

robots.txt를 사용하여 해결할 수 있는 두 번째 작업은 로봇이 메인 미러의 주소를 가리키도록 하는 것입니다.

미러는 중복과 마찬가지로 완전히 동일한 사이트 그룹으로, 두 사이트만 다릅니다. 웹마스터는 일반적으로 두 가지 경우, 즉 새 도메인으로 이동하려고 하거나 사용자가 여러 웹사이트 주소를 사용할 수 있도록 해야 하는 경우에 미러를 접하게 됩니다.

예를 들어, 사용자가 주소 표시줄에 귀하의 주소나 웹사이트 주소를 입력할 때 철자를 틀리거나 잘못된 문자를 입력하는 등 동일한 실수를 저지르는 경우가 많다는 것을 알고 있습니다. 호스팅 제공업체의 스텁이 아닌 사용자가 실제로 가고 싶었던 사이트를 사용자에게 보여주기 위해 추가 도메인을 구입할 수 있습니다.

거울을 사용할 때 문제가 가장 자주 발생하는 것이 바로 첫 번째 점에 초점을 맞추겠습니다.

다음 지침에 따라 전체 이동 과정을 수행하는 것이 좋습니다. 새 도메인 이름으로 이동할 때 발생하는 다양한 문제를 방지할 수 있는 간단한 지침:

먼저, 색인 로봇이 액세스할 수 있는 사이트를 만들고 완전히 동일한 콘텐츠를 사이트에 배치해야 합니다. 또한 로봇이 사이트의 존재를 알고 있는지 확인하십시오. 가장 쉬운 방법은 Yandex에 추가하는 것입니다. 웹마스터로 활동하고 그에 대한 권리를 확인하세요.

둘째, Host 지시문을 사용하여 색인을 생성하고 검색 결과에 표시되어야 하는 기본 미러의 주소를 로봇에 지정합니다.

우리는 이전 사이트에서 새 사이트로 모든 표시기를 붙이고 전송하기를 기다리고 있습니다.

그런 다음 이전 주소에서 새 주소로의 리디렉션을 설정할 수 있습니다. 간단한 설명이니 이사하실 분들은 꼭 활용해보세요. 아무 문제 없길 바랍니다
움직이는.

그러나 거울로 작업할 때 당연히 오류가 발생합니다.

우선, 가장 중요한 문제는 검색에 들어가야 하는 주소인 메인 미러의 주소에 대한 인덱싱 로봇에 대한 명시적인 지시가 부족하다는 점이다. 귀하의 사이트에서 robots.txt에 호스트 지시어가 있는지, 그리고 이것이 검색에서 보려는 주소를 정확히 가리키는지 확인하세요.

두 번째로 가장 많이 발생하는 문제는 리디렉션을 사용하여 기존 미러 그룹의 기본 미러를 변경하는 것입니다. 무슨 일이야? 이전 주소는 리디렉션되기 때문에 로봇에 의해 색인이 생성되지 않으며 검색 결과에서 제외됩니다. 이 경우 새 사이트는 기본 미러가 아니기 때문에 검색에 나타나지 않습니다. 교통량이 줄고 방문객도 잃습니다. 누구도 이것이 필요하지 않다고 생각합니다.

세 번째 문제는 이동할 때 거울 중 하나에 접근할 수 없다는 것입니다. 이 상황의 가장 일반적인 예는 사이트의 콘텐츠를 새 주소로 복사했지만 이전 주소가 단순히 비활성화되고 도메인 이름에 대한 비용을 지불하지 않아 사용할 수 없게 된 경우입니다. 당연히 이러한 사이트는 병합되지 않으며 색인 생성 로봇이 액세스할 수 있어야 합니다.

작업에 유용한 링크:

Yandex.Help 서비스에서 더 유용한 정보를 찾을 수 있습니다.
제가 이야기한 모든 도구와 그 이상 - Yandex.Webmaster의 베타 버전이 있습니다.

질문에 대한 답변

“신고해 주셔서 감사합니다. robots.txt에서 로봇에 대한 CSS 파일 색인 생성을 비활성화해야 합니까?"

지금은 닫지 않는 것이 좋습니다. 예, CSS와 JavaScript를 떠나는 것이 좋습니다. 이제 색인 생성 로봇이 사이트의 스크립트와 스타일을 모두 인식하고 방문자가 일반 브라우저에서 어떻게 수행하는지 확인하기 위해 노력하고 있기 때문입니다.

“구품과 신품의 사이트 URL이 동일하다면 정상인가요?”

괜찮아요. 기본적으로 디자인을 업데이트하고 콘텐츠를 추가하면 됩니다.

“사이트에는 카테고리가 있으며 슬래시, 페이지1, 페이지2 등 최대 10개의 여러 페이지로 구성됩니다. 모든 페이지에는 동일한 카테고리 텍스트가 포함되어 있으며 중복된 것으로 확인되었습니다. 이 텍스트는 중복됩니까, 아니면 어떻게든 닫혀야 합니까? 두 번째 및 다음 페이지에 새로운 색인이 있어야 합니까?

우선, 첫 번째 페이지의 페이지 매기기와 두 번째 페이지의 내용이 일반적으로 다르기 때문에 중복되지 않습니다. 그러나 두 번째, 세 번째 및 추가 페이지 매김 페이지가 검색에 들어가 일부 관련 쿼리에 대해 표시될 수 있다는 것을 예상해야 합니다. 페이지 매김 페이지에서는 로봇이 검색에 페이지 매김 페이지를 포함하지 않도록 모든 제품이 수집되는 페이지에서 표준 속성을 사용하는 것이 좋습니다. 사람들은 페이지 매김의 첫 페이지에 canonical을 자주 사용합니다. 로봇은 두 번째 페이지로 와서 상품을 보고, 텍스트를 보고, 해당 페이지를 검색에 포함하지 않고 검색 결과에 포함되어야 하는 첫 번째 페이지 페이지라는 속성으로 인해 이해합니다. Canonical을 사용하고 텍스트 자체를 닫으면 필요가 없다고 생각합니다.

출처(영상): 사이트 색인 생성을 설정하는 방법- 알렉산더 스미르노프

마고메드 체르비제프

공유하다:

자연어를 외국어로 번역하는 과정을 인덱싱. 이러한 번역의 결과는 POD(정보 검색 시스템에 문서를 입력할 때) 또는 POS(사용자 요청을 색인화할 때)입니다.

색인 문제는 문서 텍스트의 의미 분석과 관련이 있습니다. 그 복잡성은 검색 배열에 입력된 문서의 인덱싱과 사용자 요청이 시간적으로 분리되어 있다는 사실 때문입니다.

인덱싱의 알고리즘화 및 자동화를 위해서는 AML 또는 POZ에 포함할 가장 중요한 키워드, 설명자 및 구문(FL의 어휘 단위에 따라 다름)을 선택하는 문제를 해결해야 합니다.

중요성은 다음과 같은 여러 징후로 결정될 수 있습니다.

통계적, 즉 문서에서 해당 용어의 사용 빈도를 기준으로 합니다.
저자의 진술(문서 제목이나 문서에서 저자가 강조한 부제목에 반영된 그의 의견)을 기반으로 합니다.
문맥에 포함된 어휘 단위 간의 관계를 반영할 수 있는 문법을 사용합니다.
사용자가 공식화한 중요도 기준에 따라 문서를 색인화할 때 설명자 가중치를 지정할 수 있습니다.

특정 IP의 색인 시스템은 주로 IP의 기능과 IP에서 사용 가능한 어휘 및 구문 수단에 따라 결정됩니다. 그러나 몇 가지 구체적인 규칙과 권장 사항이 있으며, 이에 대한 연구를 통해 일부 유형의 인덱싱 시스템을 식별할 수 있습니다.

인덱싱 시스템에는 다양한 유형이 있습니다.

1. 첫 번째 유형에는 시스템이 포함됩니다. 무료 인덱싱.

이 방법을 사용하면 색인화된 문서의 내용을 반영하는 단어나 문구가 POD에 기록됩니다. 또한 AML 요소에는 이러한 문서에는 없지만 IPS 생성 목적의 관점에서 해당 텍스트의 의미를 보다 정확하게 반영하는 단어가 포함될 수 있습니다. 작성된 요소는 알파벳 순서로 정렬됩니다. 이러한 순서가 지정된 단어(문구) 집합은 이러한 유형의 인덱싱에 대한 POD를 나타냅니다. 마찬가지로 POS는 사용자 요청 텍스트로 구성됩니다.

이 인덱싱 프로세스는 기본적으로 비알고리즘입니다. 비자동화.

2. 두 번째 방법에서는 일반적으로 방법이라고 합니다. 세미 프리 인덱싱,무료 색인 생성과 동일한 방식으로 먼저 문서에서 단어와 문구가 작성됩니다.

그러나 쓰여진 요소들은 고정된 사전과 비교되어 그 안에 없는 요소들은 제거되고, 알파벳순으로 배열된 나머지 요소들은 POD(또는 POS)를 나타냅니다.

3. 세 번째 인덱싱 방법은 다음을 기반으로 합니다. 통계적 접근.

PML에 포함될 원본 텍스트의 단어(표현) 선택은 텍스트의 통계적 분석을 기반으로 이루어지며, 그 단어는 의미론적 의미가 없는 기호로 간주됩니다. 동시에 다양한 통계적 기준,문서 내 단어의 상대적 사용 빈도와 대표적인 문서 배열(즉, 대표적인 통계 표본) 내 단어의 상대적 사용 빈도를 비교한 결과입니다.

예를 들어 다음과 같은 정량적 기준이 제안됩니다.

어디 에프– 문서에서 단어의 상대적 사용 빈도; 아르 자형– 대표적인 문서 배열에서 단어 사용의 상대적 빈도.

위 상관관계의 기초는 단어의 정보적 중요성이 주어진 문서와 고려 중인 문서의 전체 흐름에서 사용 빈도의 불일치에 의해 결정된다는 아이디어라는 것을 쉽게 알 수 있습니다.

불일치를 결정하는 다양한 접근 방식이 가능합니다.

첫 번째에 따르면, 주어진 주제에 대한 문서 스트림(단일 주제 스트림)에서 단어의 사용 빈도와 다중 주제 문서 스트림(다주제 스트림)에서 이 단어의 발생 빈도 사이의 불일치가 계산됩니다.
두 번째 원칙은 주어진 주제에 대한 텍스트 스트림에서 단어의 사용 빈도와 주어진 주제와 멀리 떨어진 주제에 대한 텍스트 스트림에서 동일한 단어의 빈도 간의 불일치를 계산하는 것에 기반합니다(“반대” " 주제).

색인의 통계적 방법은 알고리즘화되고 자동화될 수 있으며 현재 텍스트의 자동화된 통계 분석을 위한 도구가 있습니다.

그러나 이 방법은 정보 검색 시스템에서 독립적인 실제 적용을 찾지 못했으며 문서 텍스트의 의미 분석과 결합하여 보조 방법으로 사용됩니다.

4. 네 번째 유형에는 다음이 포함됩니다. 주어진 사전에 의해 제어되는 색인 시스템 (시소러스).

인덱싱 알고리즘은 텍스트의 각 단어를 어간까지 사전과 비교하고 일치하는 단어를 POD에 기록한다는 사실로 요약됩니다.

일부 시스템에서는 사전이 텍스트 색인 생성과 관련된 전문가의 보조자로 사용됩니다.

이러한 시스템에는 UDC가 포함됩니다. 다른 경우 이러한 사전은 인덱싱 알고리즘의 요소입니다. 즉, 텍스트와 사전에 동시에 나타나는 단어가 POD에 기록됩니다. POD의 설명자 IPA에서

(POZ) 기록되는 것은 텍스트 단어 자체가 아니라 해당 설명자입니다.

문서 검색 및 사용 목적을 반영하도록 특별히 개발된 계층적 분류를 사용하여 문서를 색인화하는 것이 유망해 보입니다.

이러한 분류자는 관리의 규범적 및 방법론적 지원을 위한 정보 시스템에서 IPL로 사용될 수 있습니다. 규범적 문서와 방법론적 문서를 결합하는 계층적 분류자는 기업의 목표(주요 방향) 구조와 기능을 기반으로 개발됩니다.

계층적 IPJ 분류자는 선택적 정보 배포(SDI) 시스템의 기초가 될 수 있습니다. SDI 시스템을 사용하는 근로자 범주의 요구 사항에 대한 분류자가 개발되고 있습니다.

이 섹션을 준비할 때 작업에서 제안된 분류가 사용되었습니다. 페브즈너 B.R.정보 검색 시스템 및 정보 검색 언어 / B. R. Pevzner. M .: IPKIR, 1974. P. 10-11.