문서 색인화와 그 단계는 무엇입니까? 검색 엔진 프로세스. Yandex가 거부하는 이유

16.03.2019

그래서 친구 여러분, 오늘 저는 다음에 관한 일련의 기사를 계속합니다. 검색 엔진오. 이것은 검색 엔진 내부, 즉 검색 엔진 기술을 살펴보는 네 번째 시간입니다. 무엇을 위해? 내 해설자 중 한 명이 자신의 작업을 연구하는 것에 대해 "눈으로 적을 알아야 합니다"라고 말했습니다. :). 글쎄, 이 "적"을 더 자세하고 신중하게 연구해 봅시다.

이전 세 기사를 읽지 않은 분들을 위해 다음 링크를 참조하세요: , .

이제 기사를 읽어보자

현대의 검색 엔진수만 건의 요청을 처리합니다.
잠깐만. 어떻게 이런 일이 발생하나요?

물리적 수준의 검색 엔진

최신 검색 엔진은 다음과 같습니다. 극도로 복잡한 구조, 수십만 개, Google에서는 수백만 개로 구성 물리적 서버. 여기에 저장된 모든 내용은 전 세계 데이터 센터에 분산되어 안정적으로 보호됩니다.

Yandex 서버룸

1997년 창립 당시 Yandex 사용자에 대한 요청을 처리하고 검색 결과를 발행하는 것은 회사 창립자 중 한 사람의 사무실에 있고 현대 서버보다 약한 단 하나의 서버에서만 처리되었습니다. 가정용 컴퓨터! 2000년까지 Yandex가 약 50개의 서버를 보유했다면 모든 것이 얼마나 빨리 변했는지 상상할 수 있습니까? 매달 서버 수가 증가했고 시간이 지남에 따라 자체 데이터 센터가 등장했습니다(현재 Yandex에는 이미 4개의 서버가 있습니다). 현대의 데이터 센터는 수백 대의 서버로 구성됩니다. 단일 네트워크, 이를 통해 대량의 요청과 서비스에 대한 높은 트래픽을 처리할 수 있습니다. 다음은 전형적인 예입니다. 2012년 2월 Yandex 검색 트래픽만 2,830만 명에 달했습니다.

검색 엔진 작동의 논리적 다이어그램

사용자가 인터넷에서 무언가를 찾고 싶을 때 쿼리를 입력합니다. 이 요청은 "로드 밸런서"에 의해 처리됩니다. 특수 장치, 사용자의 요청을 가장 적게 로드된 요청으로 자동 리디렉션합니다. 이 순간무리 이를 통해 사용 가능한 컴퓨팅 성능을 가장 효율적으로 사용할 수 있습니다.

그 다음에 검색어다음으로 리디렉션됩니다. "메타검색". 이 시스템은 필요한 모든 데이터를 수신하고 이 요청이 어떤 유형의 데이터에 속하는지 알고 있습니다. 같은 단계에서 요청의 철자가 확인되고, 요청이 어느 지역에서 왔는지, 해당 요청에 대한 지역 사이트를 표시할 가치가 있는지도 결정됩니다.

Yandex 요청 처리를 위한 논리 다이어그램

다음으로 Metasearch는 시스템에 유사한 요청이 있었는지 확인합니다. 최근에. 이는 세계와 인터넷에서 발생하는 특정 순간(중요한 사건, 재난 또는 심지어 광고 캠페인신제품), 일부는 지속적으로 인기가 있습니다(예: 이벤트 관련). 소셜 네트워크에서). 검색 엔진은 부하를 줄이기 위해 사용자 쿼리에 대한 답변을 일정 시간 동안 캐시에 저장하고, 반복 요청 시 답변을 새로 생성하는 대신 미리 만들어진 결과를 표시합니다. 검사 결과 캐시에서 미리 만들어진 답변을 찾지 못하면 검색 엔진은 새로운 답변을 생성하기 시작하고 사용자의 요청은 "기본 검색" 서버로 전달됩니다. 정확히 기본 검색에는 검색 엔진 색인이 포함됩니다., 별도의 부분으로 나누어 서버에 분산됩니다. 부분 검색이 항상 더 빠르기 때문입니다. 각 서버에 여러 개의 복사본이 있다는 점은 주목할 가치가 있습니다. 이를 통해 정보 손실을 방지할 수 있을 뿐만 아니라 로드를 분산할 수도 있습니다. 에서 정보를 얻은 경우 특정 서버수요가 너무 많아 서버 중 하나에 과부하가 걸리면 이 서버의 복사본을 연결하면 문제가 해결됩니다. 검색 결과를 바탕으로 각 핵심 검색 서버는 사용자의 검색어와 관련된 결과를 메타 검색으로 반환합니다. 다음으로 순위 알고리즘이 관련됩니다. "매트릭스넷", 이는 검색 결과각각의 특정 링크가 있을 것입니다.

이제 모든 웹사이트 소유자에게 가장 시급한 문제로 넘어가서 알아보겠습니다. 무슨 일이야?

인덱싱 프로세스

인덱싱은 검색 로봇이 사이트를 "크롤링"하고 페이지에서 다양한 정보를 수집하여 사이트에 입력하는 프로세스입니다. 특수 기지데이터. 여기부터 시작하겠습니다. 개인적인 지인! 🙂 그런 다음 이 데이터는 어떻게든 처리되고 문서(웹 페이지)에서 추출된 색인이 그 위에 구축됩니다. 검색 엔진은 색인을 통해 사용자 요청에 따라 사이트를 검색하고 링크를 제공합니다.
Yandex를 예로 들어 인덱싱 프로세스를 살펴보겠습니다. 검색 엔진에는 고속(빠른 로봇)과 기본의 두 가지 유형의 로봇이 있습니다.
메인 로봇의 임무는 모든 콘텐츠를 색인화하는 것이고, 고속 로봇의 임무는 최신 정보를 데이터베이스에 입력하는 것입니다. 검색 로봇 플래너는 방문 경로를 작성하고 이를 "거미"에게 전송합니다. 거미는 선택한 페이지를 순회하며 정보를 펌핑합니다. 인덱싱 중에 문서에서 새 링크가 발견되면 해당 링크가 일반 목록에 추가됩니다.

Yandex 인덱싱 프로세스의 순서.

문서는 두 가지 방법으로 색인에 추가됩니다.

1) 검색로봇 자체가 외부를 탐색할 때 자동으로 내부 링크,

2) 또는 사이트 소유자가 다음을 통해 URL을 직접 추가할 수도 있습니다. 특별한 형태(“addurilka”) 또는 사이트에 설치된 Yandex.Metrica를 통해. 이는 색인 생성을 위해 페이지 URL을 Yandex로 전송합니다. 원하는 경우 사이트에 Metrica 코드를 설치하거나 비활성화할 수 없습니다. 이 옵션인터페이스에서요.

솔직히 말해서 Yandex Metrica가 웹 사이트 페이지의 색인 생성 속도를 높이는 데 기여하는지 여부와 해당 작업에 대한 웹 마스터의 의견은 찬사에서 타협하지 않는 비판에 이르기까지 정반대입니다. 어떤 사람들은 이 작업이 인덱싱 속도에 긍정적인 영향을 미친다고 믿는 반면, 다른 사람들은 이 프로세스가 느려진다고 믿습니다. 해설자님, 공유해 주세요. 개인적인 경험그리고 관찰!

이제 우리는 원활하게 개념으로 넘어갔습니다.

인덱싱 및 페이지 새로 고침 속도

이상적으로는 새로 생성된 페이지가 즉시 색인화되어야 합니다. 그러나 정보의 양이 많으면 새 페이지를 색인화하고 이전 페이지를 업데이트하기가 어렵습니다. 검색 엔진 로봇은 지속적으로 업데이트됩니다. 데이터베이스 검색하지만 사용자가 사용할 수 있으려면 ' 기본 검색" 데이터베이스가 완전히 전송되지 않았습니다. 검색 엔진의 판단에 따라 스팸 검색 및 기타 불필요한 문서가 포함된 페이지인 미러 사이트는 제외됩니다. 그러나 일부 정보 유형의 경우 이 업데이트 속도가 허용되지 않습니다. 예를 들어 뉴스 사이트를 색인화하는 프로세스입니다. 게시된 뉴스는 추가된 직후 검색 엔진에서 사용할 수 있어야 합니다. 자주 업데이트되는 페이지의 색인 생성 속도를 높이기 위해 특별한 "빠른 로봇"하루에 여러 번 뉴스 사이트를 방문하는 사람.

검색 로봇이 게으르다고 생각하지 마십시오. 검색 로봇은 가능한 한 많은 색인을 생성하려고 노력합니다. 추가 정보그러나 색인 생성 프로세스에 제한을 가하는 여러 가지 요소가 있습니다. 예를 들어 색인에 직접 들어갈 가능성은 리소스의 권한, 페이지 중첩 수준, 가용성에 따라 달라집니다. 사이트맵 파일, 사이트의 정상적인 색인 생성을 방해하는 오류가 없습니다. 웹사이트 색인 생성을 관리하는 주요 도구는 robots.txt, 메타 태그, 태그, noindex 및 nofollow 속성입니다.
Robots.txt는 텍스트 파일, 모든 검색 로봇에 대한 색인 매개변수를 한 번에 또는 별도로 설정할 수 있습니다.
noindex 태그와 메타 태그는 텍스트나 페이지 자체의 색인을 생성하는 역할을 하며, nofollow는 링크의 색인을 생성하는 역할을 합니다. 게다가 일반 텍스트웹사이트에 게시된 모든 최신 검색 엔진은 폐쇄된 형식의 문서를 색인화할 수 있습니다. 이러한 파일에 저장되는 데이터 유형에는 몇 가지 제한 사항이 있습니다. 따라서 PDF에서는 텍스트 콘텐츠만 색인화됩니다. 플래시 문서에서는 다음 위치에만 있는 텍스트입니다.
특정 블록 등

검색 엔진 로봇의 유형

기존의 모든 검색 로봇 중에서 네 가지 주요 로봇을 강조할 가치가 있습니다.
➜➜ 인덱싱 로봇,
➜➜ 이미지 로봇,
➜➜ 사이트 미러용 로봇;
➜➜ 웹사이트나 페이지의 기능을 확인하는 로봇.
일부 타사 로봇은 적절한 사용자 에이전트를 지정하여 Yandex 로봇으로 위장할 수 있습니다. 정품여부를 확인하실 수 있습니다
역방향 DNS 쿼리를 기반으로 한 식별을 사용하는 로봇.

어떤 로봇이 당신에게 적합한지 결정하세요
로그인하면 로그인을 사용할 수 있습니다.
일반적으로 사용 가능한 파일
관리자 패널이나 FTP에서. 모두
기존 로봇이 표현됩니다.
동일한 계획을 기반으로 하지만 각각
그것은 자신의 이름을 가지고 있습니다. 에-
예: “Mozilla/5.0(호환 가능;
YandexBot/3.0; +http://yandex.
com/bots)" - 주요 색인 -
얀덱스 로봇.

색인 로봇은 페이지를 발견하고 색인하여 주요 검색의 기반을 만듭니다. 로봇은 이미지를 기반으로 인덱스에 들어갑니다. 그래픽 정보, 이는 해당 서비스의 출력에 나중에 표시됩니다(예: Yandex.Images 또는 구글 이미지. 미러를 감지하는 로봇은 robots.txt 파일에 지정된 사이트의 미러를 확인합니다. 동일한 경우 검색 엔진 결과에는 기본 미러라는 하나의 사이트만 포함됩니다.

다른 유형의 인덱싱 로봇도 있습니다. 사이트의 픽토그램(아이콘); Yandex.Catalog의 사이트 성능을 확인하는 로봇; 뉴스 사이트 등의 "빠른" 콘텐츠 색인 생성기
인덱싱 프로세스에는 시간이 오래 걸리며, 이어서 인덱스 데이터베이스를 업데이트하는 프로세스에도 시간이 필요하다는 점을 이해하는 것이 중요합니다. 따라서 사이트 변경 결과는 1~2주 후에나 표시될 수 있습니다. Yandex.Webmaster의 "URL 추가" 양식을 통해 추가된 사이트의 가용성을 확인하는 특수 로봇도 있습니다.

너무 긴 글로 지루하게 하기보다는 이 정도만 말씀드리겠습니다.

계속…

(10회 방문, 오늘 1회 방문)

우리는 출시했다 새 책"소셜 미디어의 콘텐츠 마케팅: 팔로어의 마음을 사로잡아 브랜드와 사랑에 빠지게 만드는 방법."

사이트 인덱싱은 사이트에 대한 정보를 검색, 수집, 처리하고 검색 엔진 데이터베이스에 추가하는 프로세스입니다.

우리 채널의 더 많은 비디오 - SEMANTICA와 함께 인터넷 마케팅을 배우십시오

사이트를 색인화한다는 것은 검색 엔진 로봇이 리소스와 해당 페이지를 방문하여 콘텐츠를 검사하고 이를 데이터베이스에 입력하는 것을 의미합니다. 주요 쿼리. 즉, 네트워크 사용자는 검색창에 쿼리를 입력하고 인덱싱된 페이지 목록 형태로 응답을 받습니다.

우리가 얘기하면 간단한 언어로, 다음과 같이 밝혀졌습니다. 전체 인터넷은 거대한 도서관입니다. 자존심이 강한 도서관에는 검색을 더 쉽게 해주는 카탈로그가 있습니다. 필요한 정보. 지난 세기 90년대 중반에는 모든 색인이 그러한 목록으로 축소되었습니다. 웹사이트에서 키워드를 찾아 데이터베이스를 구성했습니다.

오늘날 봇은 검색 엔진에 정보를 입력하기 전에 여러 매개변수(오류, 고유성, 유용성, 가용성 등)를 기반으로 정보를 수집하고 분석합니다.

검색 로봇 알고리즘은 지속적으로 업데이트되고 더욱 복잡해지고 있습니다. 데이터베이스에는 다음이 포함됩니다. 엄청난 양정보에도 불구하고 필요한 정보를 검색하는 데 많은 시간이 걸리지 않습니다. 이는 고품질 인덱싱의 예입니다.

사이트의 색인이 생성되지 않은 경우 정보가 사용자에게 전달되지 않을 수 있습니다.

Google 및 Yandex 사이트 색인을 생성하는 방법

Yandex와 Google이 아마도 가장 많을 것입니다. 인기 검색 엔진러시아에서. 검색 엔진이 귀하의 사이트를 색인화하려면 해당 사이트를 보고해야 합니다. 이 작업은 두 가지 방법으로 수행할 수 있습니다.

인터넷의 다른 리소스에 대한 링크를 사용하여 색인을 생성할 사이트를 추가합니다. 이 방법으로 찾은 페이지는 로봇에 의해 유용한 것으로 간주되고 12시간에서 2주까지 더 빠르게 색인이 생성되므로 이 방법이 최적이라고 간주됩니다.
Yandex.Webmaster 서비스를 사용하여 특수 검색 엔진 양식을 수동으로 작성하여 색인 생성을 위해 사이트를 제출하세요. 구글 웹마스터도구, Bing 웹마스터 도구 등

두 번째 방법은 속도가 더 느립니다. 사이트가 2주 이상 대기열에 추가되고 인덱싱됩니다.

평균적으로 새로운 사이트와 페이지의 색인은 1~2주 안에 생성됩니다.

Google은 사이트 색인을 더 빠르게 생성하는 것으로 알려져 있습니다. 이런 일이 일어나는 이유는 검색 엔진 때문입니다. 구글 시스템유용한 페이지와 유용하지 않은 페이지 모두 색인을 생성합니다. 그러나 고품질 콘텐츠만 순위가 매겨집니다.

Yandex는 느리지만 인덱스 유용한 자료모든 정크 페이지를 검색에서 즉시 제외합니다.

사이트 색인 생성은 다음과 같이 작동합니다.

검색 로봇은 포털을 찾고 그 내용을 검사합니다.
수신된 정보는 데이터베이스에 입력됩니다.
약 2주 후에 색인 작업을 성공적으로 통과한 자료가 요청 시 검색 결과에 표시됩니다.

Google 및 Yandex에서 사이트와 해당 페이지의 색인 생성을 확인하는 방법에는 3가지가 있습니다.

웹마스터를 위한 도구 사용 - google.com/webmasters 또는 webmaster.yandex.ru
입력 사용 특수 팀 V 검색 창, Yandex 명령은 다음과 같습니다. 호스트: 사이트 이름 + 첫 번째 수준 도메인; Google의 경우 사이트: 사이트 이름 + 도메인;
특별한 자동 서비스를 사용합니다.

인덱싱 확인 중

이는 다음을 사용하여 수행할 수 있습니다.

검색 엔진 운영자 - 도움말을 살펴보거나 ;
서비스 특별 서비스, 예를 들어 rds bar;

사이트 색인 생성 속도를 높이는 방법

새로운 자료가 검색 결과에 나타나는 속도는 로봇이 색인을 수행하는 속도와 대상 고객이 사이트를 더 빨리 방문하는 속도에 따라 달라집니다.

검색 엔진의 색인 생성 속도를 높이려면 몇 가지 권장 사항을 따라야 합니다.

검색 엔진에 사이트를 추가합니다.
독특하고 유용한 콘텐츠로 프로젝트를 정기적으로 채우세요.
사이트 탐색은 편리해야 하며, 페이지 액세스는 기본 페이지에서 3번 이상 클릭하면 안 됩니다.
빠르고 안정적인 호스팅으로 리소스를 호스팅하세요.
robots.txt를 올바르게 구성하십시오. 제거 불필요한 제한, 인덱싱에서 서비스 페이지를 닫습니다.
오류, 수량 확인 키워드.
하다 내부 연결(다른 페이지로의 링크).
소셜 네트워크 및 소셜 북마크에 기사 링크를 게시하세요.
사이트맵을 하나 또는 두 개(방문자용 하나, 로봇용 하나) 만듭니다.

사이트의 색인 생성을 차단하는 방법

사이트 색인 생성 차단 - 검색 로봇이 사이트, 일부 페이지, 텍스트 또는 이미지 일부에 액세스하는 것을 거부합니다. 이는 일반적으로 숨기기 위해 수행됩니다. 공개 액세스 비밀 정보, 기술 페이지, 개발 수준 사이트, 중복 페이지 등

여러 가지 방법으로 이 작업을 수행할 수 있습니다.

robots.txt를 사용하면 사이트나 페이지의 색인 생성을 방지할 수 있습니다. 이를 위해, 텍스트 문서, 검색 엔진 로봇에 대한 규칙을 설정합니다. 이러한 규칙은 두 부분으로 구성됩니다. 첫 번째 부분(User-agent)은 수신자를 나타내고 두 번째 부분(Disallow)은 모든 개체의 색인 생성을 금지합니다.
예를 들어 모든 검색 봇에 대해 전체 사이트의 색인 생성을 금지하는 방법은 다음과 같습니다.

사용자 에이전트: *

허용하지 않음: /

한 페이지의 색인 생성을 차단하는 가장 올바른 방법으로 간주되는 로봇 메타 태그를 사용합니다. 도움을 받아 NOINDEX 태그 nofollow를 사용하면 모든 검색 엔진의 로봇이 사이트, 페이지 또는 텍스트의 일부를 색인화하는 것을 방지할 수 있습니다.

전체 문서의 색인 생성을 비활성화하는 항목은 다음과 같습니다.

특정 로봇에 대한 금지를 생성할 수 있습니다.

승격 중에 인덱싱은 어떤 영향을 미치나요?

색인 생성 덕분에 사이트가 검색 엔진에 포함됩니다. 콘텐츠가 자주 업데이트될수록 봇이 사이트에 더 자주 방문하므로 업데이트 속도가 빨라집니다. 이로 인해 검색 순위가 높아집니다.

검색 엔진에서 사이트를 색인화하면 방문자가 유입되고 프로젝트 개발에 기여합니다.

콘텐츠 외에도 로봇은 트래픽과 방문자 행동을 평가합니다. 이러한 요소를 바탕으로 리소스의 유용성에 대한 결론을 내리고 사이트를 더 자주 방문하여 검색 결과에서 더 높은 순위로 올라갑니다. 결과적으로 트래픽이 다시 증가합니다.

인덱싱은 중요한 과정프로젝트를 홍보하기 위해. 색인 생성이 성공하려면 검색 로봇이 정보가 유용한지 확인해야 합니다.

검색 엔진이 사용하는 알고리즘은 지속적으로 변화하고 더욱 복잡해지고 있습니다. 인덱싱의 목적은 검색 엔진 데이터베이스에 정보를 입력하는 것입니다.

검색 엔진에서 발생하는 각 프로세스는 독특하고 흥미롭습니다. 검색 엔진의 아키텍처를 알면 사이트가 검색 결과에서 "떨어지는" 이유나 순위가 높아지는 이유를 이해할 수 있습니다. 각 프로세스를 개별적으로 고려해 보겠습니다.

인덱싱은 검색 로봇이 사이트를 방문하여 페이지에서 다양한 정보를 수집하고 이를 특수 데이터베이스에 입력하는 프로세스입니다. 그런 다음 이 데이터가 처리되고 문서에서 추출된 색인이 작성됩니다. 검색 엔진은 사용자 요청에 따라 사이트에 대한 링크를 검색하고 제공하는 것은 색인을 통해 이루어집니다.

Yandex 검색 엔진을 예로 들어 인덱싱 프로세스를 살펴보겠습니다.

검색 엔진에는 두 가지 유형의 로봇이 있습니다. 빠른그리고 메인. 메인 로봇의 임무는 모든 콘텐츠를 색인화하는 것이고, 고속 로봇의 임무는 최신 정보를 데이터베이스에 입력하는 것입니다. 검색 로봇 플래너는 방문 경로를 작성하고 이를 "거미"에게 전송합니다. 거미는 선택한 페이지를 순회하며 정보를 펌핑합니다. 인덱싱 중에 문서에서 새 링크가 발견되면 해당 링크가 일반 목록에 추가됩니다.

첫 번째 방문에서 스파이더는 리소스 상태를 확인합니다. 해당 특성이 Yandex의 요구 사항을 충족하면 사이트가 데이터베이스에 입력됩니다. 스파이더가 이미 색인화된 페이지를 다시 방문하면 해당 페이지에 포함된 정보가 업데이트됩니다.

문서가 색인에 포함되어 있습니다. 다음과 같은 방법으로: 검색 로봇 자체가 외부 및 내부 링크를 따라갈 때 자동으로, 사이트 소유자가 특별한 양식이나 사이트에 설치된 Yandex.Metrica를 통해 URL을 추가한 경우이기 때문입니다. 이 서비스는 전송 페이지 URL Yandex의 색인 생성을 위해. 필요한 경우 지표 인터페이스에서 이 옵션을 비활성화할 수 있습니다.

사이트 페이지 색인 생성 및 업데이트 속도

이상적으로는 생성되자마자 새 페이지, 즉시 색인을 생성해야 합니다. 그러나 정보의 양이 많으면 새 페이지를 색인화하고 이전 페이지를 업데이트하기가 어렵습니다. 검색 엔진 로봇은 지속적으로 데이터베이스를 업데이트하지만 사용자가 데이터베이스를 사용할 수 있으려면 "기본 검색"으로 전환해야 합니다. 데이터베이스가 완전히 전송되지 않았습니다. 검색 엔진의 판단에 따라 미러 사이트, 검색 스팸이 포함된 페이지, 기타 불필요한 문서는 제외됩니다.

거울을 감지하는 로봇, robots.txt 파일에 지정된 미러 사이트를 확인합니다. 동일한 경우 검색 엔진 결과에는 기본 미러라는 사이트가 하나만 표시됩니다.

특별한 로봇이 Yandex.Webmaster의 "URL 추가" 양식을 통해 추가된 사이트의 가용성을 확인합니다.

다른 유형의 색인 로봇이 있습니다: 비디오 및 웹사이트 픽토그램(아이콘)의 색인 생성기; Yandex.Catalog의 사이트 성능을 확인하는 로봇; Yandex.News 등과 같은 사이트의 "빠른" 콘텐츠 인덱서

사이트를 색인화하는 과정에는 시간이 오래 걸리며, 색인 데이터베이스를 업데이트하는 과정에도 시간이 소요된다는 점을 이해하는 것이 중요합니다. 따라서 사이트 변경 결과는 1~2주 후에나 표시됩니다.

인덱싱

정보 검색에서 인덱싱은 정보 검색 언어 측면에서 문서와 쿼리를 설명하는 프로세스입니다. 인덱싱 결과에 따라 각 문서에는 의미론적 내용을 반영하는 키워드 세트가 할당됩니다.

영어로:인덱싱

금융금융사전.

동의어:

다른 사전에 "인덱싱"이 무엇인지 확인하십시오.

러시아어 동의어 색인화 사전. 색인 명사, 동의어 수: 1 색인 (1) ASIS 동의어 사전. V.N. 트리신... 동의어 사전

인덱싱- 정보 검색 언어로 문서 내용 및/또는 정보 요청 의미를 표현합니다. [GOST 7.74 96] 색인 정보 검색 언어 측면에서 문서 및 쿼리의 내용을 설명하는 프로세스입니다. 문서의 목적.... 기술 번역가 가이드

정보 검색 시스템의 언어 측면에서 문서 텍스트의 주요 내용을 표현합니다. 검색을 더 쉽게 하기 위해 사용됩니다. 필요한 서류다른 많은 것 중에서 ... 큰 백과사전

인덱싱- 3.5 인덱싱: 인덱싱 과정 기호문서 및/또는 정보에 대한 액세스를 단순화하는 데 도움이 되는 색인 편집. 원천 … 규범 및 기술 문서 용어에 대한 사전 참고서

인덱싱- 문서 내용의 변환 유형 및 정보 요청기계화를 준비하기 위해 정보 검색. 인덱싱은 문서의 주요 의미 내용이나 자연어 쿼리를 번역하는 것으로 구성됩니다... ... 방첩 사전

정보 검색 시스템의 언어 측면에서 문서 텍스트의 주요 내용을 표현합니다. 여러 문서 중에서 원하는 문서를 더 쉽게 찾을 수 있도록 하는 데 사용됩니다. * * * INDEXING INDEXING, 주요 표현.... ... 백과사전

인덱싱- 국제 보험 업무에서: 자동 조정판매 시 재산이나 책임을 보장할 때 설정된 가치 금액 국제 프로그램나라의 인플레이션 수준을 반영하기 위해 보험에 가입합니다. 보험 및 위험 관리. 용어사전

인덱싱- indeksavimas 상태는 T sritis radioelektronika atitikmenys: engl. 인덱싱 vok. Indexieren, n; Indizierung, f rus. 인덱싱, n prance. 색인, m... Radioelektronikos terminų žodynas

인덱싱- Rus: 색인화 Deu: Indexieren Eng: 색인화 Fra: 색인화 정보 검색 언어로 문서의 내용 및/또는 정보 요청의 의미를 표현합니다. 고스트 7.74 ... 정보, 사서 및 출판 사전

문서 텍스트의 주요 주제나 주제를 정보 검색 언어로 표현하는 과정(정보 참조) 검색 언어). 이는 많은 다른 텍스트 중에서 필요한 텍스트를 더 쉽게 찾을 수 있도록 하는 데 사용됩니다.… 위대한 소련 백과사전

정보 시스템. 자동화된 정보 시스템.

1. 정보 시스템.

2. 정보 검색 언어. 인덱싱 시스템. 인덱싱 프로세스의 목적.

3. 다큐멘터리 정보 시스템. 다큐멘터리 IP 성능 지표.

4. 사실 시스템. 무슨 일이야? 대상 지역? 데이터 모델.

5. 주제 영역의 ER 모델 구축.

6. 관계 정상화 이론.

7. 고유 식별자본질.

8. AIS의 분류 및 구조

9. 컨셉 수명주기 AIS. 단계 및 프로세스, AIS 수명주기 모델.

10. AIS 설계 기술.

11. 구조적 접근 AIS의 디자인에.

12. AIS 설계 시 CASE - 도구 사용.

13. SCADA 시스템: 생성 단계, 적용 영역, 기능.

정보 시스템.

정보시스템(IS)유지하도록 설계된 시스템이다. 정보 모델, 대부분의 경우 - 인간 활동의 모든 영역. 이 시스템은 흐름을 위한 수단을 제공해야 합니다. 정보 프로세스 :

저장

방송

정보의 변환.

정보시스템정보 및 컴퓨팅 시스템이라고도 불리는 정보를 저장하고 처리하는 일련의 상호 연결된 수단이라고 합니다. 데이터는 정보 소스로부터 정보 시스템으로 들어갑니다. 이 데이터는 저장을 위해 전송되거나 시스템에서 일부 처리를 거친 후 소비자에게 전송됩니다.

피드백은 소비자와 정보 시스템 자체 사이에 확립될 수 있습니다. 이 경우 정보시스템이라고 한다. 닫은. 채널 피드백받은 정보에 대한 소비자의 반응을 고려해야 할 때 필요합니다.

정보시스템은 다음과 같이 구성된다. 정보의 출처, IC 하드웨어, IS 소프트웨어 부분, 정보 소비자.

3개의 수업이 있습니다. 정보 시스템자동화 정도에 따라:

수동 정보 시스템- 현대성이 부족한 것이 특징 기술적 수단정보를 처리하고 모든 작업을 인간이 수행합니다. 예를 들어, 컴퓨터가 없는 회사에서 관리자의 활동에 대해 수동 IS로 작업한다고 말할 수 있습니다.

자동화된 정보 시스템(AIS)- 가장 인기 있는 IP 클래스입니다. 그들은 정보 처리 과정에 인간과 기술적 수단이 모두 참여한다고 가정합니다. 주요 역할컴퓨터에 할당되었습니다.

자동정보시스템- 사람의 개입 없이 모든 정보 처리 작업을 수행합니다. 다양한 로봇. 자동 정보 시스템의 예로는 사이트에 대한 정보가 자동으로 수집되는 Google과 같은 일부 인터넷 검색 엔진이 있습니다. 검색 로봇그리고 인적 요소검색결과 순위에는 영향을 미치지 않습니다.

정보 검색 언어. 인덱싱 시스템. 인덱싱 프로세스의 목적.

정보 검색 언어,설명하기 위해 고안된 기호 시스템( 인덱싱) 텍스트(문서) 또는 그 부분의 주요 의미 내용을 구현하기 위해 정보 요청의 의미 내용을 표현합니다. 정보 검색. 모든 추상 I.-p. 나. 알파벳(기본 기호 목록), 형성 규칙 및 해석 규칙으로 구성됩니다. 교육 규칙은 단어와 표현을 구성할 때 기본 기호의 어떤 조합이 허용되는지를 설정하고, 해석 규칙은 이러한 단어와 표현을 어떻게 이해해야 하는지를 결정합니다.

I.-p. 나. 특정 산업이나 주제에 대한 정보 요청의 의미와 텍스트의 주요 의미론적 내용을 표현하는 데 필요한 어휘 및 문법적 수단이 있어야 하며, 모호하지 않아야 하며(각 항목에 대해 하나의 해석 허용), 알고리즘 비교 및 식별에 편리해야 합니다(전체 또는 부분) 텍스트의 주요 의미 내용 및 정보 요청의 의미 내용 항목. 특정 I.-p를 개발할 때. 나. 이 언어가 생성되는 산업 또는 주제의 세부 사항, 검색 배열을 구성하는 텍스트의 특성, 이 언어가 생성되는 데 필요한 정보의 성격이 고려됩니다. 정보 검색 시스템.

대부분의 I.-p. 나. 주요 어휘(어휘)는 열거로 지정되며 특정 자연어 어휘의 일부를 나타냅니다. 자연어에서 선택된 단어와 문구는 함께 주요 어휘를 구성하며 특정 언어의 알파벳 역할을 합니다. 나. 그러한 I.-p의 교육 규칙. 나. 구문의 기능을 수행합니다. 일부 I.-p. 나. 기본 어휘는 생성 방법에 따라 (전체 또는 일부) 지정되며, 이는 I.-p. 나. 교육 규칙은 주어진 알파벳에서 I.-p 단어를 구성하는 방법을 설정합니다. I., 그리고 이 단어들로부터 표현(문구)과 그 중 어떤 것이 올바르게 구성될 것인가. I.-p. 나. ~와 다르다 정보 언어그리고로부터 기계어 . 20세기 중반. 한모금. 나. 광대하게 사용 된 도서관 및 서지 분류및 디스크립터 유형 언어.

인덱싱 시스템로봇 방문자가 가져온 정보(데이터베이스)의 대규모 축적물입니다. 이 정보는 특정 방식으로 구조화되고 색인화되어 있으므로 나중에 특정 키워드를 사용하여 사이트 목록을 선택하는 것이 더 쉬워집니다.

인덱싱 프로세스에는 다음 단계가 포함되며, 이는 다음 순서로 수행됩니다.

색인 객체로서 문서의 내용을 분석하고 결정합니다.

문서 내용을 특징짓는 개념 선택;

개념을 표시하기 위한 색인 용어 선택;

색인 용어로부터 문서의 검색 이미지를 형성합니다.

각 단계가 적절하게 수행된다면 나열된 단계를 기술적 절차의 일부로 결합할 수 있습니다.

1. 문서의 검색 이미지(SID)는 정보 검색 언어(IRL)의 문법적 수단을 사용하여 선택된 색인 용어로 구성됩니다.

2. 인덱싱 과정에서 문서를 물리적 개체(모양, 부피 등의 측면에서)로 설명하는 것은 권장되지 않습니다. 시스템 사용자의 정보 요구 사항에 대한 문서의 준수 여부를 보다 정확하게 확인할 수 있는 경우 해당 정보를 POD에 반영할 수 있습니다.