웹 아카이브 사용 방법. 웹 아카이브에서 고유한 콘텐츠를 추출하는 방법. 웹 아카이브 사용 가능성

11.04.2019

우연히 발견 끊어진 링크. 링크는 사이트 백업 설정 매뉴얼로 연결되었습니다. 주제가 너무 흥미로워서 어떤 매뉴얼인지 알아보기 위해 archive.org에 접속했습니다. 그곳에서 나는 한때 웹사이트 구축과 인터넷상의 몇 가지 주제에 참여했던 한 남자의 블로그를 발견했습니다. 그러나 분명히 그는 모든 것을 포기했습니다. 이 블로그는 2013년 12월까지 존재했고 그 후 1년 동안의 스텁이 남아 있었습니다. 먼저 사이트의 도메인을 확인해 보겠습니다. 그는 자유인으로 밝혀졌습니다. 사실 저는 예전부터 그런 사이트에 관심이 많았고, 가끔 텔데리에 가서 저렴한 IT 관련 사이트를 찾아 구매하곤 합니다. 지금까지 가격/품질 측면에서 적합한 것을 찾지 못했습니다.

왜 그런 사이트가 필요한가요? 나는 일종의 합병이나 인수를 위한 계획을 세우고 있습니다. 이런 사이트를 이 사이트와 연결해 보세요. 그것과 다른 좋은 것들에 대한 트래픽을 늘리기 위해. 누군가는 말할 것입니다 - 다각화는 어떻습니까? 물론 다양화하는 것은 좋은 일이다. 하지만 아직은 다양화할 것이 없습니다. 먼저 무언가를 개발해야 합니다. 그래서 저는 사이트를 병합하는 아이디어가 매우 유망하다고 생각합니다.

이것이 배경의 전부입니다. 찾은 사이트를 복원하기로 결정했습니다. 약 300페이지 정도 나왔습니다. 도메인을 등록하고 사이트를 다운로드할 도구를 찾기 시작했습니다.

웹 아카이브에서 웹 사이트를 복원하는 방법은 무엇입니까?

절차는 간단합니다. 그것을 가지고 다운로드하십시오. 그러나 페이지가 많고 모든 페이지가 정적 HTML 파일 형식이라는 사실로 인해 문제가 복잡해집니다. 수동으로 다운로드하려면 고문을 당할 것입니다. 나는 이런 일에 종사하는 사람들에게 물어보기 시작했습니다. 사람들은 r-tools.org를 추천했습니다. 유료로 밝혀졌습니다. 뭔지 알고 싶어서 구글링을 시작했는데 간단한 절차, 그리고 이렇더라도 대가를 치르고 싶지 않았습니다 작은 수수료. 해결책은 Ruby 애플리케이션 형태로 매우 빠르게 발견되었습니다. 예상대로 모든 것이 매우 간단하고 지침이 포함되어 있습니다.

archive.org에서 사이트를 복원하기 위한 유틸리티 설치

두 번 생각하지 않고 서버에 모든 것을 설치하고 복구를 시작합니다.

#루비 설치:

apt-get 설치 루비

#도구 자체를 설치합니다.

보석 설치 wayback_machine_downloader

웹 아카이브에서 사이트 다운로드를 시작합니다.

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

여기서 타임스탬프 옵션에 스냅샷 표시를 지정할 수 있습니다. 사이트의 웹 아카이브에 수십 또는 수백 개의 이미지가 있을 수 있기 때문입니다. 나는 논리적으로 사이트가 아직 살아 있었을 때의 마지막 것을 나타냅니다. 유틸리티는 페이지 수를 즉시 결정하고 다운로드한 페이지를 콘솔에 표시합니다.

모든 것이 다운로드되어 저장되면 흩어집니다. 정적 파일폴더에. 폴더를 생성하세요. 올바른 장소에을 클릭하고 다운로드한 파일을 거기에 넣으세요. 나는 rsync를 사용하고 싶습니다.

rsync -avh ./websites/www.site.com/ /var/www/site.com/

아직 그녀를 잘 모르신다면 추천해 드립니다. 이것은 웹마스터를 위한 다른 프로젝트(Telderi, Miralinks, Gogetlinks)를 통해 이미 알고 계실 Mirafox의 교환입니다. Kwork에서는 잠재 고객이 게시한 제안서를 바탕으로 프리랜서를 선발하는 것이 아니라 고객이 선택할 수 있는 제안서를 직접 제출합니다. 서비스의 "비결"은 기본 비용모든 쿼크(프리랜서 제안)는 항상 500루블입니다.

글쎄, 이해할 수 없는 명령과 스크립트가 포함된 많은 문자를 파악하고 스스로 수행하려는 사람들을 위해 계속합니다.

창조 nginx 구성복원된 사이트에 대한

나는 미래를 염두에 두고 보편적인 구성을 만들고 있습니다. PHP 처리. 사이트를 부활시키고 메시지 전송 양식, 구독 등의 기능을 개선하려는 경우 필요할 수 있습니다.

일반적으로 정적 사이트의 최소 구성은 다음과 같습니다.

서버(
server_name site.ru www.site.ru *.site.ru;
루트 /var/www/site.ru;
색인 index.html;

압축을 푼다;
gzip_disable "msie6";
gzip_types 텍스트/일반 텍스트/css 애플리케이션/json 애플리케이션/x-javascript 텍스트/xml 애플리케이션/xml 애플리케이션/xml+rss 텍스트/javascript 애플리케이션/javascript;

위치 = /robots.txt (
모두 허용;
log_not_found 꺼짐;
access_log off;
}

위치 ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ (
최대 만료;
log_not_found 꺼짐;
}
}

이 구성에는 브라우저의 압축 및 캐싱도 포함됩니다.

웹서버를 다시 시작합니다:

서비스 nginx 다시 시작

DNS를 변경하지 않고 웹사이트를 확인하는 방법은 무엇입니까?

원칙적으로 기다리시면 됩니다 DNS 업데이트도메인 등록 후. 하지만 빨리 결과를 보고 싶어요. 그리고 바로 작업을 시작할 수 있습니다. 이를 수행하는 간단한 방법이 있습니다. 서버 IP를 기록해 두십시오. 원하는 도메인 V 호스트 파일, 다음과 같은 기록이 있습니다.

10.10.1.1 site.ru

그런 다음 원하는 사이트가 컴퓨터에서만 열립니다.

이와 같이. 마치 네크로맨서 같은 느낌이에요 :)

사이트는 사용자가 본 그대로 표시됩니다. 모든 링크가 있으면 모든 링크가 작동합니다. 필요한 파일. 아마도 그 중 일부가 깨질 수도 있고, 어딘가에 이미지, 스타일 또는 기타 항목이 누락될 수도 있습니다. 그러나 이것이 요점이 아닙니다. 결국 모든 사이트에서 가장 중요한 것은 콘텐츠입니다. 그리고 그것은 아마도 남아있을 것입니다.

복원된 사이트의 코드 정리

그러나 그것이 전부는 아닙니다. 그대로 둘 수도 있지만. 하지만 달성하려면 더 나은 효과, 복원된 사이트를 조금 정리하는 것이 좋습니다. 사실 이게 이 모든 일에서 가장 어려운 부분이에요. 사실 사이트는 사용자가 본 대로 표시되기 때문에 페이지 코드에 온갖 종류의 쓰레기가 있을 것입니다. 이것은 주로 광고, 배너 및 카운터입니다. 또한 정적 사이트에서는 쓸모가 없는 일부 요소도 있습니다. 예를 들어 사이트 관리 영역에 로그인하기 위한 링크입니다. 사이트가 이전에 작업했던 동적 CMS에서 상속된 댓글, 구독, 일부 버튼 및 기타 요소를 보내기 위한 양식입니다. 제 경우에는 WordPress였습니다.

조각을 제거하는 방법 HTML 코드많은 정적 페이지에서?

이 모든 것을 어떻게 제거할 수 있습니까? 매우 간단합니다. 코드를 살펴보고 불필요한 부분을 간단히 제거하세요. 말하기는 쉽습니다. 하지만 우리는 수백 페이지를 가지고 있습니다. 그렇기 때문에 여기에는 마법이 필요합니다.

./site.ru/ -type f -name "*.html" -exec sed -i "s|

입구

||g"
{} \;

이 구성을 사용하면 파일에서 모든 HTML 태그를 제거할 수 있습니다. 제일 쉬운. 그러면 텍스트 파일이 생깁니다.

sed -e "s/]*>//g" test.html

일반적인 접근 방식은 콘텐츠를 다운로드한 다음 새 기사 작성, 출입구 등 다른 용도로 유용한 콘텐츠만 사용하는 것입니다.

하지만 이것은 나에게 적합하지 않습니다. 먼저 사이트를 완전히 다시 만들고 사이트가 어떻게 구현되는지, 존재 여부를 확인하고 싶습니다. 따라서 코드를 정리하는 작업에는 몇 시간의 힘든 작업이 필요합니다. 사이트의 페이지를 열고 디버거를 사용하여 페이지의 소스 코드를 살펴보고 필요하지 않은 자바스크립트, 배너, 카운터 및 양식을 찾습니다.

청소는 이렇게 해요 실시간 인터넷 카운터내 정적 사이트의 모든 페이지에서:

site.ru/ 찾기 -type f -name "*.html" -exec sed -i "//,//d" () \;

site.ru/ 찾기 -type f -name "*.html" -exec sed -i "s|||g" (
} \;

무지한 사람에게는 무섭게 보일 수 있는 구성에도 불구하고 이 카운터에는 삭제할 코드 부분을 결정하여 패턴으로 표시하는 고유한 주석 태그가 있기 때문에 이는 매우 간단한 것입니다.

어떤 경우에는 페이지에서 일부 요소가 반복될 수 있기 때문에 불필요한 것을 잘라내고 필요한 것을 건드리지 않기 위해 머리를 써야 합니다. 예를 들어 삭제하려면 구글 카운터 Analytics는 다음과 같이 작성해야 했습니다.

먼저 카운터가 시작되는 줄을 삭제합니다. 이 명령은 var gaJsHost 패턴 위의 줄을 제거합니다. 왜냐하면 이 위치에서만 제거하고 다른 곳에서는 건드리지 않아야 하기 때문입니다.

site.ru/ -type f -name "*.html" -exec sed -i -n "/var gaJsHost/(x;d;);1h;1!(x;p;);$(x;p 찾기 ;)" () \;

이제 첫 번째 줄과 마지막 줄의 고유한 패턴으로 쉽게 식별할 수 있는 나머지 부분을 잘라냅니다.

site.ru/ -type f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" () \;

마찬가지로 주석 추가 양식을 제거합니다.

고유 패턴이 있는 줄 다음에 고유하지 않은 닫는 태그가 있는 4개 줄을 지웁니다.

theredhaired.ru/ 찾기 -type f -iname "*.html" -exec sed -i "/block_links/(N;N;N;N;s/\n.*//;)" () \;

이제 저는 첫 번째 줄과 마지막 줄의 고유한 패턴을 나타내는 상당히 큰 30줄 블록을 잘라내고 있습니다.

theredhaired.ru/ 찾기 -type f -iname "*.html" -exec sed -i "/ Subscription/,/block_links/d" () \;

물론 여러 줄 패턴을 사용하여 이러한 마지막 몇 가지 사례를 해결하려고 시도할 수 있지만 아무리 검색해도 나는 그것을 마스터하지 못했습니다. 여러 줄이 포함된 예를 많이 찾았지만 특수 문자나 이스케이프 문자(탭, 줄바꿈)가 없이 모두 단순합니다.

아마도 이 모든 정리는 텍스트 처리가 목적인 PHP나 Perl에서 수행하는 것이 더 쉬울 것입니다. 하지만 안타깝게도 저는 그것들을 모르기 때문에 bash와 sed를 사용합니다.

난 이 모든 걸 했어 별도의 사본항상 변경 사항을 롤백할 수 있도록 여러 번의 반복과 테스트가 있는 사이트에서 중요한 변경이 있을 때마다 다시 rsync를 사용하여 복사본을 저장했습니다.

정적 웹사이트에서 제목과 기타 요소를 대량 편집하는 방법은 무엇입니까?

내 목표는 단순히 사이트를 부활시키는 것이 아니라 사이트를 색인화하고 검색 순위를 매기고 심지어 검색에서 트래픽을 얻는 것이므로 일종의 SEO에 대해 생각해 볼 필요가 있습니다. 원래 제목이 저랑 안 맞는 것 같아서 바꾸고 싶어요. WordPress는 %sitename% » %postname% 체계를 상속했습니다. 더욱이 우리 사이트 이름은 불분명합니다. 즉, 사이트 도메인 자체입니다. 가장 쉬운 방법은 제목의 첫 부분을 잘라내는 것입니다. 그러나 그것은 나에게도 효과가 없습니다. 그래서 제목 중 이 부분을 까다로운 요청으로 바꾸겠습니다. 이것이 내가 하는 방법이다:

보시다시피 많은 점검과 반복이 있습니다. 하지만 결국에는 제목이 그들에게 필요한 것이 됩니다. 웹 아카이브의 사이트 복원 요청을 기반으로 이 사이트에 대한 트래픽을 수집하려는 시도를 시작한 것으로 추측할 수 있습니다. 이것이 왜 필요한가요? 제가 제공하겠습니다. 유료 서비스그러한 사이트를 복원합니다. 보시다시피, 이 경우교체하는 방법은 아주 쉽습니다. 여러 가지 옵션을 고민하지 않고 모든 것을 하나로 요약하는 것이 가능했습니다. 하지만 불필요한 기호를 제거하거나 변경하고 싶었고 옵션이 여러 개 있었기 때문에 여러 가지로 변경했습니다. SEO입니다.

이제 내 사이트의 모든 HTML 파일에 Yandex Metrica를 추가하겠습니다. 동시에 번역해 보세요. 오래된 계획 www 없이 www를 켜세요.

정적 웹사이트를 www에서 www가 아닌 웹사이트로 변환하는 방법은 무엇입니까?

이는 간단히 다음을 교체하여 수행됩니다.

찾기 ./ -type f -iname '*.html' -exec sed -i 's/http:\/\/www.site.ru/http:\/\/site.ru/g' () \;

그런 다음, 만일의 경우에 대비하여 nginx 구성에서 www가 있는 옵션을 리디렉션에 추가합니다.

서버(
서버 이름 www.site.ru;
301 $scheme://site.ru$request_uri를 반환합니다.
}

정적 사이트에 대한 sitemap.xml을 만드는 방법은 무엇입니까?

이는 검색 엔진에 사이트를 추가할 때 필요합니다. 우리 사이트가 복원되었고 일부 탐색 기능이 부족할 수 있으며 일부 페이지에 대한 링크가 전혀 없을 수 있다는 점을 고려하면 이는 매우 중요합니다. 사이트 맵은 이 점을 완화합니다. 사이트 자체를 통과하여 페이지에 접근할 수 없더라도 sitemap.xml에 이를 지정하면 해당 항목이 색인화될 수 있으며 이는 잠재적으로 검색에서 직접 트래픽을 유도할 수 있습니다. 페이지로.

또한 잠시 후 이 사이트를 통해 얻은 결과를 분석할 예정입니다. 트래픽, 리드 또는 기타 모든 것. 따라서 사이트를 계속 지켜봐 주시기 바랍니다. 2~6개월 후에는 스토리가 계속되는 것을 보게 될 것입니다. 통계가 있다면 보여드리겠습니다. 6개월이 지난 후에도 이 글을 읽고 계시지만, 계속되는 링크가 아직 없다면 댓글로 이 점을 상기시켜주세요 :)

알았죠?

영감을 받았다면 모든 것을 알아냈고 스스로 해낼 것입니다. 고개를 숙이고 존경을 표합니다. 나는 모든 것을 이해하고 이해하고 싶어하는 사람들을 좋아합니다.

우리는 출시했다 새 책"소셜 미디어의 콘텐츠 마케팅: 팔로어의 마음을 사로잡아 브랜드와 사랑에 빠지게 만드는 방법."

구독하다

웹 아카이브는 무료 플랫폼, 지금까지 생성된 모든 사이트가 수집되어 있으며 보존에 대한 금지 조치가 없습니다.

우리 채널의 더 많은 비디오 - SEMANTICA와 함께 인터넷 마케팅을 배우십시오

이것은 웹 아카이브가 사이트를 방문하고 사본을 저장한 날짜에 누구나 관심 있는 웹 리소스를 열고 그 내용을 볼 수 있는 실제 라이브러리입니다.

아카이브 조직 소개 또는 Valery가 웹 아카이브에서 오래된 텍스트를 찾은 방법
2010년에 Valery는 인터넷 마케팅에 관한 기사를 쓰는 웹사이트를 만들었습니다. 그는 Google(애드워즈) 광고에 관해 짧은 요약 형식으로 그 중 하나를 썼습니다. 몇 년 후 그는 이 정보가 필요했습니다. 그러나 텍스트가 포함된 페이지는 얼마 전 그가 실수로 삭제했습니다. 그것은 모든 사람에게 일어납니다.

그러나 Valery는 상황에서 벗어나는 방법을 알고있었습니다. 그는 자신 있게 웹 아카이브 서비스를 오픈했고, 검색 창필요한 주소를 입력했습니다. 잠시 후 그는 이미 필요한 자료를 읽고 있었고 조금 후에는 자신의 웹 사이트에 텍스트를 복원했습니다.

이야기 인터넷의 생성보관소

1996년 브루스터 카일 미국 프로그래머, 그는 인터넷 아카이브를 만들었고 거기에 포함된 모든 정보가 포함된 웹사이트의 사본을 수집하기 시작했습니다. 이것들은 완벽하게 보존되었습니다. 실제 형태로마치 브라우저에서 필요한 사이트를 연 것처럼 페이지가 표시됩니다.

누구나 웹 아카이브 데이터를 완전 무료로 사용할 수 있습니다. Brewster Kyle은 인터넷 공간의 문화적, 역사적 가치를 보존하고 광범위한 전자 도서관을 만드는 주요 목표를 세웠습니다.

2001년에 주요 Internet Archive Wayback Machine 서비스가 만들어졌으며 현재도 https://archive.org에서 찾을 수 있습니다. 여기에서는 모든 사본을 무료로 볼 수 있습니다.

사이트 모음에 국한되지 않기 위해 1999년에는 텍스트, 이미지, 녹음, 비디오 및 소프트웨어를 보관하기 시작했습니다.

2010년 3월 연례 자유 소프트웨어 시상식에서 Internet Archive는 사회 혜택 프로젝트 부문 우승자 타이틀을 수상했습니다.

도서관은 매년 성장하고 있으며, 이미 2016년 8월에 Webarchive의 양은 웹 페이지의 사본 5,020억 개에 달했습니다. 모두 아주 잘 보관되어 있어요 대형 서버샌프란시스코, 뉴 알렉산드리아, 암스테르담에서.

archive.org에 관한 모든 것: 서비스 사용 방법 및 웹 아카이브에서 사이트를 얻는 방법

Brewster Kyle은 Internet Archive Wayback Machine을 만들었습니다. 이 기계 없이는 현대 인터넷 마케팅 작업을 상상하는 것이 불가능합니다. 모든 포털의 기록을 보고 어떤 모습인지 확인하세요. 특정 페이지이전에 이전 웹 리소스를 복원하거나 필요한 리소스를 찾아 흥미로운 내용- 이 모든 작업은 Webarchive를 사용하여 수행할 수 있습니다.

archive.org에서 사이트 기록을 보는 방법

감사합니다. 웹 아카이브 라이브러리에 저장되었습니다. 대부분의모든 페이지가 포함된 인터넷 사이트. 또한 모든 변경 사항을 저장합니다. 따라서 오랫동안 존재하지 않았더라도 모든 웹 리소스의 기록을 볼 수 있습니다.

이렇게 하려면 https://web.archive.org/로 이동하여 검색창에 웹 리소스 주소를 입력해야 합니다.

일정 시간이 지나면 웹 아카이브에 이 페이지의 변경 날짜와 페이지 생성 정보, 전체 기간 동안의 변경 횟수가 포함된 달력이 표시됩니다.

입수한 정보에 따르면, 다음과 같은 사실을 알 수 있습니다. 홈페이지저희 사이트는 2014년 5월 24일 서비스를 통해 처음 발견되었습니다. 그리고 그때부터 오늘까지 그 사본이 38번이나 저장되었습니다. 페이지의 변경 날짜는 달력에 파란색으로 표시됩니다. 변경 내역을 보고 관심 있는 날 웹 리소스의 특정 섹션이 어떻게 생겼는지 확인하려면 이전 연도가 포함된 피드에서 원하는 기간을 선택하고 제공된 날짜 중에서 달력에서 날짜를 선택해야 합니다. 서비스로.

잠시 후 웹 아카이브가 해당 플랫폼에서 요청한 버전을 열게 되며, 여기서 귀하는 당사 사이트가 원래 형태로 어떻게 생겼는지 확인할 수 있습니다.

다음으로, 화면 맨 위에 화살표가 있는 달력을 사용하여 변경 사항의 연대순에 따라 페이지를 넘기며 어떻게 변경되었는지 추적할 수 있습니다. 모습그리고 그 내용.

따라서 과거로 뛰어들어 과거의 존재 전체에 걸쳐 일어난 모든 변화를 볼 수 있습니다.

Webarchive에서 사이트가 이전에 어떻게 생겼는지 알 수 없는 이유
다음을 사용하여 웹사이트를 찾을 수 없는 경우가 있습니다. 인터넷 서비스아카이브 웨이백 머신. 이는 여러 가지 이유로 발생합니다.

저작권 보유자가 모든 사본을 삭제하기로 결정했습니다.
지적 재산권 보호에 관한 법률에 따라 웹 리소스가 폐쇄되었습니다.
V 루트 디렉토리인터넷 플랫폼, robots.txt 파일을 통해 금지가 도입되었습니다.

사이트가 언제든지 웹 아카이브에 있도록 하려면 예방 조치를 취하고 웹 아카이브 라이브러리에 직접 저장하는 것이 좋습니다. 이렇게 하려면 지금 페이지 저장 섹션에서 보관하려는 웹 리소스의 주소를 입력하고 저장 버튼페이지.

따라서 모든 정보의 안전과 보안을 위해 변경 시마다 이 절차를 반복해야 합니다. 이렇게 하면 페이지가 오랫동안 저장된다는 것을 100% 보장할 수 있습니다.

웹 아카이브에서 비활성 웹사이트를 복원하는 방법

있다 다양한 상황, 브라우저가 그러한 웹 서비스가 더 이상 존재하지 않는다고 보고하는 경우. 하지만 데이터를 검색해야 합니다. 웹 아카이브가 도움이 될 것입니다.

이를 위해서는 두 가지 옵션이 있습니다. 첫 번째는 크기가 작고 색인이 잘 생성된 오래된 사이트에 적합합니다. 데이터를 추출하면 됩니다 필요한 버전. 다음으로 페이지 코드를 검토하고 링크를 수동으로 다듬습니다. 이 과정은 시간과 단계 측면에서 다소 노동 집약적입니다. 따라서 더 최적의 또 다른 방법이 있습니다.

두 번째 옵션은 시간을 절약하고 다운로드 문제를 최대한 빠르고 쉽게 해결하려는 사람들에게 이상적입니다. 이렇게 하려면 Webarchive - RoboTools에서 사이트 복구 서비스를 열어야 합니다. 입력하다 도메인 이름관심 있는 포털을 선택하고 저장된 버전의 날짜를 표시합니다. 시간이 지나면 작업이 완료됩니다. 전부, 모든 페이지가 채워졌습니다.

웹 아카이브에서 콘텐츠를 찾는 방법

Webarchive는 웹 리소스를 전체 텍스트로 채울 수 있는 훌륭한 소스입니다. 여러 가지 이유로 더 이상 존재하지 않지만 유용하고 유용한 정보가 포함된 사이트가 많이 있습니다. 필요한 정보. 인덱스에 포함되지 않는 것 검색 엔진, 본질적으로 비반복적입니다.

그래서 많은 것을 저장하는 무료 도메인이 있습니다. 흥미로운 자료. 당신이 해야 할 일은 적절한 콘텐츠를 찾고 그 고유성을 확인하는 것뿐입니다. 이는 작성자의 작업에 대한 비용을 지불할 필요가 없고 시간이 지나도 모든 콘텐츠가 이미 작성되었기 때문에 재정적으로 매우 수익성이 높습니다.

웹 아카이브 라이브러리에 사이트가 포함되지 않도록 하는 방법

인터넷 사이트의 소유자가 자신의 포털에 게시된 정보를 소중히 여기며 해당 정보가 광범위한 사용자에게 공개되는 것을 원하지 않는 상황이 있습니다. 이러한 상황에서는 간단한 방법이 하나 있습니다. robots.txt 파일에 Webarchive에 대한 금지 명령을 작성하는 것입니다. 설정이 변경되면 웹 머신은 더 이상 해당 웹 리소스의 복사본을 생성하지 않습니다.

안녕하세요, 블로그 사이트 독자 여러분. 얼마 전 나는 과학계의 기사에 대한 작은 결점과 비판에도 불구하고 모든 종류의 칭찬을 받을 만한 가치가 있는 것에 대해 썼습니다.

비영리 프로젝트가 수십 년 동안 전체 인터넷 커뮤니티의 이익을 위해 노력해 왔다는 사실은 큰 존경을 받을 만합니다. 그러나 수입을 얻지 않고도 매우 중요한 역할을 수행하는 유사한 대규모 프로젝트가 인터넷에 있습니다. 웹 사이트, 비디오, 오디오 및 인쇄 자료의 아카이브를 보존합니다.

주목할만한 점은 이 목록의 마지막 열(Excel에서 열 수 있음)에는 웹 아카이브의 각 사이트에 대해 생성된 아카이브 수가 표시된다는 것입니다(그러나 웹 아카이브의 도메인 가용성은 숫자로 확인할 수 있습니다). ~의 온라인 서비스, 예를 들어 이것 또는 이것에 대해).

출시 중이거나 이미 출시된 부르주아 도메인 이름 목록은 이 링크에서 다운로드할 수 있습니다. 그럼, 웹 아카이브에 저장된 사이트의 내용을 살펴보고 가치 있는 것을 찾아보도록 하겠습니다. 그런 다음 이러한 자료의 고유성을 확인하고(바로 위에 링크를 제공했습니다) 성공하면 리소스에 게시하거나 일부에서 판매합니다.

예, 이 방법은 지루하며 개인적으로 테스트해 본 적이 없습니다. 하지만 어느 정도 자동화와 두뇌력을 갖추면 좋은 결과를 낼 수 있다고 생각합니다. 아마도 누군가가 이미 이것을 스트림에 올렸을 것입니다. 그리고 당신은 어떻게 생각하세요?

행운을 빕니다! 블로그 사이트 페이지에서 곧 뵙겠습니다.

");">로 이동하면 더 많은 동영상을 볼 수 있습니다.

당신은 관심이 있을 수도 있습니다

링크 구매 시 잠재적 기부자 무료 분석을 위한 SEObuilding.RU 사이트 비교
아름답고 무료 도메인 등록을 위한 무료 온라인 서비스(Frishki.ru)
사진 스톡 및 사진 은행 - 사진, 이미지 및 아이콘이 포함된 30개의 무료 법적 소스
SEObuilding.RU - 완료 무료 분석신뢰도, 비용 등을 계산하는 사이트
사이트 검증(분석) - 85개 온라인 서비스 및 프로그램

인터넷에는 수입을 얻지 않고도 매우 중요한 역할을 수행하는 대규모 프로젝트가 있습니다. 웹 사이트, 비디오, 오디오 및 인쇄 자료의 아카이브를 보존합니다.

이것은 web.archive.org입니다. 글로벌 프로젝트인 것 같습니다. 불가능한 임무- 지금까지 인터넷에 게시된 모든 사이트의 아카이브를 만듭니다. 또한 사이트는 스크린샷 형식이 아닌 모든 링크, 사진 및 스타일(CSS)이 포함되어 완벽하게 작동하는 웹페이지 형식으로 저장됩니다. 또한 각 사이트에 대해 네트워크에 존재하는 동안 이 아카이브는 날짜가 지정된 수백 개의 복사본을 축적할 수 있습니다. 다른 단계에서자원생활.

인터넷 사이트 아카이브를 어떻게 사용할 수 있습니까?

이 웹 아카이브가 어떻게 유용할 수 있나요?

첫째, 수년 전 사이트를 여행하면서 즐거운 향수에 빠져들 수 있습니다. 다른 인터넷 리소스에 대한 변경 내역을 추적할 수 있습니다(게시물에는 이 웹 아카이브에서 현재 사망한 Aport에 대한 기사의 스크린샷이 포함되어 있으며 Yandex 메인 페이지의 진화를 보여주는 스크린샷의 출처는 동일합니다).

하지만 그게 전부는 아닙니다. 북마크한 사이트의 페이지가 열리지 않으면 물론 Yandex 또는 Google 캐시에서 해당 페이지를 검색해 볼 수 있습니다(Google에서 검색하는 가장 좋은 방법에 대해 자세히 알아보세요). 그러나 리소스를 오랫동안 사용할 수 없다면 죽은 링크 archive.org를 제외한 다른 곳에서는 더 이상 파일을 열 수 없습니다(아래에 설명된 이유로 인해 해당 파일이 없을 수도 있음).

또한 어떤 터무니없는 이유로 사이트를 백업하지 않은 경우 이 웹 아카이브가 사이트를 복원할 수 있는 유일한 방법이 될 것입니다. web.archive.org의 모든 링크를 지우고 해당 링크를 귀하의 리소스로 직접 연결하는 것이 가능합니다(아래에서 이에 대해 읽어보세요).

글쎄, 마지막으로 떠오르는 것은 독특한 콘텐츠를 검색하는 것입니다. 사이트에 대한 고유한 콘텐츠를 직접 만들 수 없는 경우(기사 작성) 여기에서 해당 콘텐츠를 얻을 수 있지만 여전히 노력해야 합니다. 결론은 많은 사이트가 콘텐츠와 함께 죽어서 사용할 수 없게 된다는 것입니다.

이러한 리소스를 찾으면 먼저 텍스트의 고유성을 확인한 후 인터넷 아카이브에서 텍스트를 가져와 사이트에 배치할 수 있습니다. 이렇게 하면 표절하지 않고 저작권(저작권)을 위반하지 않지만 웹 아카이브에서 검색하는 것은 많은 사람들에게 매우 시간이 많이 걸리는 작업처럼 보일 수 있습니다.

Webarchive 온라인 서비스는 1996년으로 거슬러 올라갑니다. 그 당시 인터넷에 현재보다 훨씬 적은 수의 사이트가 있었다는 사실을 고려하더라도 프로젝트에 할당된 작업은 불가능해 보였습니다. 처음에는 사이트가 자주 보관되지 않았지만 시간이 지남에 따라 저장 용량이 증가하면서 웹 아카이브는 사이트의 스냅샷을 점점 더 많이 만들기 시작했습니다.

이 웹 아카이브는 1997년에야 데이터베이스에 추가되었으며 당시 메인 페이지는 다음과 같았습니다.

이제 이 비영리 단체는 모든 것에 관한 모든 것(오디오, 비디오, 스캔한 책 포함)에 관여하고 있습니다. 디스크 공간 10바이트 뒤에 15개의 0이 오는 엄청난 크기입니다. 사이트에는 다양한 데이터 센터에 미러가 있으며 프로젝트 자체는 최근에 받았습니다. 공식적인 지위도서관. 웹사이트 페이지 아카이브만 고려한다면 이미 약 1,000억 개가 있습니다(이는 지금까지 기록되고 저장된 모든 페이지 노출수를 고려한 것입니다).

페이지 상단에 있는 타임라인을 사용하여 아카이브를 탐색할 수도 있습니다. 여기서 검은색 수직선은 이 사이트에서 사용할 수 있는 노출수를 표시합니다. 때로는 웹 아카이브가 손상될 수 있으며, 그러면 가장 가까운 스냅샷을 열어야 합니다.

파란색 원을 클릭하면 삭제된 시간이 다른 여러 아카이브에 대한 링크를 볼 수 있습니다.

이는 불가피한 손상으로 인한 데이터 손실을 방지하기 위해 수행될 수 있습니다. 하드 드라이브저장 시설에서. 웹 아카이브 중 하나를 보면 귀하의 사본을 볼 수 있습니다( 이 예에서는 my) 내부 링크가 작동하고 스타일이 연결된 웹사이트입니다. 사실, 완벽하게 작동하지는 않습니다.

예를 들어, 내 디자인 중 일부는 여전히 왜곡되어 있었고 사이드바 JavaScript에서 실행되는 것이 완전히 사라졌습니다.

하지만 이 메뉴는 web.archive.org 페이지의 소스 코드에 자연스럽게 존재하기 때문에 그다지 중요하지 않습니다. 하지만 이 페이지의 텍스트를 웹사이트에 복사하여 손실된 텍스트를 대체할 수는 없습니다. 왜? 예, 과거의 사이트 내부를 여행하는 것은 모든 내부 링크가 Webarchive에서 생성된 링크로 대체된 경우에만 가능하기 때문입니다. 그렇지 않으면 다음으로 리디렉션됩니다. 현대 버전자원).

링크의 소개 부분(http://web.archive.org/web/20111013120145/)을 수동으로 잘라 작업 버전을 얻는 것이 가능하다는 것은 분명합니다. 메모장 편집기의 검색 및 바꾸기 도구를 사용하여 이 프로세스를 자동화할 수도 있지만, 이 서비스에 내장된 기능을 사용하여 내부 링크를 원본 링크로 바꾸는 것이 훨씬 더 쉬울 것입니다.

이렇게 하려면 원하는 사이트 사본이 있는 페이지 주소를 복사하십시오(브라우저의 주소 표시줄에서 - http://web.archive.org/로 시작). 다음과 같이 보일 것입니다:

그리고 날짜(20111013120145) 끝에 "id_" 구성을 삽입하면 다음과 같습니다.

이제 변경된 주소를 다시 주소 표시 줄브라우저를 선택하고 Enter를 누르세요. 그 후에는 사이트 아카이브가 포함된 페이지가 업데이트되며 그게 전부입니다. 내부 링크곧게 됩니다. 기사의 텍스트를 다음에서 복사할 수 있습니다. 소스 코드웹 아카이브.

이런 식으로 거대한 부지를 복원하는 데는 엄청난 시간이 걸릴 것이 분명하지만 다른 선택이 없다면 이것조차도 하늘에서 내려온 만나처럼 보일 것입니다. 또한 일반적으로 이러한 콘텐츠가 거의 없는 초보 웹마스터만이 되돌릴 수 없는 콘텐츠 손실로 고통받는 반면, 비슷한 일로 여러 번 화상을 입은 경험이 어느 정도 있는 사이트 소유자는 하루에 5번씩 파일과 데이터베이스를 백업합니다.

이 마스토돈 깊이에 포함된 귀하(또는 다른 사람) 웹사이트의 모든 페이지를 보려면 다음 주소를 브라우저의 주소 표시줄에 붙여넣고 Enter 키를 눌러야 합니다.

내 도메인 대신 귀하의 도메인을 사용할 수 있습니다. 열리는 페이지에서 이를 위해 제공된 양식으로 필터를 적용할 수 있습니다.

Webarchive에서 가져오는 방법 독특한 콘텐츠사이트용

저는 개인적으로 아래 설명된 방법을 사용하지 않았지만 순전히 이론적으로는 모든 것이 작동해야 합니다. 모든 단계가 설명되어 있는 이 젊은 리소스에서 아이디어를 얻었습니다. 이 방법의 원리는 매일 수십 개의 사이트가 죽고 결코 부활하지 않는다는 것입니다.

여기에는 여러 가지 이유가 있을 수 있으며 Bose에서 사망한 대부분의 리소스는 콘텐츠 측면에서 특별한 가치를 나타내지 않았습니다. 그러나 모든 규칙에는 예외가 있으며, 밀과 왕겨를 분리하기만 하면 됩니다. 가장 중요한 것은 어느 정도 소화 가능한 콘텐츠가 있는 사라진 사이트가 웹 아카이브에 적어도 하나의 사본으로 표시되어야 한다는 것입니다.

왜냐하면 사망 후 이러한 사이트의 콘텐츠는 점차적으로 검색 엔진 색인에서 제외되며, 이론적으로 귀하는 인터넷 아카이브에서 해당 콘텐츠를 가져옴으로써 해당 사이트의 정당한 소유자이자 검색 엔진의 기본 소스가 됩니다. 그렇다면 정말 좋을 것 같습니다(리소스의 수명 동안 무자비하게 복사하여 붙여넣을 수 있는 옵션도 있습니다). 그러나 텍스트의 고유성 문제 외에도 텍스트를 찾는 문제도 있습니다.

먼저, 곧 종료되거나 이미 종료된 사이트 목록이 필요합니다. 이 방법의 작성자는 도메인 이름 등록기관 Nic.ru의 웹사이트에서 출시되었거나 이미 출시된 도메인 목록을 다운로드할 것을 제안합니다.

주목할만한 점은 이 목록의 마지막 열(Excel에서 열 수 있음)에는 웹 아카이브의 각 사이트에 대해 생성된 아카이브 수가 표시된다는 것입니다(그러나 웹 아카이브의 도메인 가용성은 숫자로 확인할 수 있습니다). 예를 들어 이것 또는 이것에 대한 온라인 서비스).

출시 중이거나 이미 출시된 부르주아 도메인 이름 목록은 이 링크에서 다운로드할 수 있습니다. 그럼, 웹 아카이브에 저장된 사이트의 내용을 살펴보고 가치 있는 것을 찾아보도록 하겠습니다. 그런 다음 이러한 자료의 고유성을 확인하고(바로 위에 링크를 제공했습니다) 성공하면 리소스에 게시하거나 일부 콘텐츠 교환에서 판매합니다.

모든 사이트는 시작과 끝이 있는 이야기입니다. 하지만 프로젝트 형성 단계를 추적하는 방법은 수명주기? 이러한 목적을 위해 특별 서비스, 이를 웹 아카이브라고 합니다. 이번 포스팅에서는 프리젠테이션에 대해 알아보겠습니다. 유사한 자원, 그 용도 및 기능.

웹 아카이브란 무엇이며 왜 필요한가요?

웹 아카이브는 다양한 인터넷 자원에 대한 정보를 수집하도록 설계된 전문 사이트입니다. 로봇은 프로젝트 사본을 자동으로 저장하고 수동 모드, 그것은 모두 사이트 및 데이터 수집 시스템에 따라 다릅니다.

~에 이 순간비슷한 메커니즘과 작업을 수행하는 사이트가 수십 개 있습니다. 그 중 일부는 민간 프로젝트로 간주되고 다른 일부는 대중에게 공개되는 비영리 프로젝트입니다. 또한 리소스는 방문 빈도, 저장된 정보의 완전성 및 수신된 기록을 사용할 가능성이 서로 다릅니다.

일부 전문가가 지적했듯이 정보 흐름 저장 페이지는 Web 2.0의 중요한 구성 요소로 간주됩니다. 즉, 끊임없이 진화하는 인터넷 개발 이념의 일부입니다. 수집 메커니즘은 매우 평범하지만 더 이상 고급 방법이나 유사점이 없습니다. 웹 아카이브를 사용하면 시간 경과에 따른 정보 추적, 손실된 사이트 복원, 정보 검색 등 여러 문제를 해결할 수 있습니다.

웹 아카이브를 사용하는 방법은 무엇입니까?

위에서 언급했듯이 웹 아카이브는 역사상 특정 종류의 검색 서비스를 제공하는 사이트입니다. 프로젝트를 사용하려면 다음을 수행해야 합니다.

전문 리소스(예: web.archive.org)로 이동합니다.

특수 필드에 검색할 정보를 입력하세요. 이는 도메인 이름일 수도 있고 키워드일 수도 있습니다.

관련 결과를 얻으세요. 이는 하나 이상의 사이트로 구성되며 각 사이트에는 크롤링 날짜가 고정되어 있습니다.

날짜를 클릭하면 해당 자료로 이동하여 개인 용도로 정보를 사용합니다.

나중에 프로젝트의 역사적 기록을 검색할 수 있는 전문 사이트에 대해 이야기할 테니 계속 함께해주세요.

사이트 기록을 제공하는 프로젝트

오늘날에는 다음을 제공하는 여러 프로젝트가 있습니다. 서비스저장된 사본을 찾으려면 그 중 일부는 다음과 같습니다.

사용자들 사이에서 가장 인기 있고 수요가 많은 곳은 web.archive.org입니다. 제시된 사이트는 인터넷에서 가장 오래된 것으로 간주되며 그 생성 날짜는 1996년으로 거슬러 올라갑니다. 서비스가 자동으로 진행되며, 수동 수집데이터 및 모든 정보는 거대한 외국 서버에서 호스팅됩니다.

두 번째로 인기 있는 사이트는 peeep.us입니다. 이 리소스는 귀하만 접근할 수 있는 정보 흐름의 사본을 저장하는 데 사용될 수 있기 때문에 매우 흥미롭습니다. 이 프로젝트는 모든 도메인 이름과 함께 작동하며 웹 아카이브 사용 범위를 확장합니다. 정보의 완전성을 위해 제시된 사이트는 사진과 프레임을 저장하지 않습니다. 2015년부터 러시아 금지 품목 목록에도 포함되었습니다.

위에서 설명한 것과 유사한 프로젝트는 archive.is입니다. 차이점에는 정보 수집의 완전성과 페이지를 저장하는 기능이 포함됩니다. 소셜 네트워크. 따라서 게시물을 분실했거나 흥미로운 정보, 웹 아카이브를 통해 검색할 수 있습니다.

웹 아카이브 사용 가능성

이제 모든 사람은 웹 아카이브가 무엇인지, 어떤 사이트가 프로젝트 사본 저장 서비스를 제공하는지 알고 있습니다. 그러나 많은 사람들은 제시된 정보를 사용하는 방법을 아직도 이해하지 못하고 있습니다. 아카이브 데이터의 기능은 다음과 같이 표현됩니다.

도메인 이름을 선택합니다. 많은 웹마스터가 이미 업그레이드된 도메인을 사용하고 있다는 것은 비밀이 아닙니다. 이해할만한 가치가 있습니다. 경험이 풍부한 사용자대상 매개변수뿐만 아니라 이력도 추적합니다. 이전 사용. 모든 네트워크 사용자는 이전에 금지나 제재가 있었는지, 프로젝트가 필터 대상이었는지 등 자신이 무엇을 구매하는지 알고 싶어합니다.

아카이브에서 사이트를 복원합니다. 때로는 당신의 존재를 위협하는 재난이 일어나기도 합니다. 자신의 프로젝트. 호스팅 프로필의 적시 백업 부족 및 무작위 오류비극으로 이어질 수 있습니다. 이런 일이 발생하더라도 웹 아카이브를 사용할 수 있으므로 당황하지 마십시오. 아래에서 복구 프로세스에 대해 이야기하겠습니다.

독특한 콘텐츠를 검색하세요. 매일 콘텐츠로 가득 찬 사이트가 인터넷에서 죽어가고 있습니다. 이는 특히 일관성이 있기 때문에 발생하므로 엄청난 양의 정보 흐름이 손실됩니다. 시간이 지남에 따라 이러한 페이지는 색인에서 제외되며 유능한 웹마스터는 개인 프로젝트를 위해 정보를 빌릴 수 있습니다. 물론 검색 문제도 있지만 그건 부차적인 문제다.

지금까지 웹 아카이브가 제공하는 주요 기능을 살펴보았습니다. 이제 개별 요소에 대한 보다 자세한 연구로 넘어갈 차례입니다.

웹 아카이브에서 웹사이트 복원

누구도 웹사이트 문제로부터 안전하지 않습니다. 대부분은 백업을 사용하여 해결됩니다. 그런데 호스팅 서버에 저장된 사본이 없다면 어떻게 될까요? 웹 아카이브를 사용하세요. 이렇게 하려면 다음을 수행해야 합니다.

앞서 이야기한 전문 리소스로 이동하세요.

검색창에 자신의 도메인 이름을 입력하고 새 창에서 프로젝트를 엽니다.

문제 날짜에 더 가깝고 전체적인 모습을 볼 수 있는 가장 성공적인 사진을 선택하세요.

내부 링크를 직접 링크로 수정하세요. 이렇게 하려면 "http://web.archive.org/web/any_sequence_number_id_/사이트 이름" 링크를 사용하세요.

복사 잃어버린 정보또는 복원에 적용할 설계 데이터.

아카이브 속도를 고려할 때 프로세스가 다소 지루하다는 점에 유의하세요. 따라서 대규모 웹 리소스의 소유자는 백업을 더 자주 수행하여 시간과 노력을 절약할 것을 권장합니다.

우리는 우리 웹사이트를 위한 독특한 콘텐츠를 찾고 있습니다.

일부 웹마스터는 다음을 사용합니다. 흥미로운 방법새 것을 사는데 아무도 없어 필수 내용. 매일 수백 개의 사이트가 망각되고 정보도 함께 손실됩니다. 콘텐츠 소유자가 되려면 다음을 수행해야 합니다.

URL을 입력하세요
검색창에 https://www.nic.ru/auction/forbuyer/download_list.shtml#buying을 입력하세요.

도메인 이름 경매 웹사이트에서 이름이 ru인 파일을 다운로드합니다.

다음에서 받은 파일 열기 엑셀을 사용하여설계 정보의 가용성에 따라 선택을 시작합니다.

웹 아카이브 검색 페이지의 목록에서 찾은 프로젝트를 입력하세요.

스냅샷을 열고 정보 흐름에 액세스하세요.

콘텐츠 표절 여부를 모니터링하는 것이 좋습니다. 이를 통해 진정으로 가치 있는 텍스트를 찾을 수 있습니다. 그리고 그게 다야! 이제 모두가 웹 아카이브 사용 가능성과 방법을 알고 있습니다. 지식을 현명하고 유익하게 사용하십시오.

웹 아카이브 사용 방법. 웹 아카이브에서 고유한 콘텐츠를 추출하는 방법. 웹 아카이브 사용 가능성

오타 신고

편집자에게 전송될 텍스트:

귀하의 의견(선택사항):