Софт и сервисы для профессионального поиска. Секреты поиска в интернет и необычные поисковики

Преимущественно медиафайлы. На полном серьезе, без шуток.

Введение

Бывает, случается так, что вы хотите скачать альбом 2007 года исполнителя, который кроме вас известен 3.5 людям, какой-нибудь испанский ска-панк или малопопулярный спидкор европейского происхождения. Находите BitTorrent-раздачу, ставите на закачку, быстро скачиваете 14.7%, и… все. Проходит день, неделя, месяц, а процент скачанного не увеличивается. Вы ищете этот альбом в поисковике, натыкаетесь на форумы, показывающие ссылки только после регистрации и 5 написанных сообщений, регистрируетесь, флудите в мертвых темах, вам открываются ссылки на файлообменники вроде rapidshare и megaupload, которые уже сто лет как умерли.

Увы, частая ситуация в попытке хоть что-то скачать

Такое случается. В последнее время, к сожалению, случается чаще: правообладатели и правоохранительные органы всерьез взялись за файлообмен; в прошлом году закрылись или были закрыты KickassTorrents, BlackCat Games, what.cd, btdigg, torrentz.eu, EX.ua, fs.to, torrents.net.ua, и еще куча других сайтов. И если поиск свежих рипов фильмов, сериалов, музыки, мультиков все еще не представляет большой проблемы, несмотря на многократно участившееся удаления со стороны правообладателей контента из поисковых систем, торрент-трекеров и файлообменников, то поиск и скачивание оригинала (DVD или Blu-Ray) фильмов и сериалов или просто ТВ-рипов 7-летней давности на не-английском и не-русском языке - не такая уж простая задача.

Зачем это нужно?

   Отсутствие некоторых релизов на дисках
В случае с видео, иногда случается так, что картину дублируют и транслируют по телевидению в какой-то стране, а на дисках не выпускают. Капперы выкладывают ТВ-рипы в файлообменные сети или BitTorrent, затем выходят DVD в другой стране, без соответствующей аудиодорожки, например, французской, и люди вынуждены либо качать DVDRip с хорошим качеством видео без французской дорожки, либо ТВ-рип с ней. Проходит время, ТВ-рип раздают все меньше и меньше людей, он удаляется с файлообменников из-за неактивности, и все - французский релиз становится скачать гораздо сложнее.
Проблему можно было бы решить, совместив аудиодорожку из ТВ-рипа с доступным видео из DVD, что не всегда так просто, как кажется. Этим никто не занялся и ТВ-версия умерла.

   Отличие контента ТВ- и DVD-версии
Например, мультсериал «Дарья » лишился почти всей музыки, которая была в ТВ-версии, из-за юридических проблем с перелицензированием. Долгое время люди, желающие посмотреть данный сериал, стояли перед выбором: либо полноценная ТВ-версия с музыкой и плохим качеством видео, либо DVD-версия с хорошим качеством, но без музыки.

   Региональные различия
Справедливы как для видео, так и для музыки. Мультсериал W.I.T.C.H. выпускался с 4 разными опенингами, только один из которых попал на DVD.
Зачастую, музыкальные альбомы, выпускаемые для рынка Японии, содержат бонусные треки, которых нет в других изданиях.

Как вы уже поняли, причин может быть множество. Где искать непопулярные и старые файлы?

Usenet

Usenet - распределенная сеть из серверов, синхронизирующих информацию между собой. Структура Usenet напоминает что-то среднее между форумами и электронной почтой: в «новостных группах» (так называются тематические категории в Usenet) сообщения имеют древовидную структуру, пользователи могут подписываться на конкретные группы, читать и писать в них. Как и в Email, у сообщений есть тема (subject), которая позволяет ориентироваться в содержании дискуссий. Сейчас используется преимущественно для обмена файлами.

История Usenet

Появившаяся в 1979 году, в до-интернетовскую эпоху сеть использовала прямые модемные соединения для передачи информации через UUCP и была инструментом преимущественно текстового общения. В свое время Usenet конкурировал с BBS, существовали специальные шлюзы в и из Fidonet. С приходом интернета, сообщения Usenet начали передаваться по TCP/IP, используя протокол NNTP, который остается относительно используемым и вне Usenet (например, можно читать огромное количество публичных списков рассылок через gmane и RSS-фиды через gwene , причем, в отличие от списков рассылок, вы всегда можете посмотреть всю историю, а не только сообщения с момента вашей подписки).


С увеличением пропускной способности линий, улучшением модемов и их протоколов, к девяностым сеть уже вовсю использовали для передачи бинарных файлов: вареза, музыки, видеофайлов. Делалось это примерно таким же образом, как и в Email: файл разбивается на небольшие части (тома), кодируется печатными символами в 7-битной кодировке с использованием Base64 или uuencode, и отправляется в ньюсгруппу. Кодирование в 7 бит добавляет около 30% накладных расходов на передачу файла. Спецификация позволяет использовать большинство символов из ASCII-таблицы, поэтому в 2001 году появляется алгоритм передачи файлов yEnc, увеличивающий файл всего на 1-2%, экранируя только символы переноса строки, NULL-байты и символ равенства (=). Им пользуются и по сей день.
Для контроля целостности и восстановления поврежденных или отсутствующих данных используется Parchive .


До 2008 года крупнейшие Usenet-провайдеры хранили бинарные файлы около 100-150 дней с момента их загрузки (так называемый retention time, срок хранения файлов). С 2008 года самые крупные провайдеры вообще перестали что-либо удалять, и на текущий момент можно без проблем скачать файлы восьмилетней давности, а провайдеры поменьше выставили retention time в 1000+ дней, что тоже немало. К этому моменту текстовое общение в Usenet сошло на нет и сеть использовалась преимущественно для хранения и передачи файлов.

Начиная где-то с середины 2011 года за сетью начали следить правообладатели, из-за чего Usenet-провайдерам пришлось удалять файлы, что сильно повлияло на целостность релизов. Некоторые провайдеры сделали автоматизированные системы удаления файлов, чтобы правообладатели могли удалять загрузки самостоятельно. Дабы предотвратить или хотя бы замедлить обнаружение файлов правообладателями, энтузиасты начинают загружать файлы с обфусцированными именами, в архивах под паролями, и добавляют их в каталоги систем индексации релизов (indexers), доступ к которым, как правило, осуществляется либо за деньги, либо по приглашениям. Обычными способами ни найти, ни скачать такие релизы не удастся.

В современной России о Usenet почти никому не известно, хотя рунет зарождался именно с него, по протоколу UUCP, и был одним из двух рабочих каналов для связи с Западом во время путча 1991 года (второй - FIDO). Сейчас Usenet наиболее популярен в странах, законы которых позволяют штрафовать пользователей за скачивание или раздачу контента, защищенного авторским правом, например, в Германии. В отличие от BitTorrent, узнать IP-адресы пользователей Usenet сторонней организации невозможно.

Подключение к Usenet

Полноценно пользоваться сетью бесплатно, скорее всего, не получится: либо столкнетесь с низким временем хранения файлов (10-30 дней), либо с низкой скоростью, либо получите доступ только к текстовым группам. Придется купить доступ у какого-нибудь провайдера или их реселлеров. Большинство провайдеров имеют два типа тарифов: месячный абонемент без ограничений по количеству скачанного (unlimited) и пакет трафика без ограничения по времени (block). Если вы собираетесь качать файлы из сети пару раз в месяц, block-доступа вам хватит надолго.
Крупнейшими провайдерами являются Altopia , Giganews , Eweka , NewsHosting , Astraweb .

Теперь нужно каким-то образом получить nzb-файл с метаинформацией, это что-то вроде.torrent-файла. Если у вас его нет, нужно воспользоваться поисковиком-индексатором.

Индексаторы

Общедоступные индексаторы завалены спамом с вирусами и ищут, как правило, плохо, но, тем не менее, подходят для поиска устаревших файлов, загруженных около 5 и более лет назад.
Вот некоторые из них:

Бесплатные индексаторы, требующие регистрацию, больше подходят для файлов посвежее. Они хорошо каталогизированы, релизы имеют не только название, но и описание с картинкой.

Последние два особенно рекомендую, в них можно найти множество обфусцированных релизов.
Существуют и узконаправленные сайты. Например, индексатор аниме anizb и музыки albumsindex .

Скачивание с Usenet

Давайте попробуем скачать фильм The FP 2011 года, достаточно неизвестный и непопулярный, BDRip"а которого в 1080p так просто найти мне не удалось. Для этого вам нужно найти nzb-файл и импортировать его в программу для закачки, например, NZBGet или SABnzbd , предварительно ее установив.
Заходим на nzbking.com , выполняем поиск по «the.fp.2011».

Видим в индексе файл, у которого доступна только одна часть из 3867. Такой файл не скачать, поэтому индексатор отображает этот параметр красным цветом.

Файлы, защищенные паролем, как правило, являются просто фейками.

На второй странице обнаруживается DVDRip, с адекватным размером, в архиве без пароля - хороший знак.



На третьей странице находим BDRip и несколько DVDRip"ов, похожих на настоящие (судя по размеру файла и дате загрузки).
Выбираем файлы, которые хотим скачать, нажимаем кнопку «Download NZB», скачиваем.nzb-файл и импортируем его в NZBGet или SABnzbd, предварительно вписав данные своего Usenet-аккаунта в настройки программы. Начинается скачивание со скоростью канала моего провайдера.



По окончанию скачивания, NZBGet автоматически распакует архивы и удалит их. Файл размером 6.74 ГБ, загруженный 4.5 года назад, скачался за 15 минут!

IRC / DCC / XDCC

Internet Relay Chat - протокол текстового общения, до сих пор пользующийся популярностью у разработчиков свободного ПО, администраторов торрент-трекеров, анимешников и авторов ботнетов из-за своей простоты. Появившийся в 1989 году, IRC стал стандартом групповых чатов в интернете на долгие годы, и начинает терять популярность только к середине 2000-х, с приходом ICQ и Jabber. В IRC существует возможность передачи файлов - DCC , на основе которой в 1994 году был написан первый бот для автоматического распространения доступных боту файлов - Xabi DCC (отсюда и название - XDCC).

На сегодняшний день существуют как отдельные каналы, так и целые серверы, посвященные файлообмену через XDCC. Почти у любой мало-мальски серьезной аниме релиз-группы, у которой даже может не быть веб-сайта, есть свой бот, с которого можно скачать все релизы группы независимо от их возраста. Популярность XDCC обусловлена функциональностью скриптов, легкостью их настройки и администрирования: выкладывающему релиз достаточно загрузить каким-либо образом файл на сервер с ботом, например по FTP, а бот сам добавит его в индекс, оповестит пользователей на канале о появлении нового файла, автоматически отправит его пользователям, подписавшимся на обновления этого бота (например, если это новый эпизод сериала).

В специальных IRC-сетях распространяют варез, свежие и не очень фильмы, музыку, игры, книги. XDCC не наделен вниманием правообладателей, поэтому у ботов можно найти множество вещей, которые сложно найти в других местах.

Индексаторы

Многие (но не все) XDCC-боты индексируются специальными скриптами, предоставляющими веб-интерфейс для эффективного поиска файлов.
Общие индексаторы контента:

Индексаторы аниме:

Скачивание из IRC

Вам потребуется IRC-клиент, подойдет практически любой (подавляющее большинство клиентов поддерживает DCC). Подключаемся к интересующему вас серверу из списка, заходим на канал. Крупнейшие серверы с книгами :
  • irc.undernet.org, канал #bookz
  • irc.irchighway.net, канал #bookz
Варезом :
  • irc.criten.net, канал #elitewarez
  • irc.infatech.net, канал #elitewarez
  • irc.scenep2p.net, канал #the.source
Фильмами :
  • irc.abjects.net, канал #moviegods
  • irc.abjects.net, канал #beast-xdcc
Мультфильмами и аниме :
  • irc.rizon.net, канал #news
  • irc.xertion.org, канал #cartoon-world
Все версии ботов принимают команду!find или @find для поиска файлов, после чего отправляют результаты личным сообщением. Для популярных запросов на каналах с большим количеством ботов вас буквально заспамит ответами, поэтому, если канал поддерживает команду @search , лучше воспользоваться ей - специальный индексатор канала отправит вам результаты одним файлом через DCC.

Попробуем скачать «How Music Got Free» («Как музыка стала свободной» по-русски) - замечательная книга об истории музыкальной индустрии, технологиях обмена музыкой и человеке, который почти в одиночку стащил 2000 альбомов и выложил их в сеть.


Бот присылает результат поиска в виде ZIP-архива с текстовым файлом:

Отправляем боту запрос на скачивание файла:

…и принимаем его!


Конечно, не обязательно искать напрямую на канале. Если вы нашли нужный файл через индексатор, можете сразу запросить его у бота командой, которую вам сгенерирует сайт.

DC++

Direct Connect-сеть представляет собой клиент-серверную архитектуру, где все коммуникации, кроме непосредственно обмена файлами, происходят через сервер. В DC++ есть возможность расшаривания файлов и директорий, поиск файлов с учетом их типа (видео, аудио, архивы, документы, образы дисков), ссылки на файлы, независящие от имени файла и, конечно же, чат, из-за чего DC++-хабы были очень популярны в локальных сетях интернет-провайдеров РФ. Сибирский провайдер GoodLine рекламировал свой внутрисетевой хаб на уличных рекламных щитах, писал ПО для упрощения файлообмена и даже встраивал его в свои Set-top box, чтобы клиенты могли смотреть новинки кинематографа прямо с телевизора. На хабе сидело более 100000 человек - больше, чем в любом другом хабе в мире.


Из-за того, что пользователю достаточно указать путь к файлам, к которым он хочет открыть публичный доступ, в DC++ можно найти жуткое, малоизвестное старьё, которое, по мнению пользователя с этим файлом, уж точно никому не сдалось, но он его все равно расшарил, так, на всякий случай.

3 человека раздают видеоурок 11-летней давности, который ни одному вменяемому человеку смотреть не захочется, поверьте.

Скачивание из DC++

Вам потребуется какой-нибудь DC-клиент. Под Windows рекомендую FlylinkDC++ (который, к тому же, поддерживает BitTorrent), под Linux - и AirDC++ Web . Далее нужно подключиться к популярным хабам, лучше сразу к десятку. Список хабов есть в самих программах, но можно воспользоваться специальной страницей и скопировать адреса оттуда.

Настоятельно рекомендую включить «активный» режим, пробросить порты, ввести ваш внешний IP-адрес в настройках программы и удостовериться, что к вам возможны подключения извне, иначе, в «пассивном» режиме у вас будут ограничения на количество результатов поиска, вы не сможете качать файлы с других пользователей в «пассивном» режиме.


Поиск и скачивание файлов интуитивно понятно: вводите название, опционально выбираете тип контента и фильтр по размеру, нажимаете кнопку поиска, кликаете два раза по результату, файл начинает скачиваться. Также можно посмотреть все файлы пользователя (и, например, скачать папку с найденным файлом целиком), нажав правой кнопкой по конкретному результату и выбрав соответствующий пункт меню.


Если нужного вам файла не нашлось, имеет смысл периодически повторять поиск. Некоторые люди запускают DC-клиент только тогда, когда им нужно что-то скачать, и вам нужно поймать момент, чтобы найти файл у таких пользователей.

Из-за ограничений протокла NMDC , одновременный поиск нескольких файлов затруднен, результаты одного поискового запроса могут перемешиваться и отображаться в соседних окнах поиска, поэтому лучше не искать несколько файлов одновременно. У хабов, работающих по протоколу ADC , таких ограничений нет, но и таких хабов удручающе мало (их URI начинается с adc:// , а не с dchub://).

Индексаторы

Поиск внутри программы может найти только файлы пользователей, находящихся в DC-сети на момент поиска, поэтому индексаторы очень полезны для нахождения и скачивания файлов с редко запускающих программу людей.

Насколько мне известно, полноценный индексатор DC++ есть только один - spacelib.dlinkddns.com (и его второй адрес dcpoisk.no-ip.org). Поиск основан на движке Sphinx и учитывает морфологию (в том числе и русского языка). Поисковик генерирует magnet-ссылки для результатов поиска, которые можно поставить на закачку в клиенте.
Иногда он подолгу недоступен, например, в прошлый раз он не работал два месяца подряд.

eDonkey2000 (ed2k), Kad

ed2k - протокол децентрализованной передачи файлов, требующий сервер-хаб для нахождения пользователей и соединения с ними. Был протоколом №1 для передачи файлов среди всех слоев населения, до закрытия самого популярного сервера Razorback 2 в 2006 году и роста популярности BitTorrent.

EDonkey2000 выжил. Этому поспособствовал протокол полностью децентрализованного обмена Kad, который был внедрен в сторонние клиенты незадолго до закрытия Razorback 2 и главного сервера оригинальной программы, уступающей в функциональности и скорости альтернативным реализациям.

В ed2k можно найти примерно то же самое, что и в DC++ - старые файлы, ТВ-шоу на разных языках, разнообразную музыку, игры, варез, старые книги по программированию, математике, биологии. Новинки, разумеется, тоже в наличии. Хоть протокол и поддерживает чаты и просмотр всех файлов пользователя в открытом доступе, эти функции по умолчанию отключены, и, скорее всего, вам не удастся пообщаться с интересующими вас людьми через программу.

Скачивание в eDonkey2000 / Kad

Как вы уже догадались, потребуется ed2k-клиент. Хороший выбор для Linux - aMule , для Windows, наверное, eMule , хоть он и не обновлялся с 2011. Крайне рекомендую пробросить порты, чтобы иметь возможность скачивать с пользователей за NAT (LowID).

Процесс поиска и скачивания файлов очень похож на таковой в DC++ - вводим поисковой запрос, получаем результаты поиска с пользователей, находящихся онлайн, кликаем на файлы для начала скачивания.
Файл отобразится в результатах даже в том случае, у пользователей, находящихся онлайн, есть только его части, но не файл целиком.

Попробуем найти малоизвестный документальный фильм 2009 года We Live In Public - картину, повествующую о событиях 90-х, которые частично предсказали современный интернет. Часть времени в фильме уделяется сайту pseudo.com - сервису аудио- и видеотрансляций, основанном в 1993 году.

Вводим поисковую фразу, получаем результаты:


Кликаем, начинается скачивание:

Загрузка файла может растянуться на недели и месяцы. По какой-то причине, многие пользователи сети имеют отвратительное интернет-соединение, да еще и появляются раз в неделю на пару часов, а то и меньше.

Soulseek

Soulseek - централизованная сеть обмена музыкальным файлами по принципу P2P, созданная в 2000 году одним из разработчиков Napster. Долгое время была популярна среди слушателей и авторов IDM и прочей электронной музыки, и по сей день сеть развивается и остается хорошим местом для поиска аудиофайлов. Есть групповые и приватные чаты, возможность раздачи файлов только друзьям, удобный поиск музыки с указанием битрейта и других характеристик аудиофайлов. Некоторые поисковые запросы цензурируются.

Существует официальный кроссплатформенный проприетарный клиент SoulseekQt и два развивающихся неофициальных: Nicotine+ и Museek+ .

BitTorrent DHT

Все популярные клиенты BitTorrent могут искать пиров и обмениваться торрент-файлами через распределенную хеш-таблицу (DHT). Этим пользуются не только компании, отслеживающие раздающих файл пользователей, по договору с правообладателями контента, но и индексаторы, которые пытаются получить torrent-файл с infohash из DHT-запроса и сохранить его в своей базе. Индексаторы могут найти нигде не опубликованный или просто редкий торрент по названию директории или файла, а также различные дубликаты интересующего вас торрента с потенциальными сидерами.
Ранее самым популярным индексатором был ныне неработающий сценой . https://ru.wikipedia.org/wiki/Релизная_группа
Сценические релизы очень часто содержат сокращенные или намеренно испорченные имена архивов, которые нельзя найти обычным поиском по имени файла. Чтобы узнать настоящее имя, нужно поискать его в специальных индексаторах сцен-релизов: layer13.net , pre.corrupt-net.org и predb.me .

Попробуем узнать сценическое название архивов с релизом We Live In Public от PUZZLE на Layer13:


NFO-файл называется «puzzle-wlip.nfo». Названия архивов практически всегда, в 99% случаев совпадают с названием NFO, поэтому попробуем поискать это название в Usenet-индексаторе:


Ура, теперь мы можем скачать DVD фильма!

Обычные поисковые системы вроде Google не всегда будут вам помощниками. Во-первых, Google следует букве закона и удаляет (скрывает) результаты с сайтов, о которых сообщают ему правообладатели в рамках DMCA , во-вторых, поиск контента с названием из спецсимволов затруднен: проблемно найти что-либо о W.I.T.C.H. , вам постоянно подсовывают информацию о Witch , The Witch или Blair Witch . Я предпочитаю пользоваться DuckDuckGo , Bing и метапоисковиком SearX - через них можно найти материалы, недоступные в Google.
Если вас интересует релиз на конкретном языке, уместней узнать локализованное название и совершать поиск по нему. Получить подобную информацию можно на Wikipedia, IMDb и других подобных сайтах.

Для аниме есть anidb , хранящий информацию о релизах групп на разных языках. Карточка группы, как правило, содержит ссылку на сайт или IRC-канал, где можно пообщаться с ее членами и скачать файлы через XDCC.


Помимо источника, разрешения видео, языков аудиодорожек и субтитров, на anidb есть TTH-хеш для DC++ и ed2k-ссылка для каждого файла.


Заключение

Примерно так я ищу нужные мне файлы. В посте намеренно не упомянуты очевидные вещи, вроде покупки дисков с Amazon или Ebay и поиска по популярным открытым и закрытым Torrent-трекерам. Все способы применимы для медиаконтента из Европы и США, мне никогда не приходилось искать, например, арабский и индийский контент, поэтому не могу сказать, насколько они эффективны.

Скрытый текст

А еще Usenet можно использовать для дешевого хранения резервных копий: шифруем файлы, покупаем доступ в Usenet за $10, загружаем файлы, через 4 года опять покупаем доступ и скачиваем их за еще одни $10. В отличие от облаков, в Usenet не нужно оплачивать хранение файлов. Но без фанатизма, а то удалят.

Добавить метки

Для профессионального поиска в Интернете необходимы специализированный софт, а также специализированные поисковики и поисковые сервисы.

ПРОГРАММЫ

http://dr-watson.wix.com/home – программа предназначена для исследования массивов текстовой информации с целью выявления сущностей и связей между ними. Результат работы – отчет об исследуемом объекте.

http://www.fmsasg.com/ - одна из лучших в мире программ по визуализации связей и отношений Sentinel Vizualizer . Компания полностью русифицировала свои продукты и подключил горячую линию на русском.

http://www.newprosoft.com/ – “Web Content Extractor” является наиболее мощным, простым в использовании ПО извлечения данных из web сайтов. Имеет также эффективный Visual Web паук.

http://neowatcher.com/ru/ – полезная и простая программа для отслеживания изменений на сайтах. Количество сайтов не ограниченно.

SiteSputnik не имеющий в мире аналогов программный комплекс, позволяющий вести поиск и обработку его результатов в Видимом и Невидимом Интернете, используя все необходимые пользователю поисковики.

WebSite-Watcher – позволяет проводить мониторинг веб-страниц, включая защищенные паролем, мониторинг форумов, RSS каналов, групп новостей, локальных файлов. Обладает мощной системой фильтров. Мониторинг ведется автоматически и поставляется в удобном для пользователя виде. Программа с расширенными функциями стоит 50 евро. Постоянно обновляется.

http://www.scribd.com/ – наиболее популярная в мире и все более широко применяемая в России платформа размещения различного рода документов, книг и т.п. для свободного доступа с очень удобным поисковиком по названиям, темам и т.п.

http://www.atlasti.com/ – представляет собой самый мощный и эффективный из доступных для индивидуальных пользователей, небольшого и даже среднего бизнеса инструмент качественного анализа информации. Программа многофункциональная и потому полезная. Совмещает в себе возможности создания единой информационной среды для работы с различными текстовыми, табличными, аудио и видеофайлами, как единым целым, а также инструменты качественного анализа и визуализации.

Ashampoo ClipFinder HD – все возрастающая доля информационного потока приходится на видео. Соответственно, конкурентным разведчикам нужны инструменты, позволяющие работать с этим форматом. Одним из таких продуктов является представляемая бесплатная утилита. Она позволяет осуществлять поиск роликов по заданным критериям на видеофайловых хранилищах типа YouTube. Программа проста в использовании, выводит на одну страницу все результаты поиска с подробными сведениями, названиями, длительностью, временем, когда видео было загружено в хранилище и т.п. Имеется русский интерфейс.

http://www.advego.ru/plagiatus/ – программа сделана seo оптимизаторами, но вполне подходит как инструмент интернет-разведки. Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL. Программа бесплатная.

http://neiron.ru/toolbar/ – включает надстройку для объединения поиска Google и Yandex, а также позволяет осуществлять конкурентный анализ, базирующийся на оценке эффективности сайтов и контекстной рекламы. Реализован как плагин для FF и GC.

http://web-data-extractor.net/ – универсальное решение для получения любых данных, доступных в интернете. Настройка вырезания данных с любой страницы производится в несколько кликов мыши. Вам нужно просто выбрать область данных, которую вы хотите сохранять и Datacol сам подберет формулу для вырезания этого блока.

CaptureSaver – профессиональный инструмент исследования интернета. Просто незаменимая рабочая программа, позволяющая захватывать, хранить и экспортировать любую интернет информацию, включая не только web страницы, блоги, но и RSS новости, электронную почту, изображения и многое другое. Обладает широчайшим функционалом, интуитивно понятным интерфейсом и смешной ценой.

http://www.orbiscope.net/en/software.html – система веб мониторинга по более чем доступным ценам.

http://www.kbcrawl.co.uk/ – программное обеспечение для работы, в том числе в «Невидимом интернете».

http://www.copernic.com/en/products/agent/index.html – программа позволяет вести поиск, используя более 90 поисковых систем, более чем по 10 параметрам. Позволяет объединять результаты, устранять дубликаты, блокировать нерабочие ссылки, показывать наиболее релевантные результаты. Поставляется в бесплатной, личной и профессиональной версиях. Используется больше чем 20 млн.пользователей.

Maltego – принципиально новое программное обеспечение, позволяющее устанавливать взаимосвязь субъектов, событий и объектов в реале и в интернете.

СЕРВИСЫ

new http://www.intelsuite.com/en – онлайн платформа для углубленной интернет-разведки. Цена 69 евро в месяц.

http://linkurio.us/ – новый мощный продукт для работников экономической безопасности и расследователей коррупции. Обрабатывает и визуализирует огромные массивы неструктурированной информации из финансовых источников.

http://www.intelsuite.com/en – англоязычная онлайн платформа для конкурентной разведки и мониторинга.

http://yewno.com/about/ – первая действующая система перевода информации в знания и визуализации неструктурированной информации. В настоящее время поддерживает английский, французский, немецкий, испанский и португальский языки.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозно-аналитические сервисы Андрея Масаловича.

https://www.outwit.com/products/hub/ – полный набор автономных программ для профессиональной работы в web 1.

http://www.iptrackeronline.com/email-header-analysis.php - сервис анализа email .

https://github.com/search?q=user%3Acmlh+maltego – расширения для Maltego.

http://www.whoishostingthis.com/ - поисковик по хостингу, IP адресам и т.п.

http ://appfollow .ru / – анализ приложений на основе отзывов, ASO оптимизации, позиций в топах и поисковых выдачах для App Store , Google Play и Windows Phone Store .

http://spiraldb.com/ – сервис, реализованный как плагин к Chrom , позволяющий получить множество ценной информации о любом электронном ресурсе.

https://millie.northernlight.com/dashboard.php?id=93 - бесплатный сервис, собирающий и структурирующий ключевую информацию по отраслям и компаниям. Есть возможность использования информационных панелей основанных на текстовом анализе.

http://byratino.info/ – сбор фактографических данных из общедоступных источников в сети Интернет.

http://www.datafox.co/ – CI платформа собирающая и анализирующая информацию по интересующим клиентов компаниям. Есть демо.

https://unwiredlabs.com/home - специализированное приложение с API для поиска по геолокации любого устройства, подключенного к интернету.

http://visualping.io/ – сервис мониторинга сайтов и в первую очередь имеющихся на них фотографий и изображений. Даже если фотография появилась на секунду, она будет в электронной почте подписчика. Имеет плагин для G oogleC hrome.

http://spyonweb.com/ – исследовательский инструмент, позволяющий осуществить глубокий анализ любого интернет-ресурса.

http://bigvisor.ru/ – сервис позволяет отслеживать рекламные компании по определенным сегментам товаров и услуг, либо конкретным организациям.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкция Артема Агеева по использованию программ Windows для нужд конкурентной разведки.

http://granoproject.org/ – инструмент с открытым исходным кодом для исследователей, которые отслеживают сети связей между персонами и организациями в политике, экономике, криминале и т.п. Позволяет соединять, анализировать и визуализировать сведения, полученные из различных источников, а также показывать существенные связи.

http://imgops.com/ - сервис извлечения метаданных из графических файлов и работы с ними.

http://sergeybelove.ru/tools/one-button-scan/ - маленький он-лайн сканер для проверки дыр безопасности сайтов и других ресурсов.

http://isce-library.net/epi.aspx – сервис поиска первоисточников по фрагменту текста на английском языке

https://www.rivaliq.com/ – эффективный инструмент для ведения конкурентной разведки на западных, в первую очередь, европейских и американских рынках товаров и услуг.

http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

http://falcon.io/ – своего рода Rapportive для Web. Он не является заменой Rapportive, а дает дополнительные инструменты. В отличие от Rapportive дает общий профиль человека, как бы склеенный из данных из социальных сетей и упоминаний в web.http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – дополнение для Firefox. Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

http://agregator.pro/ – агрегатор новостных и медийных порталов. Используется маркетологами, аналитиками и т.п. для анализа новостных потоков по тем или иным темам.

http://price.apishops.com/ – автоматизированный веб-сервис мониторинга цен по выбранным товарным группам, конкретным интернет-магазинам и другим параметрам.

http://www.la0.ru/ – удобный и релевантный сервис анализа ссылок и бэклинков на интернет-ресурс.

www.recordedfuture.com – мощный инструмент анализа данных и их визуализации, реализованный как он-лайн сервис, построенный на «облачных» вычислениях.

http://advse.ru/ – сервис под слоганом «Узнай все про своих конкурентов». Позволяет в соответствии с поисковыми запросами получить сайты конкурентов, анализировать рекламные компании конкурентов в Google и Yandex.

http://spyonweb.com/ – сервис позволяет определить сайты с одинаковыми характеристиками, в том числе, использующими одинаковые идентификаторы сервиса статистики Google Analytics, IP адреса и т.п.

http://diphur.com/introduction – приложение для мониторинга любых сайтов. Уведомляет об обновлении сайтов и приносит обновления. Версия бесплатная.

http://www.connotate.com/solutions – линейка продуктов для конкурентной разведки, управления информационными потоками и преобразования сведений в информационные активы. Включает как сложные платформы, так и простые дешевые сервисы, позволяющие эффективно вести мониторинг вместе с компрессией информации и получением только нужных результатов.

http://www.clearci.com/ – платформа конкурентной разведки для бизнеса различных размеров от стартапов и маленьких компаний до компаний из списка Fortune 500. Решена как saas.

http://saplo.com/ – новый, но уже получивший в мире признание, шведский стартап, разработавший линейку продуктов по data text. Все продукты имеют API.

http://startingpage.com/ – надстройка на Google, позволяющая вести поиск в Google без фиксации вашего IP адреса. Полностью поддерживает все поисковые возможности Google, в том числе и а русском языке.

http://newspapermap.com/ – уникальный сервис, очень полезный для конкурентного разведчика. Соединяет геолокацию с поисковиком он-лайн медиа. Т.е. вы выбираете интересующий вас регион или даже город, или язык, на карте видите место и список он-лайн версий газет и журналов, нажимаете на соответствующую кнопку и читаете. Поддерживает русский язык, очень удобный интерфейс.

http://infostream.com.ua/ – очень удобная отличающаяся первоклассной выборкой, вполне доступная для любого кошелька система мониторинга новостей «Инфострим» от одного из классиков интернет-поиска Д.В.Ландэ.

http://www.instapaper.com/ – очень простой и эффективный инструмент для сохранения необходимых веб-страниц. Может использоваться на компьютерах, айфонах, айпадах и др.

http://www.wizardrss.com/ – позволяет преобразовывать RSS в полные тексты.

http://screen-scraper.com/ – позволяет автоматически извлекать всю информацию с веб-страниц, скачивать подавляющее большинство форматов файлов, автоматически вводить данные в различные формы. Скачанные файлы и страницы сохраняет в базах данных, выполняет множество других чрезвычайно полезных функций. Работает под всеми основными платформами, имеет полнофункциональную бесплатную и очень мощные профессиональные версии.

http://www.mozenda.com/- имеющий несколько тарифных планов и доступный даже для малого бизнеса веб сервис многофункционального веб мониторинга и доставки с избранных сайтов необходимой пользователю информации.

http://www.recipdonor.com/ - сервис позволяет осуществлять автоматический мониторинг всего происходящего на сайтах конкурентов.

http://www.spyfu.com/ – а это, если у вас конкуренты иностранные.

www.webground.su – созданный профессионалами Интернет-поиска сервис для мониторинга Рунета, включающий всех основных поставщиков информации, новостей и т.п., способен к индивидуальным настройкам мониторинга под нужды пользователя.

ПОИСКОВИКИ

https ://www .idmarch .org / – лучший по качеству выдачи поисковик мирового архива pdf документов. В настоящее время проиндексировано более 18 млн. pdf документов, начиная от книг, заканчивая секретными отчетами.

http://www.marketvisual.com/ – уникальный поисковик, позволяющий вести поиск собственников и топ-менеджмента по ФИО, наименованию компании, занимаемой позиции или их комбинации. В поисковой выдаче содержатся не только искомые объекты, но и их связи. Рассчитана прежде всего на англоязычные страны.

http://worldc.am/ – поисковик по фотографиям в свободном доступе с привязкой к геолокации.

https://app.echosec.net/ – общедоступный поисковик, который характеризует себя как самый продвинутый аналитический инструмент для правоохранительных органов и профессионалов безопасности и разведки. Позволяет вести поиск фотографий, размещенных на различных сайтах, социальных платформах и в социальных сетях в привязке к конкретным геолокационным координатам. В настоящее время подключено семь источников данных. До конца года их число составит более 450. За наводку спасибо Дементию.

http://www.quandl.com/ – поисковик по семи миллионам финансовых, экономических и социальных баз данных.

http://bitzakaz.ru/ – поисковик по тендерам и госзаказам с дополнительными платными функциями

Website-Finder – дает возможность найти сайты, которые плохо индексирует Google. Единственным ограничением является то, что для каждого ключевого слова он ищет только 30 веб-сайтов. Программа проста в использовании.

http://www.dtsearch.com/ – мощнейший поисковик, позволяющий обрабатывать терабайты текста. Работает на рабочем столе, в интернете и в интранете. Поддерживает как статические, так и динамические данные. Позволяет искать во всех программах MS Office. Поиск ведется по фразам, словам, тегам, индексам и многому другому. Единственная доступная система федеративного поиска. Имеет как платную, так и бесплатную версии.

http://www.strategator.com/ – осуществляет поиск, фильтрацию и агрегацию информации о компании из десятка тысяч веб-источников. Ищет по США, Великобритании, основным странам ЕЭС. Отличается высокой релевантностью, удобностью для пользователя, имеет бесплатные и платный вариант (14$ в месяц).

http://www.shodanhq.com/ – необычный поисковик. Сразу после появления получил кличку «Гугл для хакеров». Ищет не страницы, а определяет IP адреса, типы роутеров, компьютеров, серверов и рабочих станций, размещенных по тому или иному адресу, прослеживает цепочки DNS серверов и позволяет реализовать много других интересных функций для конкурентной разведки.

http://search.usa.gov/ – поисковик по сайтам и открытым базам всех государственных учреждений США. В базах находится много практической полезной информации, в том числе и для использования в нашей стране.

http://visual.ly/ – сегодня все шире для представления данных используется визуализация. Это первый поисковик инфографики в Вебе. Одновременно с поисковиком на портале есть мощные инструменты визуализации данных, не требующие навыков программирования.

http://go.mail.ru/realtime –поиск по обсуждениям тем, событий, объектов, субъектов в режиме реального, либо настраиваемого времени. Ранее крайне критикуемый поиск в Mail.ru работает очень эффективно и дает интересную релевантную выдачу.

Zanran – только что стартовавший, но уже отлично работающий первый и единственный поисковик для данных, извлекающий их из файлов PDF, таблиц EXCEL, данных на страницах HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна из лучших в мире систем поиска информации для конкурентной разведки в «глубоком вебе». Извлекает практически все виды файлов во всех форматах по интересующей теме. Реализована как веб-сервис. Цены более чем приемлемые.

http://multitender.ru/tenders – специализированная поисковая система по госзакупкам, тендерам и аукционам. Полный охват информации, удобный интерфейс, очень щадящие кошелек потребителя цены.

http://public.ru/ – Эффективный поиск и профессиональный анализ информации, архив СМИ с 1990 года. Интернет-библиотека СМИ предлагает широкий спектр информационных услуг: от доступа к электронным архивам публикаций русскоязычных СМИ и готовых тематических обзоров прессы до индивидуального мониторинга и эксклюзивных аналитических исследований, выполненных по материалам печати.

Cluuz – молодой поисковик с широкими возможностями для конкурентной разведки, особенно, в англоязычном интернете. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п.

www.wolframalpha.com – поисковик завтрашнего дня. На поисковый запрос выдает имеющуюся по объекту запроса статистическую и фактологическую информацию, в том числе, визуализированную.

www.ist-budget.ru – универсальный поиск по базам данных госзакупок, торгов, аукционов и т.п.

На первый взгляд, поиск файла в интернете по нужному файлообменнику тема малоперспективна. Но это только на первый взгляд. Пока не появляется необходимость найти конкретный файл на конкретном файлообменнике. Почему на определенном файлообменнике? Потому, что обычный пользователь чаще всего является счастливым обладателем одного платного голд-аккаунта. Ну и естественно, коль деньги заплачены, надо использовать этот файлообменник на все 200 процентов.

Конечно, можно забить название нужного файла в любом из поисковиков, но результаты поиска в них отображаются без привязки к обменнику. Можно поизголяться и дописать к названию файла название файлообменника. Результаты уже будут лучше, но все равно плохо читаемыми.

Намного проще воспользоваться каким-нибудь из онлайн сервисов. Лично я, потратив полчаса, на сегодняшний день рабочих нашел только три. И очень буду благодарен, если посетители в комментариях добавят свои находки.

Поиск здесь можно вести на Rapidshare, Dfiles, Mega, 4shared, Mediafireи Turbobit. Прописываем или копируем название файла в поле поиска, отмечаем нужный файлообменник (файлообменники) и нажимаем кнопку "SearchFile". Можно отсортировать поиск по размеру файла.

На скриншоте отображена страница с результатами поиска по моему запросу. Проверил все файлообменники по очереди. Работают все. Имеется опция поиска по региону, правда нам это не актуально, России в списке нет.

Заявленных на нем файлообменников уже на много больше, правда про большинство из них я никогда и не слышал: Mega.co.nz, Bitshare.com, Wupload.com, Freakshare.com, Depositfiles.com, Mediafire.com, Filefactory.com, Rapidshare.com, Uploadstation.com и Uploaded.to. Сама процедура поиска аналогична вышеописанной.

Приятное дополнение поиск видео на сервисах YouTube, Dalealplay, Metacafe и Googlevideo. Правда стоит учесть, что сервис испанский, так что некоторое видео имеет статус без показа в России.

Поиск на FTP-серверах

Одно дело – если вы хотите найти в Интернете список ссылок на веб-ресурсы, чтобы с их помощью выбрать нужный ресурс, и совсем другое – когда вам нужен конкретный объект: мультимедийный файл, электронная книга, программное обеспечение и т.п. Для решения этой задачи рекомендуется пользоваться специально предназначенными поисковыми системами, или соответствующими режимами обычных поисковых систем.

Например, поисковая система, расположенная по адресу http://www.filesearch.ru , очень эффективна для поиска файлов. Ее огромная база данных регулярно актуализируется, а поиск ведется среди почти всех российских и нескольких тысяч зарубежных FTP-серверов.

Характерной особенностью системы http://www.filesearch.ru является то, что она ведет поиск не на веб-серверах и веб-страницах среди имеющегося там контента (как это делает большинство стандартных поисковых машин), а по именам файлов и папок – на FTP-серверах. Хитрость здесь состоит в следующем: если вы, например, ищете приложение, то на обычном веб-сервере вы найдете лишь его описание (например, в составе обзорной статьи, и т.п.), а вот дистрибутив вам поможет найти именно http://www.filesearch.ru . Отметим, что данная система может искать файлы самых разных форматов: мультимедийные, графические, звуковые, текстовые, исполняемые, архивы и т.д. Общие правила работы с http://www.filesearch.ru во многом аналогичны действиям в других поисковых системах.

Еще один эффективный поисковой механизм находится по адресу www.metabot.ru . Он также предназначен для поиска файлов – мультимедийных, графических и др. Вам достаточно лишь с помощью соответствующего переключателя выбрать подходящий вид поиска, и с клавиатуры ввести требуемый запрос.

Еще один эффективный файловый поисковик, поддерживающий функции как простого, так и расширенного поиска, находится по адресу http://ftpsearch.rambler.ru/db/ftpsearch . Как нетрудно догадаться, автором и разработчиком данного продукта является известная компания Рамблер (www.rambler.ru). Возможности данной поисковой систему предусматривают поиск на FTP-серверах файлов самых разных форматов.

Значительно сократить время поиска документов и файлов вплоть до нескольких минут и даже секунд помогут некоторые полезные сервисы:

  1. Расширенный поиск Яндекса. Далеко не все в курсе, что у поисковых машин существует расширенные версии поиска. У Яндекса этот сервис располагается на этой странице: http://yandex.ru/search/advanced. Здесь, введя требуемый запрос, вы можете уточнить детали этого запроса. Например, язык документа, дату публикации, ну и, конечно же, необходимый вам формат. После нажатия на кнопку «Найти», поисковик выдаст вам список ссылок на документы требуемого формата. Вам остается только нажать на кнопку «Загрузить», и произойдет скачивание документа непосредственно с сервера, на котором документ или файл находится без всяких регистраций. Или можно вначале почитать содержимое документа без закачки, нажав на кнопку «Просмотреть», чтобы не перегружать компьютер ненужными файлами.
  2. Расширенный поиск Google. Google также предоставляет возможность найти файлы нужного формата. Вот страница, где это можно сделать: http://www.google.ru/advanced_search. В отличие от Яндекса, Google дает возможность осуществлять поиск по таким экзотическим форматам, как: Adobe PostScript (.ps), Autodesk DWF (.dwf), Shockwave Flash (.swf). На самом деле список форматов, по которым Google осуществляет поиск, намного шире. Если вы в конце поисковой фразы добавите так называемый оператор запроса filetype: и добавите за ним необходимый вам формат файла, то вы сможете без труда найти искомый файл. Например, если вам нужно найти MIDI-файл композитора Баха, то вы можете набрать Bach filetype:mid и вполне вероятно, что вы отыщете то, что вам было нужно.
  3. Еще один полезный сервис находится по этому адресу: http://wte.su/poisk.html. Это сервис поиска по документам различных форматов, в том числе и TXT, FB2, ODT, и даже RAR и ZIP. После ввода вашего запроса, вы можете быстро перемещаться по вкладкам, осуществляя поиск по конкретному типу файла. У сервиса 2 существенных преимущества - простота и скорость поиска. Единственный недочет - ссылки не всегда ведут на конечный файл. Там, где есть прямая ссылка на файл, вы увидите кнопку «Скачать».
  4. Также для поиска файлов можно воспользоваться сервисом поиска по FTP-серверам http://filemare.com/. Ведь иногда файлы выгружают на FTP-серверы с открытым доступом к внутренним папкам, а вот поисковые машины часто их не находят. После того как вы введете ваш запрос в строку поиска данного сервиса, вы увидите список найденных в интернете файлов и папок, которые содержат в своем имени или в пути к себе текст, введенный вами в поисковом запросе.


Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: