sobota, 16 października 2010

Katalogi stron

Katalog stron to kolekcja linków do różnych stron internetowych. Linki te są zwykle uporządkowane tematycznie i zawierają odpowiednie opisy. Katalogi są bardzo starym wynalazkiem internetowym, pierwszy polski katalog powstał już w roku 1992, można więc sądzić, że anglojęzyczne katalogi musiały istnieć wcześniej.
W przeszłości portale internetowe eksponowały katalogi, umożliwiając dostęp do nich na pierwszej stronie witryny. Co więcej: uważam, że portale wywodzą się z katalogów stron. Ewolucja form internetowych sprawiła, że z czasem katalogi stron zniknęły z pierwszych stron portali. Zaszło tak daleko, że gdzieniegdzie (zobaczcie na www.gazeta.pl) z pierwszej strony portalu nie ma nawet bezpośredniego linku do katalogu stron.
I jeszcze dalej zaszło. Katalogi stały się elitarne, a za wpis do nich nierzadko trzeba zapłacić.
Dlaczego i czy to ma sens, postaram się odpowiedzieć w następnych postach.

czwartek, 14 października 2010

Archie, czyli z pradziejów wyszukiwania internetowego

Mam na półce książkę Paula E. Hoffmana pt. Internet. Poradnik, wydaną przez Wydawnictwo PLJ w roku 1995. W jednym z artykułów czytam „Najlepszą metodą szukania wśród milionów plików dostępnych za pomocą anonimowego ftp jest skorzystanie z Archie, gigantycznej bazy danych [...]”.
Dziś nie da się już dziś z tej wyszukiwarki skutecznie skorzystać, ale można ją obejrzeć pod polskim adresem (jest też wersja angielska). Czy ta wyszukiwarka działa też jeszcze w innych krajach, nie udało mi się ustalić, ale jeśli działa, to tylko jako zabytek, bo nie była uaktualniana od wielu lat, a poza tym wyszukiwane przez nią pliki są już na ogół niedostępne. Dziś plików szuka się za pomocą Google’a albo słabo zwykle znanych specjalistycznych wyszukiwarek w rodzaju NAPALM FTP Indexer.
We wspomnianej książce jest sporo informacji na temat tego znakomitego w swoim czasie narzędzia, dowiadujemy się również, że Archie pozwala na połączenie za pomocą programu Telnet.
A co to za program? Wyguglajcie sobie.

wtorek, 12 października 2010

Co ma cudzysłów do wyszukiwania

Kolejna sztuczka wspomagająca wyszukiwanie – jak się okazuje mało znana – polega na użyciu cudzysłowu. Pozwala to na odnajdywanie wyrażeń, czyli połączeń wyrazowych, w brzmieniu dokładnie podanym. Łatwo sprawdzić, że wyniki wyszukiwania będą się różnić, np. wpisanie "język polski" w Google’u da nam trzykrotnie mniejszą liczbę wyszukanych linków niż wpisanie tych samych wyrazów bez cudzysłowu.
Obserwacja na praktyczny użytek jest taka, że będzie to najlepszy sposób wyszukiwania cytatów, z których pamiętamy jedynie drobne fragmenty, także tym sposobem szybko znajdziemy wszelkie wielowyrazowe terminy naukowe. Jest jeszcze jedno ciekawe zastosowanie, które zainteresuje głównie filologów. Możemy sprawdzać połączenia wyrazowe, np. po to, żeby poznać zawiłości polskiej odmiany. Blogując, pewnie prędzej czy później zadamy sobie pytanie, czy "piszemy blog", czy może "piszemy bloga". W Bloggerze na przykład występują formy drugiego typu (np. załóż, wyświetl bloga), choć wzorcową formą byłaby raczej pierwsza. Wyszukiwanie wyrażeń ujętych w cudzysłów pozwala stwierdzić, że właśnie ona wyraźnie przeważa w tekstach internetowych.

poniedziałek, 11 października 2010

Jak pomóc szukać, a nawet i troszkę oszukać?

Kto jest wtajemniczony, ten już wie. Tytuł zapowiada, że będzie o pozycjonowaniu.
Pozycjonowaniem nazywane są takie sprytne czynności, które pozwalają określonym stronom WWW uzyskać wysoką pozycję w wynikach wyszukiwania (przede wszystkim Google’a). Zaznaczyć muszę, że chodzi tu o czynności, których stosowanie wymaga wiedzy i doświadczenia, a tym samym zasługują na uznanie. Czasem sposoby te mogą budzić wątpliwości, czy nie mamy do czynienia z oszukiwaniem, ale sprawa jest skomplikowana.
W praktyce wygląda to tak, że wpisujemy jakieś słowo w okienku wyszukiwania, a linki, które dostajemy na początku, niekoniecznie prowadzą do najlepszych stron. Nierzadko zaś prowadzą do stron poddanych pozycjonowaniu. Czynność ta często jest płatna, a nawet i kosztowna, nic więc dziwnego, że najbardziej napakowane pozycjonowaniem są te wyniki wyszukiwania, które dają największe zyski (finanse, ubezpieczenia, handel itd.).
Nie trzeba się tym procederem specjalnie przejmować, bo są proste sposoby, żeby się od niego przynajmniej częściowo uniezależnić.
Pierwszy polega na tym, żeby zajrzeć też na drugą (trzecią, czwartą itd.) stronę wyników wyszukiwania, bo strony pozycjonowane są raczej na pierwszej (pierwszych). Drugi natomiast opiera się na wiedzy, że na ogół pozycjonuje się pojedyncze wyrazy; stąd wskazówka: wpisujmy do okienka więcej niż jeden wyraz.

niedziela, 10 października 2010

Jak klasyfikować wyszukiwarki

Internet pełen jest wyszukiwarek. Osoby znajdujące upodobanie w klarownym przedstawianiu zjawisk, muszą każdą różnorodność poddać jakiemuś sposobowi uporządkowania. Inaczej mówiąc, ich umysły dążą do klasyfikacji czegoś.
Nieoceniona Wikipedia przedstawia pewną próbę, dzieląc wyszukiwarki na: 1) oparte na analizie treści strony, 2) oparte na analizie topologii sieci, 3) oparte na zasadzie aukcji miejsc. Trzeba będzie jeszcze przyjrzeć każdej z tych grup, ale ta klasyfikacja wygląda bardziej na zaimprowizowaną niż przemyślaną.
Oczywiście problem nie jest łatwy, więc zanim przedstawię własną propozycję, spróbuję zrobić ileś tam podejść do niej. Dziś próba pierwsza, czyli podział wyszukiwarek ze względu na zasięg.
Z jednej strony są – że tak je nazwę – wyszukiwarki właściwe, to znaczy takie, które za pomocą odpowiednich narzędzi starają się zindeksować materiały dostępne w Sieci, byłyby to np. Google i Yahoo!. Z drugiej strony są takie, które dążą do specjalizacji, indeksując pewne typy plików, np. na temat osób (123people.com). Z trzeciej zaś mamy wyszukiwarki multi, np. HotBot, Webcrawler, czyli takie, które mają ambicje umożliwiać łączny dostęp do różnych zasobów sieciowych. Możliwe są też specjalistyczne multiwyszukiwarki, np. AirMP3.net.
Tyle na początek, ale koncepcja odpowiednio różnorodna i należycie spójna wymagać będzie napisania pewnie co najmniej kilkudziesięciu postów, no i też krytycznych głosów w dyskusji nad nimi.

sobota, 9 października 2010

HotBot, czyli z dziejów wyszukiwania internetowego

W dzisiejszych czasach najłatwiej chyba zadziwić internautę, mówiąc mu, że Google nie jest jedyną wyszukiwarką na świecie. Jak to było dawniej, chętnie powspominam, a zacznę od HotBota, który powstał w 1996 r. W drugiej połowie lat 90. była to jedna z najważniejszych wyszukiwarek (obok Altavisty, Excite, Lycosa i Yahoo!). Chętnie ją wspominam, bo korzystałem z niej często, a miałem tam też konto pocztowe.
Z czasem HotBot podupadł, ale okazuje się, że – na szczęście – nie upadł. Co prawda jest już tylko cieniem samego siebie z dawnych czasów, bo działa jako multiwyszukiwarka oparta na Yahoo!, LyGO (obecne wcielenie... Lycosa) i MSN.
Wyszukiwarka ma raczej skromny zasób opcji rozszerzonego wyszukiwania, umożliwia wyszukiwanie według kraju, ale kraje słowiańskie pomija, choć oczywiście znajduje wiele polskich stron. Do jej zalet zaliczyłbym oparcie przeszukiwania na Yahoo! i ciekawą możliwość, którą umożliwia Lycos, na razie w wersji beta, czyli miniaturki stron w wynikach wyszukiwania (choć i w Google'u można osiągnąć taki efekt). Spodobać się może też oszczędny interfejs HotBota.
Wniosek końcowy: Najlepiej sprawdzić samemu, może to jest ciekawa alternatywa dla Google'a?

piątek, 8 października 2010

Plus plus

Teraz będzie o plusie w poleceniu wyszukiwania. Oznacza on, że poprzedzone nim wyrazy mają koniecznie znaleźć się w wyszukiwanych tekstach, np. "czekolada +gorzka +Wawel". Najpopularniejsze wyszukiwarki wyszukują domyślnie wszystkie wpisane wyrazy, a wtedy tego znaku nie trzeba stosować. Czasem jednak w wyszukiwarkach, np. w niektórych katalogach bibliotecznych, trzeba go dopisywać przed wyszukiwanymi hasłami (można też między wyrazami umieścić operator AND).
W Google'u plusa zasadniczo używać nie trzeba, ale jest pewien wyjątek. Bierze się on stąd, że Google pomija w wynikach wyszukiwania wyrazy krótkie, często występujące, a niesamodzielne, np. polskie spójniki a, lub, angielskie rodzajniki a, the. Jeśli jednak z jakichś powodów chcemy, żeby te wyrazy znalazły się w wynikach wyszukiwania, poprzedzamy je plusem, np. "Jan +lub Piotr".

czwartek, 7 października 2010

Plus minus

Dwa skromne znaki, plus i minus, mogą się przydać internetowym poszukiwaczom. Trzeba tylko pamiętać, żeby przed nimi wstawić odstęp (w Sieci sporo jest oszczędnych, którzy np. po kropce i przecinku nie dają spacji).
Efekt będzie widoczny gołym okiem, kto nie wierzy, niech prześledzi wyniki wyszukiwania opisane w poprzednich postach. Co prawda Google znajdzie nam takie teksty, których autorzy pominęli słowo "romeo", ale możemy sobie i z tym poradzić, dopisując następne wykluczenia, np. "-156".
Plus też się może przydać, ale o tym w następnym tekście.

środa, 6 października 2010

Próg alfy

Potrzebny był mi obrazek z przezroczystym tłem. Uruchomiłem GIMP-a, z obrazkiem wszystko poszło gładko, bo to nie pierwszyzna dla mnie, ale zwróciłem uwagę na opcję „próg alfy” (chodzi o „kanał alfa” umożliwiający tworzenie przezroczystych grafik). Do tej pory zostawiałem ustawienie domyślne, ale postanowiłem się dowiedzieć, co to jest.
Wpisałem więc w Google’u to, co w tytule tego postu.
Dostałem wprawdzie mnóstwo linków, ale musiałem je wyszukiwać między informacjami o progach do samochodów marki Alfa Romeo.
To zdarzenie jest uzupełnieniem do wczorajszego tekstu o metodzie kolejnych przybliżeń. Wydaje się, że sprawa jest prosta, po co kombinować, lepiej wpisać od razu „Sienkiewicz Henryk Latarnik ekranizacja”. To prawda, ale tak można szukać tylko rzeczy znanych. Tego, co nieznane, lepiej szukać metodą przybliżania. W następnym kroku wpisałem więc „próg alfy -romeo”.

wtorek, 5 października 2010

Jak usprawnić najprostsze wyszukiwanie

Najprostsze wyszukiwanie, powie chyba każdy, jest banalnie łatwe, a polega na wpisaniu jakiegoś słowa do wyszukiwarki. Owszem, to łatwe, ale zwykle nieskuteczne, bo dostaniemy tysiące adresów, z których możemy sprawdzić najwyżej ułamek procenta.
Lepszy sposób polega na tym, żeby prowadzić poszukiwanie metodą kolejnych przybliżeń, dodając kolejne wyrazy i eliminując zbędne elementy. Na przykład szukamy informacji o autorze Quo vadis. Wpisujemy najpierw hasło „Sienkiewicz”, i już widzimy, że mamy ok. 2,8 miliona wyszukanych tekstów, a wśród nich innych Sienkiewiczów, instytucje imienia Sienkiewicza itd. Wpisanie „Henryk” trochę pomoże, ale ciągle mamy nadmiar bogactwa, przy czym przeważają biografie i streszczenia. My zaś wpiszemy „Latarnik”, a że chodzi nam o film, dopiszemy „ekranizacja”.
To jeszcze nie musi być koniec poszukiwań, ale kto tej metody nie stosował, niech sprawdzi, że jest wydajna i skuteczna.