| Kao vanjska, mjerljiva manifestacija procesa stvaranja, prijenosa i korištenja znanja u znanosti, informetrijske su razdiobe - poznatije u postojećoj literaturi kao Bradfordova, Lotkina i njima srodna Zipfova razdioba - predmet velikog istraživačkog interesa u okviru discipline koja se javlja pod tri različita naziva: bibliometrija, scientometrija i informetrija.
Naziv informetrijske razdiobe uvodi se početkom devedesetih godina 20. st., istovremeno s prihvaćanjem naziva informetrija kao zajedničkog naziva kojim bi se obuhvatile bibliometrija i scientometrija (vidi Brookes, 1990; Bookstein, 1990a, 1990b; Egghe i Rousseau, 1990). Inicijativa za uvođenjem informetrije potječe od Otta Nackea (1979), a povod je sve očitija potreba za sistematizacijom i standardizacijom područja koje se bavi kvantitativnim aspektima procesa stvaranja, prijenosa i korištenja informacija (znanstvenih i drugih)*.
Izvorna opažanja Bradforda, Lotke i Zipfa
Ispitujući razdiobu izvora znanstvenih informacija (autori, časopisi) u odnosu na njihovu produktivnost, Lotka (1926) i Bradford (1934) opažaju pravilnost kakvu uskoro otkriva i Zipf (1935, 1949) ispitujući razdiobu riječi u tekstu. U ovome što slijedi dan je kratki prikaz ovih opažanja i njihove izvorne formulacije.
Lotkina razdioba
U članku pod naslovom “The Frequency Distribution of Scientific Productivity”, Lotka (1926) objavljuje svoje opažanje o razdiobi znanstvene produktivnosti - poznato u literaturi kao “zakon inverznih kvadrata”- u kojem je ovisnost između broja autora i broja objavljenih radova definirana na sljedeći način:

gdje je f(n) broj autora s n obavljenih radova, a A broj autora s jednim objavljenim radom.
Iz gornje funkcije slijedi da je broj autora s n objavljenih radova obrnuto proporcionalan kvadratu broja radova, dok je granična vrijednost udjela autora s jednim radon ( A ) približno 6/ p 2 ili oko 60% od ukupnog broja autora. Drugim riječima, u skupu autora najveći je udio onih koji su objavili samo jedan rad, dok broj autora s više od jednog rada opada s brojem objavljenih radova.
Lotka primjenjuje statistički pristup izračunavajući broj autora f(n) određene produktivnosti n , a kao izvor podataka koristi “Chemical Abstracts” i “Geschichtstafeln der Physik”. Unosom postotnog udjela autora s 1, 2, 3, …. , n max radova u odnosu na broj radova u log-log sustav dobiva pravac, a izračunavanjem nagiba pravca koji najbolje aproksimira opažene vrijednosti, dobiva da je ta vrijednost približno - 2. Kasnije primjene pokazale su da vrijednost eksponenta varira i ne mora biti - 2. Iz toga Yablonsky (1980) zaklučuje da je Lotkina formulacija zapravo specijalni slučaj opće funkcije koja glasi:


* Premda je ideja o informetriji kao krovnoj disciplini dobila širu podršku, na kongresu održanom u Berlinu 1994. godine odlučeno je da se scientometrija izdvoji kao zasebna disciplina, dok se umjesto bibliometrije predlaže naziv informetrija (vidi Wilson, 1999). To se međutim pokazalo kao dvojbeno rješenje, prvenstveno zbog velikog stupnja preklapanja između informetrije/bibliometrije i scientometrije i to na konceptualnoj i na metodološkoj razini. Posljedica svega je da se u praksi koriste sva tri naziva podjednako (uglavnom kao sinonimi) iz čega bi se moglo zaključiti da je uvođenjem informetrije umjesto sistematizacije područja došlo do daljnje disfunkcionalne diferencijacije. Sa stajališta prepoznavanja discipline izvan užeg konteksta informacijskih znanosti takvo je stanje neproduktivno, a u svjetlu sve prisutnije webometrije (kvantitativna istraživanja dinamike rasta, strukture i korištenja informacija na Webu) koja privlači interes znanstvenika iz različitih područja znanosti, sve je očitije da je resistematizacija područja nužna ukoliko se želi osigurati sustavan razvoj i omogućiti prijenos i razmjena znanja sa srodnim disciplinama.
Premda je Lotkina razdioba ili “zakon inverznih kvadrata” procjena produktivnosti izvedena iz dvaju primjera, a ne precizna statistička razdioba, u kasnijim interpretacijama i primjeni Lotkine razdiobe na empirijske podatke ta se činjenica uglavnom zanemaruje.
Bradfordova razdioba
Ispitujući odnos broja časopisa i broja radova iz određenog područja znanosti objavljenih u tim časopisima, Bradford (1934) polazi od dviju hipoteza o strukturi časopisa namijenjenih određenom znanstvenom području. Prva je hipoteza da je većina radova sadržana u nekoliko časopisa relevantnih za određeno područje. U drugoj hipotezi pretpostavlja da su radovi raspršeni u časopisima s učestalošću koja je obrnuto proporcionalna relevantnosti časopisa za određeno znanstveno područje. Provjeru hipoteza provodi ispitivanjem strukture časopisa u bibliografijama radova iz dvaju potpuno različitih područja i to “Applied geophysics” i “Lubrication”. Nakon razvrstvanja časopisa prema opadajućem broju objavljenih radova te njihovom podjelom u skupine s istim ukupnim brojem radova, opaža da broj časopisa u svakoj od tih skupina raste geometrijskom progresijom s nazivnikom a > 1. Drugim riječima, omjer broja časopisa u prvoj, drugoj i skupinama koje slijede, odnosi se kao:
n 1 : n 2 : n 3 ….= 1 : a : a 2 ….,
gdje broj 1 korespondira s brojem časopisa u prvoj skupini koja čini nukleus ili jezgru, dok je konstanta a karakteristika ispitivanog skupa podataka.
U kvalitativnom smislu to znači da prva, najproduktivnija skupina ili nukleus, obuhvaća mali broj specijaliziranih časopisa (ključni časopisi) u kojima je objavljena većina radova iz određenog područja znanosti. Druga, veća skupina, sadrži časopise iz srodnih područja i disciplina u kojima se objavljuju i radovi iz određenog područja odnosno discipline. Treća ili periferna skupina, sadrži veliki broj časopisa iz različitih područja znanosti unutar kojih se povremeno objavljuju i radovi relevantni za određeno znanstveno područje. Moguća je i podjela na više skupina, ali u literaturi se najčešće susreće podjela na tri skupine.
Pristup kojeg koristi Bradford uključuje prethodno rangiranje časopisa u odnosu na produktivnost. Unosom podataka u semi-log sustav gdje je na y osi kumulativni broj radova a na x osi logaritam ranga časopisa (časopisi su razvrstani od najproduktivnijeg prema manje produktivnim) dobiva gotovo linearne krivulje razdiobe.
U kasnije objavljenoj knjizi u kojoj se izvorni rad pojavljuje s manjim izmjenama, Bradford (1948) zaključuje da opažena razdioba radova u časopisima slijedi iz zakona koji se može izvesti teorijski iz principa jedinstva znanosti, a praktično iz ispitivanja referenci, ukazujući na interdisciplinarnost kao bitno obilježje znanosti.
Zipfova razdioba
Ispitujući razdiobu riječi rangiranih u odnosu na učestalost pojavljivanja u tekstu, Zipf (1935, 1949) opaža pravilnost između frekvencije i ranga riječi koju opisuje na sljedeći način:
f r r = c
gdje je f r učestalost pojavljivanja riječi čiji je rang r , a c je konstanta ovisna o veličini korpusa.
Iz gornjeg izraza slijedi da je umnožak ranga pojedine riječi i njezine frekvencije konstantan. Drugim riječima, u svakom se tekstu može očekivati mali broj riječi koje se pojavljuju učestalo i veliki broj riječi s malom učestalošću pojavljivanja. Unosom podataka u log-log sustav gdje je na apscisi logaritam ranga riječi, a na ordinati logaritam učestalosti pojavljivanja riječi tog ranga, Zipf dobiva gotovo linearnu krivulju s nagibom približno jednakim -1. Zipf zapravo proširuje opažanje koje je prije njega uočio Estoup (1916) ispitujući statističku razdiobu riječi, pa se ponekad u literaturi susreće i pod nazivom Estoup-Zipfov zakon.
Zipfova izvorna pretpostavka da se većina empirijskih razdioba može zadovoljavajuće aproksimirati pravcem čiji je koeficijent nagiba približno -1, dvojbena je i predmetom mnogih diskusija jer su kasnije provjere pokazale da vrijednosti nagiba variraju. Stoga se pokazala primjerenijom opća formulacija Zipfove razdiobe koja glasi:
f r r a = c
gdje je a 1 1.
Iako je mišljenje dijela autora da Zipfova razdioba pripada isključivo području statističke lingvistike (vidi Broadus, 1987), White i McCain (1989), Fedorowicz (1982a, 1982b) i Nelson (1988) drže da bibliografski podaci kao što su deskriptori te ključne riječi iz naslova i sažetka, u dovoljno velikim uzorcima pokazuju obilježja Zipfove razdiobe.
Zajedničko obilježje
Bradford, Lotka i Zipf opisuju diskretne skupove podataka, odnosno populacije izvora čija razdioba u odnosu na mjerljive pokazatelje pokazuje specifična strukturna obilježja hijerarhijske stratifikacije. Drugim riječima, to su izrazito nejednolike razdiobe u kojima je većina podataka sadržana u malom broju izvora dok je ostatak raspršen na veliki broj preostalih izvora. U statistici se razdiobe takvih svojstava nazivaju asimetričnim ili iskošenim raziobama (skewed distributions) a susreću se u mnogim empirijskim podacima koji opisuju sociološke, ekonomske, lingvističke, meteorološke, biološke i druge fenomene.
U literaturi se ta opažanja uglavnom navode kao Bradfordov, Lotkin i Zipfov zakon . Međutim, usprkos velikom značaju ovih opažanja, posebice Bradfordovog i Lotkinog, koja su prema Yablonskom (1980) ukazala na neke od temeljnih principa na kojima se uspostavlja znanost kao univerzalan i stabilan sustav, dok Zunde (1984) te White i McCain (1989) drže da predstavljaju uvod u informacijske znanosti uopće, predložene formulacije opaženih pravilnosti nemaju atribute zakona i to iz sljedećih razloga:
- Nisu univerzalno primjenjljive niti objašnjavaju u cijelosti fenomene koje opisuju (Burrell, 1994).
- Prethode im Paretov zakon o razdiobi kapitala (Pareto, 1897) te opažanje Willisa (1922) o razdiobi rodova prema broju vrsta, od kojih se razlikuju jedino u pristupu i sadržaju kojeg opisuju.
- Sami autori ističu da su njihove formulacije aproksimativne.
Premda ove činjenice ne umanjuju izvorni značaj Bradfordovog, Lotkinog i Zipfovog opažanja, one jasno pokazuju da se predložene formulacije ne mogu smatrati zakonima u smislu u kojem to vrijedi za zakone u prirodnim znanostima.
Bradford (1948) svoje opažanje podupire tezom o jedinstvu znanosti, točnije tezom o međusobnoj povezanosti znanstvenih disciplina i područja. Zipf u knjizi objavljenoj 1949. pod naslovom “Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology”, navodi princip najmanjeg napora kao mogući uzrok opaženoj razdiobi riječi, ali i drugih fenomena koje ispituje. Mandelbrot (1953), polazeći od činjenice da je svrha jezika u prijenosu što više informacija po simbolu s najmanjim naporom, drži da se riječi odabiru u skladu s Shannonovom teorijom optimalnog kodiranja poruka u komunikacijskim sustavima (Shannon, 1948), dok Simon (1955), dovodeći u sumnju primjenljivost Shannonove teorije na semantičke informacije, traži objašnjenje u procesima asocijacije i imitacije koji obilježavaju pisanje i govor.
Kendall (1961) podržava pronalaženje općeg principa kojim bi se objasnili opaženi fenomeni, međutim smatra da bi se do njega trebalo doći sintezom u kasnijoj fazi. Premda drži da je moguća i poželjna uspostava općih modela kojima bi se opisali i objasnili opaženi fenomeni i neki drugi oblici ponašanja koji se proučavaju u okviru društvenih znanosti, Kendall dovodi u sumnju pretpostavku da bi se oni mogli smatrati zakonima u istom značenju kao u prirodnim znanostima, osobito u smislu stabilnosti. Na tu činjenicu kasnije upozorava i Yablonsky (1980) naglašavajući da se radi o statističkim pravilnostima koje nisu apsolutne nego približne.
Premda su sve tri pravilnosti otkrivene eksperimentalno i predstavljene, u prvom redu, kao provizorno povezani dijelovi empirijskog znanja čija će se međusobna sličnost i teorijska osnova tek naknadno prepoznati i pokušati formulirati, izvorni značaj ovih opažanja (osobito Bradfordovog i Lotkinog) je u tome da su ukazali na prirodu stvaranja, prijenosa i korištenja znanja u znanosti te omogućili ispitivanje kvantitativnih aspekata znanstvenih komunikacija.
Pristupi u istraživanjima
Premda se prvi radovi o empirijskim opažanjima Bradforda, Lotke i Zipfa javljaju već krajem četrdesetih godina, veći znanstveni angažman opaža se tek sredinom šezdesetih godina. U istraživanjima su od početka prisutna dva pristupa koji se uvjetno mogu nazvati konvencionalnim i nekonvencionalnim pristupom (vidi Oluić-Vuković, 1997). Predložena podjela temelji se na konceptualnim razlikama u pistupu ovim fenomenima i prihvatljivija je od uobičajene podjele na empirijske i teorijske pristupe između kojih, osobito u ranijoj fazi, granice nisu bile sasvim jasne.
Iako se oba pristupa javljaju gotovo istovremeno, u prvoj fazi dominiraju konvencionalni pristupi u kojima se Bradfordovo, Lotkino i Zipfovo opažanje, točnije predložene formulacije ovih opažanja, prihvaćaju kao zakoni, razmatraju neovisno jedni od drugih i uglavnom u užem kontekstu unutar kojeg su otkriveni kao pravilnosti. Veća zastupljenost nekonvencionalnih pristupa primjećuje se tek krajem osamdesetih i početkom devedesetih godina 20. st. Zajedničko polazište je međusobna sličnost Bradfordove, Lotkine i Zipfove razdiobe, točnije stajalište da su opažene razdiobe zapravo pojedinačne manifestacije mnogo općenitijih statističkih razdioba. Cilj je uspostava općeg matematičkog modela kojim bi se zadovoljavajuće aproksimirale empirijske razdiobe i objasnili procesi koji ih uzrokuju.
Premda je u zadnjih deset godina postignut napredak vidljiv bilo u uspostavi novih modela ili u primjeni i daljnoj razradi postojećih, nijedan od predloženih modela nije prihvaćen kao opći model. Najveći kvalitativni pomak vidljiv je u razmatranju Bradfordove, Lotkine i Zipfove razdiobe kao dijelova većeg skupa fenomena koji pokazuju stohastička obilježja razvojnog procesa. Nedostatak je statički pristup, kao posljedica šire prihvaćenog, premda neprovjerenog stajališta o stabilnosti ovih razdioba u vremenu. Novija istraživanja (Burrell, 1990; Oluić-Vuković, 1992, 1995, 1997, 1998; Burrell & Fenton, 1993; Egghe & Rousseau, 1995, 1996; Huber, 1998) ukazuju na nužnost razmatranja ovih razdioba kao vremenski ovisnih procesa i sve je očitije da će budući razvoj ići upravo u tom smjeru. Prema Burrellu (1988a, 1988b, 1991, 1994) matematčki modeli, neovisno o tome da li se radi o razdiobi časopisa, autora, citata ili razdiobi knjiga u odnosu na posudbu, od pravog su značaja tek onda kada se mogu koristiti u predviđanju budućeg tijeka događanja. Da bi se mogli koristiti u te svrhe modeli moraju uključivati vrijeme kao parametar.
Literatura: Bookstein, A. (1990a). Informetric distributions, part I: Unified overview. Journal of the American Society for Information Science, 41 , 368-375.
Bookstein, A. (1990b). Informetric distributions, part I: Resilience to ambiguity. Journal of the American Society for Information Science, 41 , 376-386.
Bradford, S. C. (1934). Sources of information on specific subjects. Engineering , 137 , 85-86.
Bradford, S. C. (1948). Documentation. London: Crosby Lockwood.
Brookes, B. C. (1990). Biblio-, sciento-, infor-metrics??? What are we talking about? U L. Egghe i R. Rousseau (Eds.) Informetrics 89/90: Select Proceedings of the Second International Conference on Bibliometrics, Scientometrics and Informetrics (str. 31- 43). Amsterdam: Elsevier
Broadus, R. N. (1987). Early approaches to bibliometrics. Journal of the American Society for Information Science, 38 , 127-129.
Burrell, Q. L. (1988a). Modelling the Bradford phenomenon. Journal of Documentation, 44, 1-18.
Burrell, Q. L. (1988b). Predictive aspects of some bibliometric processes. U L. Egghe i R. Rousseau (Eds.) Informetrics 87/88: Select Proceedings of the First International Conference on Bibliometrics and Theoretical Aspects of Information Retrieval (str. 43- 64). Amsterdam: Elsevier
Burrell, Q. L. (1990). Empirical prediction of library circulations based on negative binomial processes. U L. Egghe i R. Rousseau (Eds.) Informetrics 89/90: Select Proceedings of the Second International Conference on Bibliometrics, Scientometrics and Informetrics (str. 57- 64). Amsterdam: Elsevier
Burrell, Q. L. (1991). The dynamic nature of bibliometric processes: A case study. U I. K. Rao (Ed.) Informetrics 91: Third International Conference on Informetrics (str. 97-129), Bangalore: Sarada Ranganathan Endowment.
Burrell, Q. L. (1994). Scientostochastic? Scientometrics, 30, 505-509.
Burrell, Q. L. i Fenton, M. R. (1993). Yes, the GIGP really does work – and is workable! Journal of the American Society for Information Science, 44 , 61- 69.
Egghe, L. i Rousseau, R. (1990). Introduction to informetrics: Quantitative methods in library, documentation and information science. Amsterdam: Elsevier.
Egghe, L. i Rousseau, R. (1995). Generalized success-breeds-success principle leading to time-dependent informetric distributions. Journal of the American Society for Information Science, 46 , 426-445.
Egghe, L. i Rousseau, R. (1996). Stochastic process determined by a general success-breeds-success principle. Mathematical and Computer Modelling, 23 , 93-104.
Estoup, J. B. (1916). Gammes stenograhiques. Paris: Gauthier-Villars.
Fedorowicz, J. (1982a). The theoretical foundation of Zipf's law and its application to the bibliographic database environment. Journal of the American Society for Information Science, 33 , 285-293.
Fedorowicz, J. (1982b). A Zipfian model of an automatic bibliographic system: An application of MEDLINE. Journal of the American Society for Information Science, 33 , 223-232.
Huber, J. C. (1998). Cumulative advantage and success-breeds-success: The value of time pattern analysis. Journal of the American Society for Information Science, 49 , 471-476.
Kendall, M. G. (1961). Natural law in the social sciences. Journal of the Royal Statistical Society. Series A, 124, 1-16.
Lotka, A. J. (1926). The frequency distribution of scientific productivity. Journal of the Washington Academy of Science, 16, 317-323.
Mandelbrot, B. (1953). An information theory of the statistical structure of language. Proceedings of the Symposium on Applications of Communication Theory (486-500), London: Butterworths.
Nacke, O. (1979). Informetrie. Ein neuer name f o r eine neue disziplin. Nachrichten f o r Dokumentation , 219-226.
Nelson, M. J. (1989). Correlation of term usage and term indexing frequencies. Information Processing and Management, 24, 541-547.
Oluić-Vuković, V. (1992). Journal productivity distribution: Quantitative study of dynamic behavior. Journal of the American Society for Information Science, 43 , 412-421.
Oluić-Vuković, V. (1995). On the dynamic behavior of Bradford's law. Journal of the American Society for Information Science, 46, 797-799.
Oluić-Vuković, V. (1997). Brdford's distribution: From the classical bibliometric “law” to the more general stochastic models. Journal of the American Society for Information Science, 48, 833-842.
Oluić-Vuković, V. (1998). The Simon generating mechanism: Consequences and their correspondence to empirical facts. Journal of the American Society for Information Science, 49, 867-880.
Pareto, V. (1895). Course d'economie politique. Vol. 2. Section 3. Lausane.
Shannon, C. E. (1945). A mathematical theory of communication. The Bell System Technical Journal, 27 , 379-423.
Simon, H. A. (1955). On a class of skew distribution functions. Biometrika, 42, 425-440.
White, H. D. i McCain, K. W. (1989). Bibliometrics. Annual Review of Information Science and Technology (ARIST), 24, 119-186.
Willis, J. C. (1922). Age and areas: A study of geographical distribution and origin of species. Cambridge University Press.
Wilson, C. S. (1999). Informetrics. Annual Review of Information Science and Technology (ARIST) , 34, 107-247.
Yablonsky, A. I. (1980). On fundamental regularities of the distribution of scientific productivity. Scientometrics, 2, 3-4.
Zipf, G. K. (1935). The psycho-biology of language, Boston: Houghton-Mifflin.
Zipf, G. K. (1948). Human behavior and the principle of least effort. Addison-Wesley Publishing C.
Zunde, P.(1984). Empirical laws and theories of information and software sciences . Information Processing and Management, 20, 5-18.
Priredila: Vesna Oluić-Vuković, prores@zg.htnet.hr
30. siječnja, 2003. |