Rus tilidagi harflardan foydalanish chastotasi. Matnlarni qidiruv tizimini optimallashtirish - kalit so'zlardan foydalanishning optimal chastotasi va uning ideal uzunligi Nima uchun tegishli nomlar va qisqartmalar alohida ro'yxatda ta'kidlangan

Qiziqarli PHP skriptini yozdi. Men u orqali Til uchun "Tomoshabin" dagi barcha matnlarni aylanib chiqdim. Matnlarda jami 39110 ta turli soʻz shakllari qoʻllangan. Qancha xilma-xil so'zlar- aniqlash qiyin. Bu raqamga qandaydir tarzda yaqinlashish uchun men so'zning faqat birinchi 5 ta harfini oldim va ularni taqqosladim. 14373 ta bunday kombinatsiyalar paydo bo'ldi. Katta cho'zilgan holda, buni "Tomoshabin" lug'ati deb atash mumkin.

Keyin men so'zlarni oldim va ularni harf chastotasi uchun tekshirdim. Ideal holda, siz to'liqlik uchun qandaydir lug'at olishingiz kerak. Matnlarni haydab bo'lmaydi, faqat noyob so'zlar kerak. Matnda ba'zi so'zlar boshqalarga qaraganda tez-tez takrorlanadi. Shunday qilib, biz quyidagi natijalarga erishdik:

o - 9,28%
a - 8,66%
e - 8,10%
va - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
c - 5,45%
l - 4,32%
c - 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
y - 2,90%
e - 2,56%
men - 2,22%
s - 2,11%
b - 1,90%
h - 1,81%
b - 1,51%
g - 1,41%
th - 1,31%
h - 1,27%
yu - 1,03%
x - 0,92%
w - 0,78%
w - 0,77%
c - 0,52%
u - 0,49%
f - 0,40%
e - 0,17%
b - 0,04%

"Mo''jizalar maydoni" ga boradiganlar uchun ushbu jadvalni yodlab olishingizni maslahat beraman. Va so'zlarni shu tartibda chaqiring. Shunday qilib, masalan, bunday "odatiy" "b" harfi "nodir" "s" harfiga qaraganda kamroq qo'llaniladi. Shuni ham unutmaslik kerakki, so'zda nafaqat unlilar mavjud. Va agar siz bitta unlini taxmin qilgan bo'lsangiz, unda undoshlar bo'ylab yurishni boshlashingiz kerak. Bundan tashqari, so'z undoshlar tomonidan aniq taxmin qilinadi. Taqqoslang: "** a** va * e" va "cf * vn * t *". Ikkala holatda ham bu "taqqoslash" so'zi.

Va yana bir fikr. Ingliz tilini qanday o'rgandingiz? Esingizdami? E qalam, e qalam, elektron stol. Men nima ko'rsam, men qo'shiq aytaman. Va ma'nosi?.. Oddiy hayotda "qalam" so'zini qanchalik tez-tez aytasiz? Agar vazifa iloji boricha tez va samarali gapirishga o'rgatish bo'lsa, unda shunga mos ravishda o'rgatish kerak. Biz tilni tahlil qilamiz, eng ko'p ishlatiladigan so'zlarni ta'kidlaymiz. Va biz ulardan o'rganishni boshlaymiz. Ingliz tilida ko'proq yoki kamroq gapirish uchun bir yarim ming so'z kifoya qiladi.

Yana bir hazil: harflardan tasodifiy so'zlarni yasash, lekin paydo bo'lish chastotasini hisobga olgan holda, u oddiy so'zlarga o'xshaydi. Birinchi o'nta "tasodifiy" to'rt harfli so'zda "eshak" paydo bo'ldi. Keyingi ellikta - "shoshilinch" va "NATO" so'zlari. Ammo, afsuski, "bltt" yoki "nrro" kabi dissonant kombinatsiyalar juda ko'p.

Shunday qilib, keyingi qadam. Men barcha so'zlarni ikki harfli birikmalarga ajratdim va ularni birlashtirish uchun tasodifiy (lekin takrorlanish chastotasini hisobga olgan holda) boshladim. Ko'p miqdorda po'lat "oddiy" ga o'xshash so'zlarga olib keladi. Masalan: "koivdiot", "voabma", "apy", "depoid", "debyako", "orfa", "poesnavy", "ozza", "chenya", "ritorika", "urdeed", "utoichi" , "Stykh", "etiklar", "gravda", "ababap", "obarto", "eluet", "larezy", "myni", "bromomer" va hatto "todebyst".

Qaerga murojaat qilish kerak ... variantlar mavjud. Masalan, chiroyli korporativ o'ynoqi nomlar generatorini yozing. Yogurtlar uchun. Masalan, "memoliso" yoki "utororerto". Yoki - "Burliuk-php" futuristik oyatlarning generatori: "opeldiy miaton, linoaz okmiaya ... deesopen odeson".

Va yana bir variant bor. Sinab ko'rish kerak...

Ruscha so'zlardan foydalanish bo'yicha ba'zi statistik ma'lumotlar:

  • O'rtacha so'z uzunligi 5,28 belgi.
  • O'rtacha jumla uzunligi 10,38 so'z.
  • 1000 ta eng tez-tez uchraydigan lemmalar matnning 64,0708% ni qamrab oladi.
  • 2000 yilda eng ko'p uchraydigan lemmalar matnning 71,9521% ni qamrab oladi.
  • 3000 ta eng tez-tez uchraydigan lemmalar matnning 76,5104% ni qamrab oladi.
  • 5000 ta eng tez-tez uchraydigan lemmalar matnning 82,0604% ni qamrab oladi.

E'lon qilgandan so'ng, men ushbu xatni oldim:


Salom Dmitriy!

"Til sizni Kievga olib keladi" maqolasini va uning dasturingizni tasvirlaydigan qismini tahlil qilgandan so'ng, bir fikr paydo bo'ldi.
Menimcha, siz yozgan stsenariy ko'proq "Mo''jizalar maydoni" uchun emas, balki boshqa narsa uchun mo'ljallangan.
Skriptingiz natijalaridan birinchi eng oqilona foydalanish mobil qurilmalar uchun tugmalarni dasturlashda harflar tartibini aniqlashdir. Ha, ha - bularning barchasi mobil telefonlarda kerak.

Men uni to'lqinlarga tarqatdim ()

Tugmalar bo'yicha keyingi tarqatish:
1. Birinchi to'lqinning barcha harflari birinchi qatorga 4 ta tugmachaga o'tadi
2. Ikkinchi to'lqinning barcha harflari ham xuddi shu birinchi qatordagi qolgan 4 ta tugmada
3. Uchinchi to'lqinning barcha harflari qolgan ikkita tugmachaga o'tadi
4. 4,5 va 6 to'lqinlar ikkinchi qatorga o'tadi
5. 7,8,9 to‘lqinlar uchinchi qatorga o‘tadi va 9-to‘lqin butunlay (ko‘rinib turgan ko‘p sonli harflarga qaramay) 9-tugmaning uchinchi qatoriga o‘tadi, shunda 10-tugma har qanday tinish belgilari ostida qoladi. belgilar (nuqta, vergul va boshqalar).

Menimcha, hamma narsa aniq va shuning uchun batafsil tushuntirishlarsiz. Ammo shunga qaramay, skriptingiz bilan (shu jumladan tinish belgilari) quyidagi tarkibdagi matnlarni qayta ishlay olasizmi:

Va keyin statistik ma'lumotlarni chiqarasizmi? Menga ko'rindiki? matnlar imkon qadar zamonaviy nutqimizni aks ettiradi va biz ham gaplashamiz, ham sms yozamiz.

Oldindan katta rahmat.

Shunday qilib, harflarning takrorlanish chastotasini tahlil qilishning ikki yo'li mavjud. 1-usul.Matn oling, undagi o‘ziga xos (takrorlanmaydigan) so‘z shakllarini toping va ularni tahlil qiling. Usul matnlar bo'yicha emas, balki rus tilidagi so'zlar bo'yicha statistik ma'lumotlarni yaratish uchun yaxshi. 2-usul. Matnda noyob so'zlarni qidirmang, lekin to'g'ridan-to'g'ri harflarning takrorlanish chastotasini hisoblashga o'ting. Biz ruscha matnda harflar chastotasini olamiz, ruscha so'zlarda emas. Klaviatura va boshqa narsalarni yaratish uchun siz ushbu maxsus usuldan foydalanishingiz kerak: bu klaviaturada yozilgan matnlar.

Klaviaturalar nafaqat harflarning chastotasini, balki eng keng tarqalgan so'zlarni (so'z shakllari) ham hisobga olishi kerak. Qaysi so'zlar eng ko'p ishlatilishini taxmin qilish unchalik qiyin emas: bular, birinchi navbatda, rasmiy nutq qismlari, chunki ularning roli har doim va hamma joyda xizmat qiladi va roli kam bo'lmagan olmoshlar: nutqda biron bir narsani / shaxsni almashtirish (bu, u, u). Xo'sh, asosiy fe'llar (bo'lish, aytish). Yuqorida sanab o'tilgan matnlarni tahlil qilish natijalariga ko'ra, men eng "mashhur" so'zlarni oldim: "va, emas, balki, nima, u, men, on, bilan, u, kabi, lekin, uni, bu, , lekin, hamma narsa, uning, edi, shunday, keyin, dedi, chunki, sen, oh, u, uni, men, faqat, uchun, men, bo‘lardi, ha, sen, dan, edi, qachon, dan, uchun, hali , endi, ular, dedilar, allaqachon, uni, yo‘q, edi, u, bo‘l, mayli, emas, agar, juda, hech narsa, bu yerda, o‘ziga, o‘ziga, bu, balkim, avval, biz, ular, yo, were, are, than, or, her” va hokazo.

Klaviaturalarga qaytadigan bo'lsak, klaviaturada "yo'q", "nima", "u", "on" va boshqalar harf birikmalari bir-biriga iloji boricha yaqin bo'lishi kerak yoki yaqin bo'lmasa, ba'zilarida eng optimal usul. Barmoqlarning klaviaturada qanday harakatlanishi, eng "qulay" pozitsiyalarni topish va ulardagi eng ko'p ishlatiladigan harflarni joylashtirish bo'yicha tadqiqot o'tkazish kerak, ammo harf birikmalari haqida unutmang.

Muammo, har doimgidek, bir xil: agar siz noyob klaviatura yaratishga muvaffaq bo'lsangiz ham, qwerty / yutsukenga allaqachon o'rganib qolgan millionlab odamlar bilan nima qilish kerak?

Mobil qurilmalarga kelsak ... Ehtimol, bu mantiqiydir. Hech bo'lmaganda, "o", "a", "e" va "va" harflari aynan bir xil kalitda bo'lishi kerak. Tinish belgilari qo'llanish chastotasi bo'yicha: , . - ? ! "; :)(

Foydalanish chastotasi

ism, sinonimlar soni: 1

umumiylik (10)


  • - Ba'zilar tufayli foydalanish cheklangan lug'at ekstralingvistik sabablar. L.o.u.ga. o'z ichiga oladi: dialektizmlar, atamalar va professionalizmlar, jargon, so'zlashuv so'zlari va iboralar, vulgarizmlar...

    Sotsialingvistik atamalar lug'ati

  • Umumiy tilshunoslik. Ijtimoiy lingvistika: lug'at-ma'lumotnoma

  • - grammatik shakllarning o'rnatilgan qo'llanilishini bildirish uchun Delbryuk tomonidan kiritilgan Gebrauchstypen nemis atamasi tarjimasi. T. toʻplamiga. masalan, sintaktik foydalanishning har xil turlarini o'z ichiga oladi ...

    Brockhaus va Euphron entsiklopedik lug'ati

  • - lug'at, ulardan foydalanish ekstralingvistik sabablarga ko'ra cheklangan: 1) hududiy jihatdan cheklangan dialektizmlar; 2) ilmiy uslubda ishlatiladigan atamalar...
  • Lingvistik atamalar lug'ati T.V. Kuy

  • Lingvistik atamalar lug'ati T.V. Kuy

  • - Bir ob'ektning boshqasidan farqini ishlatishni taqiqlovchi foydalanish: Tirik organizmlar ...siz mavjud bo'lolmaydi.
  • - Ushbu ob'ektlar sinfining o'ziga xos vakillari bilan bog'liq foydalanish: Men bu odamni ko'rishim kerak ...

    Umumiy morfologiyaning atama va tushunchalari: Lug'at-ma'lumotnoma

  • - 1) Murakkab birlashmagan jumlalarni tuzish qoidalarida ko'zda tutilgan variantlar: tushuntirish yoki motivatsiya uchun ikkita nuqta o'rniga chiziqcha qo'llanilishi mumkin: Ajratish xayoliy - biz tez orada birga bo'lamiz ...

    Sintaksis: Lug'at

  • - ergash gap, sinonimlar soni: 1 tagida...

    Sinonim lug'at

  • - adj., sinonimlar soni: muomalaga kirgan, eskirgan, zamonaviy talablarga javob bermagan, eskirgan, eskirgan, afsonalar olamiga chekingan 10 ta ...

    Sinonim lug'at

  • - Sm....

    Sinonim lug'at

  • - adj., Sinonimlar soni: 19

    Sinonim lug'at

  • - adj., sinonimlar soni: 2 ta ishlatib bo'lmaydigan kamdan-kam ...

    Sinonim lug'at

  • - adj., sinonimlar soni: 3

    Sinonim lug'at

  • - 1) Murakkab birlashmagan jumlalarni tuzish qoidalarida ko'zda tutilgan variantlar: tushuntirish yoki motivatsiya uchun ikkita nuqta o'rniga tire qo'llanilishi mumkin: Ajratish xayoliy - biz tez orada birga bo'lamiz 2) Ajratilganda ...

    Lingvistik atamalar lug'ati T.V. Kuy

kitoblarda "foydalanish chastotasi"

Oziqlantirish chastotasi

Harmar Xilleri tomonidan

Oziqlantirish chastotasi

Harmar Xilleri tomonidan

Oziqlantirish chastotasi Kuchukchani kuniga necha marta ovqatlantirish kerakligi zotning kattaligiga bog'liq. Ko'pgina kuchukchalar kechayu kunduz har uch soatda ovqatlansa yaxshi bo'ladi, lekin agar ular muddatidan oldin tug'ilsa yoki tug'ilganda vazni 85 g dan kam bo'lsa, ular o'lishlari mumkin.

Oziqlantirish chastotasi

Itlarni etishtirish kitobidan Harmar Xilleri tomonidan

Oziqlantirish chastotasi Kuchukchani kuniga necha marta ovqatlantirish kerakligi zotning kattaligiga bog'liq. Ko'pgina kuchukchalar kechayu kunduz har uch soatda ovqatlansa yaxshi bo'ladi, lekin agar ular muddatidan oldin tug'ilsa yoki tug'ilganda vazni 85 g dan kam bo'lsa, ular o'lishlari mumkin.

Oziqlantirish chastotasi

Itlar va ularning naslchilik kitobidan [Naslchilik itlari] Harmar Xilleri tomonidan

Oziqlantirish chastotasi Kuchukchani kuniga necha marta ovqatlantirish kerakligi zotning kattaligiga bog'liq. Ko'pgina kuchukchalar kechayu kunduz har uch soatda ovqatlansa yaxshi bo'ladi, lekin agar ular muddatidan oldin tug'ilsa yoki tug'ilganda vazni 85 g dan kam bo'lsa, ular o'lishlari mumkin.

Chastotasi

Ko'chmas mulk kitobidan. Uni qanday reklama qilish kerak muallif Nazoikin Aleksandr

14.2.3. O'zaro ta'sir chastotasi

Dimitri Nikolay tomonidan

14.2.3. O'zaro munosabatlarning chastotasi Bir xil raqobatchilar guruhi qanchalik tez-tez o'zaro aloqada bo'lsa, kelishuv shunchalik qat'iy bo'ladi, chunki qoidabuzarliklar tezroq jazolanadi. Agar, masalan, firmalar kamroq raqobatlashsa, ularning til biriktirish qobiliyati past bo'ladi.

15.4.6. Auktsion chastotasi

Xarid qilish bo'yicha qo'llanma kitobidan Dimitri Nikolay tomonidan

15.4.6. Kim oshdi savdolarining chastotasi Yuqorida aytib o'tilganidek, ba'zi auktsion halqalari o'zlari kelishib olgan kim oshdi savdosidan so'ng o'zaro pul mablag'larini o'tkazishlari yoki to'lanishi kerak bo'lgan summalar hisobini faqat vaqti-vaqti bilan yuritishi mumkin.

8. Funksional so‘zlarning qo‘llanish chastotasi muallifning o‘zgarmasligi bo‘lib chiqadi

Kitobdan kitob 2. Sanalarni o'zgartirish - hamma narsa o'zgaradi. [Yunoniston va Injilning yangi xronologiyasi. Matematika o'rta asr xronologlarining aldovini ochib beradi] muallif Fomenko Anatoliy Timofeevich

8. Funktsiyali so'zlarning qo'llanish chastotasi muallifning o'zgarmasligi bo'lib chiqadi.E'tiborga molik istisno bu bizning 3-parametrimiz - barcha funktsiyali so'zlarning qo'llanish chastotasi - PREPOSITIONS, UNIONS VA PARTICLES. Namuna hajmining o'sishiga qarab ushbu parametrning evolyutsiyasi ko'rsatilgan

Chastotasi

Muallifning Buyuk Sovet Entsiklopediyasi (CHA) kitobidan TSB

Chastotasi

muallif Nazoikin Aleksandr

Chastotasi

100 uchun media rejalashtirish kitobidan muallif Nazoikin Aleksandr

Chastotali telekanallar VHF va UHF chastotalarida efirga uzatiladi. Televizorda birinchi bo'lib metr diapazonlari o'zlashtirildi. XX asrning 90-yillarida Moskvada detsimetrli kanallar faol ishga tushirildi.Ilgari chastota muhim ahamiyatga ega edi, chunki turli kanallarni qabul qilish uchun

Chastotasi

100 uchun media rejalashtirish kitobidan muallif Nazoikin Aleksandr

Chastota Signal sifati signal uzatish chastotasiga bog'liq. Ko'proq darajada u VHF diapazonlarida (chastota modulyatsiyasi FM) taqdim etiladi. Tinglovchilar yaxshi ovoz berishni afzal ko'radilar, shuning uchun VHF stantsiyalari sezilarli auditoriya reytingiga ega va afzalroqdir

3.2. Chastotasi

muallif Ivanov Dmitriy Olegovich

3.2. Tez-tezligi Har qanday patologiyaning tibbiyotdagi ahamiyatini muhokama qilganda, bizning fikrimizcha, nafaqat yuzaga kelgan yoki yuzaga kelishi mumkin bo'lgan shikastlanishlar va asoratlarning etiologiyasi, patogenezi, klinikasi va og'irligi, balki ushbu patologiyaning tarqalishi haqida ham gapirish kerak. . TO

4.2. Chastotasi

Yangi tug'ilgan chaqaloqlarda issiqlik buzilishi kitobidan muallif Ivanov Dmitriy Olegovich

4.2. Chastotasi Yangi tug'ilgan chaqaloqlarda gipertermiya, ehtimol, hipotermiyaga qaraganda ancha kam uchraydi. Bu, ehtimol, ilmiy adabiyotlarda chaqaloqlarda gipertermiyaga bag'ishlangan juda kam ishlarning mavjudligi bilan bog'liq. Maayan-Metzger A. va boshqalar. (2003) 42313 ta holat tarixini tahlil qildi

Chastotasi

Yangi tug'ilgan chaqaloqlarda glyukoza metabolizmi kitobidan muallif Ivanov Dmitriy Olegovich

Chastotasi Korblant M., hayotning dastlabki 72 soatida gipoglikemiyani qondagi glyukoza kontsentratsiyasining 30 mg% dan kam (1,67 mmol / l) deb ta'riflagan, uni barcha tirik tug'ilganlarning 4,4% da aniqlagan.1971 yilda Lubchenco L. O. va Bard. N., Korblant M. mezonlaridan foydalangan holda, yangi tug'ilgan chaqaloqlarda gipoglikemiyani aniqladi.

- - Mavzular ma'lumotlarini himoya qilish UZ so'zdan foydalanish chastotasi ... Texnik tarjimon uchun qo'llanma

s; chastotalar; va. 1. Tez-tez (1 ta raqam). Harakatlarni takrorlash chastotasini kuzatib boring. Kartoshkani ekishning zarur soatlari. Puls tezligiga e'tibor bering. 2. Xuddi shu harakatlarni takrorlash soni, qanday l tebranishlari. vaqt birligi. H. gʻildirakning aylanishi. Ch... ensiklopedik lug'at

I Alkogolizm - bu spirtli ichimliklarni muntazam ravishda suiiste'mol qilish natijasida yuzaga keladigan ruhiy va somatik kasalliklarning kombinatsiyasi bilan tavsiflangan surunkali kasallik. A. x ning eng muhim ko'rinishlari. chidamlilik ...... ga o'zgaradi. Tibbiyot entsiklopediyasi

QO'lga olish- rus tilidagi kanca yozuvlarida ishlatiladigan o'ziga xos atamalardan biri. chiziqli bo'lmagan polifoniya, rivojlangan sub-ovozli polifonik ombor va vertikalning keskin dissonansi bilan tavsiflanadi. Pevch. hozirgi muddatning amalga oshirilishi. vaqt noma'lum ... Pravoslav entsiklopediyasi

Matnni tahlil qilishning stilostatistik usuli- tilning nutqdagi faoliyat turlarini, tilning turli muloqot sohalarida ishlash qonuniyatlarini, matn turlarini, funksiyalarning o‘ziga xos xususiyatlarini aniqlash uchun stilistika sohasida matematik statistika vositalaridan foydalanishdir. uslublar va ...

Porsiya aromali snus, mini porsiya Snus tamaki mahsulotining bir turi. U ezilgan namlangan tamaki bo'lib, u yuqori (kamroq pastki) lab va saqich o'rtasida joylashgan ... Vikipediya

ilmiy uslub- ilmiy ifodalaydi ijtimoiy ong shakli sifatida fanni amalga oshirish bilan bog'liq muloqot va nutq faoliyati sohasi; ob'ektivlik va mavhumlik bilan ajralib turadigan kontseptual mantiqiy shaklda harakat qiladigan nazariy fikrlashni aks ettiradi ... Rus tilining stilistik ensiklopedik lug'ati

- (maxsus adabiyotlarda otasining ismi ham) umumiy ismning bolaga otasining ismi bilan beriladigan qismi. Ota ismining o'zgarishi ularning tashuvchilarini uzoqroq ajdodlar, bobolar, bobolar bilan bog'lashi mumkin ... ... Vikipediya

Umumiy foydalanish, qo'llanilishi, tarqalishi, qo'llanilishi, sotilishi, umumiy qabul qilingan Rus sinonimlarining lug'ati. umumiylik ot, sinonimlar soni: 10 umumiylik (11) ... Sinonim lug'at

fikrlash- - nutqning funktsional semantik turi (qarang) - (FSTR), mavhum fikrlash shakliga mos keladigan - xulosa chiqarish, maxsus kommunikativ vazifani bajarish - nutqqa asosli xarakter berish (mantiqiy ravishda yangi hukm chiqarish yoki .. ... ... Rus tilining stilistik ensiklopedik lug'ati

Lug'at zamonaviy rus tilining eng ko'p qo'llaniladigan so'zlarini (20-asrning 2-yarmi - 21-asr boshlari) o'z ichiga oladi, ulardan foydalanish chastotasi, matnlar va janrlar bo'yicha statistik taqsimoti va matnlar yaratilgan vaqt haqida ma'lumot beriladi. Lug'at rus tili milliy korpusining 100 million so'z hajmidagi matnlari asosida tuzilgan. Rus tilining chastotali lug'atlari tarixi va lug'atning "Rus lug'atining yangi chastotali lug'ati" ni yaratish usullari haqida batafsil ma'lumotni topishingiz mumkin.

Lug‘at konsepsiyasini ishlab chiqish va uni nashrga tayyorlash ishlari O.N.Lyashevskaya va S.A.Sharovlar tomonidan, elektron varianti A.V.Sannikov tomonidan tayyorlangan. Mualliflar lug‘at yaratish tamoyillarini muhokama qilishda qatnashgan V. A. Plungyan, A. Ya. Shaikevich, E. A. Grishina, B. P. Kobritsov, E. V. Raxilina, S. O. Savchuk, D. V. Sichinava va boshqa ishtirokchilarga minnatdorchilik bildiradilar. Materialni yig'ish va kompyuterda qayta ishlashning turli bosqichlarida ko'rsatgan yordami uchun O. Uryupina, D. va G. Bronnikovs, B. Kobritsov, shuningdek, Yandex MChJ xodimlari A. Abroskin, N. Grigoriev, A. Sokirkoga minnatdorchilik bildiramiz.

Lug'atda so'zni qanday topish mumkin?

Lug'atning ikkita asosiy bo'limi alifbo tartibida va korpusda umumiy foydalanish chastotasi bo'yicha tartiblangan so'zlar ro'yxatidir. Barcha so'zlar asl (boshlang'ich) shaklida berilgan: ismlar uchun bu nominativ holat shakli (otlar uchun, qoida tariqasida, birlik shakl, sifatlar uchun - to'liq erkak shakli), fe'llar uchun - infinitiv shakl.

Alifbo tartibida 60 mingta eng ko'p uchraydigan so'z shakllari mavjud. Kerakli so'z haqida ma'lumotni topish uchun bo'limga o'ting, so'zning birinchi harfini tanlang va jadvaldan qidirayotgan so'zingizni toping. So'zni tezda topish uchun siz qidiruv maydonidan ham foydalanishingiz mumkin, masalan:

So'z: yorqin

Shunday qilib, siz nafaqat ma'lum bir so'z, balki bir xil tarzda boshlangan yoki tugaydigan so'zlar guruhi haqida ham ma'lumot topishingiz mumkin. Buning uchun qidiruv maydonida terilgan harflar ketma-ketligidan keyin ("... bilan boshlangan barcha so'zlar") yoki harflar qatoridan ("... bilan tugaydigan barcha so'zlar") keyin yulduzcha (*) qo'ying. Misol uchun, agar siz bilan boshlangan barcha so'zlarni topmoqchi bo'lsangiz qayta, qidiruv maydoniga kiriting:

So'z: qayta*

Agar siz - bilan tugagan barcha so'zlarni topmoqchi bo'lsangiz enko, qidiruv maydoniga kiriting:

So'z: *nko

Lemmalarning chastotalar ro'yxatida so'zlar zamonaviy rus adabiy tilining korpusida umumiy foydalanish chastotasi bo'yicha tartiblangan. Chastota ro'yxati 20 000 ta eng keng tarqalgan lemmalarni o'z ichiga oladi.

Kerakli so'z haqida ma'lumotni topish uchun bo'limga o'ting va jadvaldan qidirayotgan so'zingizni toping. Alohida so'zlar haqida ma'lumot qidirish uchun so'zlarni tez qidirish oynasidan foydalangan ma'qul.

Nega men bu so'zni korpusda topsam ham, lug'atdan topa olmayapman?

Bu bir necha sabablarga ko'ra bo'lishi mumkin. Birinchidan, so'z past chastotaga ega bo'lishi mumkin (masalan, korpusda faqat 3 ta hodisa) yoki faqat 1950 yilgacha yozilgan matnlarda qo'llanilishi mumkin. Ikkinchidan, so'z ko'p marta bo'lishi mumkin, lekin bir yoki ikkita matnda: bunday lemmalar ataylab lug'at lug'atidan chiqarib tashlangan. Uchinchidan, so‘zning asl shakli yoki nutq bo‘lagi xususiyatlarini avtomatik aniqlashda xatolik bo‘lganligini yoki so‘z noto‘g‘ri o‘ziga xos nom sifatida berilganligini istisno eta olmaymiz. Sayt chastota lug'atining "sinov" versiyasini taqdim etadi va biz uning leksik tarkibini aniqlashtirish ustida ishlashni davom ettiramiz.

So'zning ishlatilishi haqida qanday ma'lumotlarni olish mumkin?

Lug'atda siz so'zning korpusda ishlatilishi haqida quyidagi ma'lumotlarni olishingiz mumkin:

  • lemma paydo bo'lishining umumiy soni (ipm birliklarida umumiy chastota), bo'limlarga, badiiy adabiyotning chastotali lug'atlariga va boshqa funktsional uslublarga qarang; otlar, fe'llar va nutqning boshqa qismlarining chastotali lug'atlari
  • so'zning chastota darajasi (ya'ni umumiy chastotalar ro'yxatidagi seriya raqami), bo'limlarga, otlarning chastota lug'atlariga, fe'llarga va nutqning boshqa qismlariga qarang.
  • so'z sodir bo'lgan matnlar soni (hujjatlar soni), bo'limga qarang;
  • o'zgaruvchanlik koeffitsienti D, otlar, fe'llar va nutqning boshqa qismlari bo'limlari va chastota lug'atlariga qarang.
  • turli o'n yilliklarda (1950, 1960 va boshqalar) yaratilgan matnlarda so'zning qo'llanilishini taqsimlash, bo'limga qarang;
  • alohida so'z shakllaridan foydalanishning umumiy chastotasi, so'z shakllarining alifbo tartibida ro'yxati bo'limiga qarang.

    Muhim lug'at lug'atlarida, shuningdek, ma'lum bir funktsional uslubdagi (badiiy adabiyot, jurnalistika va boshqalar) matnlarning umumiy korpusidagi va subkorpusidagi so'zning qiyosiy chastotasi va LL-ball ehtimoli ko'rsatkichi haqida ma'lumot olish mumkin.

    Miqdor ko`rsatkichlaridan tashqari gap bo`lagi ham so`z bilan ko`rsatiladi. Bu bir xil asl shaklga ega bo'lgan so'zlarni nutqning turli qismlaridan ajratish uchun amalga oshiriladi (qarang. pishirish - ot va fe'l).

    ipm nima?

    Umumiy chastota korpus yoki ipm (million so'z uchun misollar) ning million so'zlari uchun foydalanish sonini tavsiflaydi. Bu jahon amaliyotida umumiy qabul qilingan chastota o'lchov birligi bo'lib, u turli chastotali lug'atlarda va turli korpuslarda so'zning chastotasini taqqoslashni soddalashtiradi. Gap shundaki, chastota o'lchanadigan matn namunalari hajmi jihatidan juda katta farq qilishi mumkin. Misol uchun, agar so'z kuch 400 ming so'zli korpusda 55 marta, millioninchi korpusda 364 marta va zamonaviy rus tilining 100 millioninchi korpusida 40598 marta va yirik 135 millioninchi NKRY korpusida 55673 marta uchraydi, keyin uning ipmdagi chastotasi 137,5 bo'ladi, 364.0, 372.06 va 412.39.

    Chastotalar lug'atlari, ed. L.N. Zasorina va L. Lenngren mos ravishda bir million so'zdan foydalanish namunasi bo'yicha qurilgan, biz u erda paydo bo'ladigan mutlaq ko'rsatkichlar ham ipmda berilgan deb taxmin qilishimiz mumkin.

    D o'zgaruvchanlik koeffitsienti nimaga teng?

    A. Juiland (Juilland va boshq. 1970) tomonidan kiritilgan D koeffitsienti ko'plab chastotali lug'atlarda qo'llaniladi (L. Lenngrenning ruscha lug'ati, Britaniya milliy korpus lug'ati, fransuz biznes lug'ati). Ushbu koeffitsient so'zning turli matnlarda qanchalik teng taqsimlanganligini ko'rish imkonini beradi.

    Koeffitsient qiymati 0 dan 100 gacha bo'lgan oraliqda aniqlanadi. Masalan, so'z Va korpusning deyarli barcha matnlarida uchraydi va uning D qiymati 100 ga yaqin. So'z komissurotomiya korpusda 5 marta uchraydi, lekin faqat bitta matnda; uning D qiymati taxminan 0 ga teng.

    Har bir so'z uchun D koeffitsientini ko'rsatish uning alohida mavzu sohalariga qanchalik xosligini baholash imkonini beradi. Masalan, so'zlar haddan tashqari pishgan Va implantatsiya taxminan teng chastotaga ega (0,56 ipm), lekin koeffitsienti D y haddan tashqari pishgan teng 90, a implantatsiyada 0. Bu shuni anglatadiki, birinchi so'z turli yo'nalishdagi matnlarda bir tekisda sodir bo'ladi va ko'p sonli mavzular uchun ahamiyatlidir, so'z esa implantatsiya faqat "tibbiyot va salomatlik" mavzusidagi bir nechta matnlarda mavjud.

    Turli davrlarda so'zning qo'llanilishi tarixi haqida nimalarni bilib olishingiz mumkin?

    20-asrning 2-yarmi va 21-asr boshlaridagi turli oʻn yilliklarda soʻz chastotasining taqsimlanishi haqida maʼlumot olish mumkin. Misol uchun, so'zning taqdiri qanday ekanligini ko'rish mumkin qayta qurish:

    1980-yillarda undan foydalanishning keskin o'sishini o'sha davrning ijtimoiy-tarixiy voqeligi bilan to'liq izohlash mumkin; shu bilan birga, tilshunoslik nuqtai nazaridan bu faktni quyidagicha izohlash mumkin: so‘z qayta qurish keyingi yillarda hukmron bo'lgan yangi ma'no bilan boyidi.

    Nima uchun tegishli nomlar va qisqartmalar alohida ro'yxatda ta'kidlangan?

    To'g'ri nomlar lug'atning asosiy qismidan ajratilgan, chunki ular statistik jihatdan kamroq barqaror guruhni tashkil qiladi va ularning chastotasi ko'p jihatdan korpusdagi matnlarni tanlashga va ularning mavzusiga (xususan, joy va vaqtga) bog'liq. tasvirlangan voqealar). Lengren 1993 yilda chastota lug'atiga umumiy asosda tegishli nomlarning kiritilishi muqarrar ravishda uning muddatidan oldin eskirishiga olib keladi, degan fikr bildirilgan.

    Lug'at ushbu ro'yxatning yadro qismini o'z ichiga oladi, eng tez-tez uchraydigan 3000 birlikdan iborat. Ismlar, otasining ismi, familiyasi, taxallusi, taxalluslari, toponimlari, tashkilot nomlari va qisqartmalardan foydalanish to'g'risidagi ma'lumotlarni qidirish uchun bo'limga o'ting Alifbo tartibida tegishli ismlar va qisqartmalar ro'yxati, siz izlayotgan so'z boshlanadigan harfni tanlang va uni jadvaldan toping. Tezkor so'z qidirish maydonidan ham foydalanishingiz mumkin.

    So'zning individual shakllaridan foydalanish haqida qanday ma'lumot olish mumkin?

    Lug'atda lemmadan foydalanish (ya'ni, so'zning barcha shakllarida) haqida ma'lumotlarga qo'shimcha ravishda, siz individual so'z shakllari qanday ishlatilishini bilib olishingiz mumkin. So'z shakllarining alifbo tartibida ro'yxati bo'limiga o'ting, so'z shakli boshlanadigan harfni tanlang va uni jadvaldan toping. Tezkor qidiruv maydonidan ham foydalanishingiz mumkin, masalan:

    so'z shakli: pashsha

    Muayyan harflar ketma-ketligi bilan boshlanadigan (yoki tugaydigan) barcha so'z shakllarini topish uchun qidiruv maydonidagi yulduzcha (*) belgisidan foydalaning. Masalan, bilan boshlanadigan barcha so'z shakllari uyquga qo'ying, yozish orqali topish mumkin:

    so'z shakli: uxlash*

    ¬ bilan tugaydigan barcha so‘z shakllari –com, yozish orqali topish mumkin:

    so'z shakli: *com

    So'z shakllarining alifbo tartibida chastotasi 0,1 ipm dan yuqori bo'lgan korpusning barcha so'z shakllari (jami 15 mingga yaqin) va ularning umumiy chastotasi haqida ma'lumot mavjud. Omonim so'z shakllari jadvalda * belgisi bilan belgilanadi.

    "Eng keng tarqalgan" so'zlar haqida ma'lumotni qanday topish mumkin?

    Lug'atimiz yordamida siz umumiy statistik xarakteristikalar bilan farq qiluvchi so'z turkumlari haqida ma'lumot topishingiz mumkin. Bular, xususan:

  • korpusdan umumiy namunadagi eng tez-tez uchraydigan so'zlar; umumiy namuna uchun o'rta chastotali so'zlar va boshqalar. (bo'limga qarang);
  • badiiy adabiyot subkorpusida eng ko'p uchraydigan so'zlar (badiiy adabiyotning chastotali lug'ati bo'limiga qarang);
  • jurnalistika subkorpusida eng ko'p uchraydigan so'zlar (jurnalistikaning chastota lug'atiga qarang);
  • boshqa badiiy bo'lmagan adabiyotlarning subkorpusida eng ko'p uchraydigan so'zlar (boshqa badiiy bo'lmagan adabiyotlarning chastotali lug'ati bo'limiga qarang);
  • og'zaki nutq uchun eng xarakterli so'zlar (Jonli nutqning chastota lug'ati bo'limiga qarang).
  • eng tez-tez uchraydigan otlar (otlarning chastotalar ro'yxati bo'limiga qarang);
  • eng tez-tez uchraydigan fe'llar (Fe'llarning tez-tez ro'yxati bo'limiga qarang);

    va qisman nutq sinflarining boshqa chastotalar ro'yxati.

    Taklif etilgan sinflarga qo'shimcha ravishda, siz "So'z shakllarining alifbo tartibidagi ro'yxati" bo'limidagi Umumiy alifbo tartibidagi jadvaldan foydalanib, boshqa so'z guruhlarini mustaqil ravishda o'rganishingiz mumkin (masalan, prefiks bilan eng ko'p uchraydigan fe'llarni o'rganishingiz mumkin) qayta, 200 dan ortiq matnlarda topilgan so'zlar va yana ko'p narsalar: sinflarni guruhlash tamoyillari sizning vazifalaringizga va tasavvuringizga bog'liq).

    Turli funktsional uslubdagi matnlarda chastotalar taqsimotini qanday kuzatish mumkin?

    L.N.Zasorinaning chastota lug'atida so'zning to'rt turdagi matnlarda qo'llanilishi haqida ma'lumotlar keltirilgan: (I) gazeta va jurnal matnlari, (II) dramaturgiya, (III) ilmiy va publitsistik matnlar, (IV) badiiy adabiyot. Bizning lug'atimizda shunga o'xshash ma'lumotlarni "Funktsional uslublar bo'yicha lemmalarni taqsimlash" bo'limidan foydalanib olishingiz mumkin.

    Funktsional uslublarning chastotali lug'atlari badiiy adabiyot, jurnalistika, boshqa badiiy bo'lmagan va jonli og'zaki nutqning subkorpuslari asosida tuzilgan. L. N. Zasorinaning lug'ati bilan taqqoslaganda, sarlavhalar tarkibi biroz o'zgartirildi: dramaturgiya o'rniga jonli og'zaki nutq yozuvlari va kino saundtreklarining stenogrammalaridan foydalaniladi, ilmiy adabiyotlar rasmiy biznes bilan bir qatorda alohida sarlavhada yoritilgan. cherkov va boshqa badiiy bo'lmagan adabiyotlar.

    Ro'yxatga ushbu subkorpuslarning eng ko'p uchraydigan 5000 lemmasi kiradi. Har bir lemma uchun nutq qismi, subkorpusdagi chastota va D koeffitsienti ko'rsatilgan.

    Ma'noli lug'at (badiiy adabiyot va boshqalar) nima?

    Funktsional uslublardan birida boshqalarga qaraganda ancha tez-tez ishlatiladigan so'zlar mavjud. Masalan, jonli og'zaki nutq uchun bunday so'zlar bu erda umuman Va KELISHDIKMI. Darhaqiqat, ilmiy va texnik adabiyotlarda bu so'zlar kundalik tilda bo'lgani kabi tez-tez qo'llaniladi, deb taxmin qilish qiyin.

    Matnlarning har bir funktsional turi uchun eng tipik lemmalar ro'yxati ushbu subkorpusdagi va korpusning qolgan qismidagi lemmalarning chastotasini taqqoslash asosida tanlangan. Ma'noli lug'at lug'atlari har biri 500 lemmadan iborat.

    Ma'noli lug'atda frq1, frq2 va LL ballari nimani anglatadi?

    Frq1 - lemmaning butun korpusdagi umumiy chastotasi (ipm birliklarida), frq2 - berilgan subkorpusdagi lemmaning chastotasi (mos ravishda badiiy adabiyot, jurnalistika, boshqa badiiy va jonli nutq subkorpusi), LL. -skor - bu P.Rayson va A.Garsayd tomonidan taklif qilingan formula bo'yicha frq1 va frq2 asosida hisoblangan ehtimollik nisbati (batafsilroq ma'lumot uchun Lug'atga kirishga qarang). LL ball qanchalik baland bo'lsa, ma'lum bir funktsional uslub uchun so'z shunchalik ahamiyatlidir.

    100 ta eng tez-tez uchraydigan fe'llar ro'yxatini qanday olish mumkin?

    "Umumiy lug'at: nutq qismlari" bo'limida lemmalarning chastotalar ro'yxati etti kichik ro'yxatlarga bo'lingan: otlar, fe'llar, sifatlar, ergash gaplar va predikatlar, olmoshlar, sonlar va nutqning yordamchi qismlari. Bu erda har bir lemma uchun uning umumiy chastotasi va umumiy ro'yxatdagi darajasi (seriya raqami) ko'rsatilgan. Har bir ro'yxatda eng ko'p uchraydigan 1000 ta lemma mavjud.

    Shunday qilib, siz Fe'l chastotasi ro'yxati kichik bo'limiga o'tib, ro'yxatning yuqori qismidagi birinchi 100 ta fe'lni tanlab, eng ko'p uchraydigan 100 ta fe'l ro'yxatini olishingiz mumkin. Xuddi shunday, siz qaysi sifatning eng ko'p ekanligini bilib olishingiz mumkin (Sifat nomlarining chastotalar ro'yxati bo'limida ko'rsatilganidek, bu sifat yangi) va qisman nutq darslarining tarkibi haqida boshqa ko'plab qiziqarli faktlarni bilib oling.

    Yordamchi jadvallardan qanday foydalanish kerak?

    Yordamchi jadvallar, birinchi navbatda, boshqa grammatik kategoriyalar singari, nutqning bir qismi sinflarining chastotasi haqidagi ma'lumotlarni o'z ichiga oladi. Ushbu ma'lumotlar NCRL subkorpusi asosida leksik-grammatik noaniqlik olib tashlangan (qo'lda) olingan (hajmi 6 million so'zdan ortiq). Statistik ma'lumotlar so'zlarning katta sinflariga taalluqli bo'lganligi sababli, nutq qismlari va boshqa grammatik toifalarning nisbati butun korpusda bir xil bo'ladi, deb ishonishga asos bor.

    Ikkinchidan, bu boʻlimda matnning leksemashakl bilan qamrovi, soʻzning oʻrtacha uzunligi, soʻz shakli va gapi haqida maʼlumotlar berilgan.

    Uchinchidan, bu erda rus alifbosi harflaridan foydalanish chastotasi ro'yxati, tinish belgilari, shuningdek, ikki harfli va ko'p harfli birikmalar.

  • Rus tilidagi harflardan foydalanish chastotasi

    Bilasizmi, alifboning baʼzi harflari soʻzlarda boshqalarga qaraganda tez-tez uchraydi... Bundan tashqari, tildagi unlilarning chastotasi undosh tovushlarga qaraganda yuqoriroq.

    Rus alifbosining qaysi harflari matn yozish uchun ishlatiladigan so'zlarda eng ko'p yoki kam uchraydi?

    Statistika umumiy qonuniyatlarni aniqlash va o'rganish bilan shug'ullanadi. Ushbu ilmiy yo'nalish yordamida rus alifbosidagi har bir harfning sonini, ishlatilgan so'zlarni sanash, turli mualliflarning asarlaridan parcha tanlash orqali yuqoridagi savolga javob berish mumkin. O'z manfaati uchun va zerikish uchun har kim buni o'zi qilishi mumkin. Men allaqachon o'tkazilgan tadqiqotning statistik ma'lumotlariga murojaat qilaman ...

    Rus alifbosi kirill alifbosidir. Uning mavjudligi davomida u bir nechta islohotlarni boshdan kechirdi, buning natijasida 33 ta harfdan iborat zamonaviy rus alifbo tizimi shakllandi.

    o - 9,28%
    a - 8,66%
    e - 8,10%
    va - 7,45%
    n - 6,35%
    t - 6,30%
    p - 5,53%
    c - 5,45%
    l - 4,32%
    c - 4,19%
    k - 3,47%
    n - 3,35%
    m - 3,29%
    y - 2,90%
    e - 2,56%
    I - 2,22%
    s - 2,11%
    b - 1,90%
    h - 1,81%
    b - 1,51%
    d - 1,41%
    th - 1,31%
    h - 1,27%
    yu - 1,03%
    x - 0,92%
    g - 0,78%
    w - 0,77%
    c - 0,52%
    u - 0,49%
    f - 0,40%
    e - 0,17%
    b - 0,04%

    Eng ko'p ishlatiladigan rus harfi unli tovushdir " HAQIDA', bu erda to'g'ri taklif qilinganidek. Shuningdek, xarakterli misollar ham bor, masalan, " HİMOYA QILIShI"(Bir so'zda 7 dona va hech qanday ekzotik yoki ajablantiradigan narsa yo'q; rus tiliga juda tanish). "O" harfining mashhurligi ko'p jihatdan to'liq unli kabi grammatik hodisaga bog'liq. Ya'ni "sovuq" o'rniga "sovuq" va "ko'pik" o'rniga "ayoz".

    Va so'zlarning boshida undosh harf " P". Bu rahbariyat ham ishonchli va shartsiz. Ehtimol, tushuntirish "P" harfi bilan ko'p sonli prefikslarni beradi: re-, pre-, pre-, pre-, pro- va boshqalar.

    Harf chastotasi kriptoanalizning asosidir.