აუდიო შეკუმშვა. Ogg Vorbis აუდიო შეკუმშვის მეთოდი

19.07.2019

რაც უფრო დიდია WT ბარათის მეხსიერება, მით უფრო რეალისტურია ხმა (რადგან უფრო მაღალი გარჩევადობით ჩაწერილი მეტი ნიმუში ინახება მეხსიერებაში). სტანდარტული გენერალი MIDIაღწერს 200-ზე მეტ ინსტრუმენტს მათი ბგერების (ცხრილების) ნიმუშების შესანახად საჭიროა მინიმუმ 8 მბ მეხსიერება (მინიმუმ 20 KB თითოეული ნიმუშისთვის).

WF მეთოდი ცნობილია ( ტალღა ფორმა) ხმის წარმოქმნა, რომელიც ეფუძნება ბგერების რთულ მათემატიკური ფორმულებად გადაქცევას და შემდეგ ამ ფორმულების გამოყენებას მძლავრი პროცესორის გასაკონტროლებლად ხმის რეპროდუცირებისთვის; მოსალოდნელია, რომ WF სინთეზი უზრუნველყოფს მუსიკალური ინსტრუმენტების ხმის კიდევ უფრო უკეთეს (FM და WT ტექნოლოგიებთან შედარებით) რეალობას ხმოვანი ფაილების შეზღუდული მოცულობით.

ტიპიური დიაგრამა გარე მოწყობილობების IBM PC-ზე ორიენტირებულ ხმის ბარათთან დასაკავშირებლად ( რუკა) ნაჩვენებია ნახ. 4.8.

მონაცემთა ნაკადის შესამცირებლად, სხვა ( შესანიშნავი PCM-დან) ანალოგური სიგნალის კოდირების მეთოდები. მაგალითად, კოდირების ტექნიკა, რომელიც დაფუძნებულია ანალოგური სიგნალის ცნობილ მახასიათებლებზე, ცნობილია, რომ მნიშვნელოვნად ამცირებს შენახული მონაცემების რაოდენობას; ერთად ე.წ - კოდირება ანალოგისიგნალი გარდაიქმნება ციფრულ კოდში, რომელიც განისაზღვრება სიგნალის სიდიდის ლოგარითმით (და არა მისი წრფივი ტრანსფორმაციით). მეთოდის მინუსი არის ორიგინალური სიგნალის მახასიათებლების შესახებ აპრიორი ინფორმაციის ქონა.

ცნობილია კონვერტაციის მეთოდები, რომლებიც არ საჭიროებენ აპრიორულ ინფორმაციას წყაროს სიგნალის შესახებ. ზე დიფერენციალური პულსის კოდის მოდულაცია(DPCM , დიფერენციალური პულსი კოდი მოდულაცია) ინახება მხოლოდ განსხვავება მიმდინარე და წინა სიგნალის დონეებს შორის (განსხვავება მოითხოვს ციფრულ წარმოდგენას ნაკლებიბიტების რაოდენობა, ვიდრე სრული ამპლიტუდა). ზე დელტა მოდულაცია(DM დელტა მოდულაცია) თითოეული ნიმუშიშედგება მხოლოდ ერთი ბიტისაგან, რომელიც განსაზღვრავს ორიგინალური სიგნალის ცვლილების ნიშანს (გადიდება ან შემცირება); დელტა მოდულაცია მოითხოვს შერჩევის უფრო მაღალ სიჩქარეს. დიფერენციალური პულსის კოდის მოდულაციის ტექნოლოგიები ასოცირდება შეცდომასთან, რომელიც დროთა განმავლობაში გროვდება, ამიტომ სპეციალური ზომები მიიღება ADC-ის პერიოდული დაკალიბრებისთვის.

ხმის ჩაწერის ყველაზე გავრცელებული მეთოდია ადაპტური პულსის კოდის მოდულაცია (ADPCM, ადაპტური პულსი კოდი მოდულაცია), სიგნალის სხვაობისთვის 8- ან 4-ბიტიანი კოდირების გამოყენებით. ტექნოლოგია პირველად კომპანიამ გამოიყენა კრეატიული ლაბორატორიებიდა უზრუნველყოფს მონაცემთა შეკუმშვას 4:1-მდე.

თუმცა, ხშირად გამოიყენება აუდიო ინფორმაციის შეკუმშვის/დეკომპრესიის სხვა (პროგრამული) მეთოდები; მათ შორის ბოლო დროს ყველაზე პოპულარული ფორმატი იყო MP3ინსტიტუტის მიერ შემუშავებული ფრაუნჰოფერი IIS (ფრაუნჰოფერი Integrierte ინსტიტუტი შალტუნგენი, www.iis.fhg.de) და THOMSON-ის მიერ (MP3 ფორმატის სრული სპეციფიკაცია გამოქვეყნებულია www.mp3tech.org). MP3 სტანდარტის სრული სახელია MPEG-Audio Layer-3 (სად MPEGარსი მოძრავი სურათების ექსპერტთა ჯგუფი, არ უნდა აგვერიოს MPEG-3 სტანდარტთან, რომელიც განკუთვნილია მაღალი გარჩევადობის ტელევიზიაში გამოსაყენებლად).

მონაცემთა MP3 კოდირება ხდება მონაცემთა ცალკეული ცალკეული ბლოკების - ჩარჩოების გამოყოფით. ამისათვის, კოდირების დროს ორიგინალური სიგნალი იყოფა თანაბარი ხანგრძლივობის სექციებად, რომელსაც ეწოდება ჩარჩოები და დაშიფრულია ცალკე (მონაცემების რაოდენობის შემდგომი შემცირების მიზნით, შეკუმშვა გამოიყენება ჰეფმანის ალგორითმი); დეკოდირების დროს სიგნალი იქმნება დეკოდირებული ჩარჩოების თანმიმდევრობით. კოდირების პროცესი მნიშვნელოვან დროს მოითხოვს, ხოლო დეკოდირება (დაკვრის დროს) ხორციელდება ფრენის დროს.

MP3 ფორმატი უზრუნველყოფს ხმის საუკეთესო ხარისხს ფაილის ყველაზე მცირე ზომით. ეს მიიღწევა ადამიანის სმენის მახასიათებლების, ეფექტის ჩათვლით ნიღბავსერთი სიხშირის დიაპაზონის სუსტი სიგნალი მიმდებარე დიაპაზონის უფრო მძლავრი სიგნალით (როდესაც ეს ხდება) ან წინა ჩარჩოს მძლავრი სიგნალით, რაც იწვევს ყურის მგრძნობელობის დროებით შემცირებას მიმდინარე ჩარჩოს სიგნალის მიმართ (სხვაში სიტყვები, მეორადი ბგერები, რომლებიც ადამიანის ყურს არ ესმის სხვის /წინა მომენტის არსებობის გამო - უფრო ძლიერი ბგერა). ის ასევე ითვალისწინებს ადამიანების უმრავლესობის უუნარობას განასხვავოს სიგნალები გარკვეული სიმძლავრის დონის ქვემოთ, რომელიც განსხვავდება სიხშირის სხვადასხვა დიაპაზონში. ამ პროცესს ე.წ ადაპტური კოდირებადა საშუალებას გაძლევთ დაზოგოთ მინიმუმზე მნიშვნელოვანიხმის დეტალების ადამიანის აღქმის თვალსაზრისით. შეკუმშვის ხარისხი (და შესაბამისად ხარისხი) განისაზღვრება არა MP3 ფორმატით, არამედ მონაცემთა ნაკადის სიგანეკოდირებისას.

ამ ტექნოლოგიის გამოყენებით შეკუმშული აუდიო ინფორმაცია შეიძლება გადაიცეს ან შეინახოს MP3 ან WAV-MP3 ფაილებში. მეორესა და პირველს შორის განსხვავება არის WAV ფაილის დამატებითი სათაურის არსებობა, რომელიც საშუალებას იძლევა, თუ სისტემაში არის MP3 კოდეკი (კოდეკი, ენკოდერი და დეკოდერი კომპლექსურ ვერსიაში), გამოიყენოს სტანდარტული Windows ინსტრუმენტები. იმუშავეთ ასეთ ფაილთან. შეკუმშვის პარამეტრები ფაილის კოდირებისას შეიძლება განსხვავდებოდეს ფართო საზღვრებში. ხარისხი, რომელსაც უბრალო მსმენელის უმეტესობისთვის განასხვავებს CD ხარისხისგან, მიიღწევა მცირე სიჩქარით ( ბიტის სისწრაფე, ბითრეტი) 112128 კბ წამში; შეკუმშვა არის დაახლოებით 14:1 თავდაპირველ მოცულობასთან შედარებით. სპეციალისტები, როგორც წესი, ითხოვენ გადაცემის სიჩქარეს 256320 კბ/წმ (ეს შეესაბამება CD პლეერის მხოლოდ ორმაგ სიჩქარეს, მაგრამ არ არის ხელმისაწვდომი შიდა ინტერნეტ ხაზების უმეტესობისთვის).

MPEG კოდირების ფუნდამენტური მახასიათებელია (როგორც ვიდეო, ასევე აუდიო ინფორმაცია). დაკარგვის შეკუმშვა. MP3 მეთოდით აუდიო ფაილის შეფუთვისა და ამოხსნის შემდეგ, შედეგი არის არ არის ორიგინალის იდენტურიპირიქით, შეფუთვა მიზანმიმართულად გამორიცხავს შეფუთული სიგნალიდან უმნიშვნელო კომპონენტებს, რაც იწვევს შეკუმშვის კოეფიციენტის უკიდურესად ზრდას (შეკუმშვა 96:1-მდე სატელეფონო არხის ხარისხით).

ასევე არსებობს მრავალი მოსახერხებელი პროგრამა, რომელიც დაწერილია MP3-ზე. დაიწყო ტექნიკის (ჯიბის და მანქანის) MP3 ფლეერების წარმოება (MP3 მხარს უჭერს 5 არხს).

1998-1999 წლების მიჯნაზე კომპანია XingTech(www.xingtech.com) იყო პირველი, ვინც გამოიყენა ტექნოლოგია ცვლადი ბიტის სიხშირე(VBR, ცვლადი ნაკბენი შეფასება). VBR-ის შემთხვევაში მაქსიმუმი მისაღებიდაკარგვის დონე და შიფრატორი ირჩევს მინიმალურ ბიტის სიჩქარეს, რომელიც საკმარისია დავალების შესასრულებლად. საბოლოო ნაკადში ერთმანეთის მიმდებარე ჩარჩოები შეიძლება დასრულდეს სხვადასხვა პარამეტრით კოდირებული.

ექსპერტების აზრით, MP3 დარჩება აქტუალური მომდევნო ათწლეულში (მიუხედავად იმისა, რომ არსებობს AAG და VQF ფორმატები და დაწინაურებული MS ფორმატი. WMA). სხვათა არსებობის შესახებ კოდირებს(ინფორმაციის ერთი ფორმატიდან მეორეში გადამყვანები) იხილეთ www.sulaco.org/mp3/free.html და www.xiph.org.

MP3-ის შესაძლო კონკურენტი (არც ისე ახლო) მომავალში შეიძლება იყოს MPEG-4 ფორმატი (უფრო ზუსტად, მისი აუდიო კომპონენტი), რომელიც ეფუძნება ობიექტზე დაფუძნებულ მიდგომას ხმის სცენებთან (ენაზე). BIFSსაშუალებას გაძლევთ განათავსოთ ხმის წყაროები სცენის სამგანზომილებიან სივრცეში, აკონტროლოთ მათი მახასიათებლები და გამოიყენოთ ეფექტები მათზე ერთმანეთისგან დამოუკიდებლად და ა.შ., მომავალ ვერსიებში მოსალოდნელია დაემატოს გარემოს აკუსტიკური პარამეტრების დაყენების შესაძლებლობას. ).

აუდიო ობიექტების კოდირებისთვის, MPEG-4 გთავაზობთ ინსტრუმენტთა ნაკრების როგორც ცოცხალი, ისე სინთეზირებული ბგერებისათვის ცოცხალი ხმები - 2-დან 128 კბ/წმ-მდე და უფრო მაღალი ბიტის სიჩქარით კოდირებისას მინიმალური საშუალო სიჩქარე შეიძლება იყოს კიდევ უფრო დაბალი (დაახლოებით 1,2 კბ/წმ) უმაღლესი ხარისხის აუდიოსთვის გამოიყენება AAC ალგორითმი, რომელიც იძლევა ხარისხს. უკეთესია, ვიდრე 10-ჯერ ნაკლები ნაკადი, ცოცხალი ხმის კოდირებისთვის TwinVQ. ალგორითმები შემოთავაზებულია მეტყველების კოდირებისთვის HVXC(ჰარმონიული ვექტორის აგზნების კოდირება) 24 კბ/წმ სიჩქარისთვის და CELP(კოდი აღფრთოვანებული ხაზოვანი პროგნოზირებადი) 424 კბ/წმ სიჩქარისთვის.

MPEG-4 ითვალისწინებს მეტყველების სინთეზის შესაძლებლობას. სინთეზატორის შეყვანები იღებენ სალაპარაკო ტექსტს, ასევე ხმის „შეღებვის“ სხვადასხვა პარამეტრებს - სტრესი, სიმაღლის ცვლილებები, ფონემების გამოთქმის სიჩქარე და ა.შ. ასევე შეგიძლიათ დააყენოთ „მოსაუბრე“ სქესი, ასაკი. აქცენტი და ა.შ. შეგიძლიათ ტექსტურ ინფორმაციაში ჩასვათ კონტროლი, რომელიც აღმოჩენისთანავე, სინთეზატორი, შესაბამისი ფონემის გამოთქმასთან სინქრონულად, გადასცემს პარამეტრებს ან ბრძანებებს სისტემის სხვა კომპონენტებზე (მაგალითად, ხმის პარალელურად. , შეიძლება შეიქმნას სახის ანიმაციის პარამეტრების ნაკადი). როგორც ყოველთვის, MPEG-4 განსაზღვრავს სინთეზატორის მუშაობის წესებს და ინტერფეისს, მაგრამ არა მის შიდა სტრუქტურას.

"ხმის" კომპონენტის საინტერესო ნაწილია თვითნებური ბგერებისა და მუსიკის სინთეზირების საშუალება, როგორც სტანდარტული მიდგომა, რომელიც შემუშავებულია მრავალი მოწინავე ტექნოლოგიების აკვანში - MIT მედია ლაბორატორია. და სახელად SA ( სტრუქტურირებული აუდიო, სტრუქტურირებული ხმა). ეს არ არის სპეციფიკური სინთეზის მეთოდი, არამედ სინთეზის მეთოდების აღწერის ფორმატი, რომელშიც შესაძლებელია ნებისმიერი არსებული მეთოდის (და, სავარაუდოდ, მომავალი) დაზუსტება. ამისთვის ორი ენაა ხელმისაწვდომი - SAOL (სტრუქტურირებული აუდიო ორკესტრის ენა) და SASL (სტრუქტურირებული აუდიო ქულის ენა). პირველი განსაზღვრავს ორკესტრს, ხოლო მეორე აზუსტებს რა უნდა უკროს ამ ორკესტრმა. ორკესტრი შედგება ინსტრუმენტებისგან, თითოეული ინსტრუმენტი წარმოდგენილია ციფრული სიგნალის დამუშავების ელემენტების ქსელით - სინთეზატორები, ციფრული ფილტრები, რომლებიც ყველა ერთად სინთეზირებს სასურველ ხმას. SAOL-ით შეგიძლიათ დაპროგრამოთ თითქმის ნებისმიერი სასურველი ინსტრუმენტი, ბუნებრივი თუ ხელოვნური ხმა. ჯერ დეკოდერში იტვირთება ინსტრუმენტების ნაკრები, შემდეგ კი SASL მონაცემთა ნაკადი იწვევს ამ ორკესტრის დაკვრას, აკონტროლებს სინთეზის პროცესს; ეს უზრუნველყოფს ერთსა და იმავე ხმას ყველა დეკოდერზე ძალიან დაბალი შეყვანის ნაკადით და მაღალი კონტროლის სიზუსტით. MPEG-4-ის მოსვლასთან ერთად, ITV-ის იდეა რეალურად იღებს უფრო რეალურ და გასაგებ ფორმას ( ინტერაქტიული ტელევიზია, ინტერაქტიული ტელევიზია), რომელზეც უკვე რამდენიმე წელია განიხილება და რომლითაც ყველას რაღაც განსხვავებული ესმის (უბრალო „ვიდეო-მოთხოვნით“ დაწყებული დეტექტიური ისტორიებიდან მრავალვარიანტული სიუჟეტური განვითარებით და მაყურებლის მონაწილეობით).

MPEG-4-ის შესახებ მონაცემები მოწოდებულია ძირითადად მედიის ჩაწერისა და სინთეზის მიმდინარე ტენდენციების შესახებ ინფორმაციისთვის, ვინც დაინტერესებულია: cselt.it/mpeg და www.mpeg.org. 2000 წლის ბოლოს MPEG-ის განვითარების ჯგუფმა დაგეგმა გამოეცხადებინა MPEG-7 სტანდარტზე მუშაობის დასრულება (ოფიციალური სახელი - მულტიმედიური შინაარსის აღწერილობის ინტერფეისი).

3.2. Mp3 - აუდიო შეკუმშვის ტექნოლოგია

თავად სახელი MP3 გაჩნდა აბრევიატურის MPEG-1 Layer3-ის შედეგად.

MPEG (Motion Pictures Expert Group) არის ჯგუფი სტანდარტიზაციის საერთაშორისო ორგანიზაციისა და საერთაშორისო ელექტრო კომიტეტის დაქვემდებარებაში, რომელიც ავითარებს სტანდარტებს ვიდეო და აუდიო ინფორმაციის ციფრული შეკუმშვისთვის. რატომ შეკუმშო ეს ინფორმაცია? ჯერ ერთი, ეკონომიკური და მატერიალური რესურსების დაზოგვა საკომუნიკაციო არხების (მათ შორის თანამგზავრის ჩათვლით) მანძილზე ინფორმაციის გადაცემისას და მეორეც, მისი შენახვა.

MPEG-1 სტანდარტმა მიიღო ოფიციალური დამტკიცება 1992 წელს, მაგრამ ბოლო დრომდე აღმოჩენა არ იყო სრული მოთხოვნა. მხოლოდ საკმარისად მძლავრი Pentium პროცესორების (300 MHz და მეტი საათის სიხშირეებით, რამაც შეიძლება მკვეთრად შეამციროს სიგნალის კოდირების/გაშიფვრის დრო) და მაღალსიჩქარიანი მოდემების გამოჩენით, სტანდარტმა ფართო აღიარება მოიპოვა.

MPEG-1 სტანდარტი არის სტრიმინგის ფორმატი და შედგება აუდიო, ვიდეო და სისტემის ნაწილებისგან. ბოლო ნაწილი შეიცავს ინფორმაციას პირველი ორის გაერთიანებისა და სინქრონიზაციის შესახებ.

მონაცემთა გადაცემა ხდება მონაცემთა დამოუკიდებელი ცალკეული ბლოკების ნაკადში - ჩარჩოები, რომლებიც მიღებულია თანაბარი ხანგრძლივობის სექციებად „დაჭრით“, რომლებიც ერთმანეთისგან დამოუკიდებლად არის კოდირებული.

ამჟამად არსებობს MPEG სტანდარტების ხუთი ტიპი (ნომრები):

1) MPEG1 - აუდიო და ვიდეო შეკუმშვა ჯამური სიჩქარით 150 კბ/წმ-მდე (აუდიო 38, 44.1, 48 კილოჰერცი);

2) MPEG2 - აუდიო და ვიდეო შეკუმშვა ჯამური სიჩქარით 300 კბ/წმ-მდე (აუდიო 38, 44.1, 48 კილოჰერცი), აუდიო შეკუმშვა არის MPEG1-ის იდენტური;

3) MPEG2.5 - აუდიო შეკუმშვა შემცირებული გარჩევადობით (აუდიო 16.22.05.24 კილოჰერცი). საინტერესოა აღინიშნოს, რომ MPEG2.5 სტანდარტი (ასევე ცნობილია როგორც MPEG2 LSF - LOW SAMPLE FREQUENCY - დაბალი აუდიო სკანირების სიხშირე) შემოიღო IIS Fraunhofer-მა (Fraunhofer Institute of Information Technology გერმანიიდან). ეს სტანდარტი არის "სუფთა" აუდიო MPEG2 (ანუ MPEG1!) გაფართოება აუდიო სკანირების სიხშირეზე ნორმალური სიჩქარის ნახევარზე;

4) MPEG3 - მრავალარხიანი MPEG1+MPEG2. ეს სტანდარტი პრაქტიკულად არ გამოიყენება;

5) MPEG4 არის ახალი სტანდარტი საზღვარგარეთ. მისი მახასიათებელი: მას შეუძლია აუდიოს 8 არხამდე (ანუ AC-3 - Surround სისტემის ციფრული გაფართოება).

რაც უფრო მაღალია დონის ინდექსი, მით უფრო მაღალია კოდირების ალგორითმის სირთულე და შესრულება და შესაბამისად, იზრდება მოთხოვნები სისტემის რესურსებზე.

აქ ტერმინი „კოდირება“ ეხება პროცესს, რომელიც საშუალებას გაძლევთ მიიღოთ ფაილი შეკუმშული ფორმით, რომელიც იკავებს ნაკლებ ადგილს დისკზე და, შესაბამისად, უფრო სწრაფად გადაიცემა საკომუნიკაციო არხებით. ფაილის შეკუმშული სახით გამოყენება შეუძლებელია, ამიტომ გამოყენებამდე უნდა იყოს გაშიფრული. ფაილის შეკუმშვას ყოველთვის არ აქვს დადებითი შედეგი. შედეგი პირდაპირ დამოკიდებულია შეკუმშვის მეთოდზე და თავად ფაილის შინაარსზე.

MPEG Audio-ში სიგნალის კოდირების პრინციპი ეფუძნება ფსიქო-აკუსტიკური მოდელის გამოყენებას, რომლის არსი შემდეგია.

არსებობს რამდენიმე ხმის სიხშირე, რომელსაც ადამიანის ყური ვერ აღიქვამს. ზოგიერთი ბგერა ნიღბავს სხვებს, როგორც უფრო დიდი ამპლიტუდით, ასევე მსგავსი სიხშირით. ასე რომ, მაგალითად, თუ გამოიცემა ძლიერი ხმა 1000 ჰც სიხშირით (ნიღბვა), მაშინ უფრო სუსტი ხმა 1100 ჰც სიხშირით (ნიღბვა) ადამიანის ყურს ვერ აღმოაჩენს სმენის ზღურბლის მახასიათებლების გამო. ადამიანის ყურის. სმენის ბარიერი სიხშირის დიაპაზონის კიდეებზე (16-20 Hz და 16-20 kHz) მნიშვნელოვნად იზრდება, რადგან ამ სიხშირეებზე სმენას აქვს მნიშვნელოვნად დაბალი მგრძნობელობა სმენის უდიდესი მგრძნობელობის რეგიონთან შედარებით (დიაპაზონი 1-5 kHz). ასევე ცნობილია, რომ ხმამაღალი სიგნალის შემდეგ სმენის მგრძნობელობის აღდგენის დრო არის დაახლოებით 100 ms, ხოლო იგივე სიგნალის აღქმის დაყოვნების დრო დაახლოებით 5 ms.

ამრიგად, გადაიცემა მხოლოდ ის ხმოვანი ინფორმაცია, რომელიც ადეკვატურად აღიქმება მსმენელთა დიდი უმრავლესობის მიერ, ხოლო დანარჩენი, სამწუხაროდ, შეუქცევადად იკარგება.

როგორც აღვნიშნეთ, ყველა ფენას აქვს ერთი და იგივე ძირითადი სტრუქტურა, რომელშიც ენკოდერი აანალიზებს თავდაპირველ სიგნალს, ითვლის მისთვის ფილტრის ბანკს (32 ზოლს) და იყენებს ფსიქოაკუსტიკურ მოდელს. წინასწარ შერჩეული კვანტიზაციის სიხშირით, ნაკადის სიჩქარით და ნიღბის მნიშვნელობით, ენკოდერი ახდენს სიგნალის კვანტიზირებას და დაშიფვრას.

კოდირების მეთოდების შედარებითი მახასიათებლები ერთი არხისთვის კვანტიზაციის სიხშირეზე 32 kHz წარმოდგენილია ცხრილში 2.

ცხრილი 2.

კოდირების მეთოდი	ბაუდის სიჩქარე (კბიტ/წმ)	შეკუმშვის კოეფიციენტი
ფენა 1	192	1:4
ფენა 2	128-96	1:6...8
ფენა 3	64-56	1:10...12

კოდირებამდე, წყაროს სიგნალი იყოფა ჩარჩოებად, რომელთაგან თითოეული დაშიფრულია ცალკე სხვადასხვა პარამეტრით და მოთავსებულია საბოლოო ფაილში სხვებისგან დამოუკიდებლად. დაკვრის თანმიმდევრობა განისაზღვრება კადრების თანმიმდევრობით. ყველა ინფორმაცია ჩარჩოს შესახებ შეიცავს მის სათაურში, ხოლო ინფორმაცია ჩარჩოების შესახებ შეიცავს ფაილის სათაურში. შემსრულებლის, ალბომის, სიმღერის სათაურის, ჟანრის და ა.შ. ინფორმაციისთვის მოწოდებულია ID3/ID2 ტეგის სათაური. არსებული მოთამაშეების დიდი უმრავლესობა იყენებს ამ სათაურს ამ ინფორმაციის გადასაადგილებლად მუსიკის დაკვრის დროს.

ჩარჩოებს შორის შეიძლება იყოს თვითნებური ინფორმაცია, მაგალითად, საავტორო უფლებები, რომელიც განთავსებულია თანაბარ ფენაში მთელ ფაილში. თანმიმდევრული ფრეიმების მთავარი მოთხოვნაა, რომ არ იყოს შესაბამისი კადრის დაწყების ხელმოწერასთან.

კადრების სიხშირეს ეწოდება ბიტირეტი (BIT RATE - ბიტის სიხშირე, რაც უფრო მაღალია, მით უფრო ახლოს იქნება საბოლოო შედეგი ორიგინალთან).

თითოეულ ბიტის სიჩქარეს აქვს საკუთარი გამოყენების სფერო. მაღალი ხარისხის ასლის შესაქმნელად, რომელიც შეესაბამება ორიგინალის ხარისხს, გამოიყენება მხოლოდ მაღალი ბიტის სიჩქარე დაახლოებით 256 კბიტ/წმ. 128 კბიტ/წმ სიჩქარით, საბოლოო პროდუქტის ხარისხი საკმაოდ ნორმალური ჩანს, მაგრამ ბევრს უკვე შეუძლია შეამჩნია განსხვავება ასლსა და ორიგინალს შორის. ინტერნეტი ყველაზე ხშირად შეიცავს MP3 ფაილებს, რომლებიც დაშიფრულია ბიტის სიჩქარით 128 კბიტ/წმ. მაგრამ მართლაც მაღალი ხარისხის ასლის შესაქმნელად, თქვენ უნდა გამოიყენოთ კოდირების სიჩქარე 320 კბიტი/წმ, თუმცა საბოლოო ფაილი მხოლოდ 4.3-ჯერ მცირეა 10.8-ჯერ 128 კბიტ/წმ-ზე და 5.4-ჯერ 256 კბიტ/წმ-ზე. ამიტომ, თქვენ თავად უნდა აირჩიოთ ბიტრეიტი, თქვენი საჭიროებიდან გამომდინარე.

ჩარჩოს მარკირების შემდეგ, ორიგინალური სიგნალი იყოფა კომპონენტებად სავარცხელი ფილტრების გამოყენებით, რომლებიც წარმოადგენენ ინდივიდუალურ სიხშირის დიაპაზონს, რაც ერთად იძლევა დამუშავებულ სიგნალს. თითოეული ასეთი დიაპაზონისთვის განისაზღვრება მისი საკუთარი ფსიქოაკუსტიკური მოდელი და ჩარჩო სექციები, რომლებიც "გამოვარდებიან" კოდირების პროცესიდან. დანარჩენი მონაცემებისთვის განისაზღვრება კვანტიზაციის მაქსიმალური დასაშვები სიხშირე, რომელიც უნდა უზრუნველყოფდეს დანაკარგებს ნიღბის ეფექტის მნიშვნელობის ქვემოთ.

ყველა ფრეიმის დამუშავების შემდეგ წარმოიქმნება საბოლოო ნაკადი, რომელიც დამატებით კოდირდება ჰაფმანის მეთოდით. ეს ალგორითმი ასევე გამოიყენება ARJ არქივში, მაგრამ დინამიური, მუდმივად ცვალებადი ჰაფმანის ცხრილით, რომელიც საჭიროებს მონაცემებში ორ გადასასვლელს; ფიქსირებული Layer 3 ცხრილით, შეკუმშვა ხდება ერთ უღელტეხილზე. ეს მეთოდი საშუალებას გაძლევთ "შეკუმშოს" მთლიანი მოცულობის 20 პროცენტამდე. შედეგი არის დაშიფრული აუდიო მონაცემების საბოლოო ნაკადი.

ჩემთან ერთად" გრიბოედოვისგან მოსმენილი გლინკას უხელოვნური მელოდიით და რომანში უფრო რთული დრამატული გადაწყვეტით - რახმანინოვის აღმოსავლური ლექსით სავსე ელეგიური სევდა და მარტოობა. ასევე ძალიან ვრცელი და საინტერესოა მე-20 საუკუნის მიუზიკლი პუშკინიანი. ყველაზე მნიშვნელოვან ნამუშევრებს შორისაა გლიერის ბალეტები „სპილენძის მხედარი“, რომლის ერთ-ერთი მთავარი თემა მართლაც გახდა „დიდი ჰიმნი...

სიმღერები, ხუმრობები, რითმები მუსიკალურ ინსტრუმენტებზე დაკვრისთვის; მელოდიური და რიტმული სიმღერების იმპროვიზაციისას მეტყველების პროსოდიული მხარის ნორიოლიზაციისთვის. მაკორექტირებელ და განმავითარებელ განათლებაში დაწყებითი სკოლის მოსწავლეებთან მუშაობისას შესაძლებელია მხოლოდ უმარტივესი ინსტრუმენტების გამოყენება. ეს არის დასარტყამი ჯგუფის მუსიკალური ინსტრუმენტები, როგორც წმინდა რიტმული, გარკვეული სიმაღლის გარეშე...

ბავშვის პიროვნების მორალური თვისებები საწყის საფუძველს უყრის მომავალი ადამიანის ზოგად კულტურას. II. საბავშვო ბაღში ბავშვთა აქტივობების განხორციელების პედაგოგიური პირობები 2.1 საბავშვო ბაღში მუსიკალური განათლების მეთოდები მუსიკალური საქმიანობის ძირითადი ტიპი, რომელიც წამყვან როლს ასრულებს მუსიკის შემეცნებითი და კომუნიკაციური ფუნქციის განხორციელებაში - მისი აღქმა...

მუსიკალურ ნაწარმოებზე მუშაობა, ემოციური და ქცევითი დარღვევების დონე. 2. გონებრივად ჩამორჩენილი ობლებისა და მშობელთა მზრუნველობას მოკლებული ბავშვთა სახლში მუსიკალური მუშაობის სპეციფიკა მუსიკალური განათლების პრობლემების გადაჭრა ხელს უწყობს მუსიკალური საქმიანობის ორგანიზების სხვადასხვა ფორმების გამოყენებას, რომელთაგან თითოეულს აქვს გარკვეული შესაძლებლობები (იხ. დიაგრამა). ...

ასე რომ, როგორც უკვე ვიცით, აუდიო დისკების ხარისხით აუდიოს გადასაცემად საჭიროა 1.411 Mbps სიჩქარე. ნათელია, რომ ასეთი მონაცემების პრაქტიკული გადაცემა ინტერნეტით მოითხოვს მნიშვნელოვან შეკუმშვას. ამ მიზნით შემუშავებულია ციფრული აუდიოს შეკუმშვის სხვადასხვა ალგორითმები. ერთ-ერთი ყველაზე პოპულარული ფორმატია აუდიო MPEG, რომელსაც აქვს სამი დონე (ჯიშები). ყველაზე ცნობილი და ხარისხიანია MP3 (MPEG ფენა 3 - MPEG მე-3 დონე). ინტერნეტში შეგიძლიათ იპოვოთ MP3 ჩანაწერების დიდი რაოდენობა, რომელთაგან ყველა ნამდვილად არ არის ლეგალური. ამან გამოიწვია მრავალი სარჩელი ხელოვანებისა და საავტორო უფლებების მფლობელების მიერ, რომელთა კანონიერი უფლებები დაირღვა. MP3 არის MPEG სტანდარტის ნაწილი ვიდეო შეკუმშვისთვის. ჩვენ განვიხილავთ მოძრაობის გამოსახულების შეკუმშვის ტექნიკას მოგვიანებით ამ თავში, მაგრამ ახლა მოდით შევხედოთ აუდიო შეკუმშვას.

აუდიო შეკუმშვის ორი კონცეფცია არსებობს. ტალღის ფორმის კოდირებისას, სიგნალი იშლება კომპონენტებად ფურიეს ტრანსფორმაციის გამოყენებით. ნახ. 2.1, და გვიჩვენებს მაგალითს დროის ფუნქციისა და ამპლიტუდების სახით, რომლებიც წარმოიქმნება მისი გაფართოების შედეგად ფურიეს სერიაში. თითოეული კომპონენტის ამპლიტუდა დაშიფრულია მინიმალური დამახინჯებით. მიზანია სიგნალის ფორმის რაც შეიძლება ზუსტად გადაცემა ბიტების მინიმალური შესაძლო ნარჩენებით.

კიდევ ერთი კონცეფცია ეწოდება აღქმის კოდირებას. იგი ეფუძნება ადამიანის სმენის სისტემის ზოგიერთ ნაკლოვანებას, რაც საშუალებას იძლევა სიგნალი დაშიფრული იყოს ისე, რომ მსმენელი არ იგრძნობს განსხვავებას რეალურ სიგნალთან შედარებით, თუმცა ეს განსხვავება ძალიან შესამჩნევი იქნება ოსცილოსკოპზე. მეცნიერებას, რომელსაც ემყარება აღქმის კოდირება, ეწოდება ფსიქოაკუსტიკა. ის სწავლობს ადამიანის ხმის აღქმას. MP3 ფორმატი იყენებს აღქმის კოდირებას.

აღქმის კოდირების მთავარი თვისება არის ის, რომ ზოგიერთ ბგერას შეუძლია სხვების შენიღბვა. წარმოიდგინეთ, მედიტაციას აკეთებთ გაზონზე ზაფხულის თბილ საღამოს, ხოლო ცოცხალი ფლეიტის კონცერტის მოსმენისას. შემდეგ, არსაიდან, მუშათა ეკიპაჟი ჩნდება ჯოხებით ხელში და იწყებს ასფალტის გახსნას ახლომდებარე ქუჩაზე. სამწუხაროდ, ფლეიტის მოსმენა აღარავის შეუძლია. ნაზი ხმები, რომელიც მან გამოსცა, ნიღბავდა ჯეკჰამერის ხმებით. თუ სიტუაციას განვიხილავთ მონაცემთა გადაცემის თვალსაზრისით, მაშინ ამ მომენტში საკმარისია მხოლოდ სიხშირის დიაპაზონის დაშიფვრა, რომელშიც მოქმედებენ ჯეკჰამერები - ყოველ შემთხვევაში, ამ ღრიალის მიღმა ფლეიტა არ ისმის. გარკვეული სიხშირის დიაპაზონში ხმამაღალი ბგერების უნარს სხვა დიაპაზონში უფრო მშვიდი ბგერების „დამალვა“ (რაც ისმის ხმამაღალი ბგერების არარსებობის შემთხვევაში) ეწოდება სიხშირის დაფარვას. ფაქტობრივად, მას შემდეგაც კი, რაც მუშებმა ჩაქუჩები გამორთეს, მსმენელები ფლეიტას მოკლე დროში ვერ გაიგონებენ. ეს იმის გამო ხდება, რომ როდესაც ძალიან ხმამაღალი ხმა ისმის, ადამიანის ყურის მომატება მკვეთრად ეცემა და მას შემდეგ, რაც ჯეკჰამერები შეწყვეტენ მუშაობას, დრო სჭირდება ნორმალურად დაბრუნებას. ამ ეფექტს ეწოდება დროებითი ნიღაბი.

ამ ეფექტების თვისებრივი აღწერიდან რაოდენობრივზე რომ გადავიდეთ, წარმოვიდგინოთ გარკვეული ექსპერიმენტის ჩატარება 1. წყნარ ოთახში მყოფი ადამიანი აყენებს ყურსასმენებს, რომლებიც დაკავშირებულია კომპიუტერის ხმის ბარათთან. კომპიუტერი გამოიმუშავებს ბგერას (სუფთა სინუსური ტალღა) 100 ჰც სიხშირით, რომლის სიძლიერე თანდათან იზრდება. სუბიექტმა უნდა დააჭიროს კლავიატურაზე ღილაკს, როგორც კი ის გაიგონებს ხმას. კომპიუტერს ახსოვს ხმის სიძლიერე, რომლითაც დაჭერილი იყო გასაღები და იმეორებს ექსპერიმენტს 200 ჰც, 300 ჰც და ა.შ სიხშირეზე, აღწევს ხმოვანი სიხშირის ზედა ზღვარს. ექსპერიმენტი უნდა ჩატარდეს დიდი რაოდენობით სუბიექტებზე. ნახ. 7.27, a გვიჩვენებს გრაფიკს ლოგარითმული მასშტაბით ორივე ღერძზე, რომელიც აჩვენებს სმენის ზღურბლის საშუალო დამოკიდებულებას ბგერის სიხშირეზე. ყველაზე აშკარა დასკვნა, რომელიც შეიძლება გამოვიტანოთ ამ მრუდის დათვალიერებით, არის ის, რომ არ არის საჭირო სიხშირეების დაშიფვრა, რომელთა ამპლიტუდა სმენის ზღურბლზე დაბალია.

მაგალითად, თუ ხმის სიძლიერე 100 ჰც სიხშირეზე არის 20 დბ, ამ ბგერას არ სჭირდება დაშიფვრა და ხმის ხარისხი არ გაუარესდება, რადგან 100 ჰც-ზე 20 დბ დონე სმენის ზღურბლზე დაბალია ( სურ. 7.27, ა).

ახლა განიხილეთ ექსპერიმენტი 2. მოდით, კომპიუტერმა გაიმეოროს ექსპერიმენტი 1-ის საფეხურები, მაგრამ ამჯერად მუდმივი ამპლიტუდის სინუსური ტალღა, ვთქვათ, 150 ჰც სიხშირით, თითოეულ სატესტო სიხშირეზე იქნება გადატანილი. ჩვენ აღმოვაჩენთ, რომ სმენის ბარიერი 150 ჰც-თან ახლოს სიხშირეებისთვის მკვეთრად იზრდება. ეს აისახება გრაფიკზე ნახ. 7.27, ბ.

ბრინჯი. 7.27. სმენის ბარიერი სიხშირის (a) ფუნქციის მიხედვით; ნიღბის ეფექტი (ბ)

ბოლო დაკვირვებიდან შეგვიძლია გამოვიტანოთ შემდეგი დასკვნა: იმის ცოდნა, თუ რომელი სიგნალებია დაფარული უფრო მძლავრი სიგნალებით ახლომდებარე სიხშირეებზე, შეგვიძლია უგულებელვყოთ შესაბამისი სიხშირეები და არ დავაშიფროთ ისინი, რითაც დავზოგავთ ბიტებს. ნახ. 7.27, b აშკარაა, რომ სიგნალი 125 ჰც სიხშირით შეიძლება სრულიად უგულებელყოფილი იყოს და ვერავინ შეამჩნევს განსხვავებას. დროის °g ° ნიღბის თვისებების ცოდნა საშუალებას გაძლევთ გააგრძელოთ ამ სიხშირის კოდირების უგულებელყოფა მაშინაც კი, როდესაც ხმამაღალი კვნესის ხმა შეწყდება * 2 ^ სიხშირის ნებისმიერ დიაპაზონში გარკვეული პერიოდის განმავლობაში (სანამ ყური დაყენებულია დაბალი ხმის სიმძლავრე). MP3 ალგორითმის არსი არის სიგნალის გაფართოება ფურიეს სერიაში, რათა მივიღოთ ხმის ინტენსივობა თითოეულ სიხშირეზე, რასაც მოჰყვება ექსკლუზიურად დაუფარავი სიხშირეების გადაცემა, რომლებიც კოდირებულია ბიტების მინიმალური შესაძლო რაოდენობით.

ახლა, როდესაც ჩვენ ვიცით ძირითადი პრინციპი, შეგვიძლია შევხედოთ როგორ ხდება თავად კოდირება. აუდიო შეკუმშვა ხორციელდება ტალღის ფორმების გაზომვით 32000, 44100 ან 48000 ჯერ წამში. გაზომვები შეიძლება განხორციელდეს ერთ ან ორ არხზე ოთხი კომბინაციით:

1. მონოვრალური აუდიო (ერთი შეყვანის ნაკადი).

2. ორმაგი მონო აუდიო (როგორიცაა ინგლისური აუდიო ჩანაწერი

და იაპონური).

3. გათიშული სტერეო (თითოეული არხი ცალ-ცალკე შეკუმშულია).

4. კომბინირებული სტერეო (მხედველობაში მიიღება არხთაშორისი სიგნალის სიჭარბე).

პირველ რიგში, არჩეულია სასურველი გამომავალი ბიტის სიჩქარე. MP3 ალგორითმის გამოყენებით შეგიძლიათ შეკუმშოთ სტერეო როკ-ენ-როლის ჩანაწერი CD-ზე 96 კბიტ/წმ-მდე, ხარისხის დაკარგვა ძლივს შესამჩნევია როკ-ენ-როლის გულშემატკივრებისთვისაც კი. თუ გვსურს საფორტეპიანო კონცერტის "MP3", ჩვენ გვჭირდება ბიტის სიჩქარე მინიმუმ 128 Kbps. რა იწვევს ამ განსხვავებას? ფაქტია, რომ როკ-ენ-როლში სიგნალისა და ხმაურის თანაფარდობა გაცილებით მაღალია, ვიდრე საფორტეპიანო კონცერტზე (მხოლოდ ტექნიკური გაგებით, რა თქმა უნდა). თუმცა, შეგიძლიათ აირჩიოთ უფრო დაბალი ბიტის სიჩქარე და მიიღოთ დაბალი ხარისხის დაკვრა.

ნიმუშები შემდეგ მუშავდება 1152 ჯგუფად (რასაც დაახლოებით 26 ms სჭირდება). თითოეული ჯგუფი წინასწარ გაივლის 32 ციფრულ ფილტრს, ხაზს უსვამს 32 სიხშირის დიაპაზონს. ამავდროულად, შემავალი სიგნალი იკვებება ფსიქოაკუსტიკური მოდელში, რათა დადგინდეს ნიღბის სიხშირეები. 32 სიხშირის ზოლიდან თითოეული გარდაიქმნება უფრო ზუსტი სპექტრული გარჩევადობის მისაღებად.

შემდეგი ნაბიჯი არის ხელმისაწვდომი ბიტის მიწოდების განაწილება სიხშირის დიაპაზონებს შორის. ამ შემთხვევაში, ბიტების უფრო დიდი რაოდენობა ეთმობა დიაპაზონს, რომელსაც აქვს უმაღლესი არანიღბოვანი სპექტრული სიმძლავრე, უფრო მცირე რაოდენობა - დაბალი სპექტრული სიმძლავრის მქონე დიაპაზონებს, და არცერთი ბიტი არ არის გამოყოფილი ნიღბიანი დიაპაზონებისთვის. და ბოლოს, ბიტების თანმიმდევრობა დაშიფრულია ჰაფმანის კოდის გამოყენებით, რომელიც ანიჭებს მოკლე კოდებს ციფრებს, რომლებიც ყველაზე ხშირად ჩნდება და გრძელ კოდებს ციფრებს, რომლებიც იშვიათად ჩნდება.

ფაქტობრივად, ეს თემა შორს არის ამოწურვისაგან. არსებობს ხმაურის შემცირების, სიგნალის გამარტივებისა და არხთაშორისი ჭარბი გამოყენების მეთოდები (თუ ეს შესაძლებელია), მაგრამ, სამწუხაროდ, ეს ყველაფერი ჩვენი წიგნის ფარგლებში ვერ დაიფარება. ამ პროცესების მათემატიკური საფუძვლების უფრო ოფიციალური პრეზენტაცია მოცემულია წიგნში (პან, 1995).

ვინც ცოტათი მაინც იყენებდა კომპიუტერს, კარგად იცნობს სიტყვა „არქივატორს“. მათთვის, ვინც არ იცნობს, ავუხსნათ, რომ არქივი არის პროგრამა, რომელიც შექმნილია ფაილების შეკუმშვის/დეკომპრესირებისთვის. მათ შორის ყველაზე ცნობილია WinZip და WinRar. ისინი შეკუმშავს ფაილებს ერთ შემთხვევაში რამდენიმე პროცენტით, მეორეში - რამდენჯერმე. ეს ყველაფერი დამოკიდებულია ფაილის ტიპზე. შესრულებადი ფაილები მცირდება უმნიშვნელო რაოდენობით, მაგრამ ტექსტური ფაილები კარგავენ "წონას" ერთდროულად რამდენჯერმე. თუმცა, შეკუმშვის ასეთი მეთოდები არ არის შესაფერისი აუდიო ფაილებისთვის მრავალი მიზეზის გამო. ასეთი ფაილის მოსმენა შეგიძლიათ მხოლოდ მისი ამოხსნის შემდეგ. მაგრამ შემდეგ შეკუმშვის მთელი წერტილი იკარგება. მაგრამ საყოფაცხოვრებო მოთამაშეებში ეს საერთოდ შეუძლებელი ხდება. მართალია, ოპერატიული მეხსიერების გამოყენების შესაძლებლობა ჯერ კიდევ არსებობს, მაგრამ ის იმდენად ძვირია, რომ "თამაში არ ღირს სანთლად". მეორე მიზეზი მდგომარეობს იმაში, რომ აუდიო ფაილის შეკუმშვის შემდეგაც კი, გათავისუფლებულ სივრცეში დიდი მოგება არ იქნება. თუ იღებთ WAV ფაილს 44 მბ ზომის, მაშინ WinZip არქივის გამოყენებით მისი შეფუთვის შემდეგ მიიღებთ 34 მბ ზომის ფაილს. როგორც შენიშნეთ, 10 MB "ბონუსი" არ არის შთამბეჭდავი. გარდა ამისა, შეფუთვის პრობლემებით, რომლებიც არ გაქრა.
ამიტომ, აუდიო ფაილებისთვის გამოიყენება ოდნავ განსხვავებული შეკუმშვის მეთოდები, მათგან ერთ-ერთი (ალბათ ყველაზე გავრცელებული) არის Loss compression. მისი პრინციპი ეფუძნება კონკრეტული გარემოს (ბგერა, გამოსახულება) ადამიანის აღქმის თავისებურებებს. ეს ძალიან ნათლად არის ახსნილი ციფრული ფოტოგრაფიის მაგალითის გამოყენებით. ყველამ იცის, რომ ის მრავალი პუნქტისგან შედგება. თითოეულ წერტილს აქვს თავისი სპეციფიკური ფერი. ^0 ფიზიოლოგიურად ადამიანის თვალს არ ძალუძს აღიქვას ყველა ეს ფერი, გაჩვენებთ თითოეულ წერტილს ინდივიდუალურად (თუნდაც რამდენჯერმე გადიდებული), ბევრ მათგანს საერთოდ ვერ ნახავთ. დალტონიზმი არაფერ შუაშია. ჩვეულებრივი ჯანმრთელი ადამიანის ხედვა აღებულია. ასე რომ, თუ ფოტოდან ამოიღებთ ყველა ამ უხილავ წერტილს, მათი რაოდენობა შესამჩნევად შემცირდება. შესაბამისად, როგორც გესმით, შემცირდება ფოტოს ზომაც. ვიდეო ფაილები ასევე დაშიფრულია ამ პრინციპით.
იგივეა ჩვენი სმენა. ჩვენ არ შეგვიძლია ყველა ბგერის მოსმენა, მაგრამ ისინი ჩაწერილია ფაილში. გამოდის, რომ ისინი კარგავენ დისკზე ადგილს. ამ "ბრმა" ადგილების მოხსნის შემდეგ, ფაილი მნიშვნელოვნად "დაიკლებს წონას". მაგალითად, თუ ხმა ერთდროულად შეიცავს ძალიან მძლავრ სიგნალს (იარაღის ღრიალი) და მაშინვე აღმოაჩენს უფრო ჩუმ სიგნალს (გასროლა პისტოლეტიდან მაყუჩთან), შესაბამისად, ის მაინც არ ისმის და მისი უსაფრთხოება შესაძლებელია. ამოღებულია საერთო სურათის შეცვლის გარეშე.
ასევე, ძლიერი ხმის შემდეგ, ადამიანის ყური მკვეთრად ამცირებს მის მგრძნობელობას მშვიდი ბგერების მიმართ. მაგალითად, ყველას აქვს ერთ დროს ან სხვა დროს ყურებში შუილი მას შემდეგ, რაც შენს ყურის ქვეშ ცეცხლსასროლი იარაღიდან ან მსგავსი ავარდა. ბოლოს და ბოლოს, არც კი გსმენიათ, რა გითხრეს? ასევე მხედველობაში მიიღება ადამიანების უმეტესობის იმუნიტეტი ბგერების მიმართ გარკვეული სიხშირის დიაპაზონში.
ჩვეულებრივ, ადამიანს ესმის 20-დან 2000 ჰც-მდე დიაპაზონში. ეს ყველაფერი ეხება ადაპტირებულ კოდირებას. მისი წყალობით მიიღწევა ფაილის ზომის ათჯერ შემცირება.

Ზოგადი ინფორმაცია

სტუდიის გზაზე პირველადი კოდირების დროს გამოიყენება

აუდიო სიგნალის (AS) ნიმუშების ჩვეულებრივ ერთიანი კვანტიზაცია

გარჩევადობა ∆A = 16–24 ბიტი/ნიმუში შერჩევის სიხშირეზე f = 44.1–96

კჰც. სტუდიის ხარისხის არხებში, ჩვეულებრივ, ∆A = 16 ბიტი/ნიმუში, f = 48 kHz,

დაშიფრული აუდიო სიგნალის სიხშირის დიაპაზონი ∆F = 20–20000 ჰც.

ასეთი ციფრული არხის დინამიური დიაპაზონი არის დაახლოებით 54 დბ.

თუ f = 48 kHz და ∆A = 16 ბიტი/ნიმუში, მაშინ ციფრული ბიტის სიხშირე

ერთი ასეთი სიგნალის გადაცემა უდრის V = 48x16 = 768 კბიტ/წმ. ეს მოითხოვს

საკომუნიკაციო არხის მთლიანი სიმძლავრე აუდიოს გადაცემისას

სიგნალის ფორმატები 5.1 (Dolby Digital) ან 3/2 პლუს ულტრა დაბალი არხი

სიხშირეები (Dolby Surround, Dolby-Pro-Logic, Dolby THX) 3,840 მბიტ/წმ-ზე მეტი.

მაგრამ ადამიანს შეუძლია შეგნებულად დამუშავება თავისი გრძნობებით

მხოლოდ დაახლოებით 100 ბიტი/წმ ინფორმაცია. აქედან გამომდინარე, შეგვიძლია ვისაუბროთ თანდაყოლილზე

პირველადი ციფრული აუდიო სიგნალებს აქვთ მნიშვნელოვანი ჭარბი რაოდენობა.

სტატისტიკური სიჭარბე განპირობებულია არსებობით

კორელაციური კავშირი აუდიო სიგნალის დროის ფუნქციის მიმდებარე ნიმუშებს შორის მისი შერჩევის დროს. მის შესამცირებლად გამოიყენება საკმაოდ რთული დამუშავების ალგორითმები. მათი გამოყენებისას არ ხდება ინფორმაციის დაკარგვა, მაგრამ ორიგინალური სიგნალი წარმოდგენილია უფრო კომპაქტური ფორმით, რაც მოითხოვს ნაკლებ ბიტს მისი კოდირებისას. მნიშვნელოვანია, რომ ყველა ეს ალგორითმი შესაძლებელს გახდის ორიგინალური სიგნალების აღდგენას დამახინჯების გარეშე ინვერსიული კონვერტაციის დროს.

თუმცა, საკმაოდ რთული დამუშავების პროცედურების გამოყენებისასც კი, აუდიო სიგნალების სტატისტიკური სიჭარბის აღმოფხვრა საბოლოო ჯამში შესაძლებელს ხდის საკომუნიკაციო არხის საჭირო სიმძლავრის შემცირებას მხოლოდ 15-25%-ით მის თავდაპირველ მნიშვნელობასთან შედარებით, რაც არ შეიძლება ჩაითვალოს რევოლუციურ მიღწევად.

სტატისტიკური სიჭარბის აღმოფხვრის შემდეგ, ციფრული ნაკადის სიჩქარე მაღალი ხარისხის სიგნალების გადაცემისას და მათი დამუშავების ადამიანის უნარი განსხვავდება სიდიდის მინიმუმ რამდენიმე რიგით. ეს ასევე მიუთითებს პირველადი ციფრული ES-ის მნიშვნელოვან ფსიქოაკუსტიკური სიჭარბეზე და, შესაბამისად, მისი შემცირების შესაძლებლობაზე. ამ თვალსაზრისით ყველაზე პერსპექტიული აღმოჩნდა მეთოდები, რომლებიც ითვალისწინებენ სმენის ისეთ თვისებებს, როგორიცაა ნიღბვა, წინასწარი ნიღაბი და შემდგომი ნიღაბი. თუ ცნობილია ხმოვანი სიგნალის რომელ ნაწილებს (ნაწილებს) აღიქვამს ყური და რომელ ნაწილებს არა ნიღბის გამო, მაშინ სიგნალის მხოლოდ ის ნაწილები შეიძლება იზოლირებული იყოს და შემდეგ გადაიცეს საკომუნიკაციო არხზე.

რომლის აღქმაც ყურს შეუძლია და გაუგონარი ნაწილები (პირვანდელი სიგნალის კომპონენტები) შეიძლება განადგურდეს (არ გადაიცემა საკომუნიკაციო არხზე).

გარდა ამისა, სიგნალების კვანტიზაცია შესაძლებელია ყველაზე დაბალი დონის გარჩევადობით, ისე, რომ კვანტიზაციის დამახინჯებები, რომლებიც ცვლის სიდიდეს თავად სიგნალის დონის ცვლილებებით, კვლავ გაუგონარი დარჩეს, ე.ი. იქნება ნიღბიანი ორიგინალური სიგნალით. თუმცა, ფსიქოაკუსტიკური სიჭარბის აღმოფხვრის შემდეგ, დეკოდირების დროს VS-ის დროებითი ფუნქციის ფორმის ზუსტი აღდგენა აღარ არის შესაძლებელი.

დღემდე, რამდენიმე სხვა MPEG სტანდარტი ასევე ფართოდ არის გავრცელებული რადიომაუწყებლობაში, როგორიცაა MPEG-2 ISO/IEC 13818-3, 13818-7 და MPEG-4 ISO/IEC 14496-3. ამის საპირისპიროდ, Dolby AC-3 (A/52) სტანდარტი შემუშავდა აშშ-ში, როგორც MPEG სტანდარტების ალტერნატივა. ციფრული აუდიო მონაცემთა შეკუმშვის ალგორითმების მნიშვნელოვანი მრავალფეროვნების მიუხედავად, ენკოდერის სტრუქტურა, რომელიც ახორციელებს სიგნალის დამუშავების ასეთ ალგორითმს, შეიძლება წარმოდგენილი იყოს განზოგადებული დიაგრამის სახით, რომელიც ნაჩვენებია ნახ. 5.1.

MPEG სტანდარტების ოჯახი

MPEG ნიშნავს "Moving Picture Coding Experts Group", სიტყვასიტყვით მოძრავი სურათების კოდირების ექსპერტთა ჯგუფი. MPEG თარიღდება 1988 წლის იანვრით. 1988 წლის მაისის პირველი შეხვედრიდან ჯგუფმა დაიწყო ზრდა და გაიზარდა სპეციალისტთა ძალიან დიდ ჯგუფად. როგორც წესი, MPEG კოლექციაში

მასში 200-ზე მეტი კომპანიის 350 სპეციალისტი მონაწილეობს.

MPEG-ის მონაწილეთა უმრავლესობა სხვადასხვა სფეროში ჩართული სპეციალისტები არიან

სხვა სამეცნიერო და აკადემიური დაწესებულებები.

MPEG-1 სტანდარტი

MPEG-1 სტანდარტი (ISO/IEC 11172-3) მოიცავს სხვადასხვა დონის სირთულის სამ ალგორითმს: Layer I, Layer II და Layer III. კოდირების პროცესის ზოგადი სტრუქტურა ყველა დონეზე ერთნაირია. თუმცა, მიუხედავად იმისა, რომ დონეები მსგავსია მათი საერთო კოდირების მიდგომით, დონეები განსხვავდება მათი დანიშნულებით და შიდა მექანიზმებით. თითოეულ დონეს აქვს საკუთარი ციფრული ნაკადი (ნაკადის მთლიანი სიგანე) და საკუთარი დეკოდირების ალგორითმი.

MPEG-1 შექმნილია 32, 44.1 და 48 კჰც სიხშირით ციფრული სიგნალების კოდირებისთვის. როგორც ზემოთ აღინიშნა, MPEG-1-ს აქვს სამი ფენა (ფენა I, II და III). ამ დონეებს აქვთ განსხვავებები მოწოდებულ შეკუმშვის კოეფიციენტში და შედეგად მიღებული ნაკადების ხმის ხარისხში.

MPEG-1 ახდენს ციფრული ნაკადის შემდეგი სიჩქარის ნორმალიზებას სამივე დონისთვის: 32, 48, 56, 64, 96, 112, 192, 256, 384 და 448 კბიტ/წმ, შეყვანის სიგნალის კვანტიზაციის დონეების რაოდენობა არის 16-დან 24-მდე. სტანდარტული შეყვანა MPEG-1 შიფრატორის სიგნალი არის AES/EBU ციფრული სიგნალი (ორარხიანი ციფრული აუდიო სიგნალი კვანტიზაციის სიღრმეზე 20–24 ბიტი თითო ნიმუშზე). მოწოდებულია აუდიო ენკოდერის შემდეგი ოპერაციული რეჟიმები:

− ერთი არხი (მონო);

− ორმაგი არხი (სტერეო ან ორი მონო არხი);

− ერთობლივი სტერეო (სიგნალი მარჯვენა და მარცხენა არხების ნაწილობრივი გამოყოფით).

MPEG-1-ის ყველაზე მნიშვნელოვანი თვისებაა სამივე დონის სრული უკან თავსებადობა. ეს ნიშნავს, რომ თითოეულ დეკოდერს შეუძლია სიგნალების გაშიფვრა არა მხოლოდ საკუთარი, არამედ ქვედა ფენებიდან. MPEG-1 იყო ციფრული აუდიო შეკუმშვის პირველი საერთაშორისო სტანდარტი და ამან გამოიწვია მისი ფართო გამოყენება მრავალ სფეროში: მაუწყებლობა, ხმის ჩაწერა, კომუნიკაციები და მულტიმედიური აპლიკაციები. დონე II არის ყველაზე ფართოდ გამოყენებული, ის გახდა ევროპული სტანდარტების ნაწილი სატელიტური, საკაბელო და მიწისზედა ციფრული ტელემაუწყებლობის, აუდიო მაუწყებლობის სტანდარტების, DVD ჩაწერის, ITU რეკომენდაციების BS.1115 და J.52. დონე III (ასევე უწოდებენ MP3) ფართოდ გამოიყენება ინტეგრირებული სერვისების ციფრულ ქსელებში (ISDN) და ინტერნეტში. ინტერნეტში არსებული მუსიკალური ფაილების დიდი უმრავლესობა ამ სტანდარტშია ჩაწერილი.

MPEG-2 სტანდარტი

MPEG-2 არის MPEG-1-ის გაფართოება მრავალარხიანი აუდიოს მიმართ. MPEG-2-ის თავსებადობამ MPEG-1-თან აუდიო კოდირების კუთხით გამოიწვია MPEG-1-ში შემუშავებული სამ დონის სისტემის სრული გამოყენება MPEG-2 შიფრირების მიერ აუდიო მონაცემების დასამუშავებლად. სტანდარტებს შორის განსხვავებები იწყება MPEG-1-ის საფუძვლად მიღებული ორარხიანი აუდიოდან MPEG-2-ში მხარდაჭერილ მრავალარხიან აუდიოზე გადასვლით.

MPEG-2 განსაზღვრავს მრავალარხიანი აუდიო გადაცემის რეჟიმის განსხვავებებს, მათ შორის ხუთარხიან ფორმატს, შვიდარხიან აუდიოს ორი დამატებითი დინამიკით, რომლებიც გამოიყენება ძალიან ფართო ეკრანის კინოთეატრებში და ამ ფორმატების გაფართოება დაბალი სიხშირის არხით. დინამიკების შესაბამისი განლაგება ნაჩვენებია ცხრილში 4. 1. ამ შემთხვევაში წილადის მრიცხველი მიუთითებს წინა არხების რაოდენობაზე, ხოლო მნიშვნელი უკნიდან გამოშვებული არხების რაოდენობას.

მრავალარხიანი აუდიოს ერთ-ერთი ტიპია მრავალენოვანი აუდიო. ეს შეიძლება გაკეთდეს ან თითოეული ენისთვის ცალკე ციფრული ნაკადის გადაცემით, ან

რამდენიმე (7-მდე) ენობრივი არხის დამატება 64 კბიტ/წმ სიჩქარით მრავალარხიან ნაკადს 384 კბიტ/წმ. შესაძლებელია ტრანსფერი

დამატებითი ხმის არხები მხედველობისა და სმენის დაქვეითებული ადამიანებისთვის.

გაფართოებული აუდიო კოდირების სისტემა AAC.Ერთერთი საუკეთესო

თანამედროვე აუდიო შეკუმშვის სისტემები აღიარებენ AAC სისტემას (Advanced Audio Coding - მოწინავე აუდიო კოდირების სისტემა),

მითითებულია ISO/IEC 13818 სტანდარტის მეშვიდე ნაწილში MPEG-2-ში მიღებული აუდიო მონაცემების შეკუმშვის სხვა მეთოდებისგან განსხვავებით, ის არ არის თავსებადი - MPEG-1 დეკოდირებს არ შეუძლიათ AAC სიგნალის გაშიფვრა.

ამჟამად არსებობს AAC ფორმატის ხუთი ტიპი:

2. AT&T a2b AAC;

3. LiquifierPROAAC;

4. Astrid/Quartex AAS;

ყველა ეს მოდიფიკაცია შეუთავსებელია ერთმანეთთან, აქვს საკუთარი შიფრები/დეკოდერები და არ არის იგივე ხარისხის.

MPEG-4 სტანდარტი

როგორც აუდიო შეკუმშვის საშუალება, MPEG-4 (ISO/IEC 14496-3) იყენებს აუდიო კოდირების რამდენიმე სტანდარტის კომპლექტს: გაუმჯობესებული MPEG-2 AAC ალგორითმი, TwinVQ ალგორითმი, ასევე HVXC და CELP მეტყველების კოდირების ალგორითმები. გარდა ამისა, MPEG-4 უზრუნველყოფს მრავალ მასშტაბურობისა და პროგნოზირების მექანიზმს. თუმცა, ზოგადად, MPEG-4 AAC სტანდარტი, რომელიც უზრუნველყოფს აუდიო კოდირების წესებსა და ალგორითმებს, ზოგადად, MPEG-2 AAC-ის გაგრძელებაა.

MPEG-4 Audio გთავაზობთ აპლიკაციების ფართო სპექტრს, რომლებიც

დაფარეთ არეალი მარტივი მეტყველებიდან მაღალხარისხიან მრავალარხიან აუდიომდე და ბუნებრივიდან სინთეტიკურ ბგერებამდე.

MPEG-4 CELP კოდირების მეთოდი. MPEG-4 კოდირების მეთოდი

CELP შექმნილია მეტყველების სიგნალების დასამუშავებლად. პრაქტიკაზე

ძირითადად გამოიყენება კოდირების სამი ძირითადი კლასი: ფორმის შიფრები,

ვოკოდერები და ჰიბრიდული შიფრები.

ფორმის შიფრატორები ხასიათდებიან ძირითადის შენარჩუნების უნარით

მეტყველების სიგნალის ფორმა. ფორმის შიფრები მოიცავს პულსის მქონე ენკოდერებს

კოდის მოდულაცია (PCM), დიფერენციალური PCM (DICM) შიფრები,

ადაპტური დიფერენციალური PCM (ADCM) და ა.შ. გადამცემი სისტემებით

ამ ტიპის ენკოდერი უზრუნველყოფს მეტყველების სიგნალების (რომლის სტანდარტული სიხშირის დიაპაზონი არის 300–3400 ჰც) და უფრო ფართოზოლოვანი აუდიო სიგნალების კარგი ხარისხის რეპროდუქციას. თუმცა, ეს შიფრები არაეფექტურია ციფრული სიგნალის გადაცემის სიჩქარის შემცირების თვალსაზრისით.

ვოკოდერები (ინგლისური სიტყვებიდან "ხმა" - ხმა და "კოდერი" - კოდირების მოწყობილობა) მნიშვნელოვნად ამცირებს მეტყველების სიგნალების გადაცემის სიჩქარეს. გადამცემ მხარეზე შეკუმშვა ხორციელდება ანალიზატორში, რომელიც ამოიღებს ნელ-ნელა ცვალებად კომპონენტებს მეტყველების სიგნალიდან, რომლებიც გადაიცემა საკომუნიკაციო არხზე კოდის კომბინაციების სახით. მიმღებ მხარეს, მეტყველების სიგნალი სინთეზირებულია ადგილობრივი სიგნალის წყაროების გამოყენებით, რომლებიც კონტროლდება მიღებული ინფორმაციის გამოყენებით.

MPEG-7 სტანდარტი

MPEG-7 FCD აუდიოს აქვს ხუთი ტექნოლოგია: აუდიო აღწერის ჩარჩო, რომელიც მოიცავს მასშტაბირებად მიმდევრობებს, დაბალი დონის აღწერებს და ერთგვაროვან დუმილის სეგმენტებს; მუსიკალური ინსტრუმენტის ტემბრის აღწერის საშუალება; ხმის ამოცნობის ხელსაწყოები; ხმოვანი მასალის აღწერის საშუალებები და მელოდიის აღწერის საშუალებები.

MPEG-7 აუდიო სისტემის აღწერა.აუდიო სტრუქტურა შეიცავს

დაბალი დონის ხელსაწყოები, რომლებიც საფუძველს იძლევა მაღალი დონის აუდიო აპლიკაციების შესაქმნელად. საერთო აღწერილობის სტრუქტურის პლატფორმის უზრუნველყოფით, MPEG-7 Audio ადგენს საფუძველს თავსებადობისთვის ყველა აპლიკაციას შორის, რომელიც შეიძლება შეიქმნას სისტემაში.

Ogg Vorbis აუდიო შეკუმშვის მეთოდი

მისი გამოჩენისთანავე, MP3 ფორმატმა შეიძინა უზარმაზარი

პოპულარობა პერსონალური კომპიუტერის მომხმარებლებს შორის, აუდიო დისკზე

650 MB ზომის შეუძლია 10-ჯერ მეტი აუდიო ინფორმაციის მოთავსება, მისაღები ხარისხის შენარჩუნებისას. ამ გზით შექმნილი ფაილები მარტივად შეიძლება გაიგზავნოს ინტერნეტით, გამოიყენოს პორტატულ მოწყობილობებში და შეგროვდეს მუსიკალურ კოლექციებში.

OggVorbis ეკუთვნის იგივე ტიპის აუდიო შეკუმშვის ფორმატებს, როგორც MP3, AAC, VQF, PAC, QDesign AIFF და WMA, ე.ი. დაკარგვის შეკუმშვის ფორმატებზე. OggVorbis-ში გამოყენებული ფსიქოაკუსტიკური მოდელი

მუშაობის პრინციპები ახლოსაა MP3-თან და მათ მსგავსებთან, მაგრამ ამ მოდელის მხოლოდ მათემატიკური დამუშავება და პრაქტიკული განხორციელებაა ფუნდამენტურად.

დამოუკიდებელი ყველა წინამორბედისგან.

OggVorbis ფორმატის მთავარი უდავო უპირატესობა მისი

სრული ღიაობა და თავისუფალი. WMA და Astrid/Quartex ასევე უფასოა, მაგრამ ამ ფორმატების ავტორებს არ გამოუქვეყნებიათ მათი განვითარების წყაროს კოდები და Xiphophorus-მა სწორედ ეს გააკეთა. OggVorbis შექმნილია GNU პროექტის ფარგლებში და მთლიანად ექვემდებარება GNU GPL-ს (ზოგადი საჯარო ლიცენზია). ეს ნიშნავს, რომ ფორმატი მთლიანად ღიაა კომერციული და არაკომერციული გამოყენებისთვის, მისი კოდები შეიძლება შეიცვალოს ყოველგვარი შეზღუდვის გარეშე, განვითარების ჯგუფი იტოვებს მხოლოდ უფლებას დაამტკიცოს ახალი ფორმატის სპეციფიკაციები.

OggVorbis იყენებს MP3-სგან განსხვავებულ მათემატიკურ ფსიქოაკუსტიკური მოდელს და ეს გავლენას ახდენს ხმაზე. MP3 და OggVorbis ძნელია შედარება, მაგრამ მთლიანობაში OggVorbis ბევრად უკეთ ჟღერს.

კოდირებისას, OggVorbis კოდეკები იყენებენ VBR-ს (ცვლადი ბიტის სიჩქარეს), ზოგიერთი MP3 კოდეკის მსგავსად, რაც საშუალებას გაძლევთ მნიშვნელოვნად შეამციროთ კომპოზიციის ზომა ხარისხის უმნიშვნელო დაკარგვით.

რაც შეეხება კოდირების სიჩქარეს, ჯერ არ არის გამორჩეული შედეგები. OggVorbis კოდეკის სიჩქარე არ არის უფრო სწრაფი ვიდრე MP3 კოდეკი. დეველოპერები აღიარებენ, რომ კოდეკის კოდი საერთოდ არ არის ოპტიმიზირებული, რადგან ეს პროგრამა გამოვიდა რაც შეიძლება სწრაფად, სპეციფიკაციის დემონსტრირებისთვის, რათა არ იყოს უსაფუძვლო. ანუ, მომავალში შეიძლება ველოდოთ სიჩქარის მახასიათებლების მნიშვნელოვან გაუმჯობესებას, განსაკუთრებით მაშინ, როდესაც მესამე მხარის მწარმოებლები შეუერთდებიან.

OggVorbis, MP3-ის მსგავსად, თავდაპირველად შეიქმნა როგორც ქსელი

ნაკადის ფორმატი. ეს თვისება ძალიან მნიშვნელოვანია, განსაკუთრებით OggVorbis ფორმატის მრავალპლატფორმული ბუნების გათვალისწინებით. ინტერნეტ რადიოსადგური, რომელიც იყენებს OggVorbis-ის დაბალი სიჩქარის ვერსიებს, შეძლებს მაუწყებლობას ერთდროულად ყველა პლატფორმაზე, ხოლო იგივე რადიოსადგური, რომელიც იყენებს WMA-ს (როგორც ASF) გადაცემისთვის, შემოიფარგლება მხოლოდ Windows-ის მომხმარებლებისთვის.

აუდიო შეკუმშვა. Ogg Vorbis აუდიო შეკუმშვის მეთოდი

შეატყობინეთ შეცდომას

ტექსტი, რომელიც გაეგზავნება ჩვენს რედაქტორებს:

თქვენი კომენტარი (სურვილისამებრ):