აუდიო შეკუმშვის ფორმატები მაგალითების სახით mp3 და FLAC გამოყენებით. დაკარგული შეკუმშვა

19.07.2019

აუდიო შეკუმშვა მუსიკის მოყვარულთათვის

სიმართლე მაღალი ბიტის სიჩქარის შესახებ დაკარგვითი შეკუმშვით

Წინასიტყვაობა

უმრავლესობის გაგებით სიტყვა მუსიკის მოყვარულიყველაზე ხშირად ასოცირდება ადამიანთან, რომელსაც არა მხოლოდ უყვარს და აგროვებს მუსიკა, არამედ აფასებს მაღალი ხარისხის მუსიკას, არა მხოლოდ მხატვრული და ესთეტიკური თვალსაზრისით, არამედ თავად ფონოგრამის ჩაწერის ხარისხსაც. დაფიქრდით, სულ რამდენიმე წლის წინ აუდიო დისკი ითვლებოდა მუსიკის ხარისხის სტანდარტად, მაგრამ კომპიუტერი, ჩემს ოცნებებშიც კი, ვერ გაუწევდა კონკურენციას CD ხარისხს. თუმცა, დრო დიდი ხუმრობაა და ხშირად უყვარს ყველაფრის თავდაყირა გადაქცევა. როგორც ჩანს, საკმაოდ ცოტა დრო გავიდა, ერთი-ორი წელი და... ესე იგი, კომპიუტერის დისკი უკანა პლანზე გადავიდა. არ იკითხოთ „რატომ?“, თქვენ თვითონ იცით ამ კითხვაზე პასუხი. ეს ყველაფერი კომპიუტერის ხმის სამყაროში რევოლუციის გამო - აუდიო შეკუმშვა (შემდგომში - აუდიო შეკუმშვაგულისხმობს დაკარგულ შეკუმშვას აუდიო ფაილის ზომის შესამცირებლად), რამაც შესაძლებელი გახადა მყარ დისკზე მუსიკის შენახვა, ბევრი მუსიკა! მეტიც, მისი გაცვლა ინტერნეტის საშუალებით გახდა შესაძლებელი. გამოვიდა ახალი ხმის ბარათები, რომლებსაც შეუძლიათ თითქმის სტუდიური ხარისხის შეკუმშვა მუსიკის თვალსაზრისით ერთი შეხედვით უსარგებლო ტექნიკისგან. დღეს, მაშინაც კი, თუ თქვენ გაქვთ კომპიუტერი, რომელიც არ არის ძალიან სწრაფი შესრულების თვალსაზრისით, თუ იყიდით Creative SoundBlaster Live ხმის ბარათს! და გახსოვდეს, რომ საბჭოთა დროიდან გქონია კარგი გამაძლიერებელი და მაღალი ხარისხის აკუსტიკა, მეტს არაფერს მიიღებ, თუ არა მაღალი ხარისხის მუსიკალური ცენტრი, რომლის ხმა ჩამოუვარდება მხოლოდ ძალიან ძვირადღირებულ აუდიო მოწყობილობას (საშუალო ან თუნდაც ყველაზე მაღალი Hi - Fi კატეგორია). ამას დაამატეთ მუსიკალური ფაილების ხელმისაწვდომობა და მიხვდებით, რომ ძალაუფლება თქვენს ხელშია. შემდეგ კი რევოლუცია ხდება და გესმით, რომ CD აღარ არის ისეთი მოსახერხებელი, რაღაც სრულიად განსხვავებული გხიბლავთ - "MP3"-ის ჯადოსნური ნიშნები. არც ჭამა შეგიძლია და არც დაძინება - შენს წინაშე დგას ერთი შეხედვით უხსნადი კითხვა „ქათამი და კვერცხი“: რითი „გაწურო“ და, რაც მთავარია, როგორ „გაწურო“...

დღეს არსებული აუდიო შეკუმშვის ფორმატებიდან სამი იმსახურებს ყურადღებას, ჩემი აზრით: MP3 (ან MPEG-1 Audio Layer III), LQT (როგორც MPEG-2 AAC / MPEG-4 ოჯახის წევრი) და სრულიად ახალი OGG ფორმატი. (Ogg Vorbis), შემუშავებული ენთუზიასტების ჯგუფის მიერ:

დღეს MP3 მათგან ყველაზე გავრცელებულია (პირველ რიგში იმიტომ, რომ უფასოა). შეგახსენებთ, რომ სწორედ MP3 ფორმატის წყალობით შედგა შეკუმშული აუდიოს გამარჯვებული მარში. თუმცა, როგორც ხშირად ხდება პიონერებთან, ის თანდათან კარგავს ადგილს და ადგილს უთმობს ახალ და უკეთეს ფორმატებს.
მეორე ფორმატი LQT არის აუდიო კოდირების ალგორითმების ახალი მიმართულების წარმომადგენელი, AAC ოჯახის წარმომადგენელი. ეს არის საკმაოდ მაღალი ხარისხის, მაგრამ კომერციული და მკაცრად კლასიფიცირებული ფორმატი.
OGG ფართოდ ცნობილი გახდა საზოგადოებისთვის ამ ზაფხულს და ამჟამად სწრაფად ვითარდება (ინკოდერის და დეკოდერის გამოშვებით) მან უნდა დაამარცხოს MP3 უკეთესი ხმის ხარისხით ნაკლები ფაილებით.

მე არ მოგცემთ დეტალურ აღწერას ტექნოლოგიებისა და ფორმატების აქ თქვენ შეგიძლიათ მარტივად იპოვოთ ისინი. იქნება მხოლოდ ფაქტები, დასკვნები და რეკომენდაციები. ვაპირებ ჩემი კვლევის ცალ-ცალკე წარმოდგენას თითოეული ფორმატისთვის ცალკეულ სტატიებში.

Ამოცანა

მე გადავწყვიტე "დაეძრო თავები" სამი მითითებული ფორმატის წინააღმდეგ, რათა მივიღო უმაღლესი ხარისხის ხმა ფაილის მინიმალური ზომით. ტესტისთვის შეირჩა რამდენიმე ნიმუში (აქ ნიმუში არის PCM ფაილიდან ამოჭრილი პატარა ფრაგმენტი) ორი ტიპის კომპოზიციებიდან. პირველი არის ძალიან მკვრივი და ხმამაღალი ხმა ამპლიტუდის ნორმალიზებით (ხმის შეკუმშვა „ვერტიკალურად“ ისე, რომ იგი ჯდება 16 ბიტში 24-ბიტიანი მასტერისგან) და დინამიური დიაპაზონის შეკუმშვა (ისე, რომ ყველა ინსტრუმენტის ხმა ყოველთვის ხმამაღალი იყოს). პირველი ტიპისთვის (როგორც ჩემს წინა ტესტებში), შესწავლილი იქნა კომპოზიცია Crush On You ალბომიდან Roxette-ის Have A Nice Day; მეორე ნიმუში არის სუფთა და გამჭვირვალე (მსუბუქი ორკესტრული ან აკუსტიკური არანჟირება). მეორე ტიპი აღებულია ცნობილი პიანისტის რიჩარდ კლეიდერმანის ალბომიდან Tango კომპოზიციიდან Mano a Mano.

რატომ ეს კონკრეტული ჩანაწერები? Roxette-ის ნიმუშებში არის ძალიან ძლიერი დინამიური შეკუმშვა (ამპლიტუდის მნიშვნელობა ძალიან ხშირად უდრის მაქსიმუმს (რაც ცუდია) და იწვევს რეპროდუქციული აღჭურვილობის გადატვირთვას და ძლიერ დამახინჯებას).

ასეთ ნიმუშებზე ენკოდერებმა უნდა იმუშაონ ექსტრემალურ რეჟიმში, რის გამოც ნებისმიერი დამახინჯება ადვილად მოსასმენი ხდება, რადგან კოდირების დამახინჯებები ემატება არსებულ ორიგინალურ დამახინჯებებს. თქვენ შეგიძლიათ იკითხოთ, "რატომ აიღოთ ასეთი ნიმუში ტესტად?" აუცილებელია და როგორ. ამჟამად გამოშვებული ალბომების დიდი უმრავლესობა ამ გზით არის ჩაწერილი. ამიტომ, ენკოდერი უნდა იყოს ტოლერანტული გადატვირთული აუდიოს მიმართ.

კლეიდერმანის ნიმუშებში სიტუაცია დიამეტრალურად საპირისპიროა. ორიგინალური ანალოგური ჩანაწერი, ძალიან მაღალი ხარისხის ციფრული რემასტერინგის შემდეგ, ჩაიწერა CD-ზე, დინამიური შეკუმშვის გარეშე.

შესანიშნავი ხმა, ძალიან სასიამოვნო და რბილი ამაღლებები. ანალიზის დროს მათ განსაკუთრებულ ყურადღებას მივაქცევთ და ვეცდებით მათ შენარჩუნებას. მაგრამ ეს ის სიხშირეებია, რომელთა გადაცემა ყველაზე რთული იქნება კოდირებისთვის.

რას ვაჭერთ?

ჩემი კვლევა სხვადასხვა MP3 ბიტის სიჩქარისა და ენკოდერებისთვის მიმართვის ხარისხის შესახებ გამოხატულია OrlSoft MPeg eXtension პროგრამაში. კოდირების პარამეტრები შეირჩა ტესტის შედეგების საფუძველზე.

უდავო ლიდერი მაღალი ბიტის ხარისხით არის LAME შიფრატორი. Fraunhofer IIS შიფრები ჯერ კიდევ კარგია მხოლოდ დაბალი ბიტური სიჩქარისთვის - 128 და 160 kbps. სხვებზე არც ვისაუბრებ. უბრალოდ არასოდეს გაუმკლავდეთ XING კოდზე დაფუძნებულ ენკოდერებს (ყველაზე ცნობილი წარმომადგენელია აუდიო კატალიზატორი) - ეს ყველაზე ცუდია, ხმა უბრალოდ საშინელია.

MP3 ფორმატის მომხმარებელთა უმეტესობისთვის ხარისხიანი ხმის პრობლემა ჩნდება შემდეგნაირად: „იქნებ სცადოთ VBR?“ და ეს კითხვა მათ ყოველდღე აწუხებს. ყველა ჩანაწერი არ ჟღერს კარგად 256-ზე - მაღალი სიხშირეებში არის ძლიერი ხმოვანი და ხილული (გაზომვებით) დანაკარგები. VBR რეჟიმის (ე.წ. ცვლადი ბიტრეიტის ნაკადი) გამოყენებისას ხშირად ხდება, რომ მუსიკა ყურს უკეთესად ჟღერს, ვიდრე 256, მაგრამ ეს არ შეიძლება ჩაითვალოს ზოგად წესად. დაშიფვრეთ ჩანაწერები, რომლებიც მცირე ღირებულებისაა ან არც თუ ისე მაღალი ხარისხის - თქვენ ვერ შეცდებით. ჩემი VBR პარამეტრები არჩეულია VBR-ისთვის მაქსიმალური ხარისხის მისაღებად.

კომერციული LQT ფორმატისთვის, არსებობს მხოლოდ ავტორებისგან საკუთრების კოდირება - Liquifier Pro. ჩვენ ვაჭერთ მათ. მე აღვნიშნავ, რომ LQT ფორმატი თავდაპირველად დაფუძნებულია VBR დაშიფვრაზე, ამიტომ მას უბრალოდ რამდენიმე რეჟიმი აქვს, როგორიცაა "ცუდი", "კარგი" და "შესანიშნავი". ბუნებრივია, ჩვენი ტესტებისთვის ჩვენ ვიღებთ „შესანიშნავი“ (აუდიოფილური) რეჟიმს, რომლის შედეგადაც ნაკადი 192-დან 256-მდე, ყველაზე ხშირად 200-220 kbps. შეგახსენებთ, რომ LQT ფორმატი ეფუძნება MPEG-2 AAC ოჯახის ალგორითმებს. უფრო მეტიც, ეს არის AAC-ის ყველაზე მაღალი ხარისხის დანერგვა დღემდე (დატესტილია ანალოგებზე).

OGG ფორმატი MP3 ფორმატის ნათესავია, მაგრამ შეიცავს განსხვავებულ ფსიქოაკუსტიკურ მოდელს და ზოგიერთ ტექნიკურ სიახლეს, რომელიც MP3-ს არ გააჩნია. დასაწყისისთვის, OGG თავდაპირველად მხარს უჭერს მხოლოდ VBR რეჟიმს. მომხმარებელი ადგენს სავარაუდო ბიტის სიჩქარეს და შიფრატორი ცდილობს შეკუმშოს რაც შეიძლება ახლოს. ცვლილების დიაპაზონი ძალიან ფართოა: 8-დან 512 კბიტ/წმ-მდე და ის ბევრად უფრო დისკრეტულია ვიდრე MP3. ზედა ზღვარი 512 კბიტ/წმ-მდეა, მაშინ როცა MP3 შიფრები დღეს ნამდვილად მხოლოდ 320-მდე „იზიდავს“. შეიძლება იკითხოთ, „ნამდვილად შესაძლებელია, რომ 320 არ იყოს საკმარისი?“ დიახ, ეს ხდება, მაგრამ იშვიათად.

Roxette-ის ნიმუშები

კარგი, ახლა მივედით ყველაზე საინტერესო ნაწილზე. დავიწყოთ ჩემი სმენითი შეგრძნებებით.

MP3-სთვის 256 კბიტ/წმ ნაკადზე, მაღალი სიხშირის ხმის დარღვევა აშკარად ისმის. არა მხოლოდ მათი მნიშვნელოვანი ნაწილი აკლია ხმას, არამედ შერეულია ძლიერი დამახინჯება, ხიხინი, მეტალის ზარი და სხვა „ხიბლი“. ეს იმის ნიშანია, რომ 256 აშკარად არ არის საკმარისი, ამიტომ, თქვენ უნდა სცადოთ უფრო მაღალი. ვიღებთ 320-ზე შეკუმშულ ნიმუშს. ხმა საგრძნობლად შეიცვალა - ეს სულ სხვა საკითხია: ზედა ადგილზეა, ყურით განსხვავება არ შეინიშნება. ექსპერიმენტის სიწმინდისთვის ვნახოთ რა ხდება მცურავი ნაკადის სიჩქარის რეჟიმში. ჩვენ ვიღებთ საშუალო ბიტის სიჩქარეს 290 კბიტ/წმ, რაც ვარაუდობს, რომ 256 არ იქნება საკმარისი შესასწავლი ნიმუშისთვის. მართლაც, ყურისთვის, VBR რეჟიმში დაშიფრული ნიმუში ჟღერს 256-ზე ოდნავ უკეთესად, მაგრამ აშკარად არ აღწევს 320-ის ხმას. MP3-ის გამოყენების შემთხვევაში, მხოლოდ 320 კბიტ/წმ რეჟიმში დაშიფვრა არის შესაფერისი მაღალი სიჩქარისთვის. ხარისხის შეკუმშვა, ე.ი. მაქსიმალურად.

ავიღოთ OGG როგორც „შეცვლილი MP3“. ენკოდერისთვის არის ხუთი მიახლოებითი ბიტის სიჩქარე: 128, 160, 192, 256 და 350. მოდით, ვცადოთ 192 და 256. ჩვენ არ ავიღებთ 350 ბიტის სიჩქარეს, რადგან... ჩვენ უკვე ვიცით, რომ MP3 320 კბიტ/წმ-ზე აშკარად გადმოსცემს შესანიშნავ ხარისხს, როგორც ჩანს, არაფერია უკეთესი. 192 რეჟიმში ვიღებთ საშუალო ნაკადს 226, ხოლო რეჟიმისთვის 256 - 315 kbps-მდე. ამდენი სიზუსტისთვის. საცნობარო წერტილიდან ასეთი დიდი გადახრა არის სიგნალი ძალიან რთულად დაშიფრული აუდიო მასალისთვის, სიმკვრივით უფრო მარტივი ნიმუშით, სიზუსტე უფრო მაღალი იქნება. მართალი გითხრათ, მე დიდხანს ვცდილობდი შემეფასებინა 320 MP3 და 315 OGG და მივედი დასკვნამდე, რომ ორივე თითქმის იდენტურად ჟღერს ორიგინალური ბგერით. მაგრამ ისინი დაფუძნებულია სხვადასხვა ფსიქოაკუსტიკური მოდელებზე და მათი ხმის ფერები განსხვავებულია. მე პირადად MP3 ცოტა უფრო მომეწონა. თუმცა, ეს მართლაც საკამათო საკითხია - ბოლოს და ბოლოს, OGG ენკოდერი ჯერ კიდევ მხოლოდ ბეტა ვერსიაა. როცა გამოვა, მე ვფიქრობ, რომ MP3-ს ხარისხით უნდა გადააჭარბოს. მათი ცალ-ცალკე შედარება ორიგინალთან, მიდრეკილი ვიყავი, რომ OGG ხმით ჯერ კიდევ უფრო ახლოს არის ორიგინალთან, მაგრამ ამ ენკოდერის ზედა სიხშირეებში რაღაც არასწორია. ამის გამო MP3 ცოტა უკეთესად ჟღერს. არა მგონია საჭირო იყოს იმის თქმა, რომ 350 რეჟიმში (საშუალო ბიტირი იყო 365) OGG „იდეალურად“ იმეორებს ორიგინალს.

ახლა ნაკლებად ცნობილი, მაგრამ ფართოდ რეკლამირებული, როგორც "უმაღლესი ხარისხის" ფორმატის - LQT ფორმატის შესახებ. და რაც მთავარია, მართლა ძალიან მაგრად ჟღერს მთლიანობაში, თუმცა მოსმენის შემდეგ მივხვდი რა არ მომეწონა მის ხმაში. ის არ ამახინჯებს მაღალ სიხშირეებს, როგორიცაა MP3 256 კბიტ/წმ-ზე, მაგრამ აფერხებს ხმას და ძალიან აფერხებს მას. მკვეთრი ხმები დროთა განმავლობაში ბუნდოვანია. დიახ, ეს ცუდია. მაგრამ ფაქტია, რომ უსარგებლოა LQT-ის შედარება მხოლოდ 230 კბიტ/წმ-ზე MP3-თან ერთიდაიგივე ბიტის სიჩქარით, მთლიანი ხმის მიხედვით. რა თქმა უნდა, არის რაღაც საჩივარი. MP3 კარგავს და ამახინჯებს ზედა სიხშირეებს, ხოლო LQT, თავის მხრივ, გარკვეულწილად „ჩააგდებს“ შუა სიხშირეებს და აფერხებს ზედა სიხშირეებს. ზოგადად, აი, ვის რა მოეწონება მეტი. მაგრამ ეს სხვა სტატიის თემაა. დღეს ჩვენ მხოლოდ უფრო მაღალ ბიტირეტებზე ვსაუბრობთ. დიახ, LQT იძლევა კარგ ხარისხს, მაგრამ არავითარ შემთხვევაში დიდს. როგორც ჩანს, ეს გამოწვეულია ბიტური სიჩქარის ნაკლებობით, ანუ თუ LQT-ში გამოჩნდება უფრო მაღალი ბიტრეიტის რეჟიმი, ის დაამარცხებს 320 kbps MP3-საც კი იმ ჩანაწერებზე, როგორიც არის შესასწავლი.

ეს იყო ჩემი წმინდა სუბიექტური შთაბეჭდილებები. ახლა გადავიდეთ უფრო ობიექტურ ტესტებზე. ჩვენ ვიკვლევთ სიხშირის პასუხს (ანუ ამპლიტუდა-სიხშირის პასუხი) საუკეთესოდ აღიარებული ნიმუშები (320 MP3-სთვის, 315 OGG-სთვის და 230 LQT-ისთვის). წარმოდგენილი დიაგრამა არის ეგრეთ წოდებული „სონარმი“ - ხმის დრო-სიხშირის წარმოდგენა. ჰორიზონტალურად არის დროის მასშტაბი, ვერტიკალურად არის ხაზოვანი სიხშირის მასშტაბი.

კარგად დააკვირდით? აქ არის ჩემი სიტყვების ნათელი დადასტურება: Ogg Vorbis-ის უახლესი ფორმატი 256 რეჟიმში აშკარად არ შეესაბამება - სიხშირის შემცირება შეუიარაღებელი თვალით ჩანს. "სუპერ კომერციული" LQT ფორმატი, როგორც ჩანს, უფრო კარგად გადმოსცემს მაღალი სიხშირის დიაპაზონს, ვიდრე LAME, მაგრამ საერთო ხარისხი უარესია. ფაქტია, რომ LQT-ში არ არის სუფთა სტერეო რეჟიმი - იქ, ფაქტობრივად, ის ყოველთვის არის Joint-Stereo (კოდერი ჯერ შეკუმშავს მარცხენა არხს, შემდეგ კი კოდირებს მხოლოდ განსხვავებას მარცხნივ და მარჯვნივ). ამის გამო, ბიტური სიჩქარის ნაკლებობისას, მწვერვალები იჭრება, რაც ნათლად ჩანს ილუსტრაციებში, პლუს ეს დასკვნა ადვილად დასტურდება MS მატრიცაში სიგნალის შესწავლით, ე.ი. ცენტრალურ არხზე + სტერეო რეჟიმში გადართვისას. რა შეგვიძლია ვთქვათ LAME ნიმუშზე... ყველაფერი უბრალოდ მშვენიერია - ზედა სიხშირეები ოდნავ მოწყვეტილია, მაგრამ ასატანია; ასევე არ იყო შესამჩნევი წარუმატებლობები.

შევაჯამოთ. Roxette-ის ნიმუშის ფინიშის ხაზში OGG 256 kbit/s და LQT ფორმატებმა დატოვა რბოლა OGG 350 kbit/s ნიმუში არ ჩამოუვარდება ლიდერს. თუმცა, დროზე ადრე ნუ დავმარხავთ ახალ ფორმატს - დაველოდოთ გამოშვებას. შემდეგ კვლავ ჩავატარებთ ტესტებს: OGG 256 vs LAME 320.

რიჩარდ კლეიდერმანის ნიმუშები

Roxette-ის ნიმუშებით ყველაფერი ნათელია - ამ დროისთვის უმჯობესია მკვრივი ხმის შეკუმშვა LAME ენკოდერით 320 kbps რეჟიმში. რაც შეეხება უფრო გამჭვირვალე ხმას? ჯერ ვცადოთ შეკუმშვა 256 კბიტ/წმ რეჟიმში და თეორიულად ყველა ბედნიერი უნდა იყოს. შედეგი: როგორც ჩანს, დაბალი სიხშირეები ადგილზეა და საშუალოც, მაგრამ მაღალი სიხშირეები... მაღალი სიხშირეები გაქრა! ისინი იქ არიან, მაგრამ არ დარჩათ ის ლამაზი ხმა, რასაც ამ ჩანაწერში ყურადღება არ მიაქციოთ ძალიან რთულია. მაღალი სიხშირეები ზოგადად ადგილზეა და არ არის ძლიერი დანაკარგები, მაგრამ "კიმბალების" ხმა გარკვეულწილად სინთეტიკური, მკაცრი და ძალიან უსიამოვნო გახდა. ასეთ ხმას არ აქვს უფლება მოითხოვოს ხარისხის ტიტული. ხო, ისევ 320-ის გამოყენება მოგვიწევს, მაგრამ ძალიან მინდოდა მისი შეკუმშვა 256-ზე... თუ 320-ს 256-ის ხმას შევადარებთ, მაღალი სიხშირეების გადაცემა ბევრად უკეთესი გახდა. თუმცა, ორიგინალთან შედარებით, შეიძლება მოისმინოს, რომ ჩანაწერი ჯერ კიდევ არ არის დამაკმაყოფილებელი ხარისხის თვალსაზრისით. კიდევ რამდენიმე ნიმუშის შედარების შემდეგ, აშკარა ხდება, რომ ეს არის ფსიქოაკუსტიკური მოდელის შეცდომები. 320 კბიტ/წმ-ზეც კი MP3 ჩვეულებრივ არ გადასცემს მაღალ სიხშირეებს შესასწავლი ჩანაწერების ტიპზე. ზედა სიხშირეები ხდება უფრო მკვეთრი, მეტალის, მათ აქვთ სინთეტიკის სუნი და, უცნაურად საკმარისი, ისინი უფრო ხმამაღალი ჩანს (სიხშირის პასუხის გაზომვები ამას არ აჩვენებს - წმინდა სმენის ეფექტი).

მოდით, ახლა გამოვიკვლიოთ Ogg Vorbis. როგორც წინა ტესტში, ჩვენ ვიღებთ ნიმუშებს შეკუმშულ 256 კბიტ/წმ რეჟიმში. MP3-ის წარუმატებლობის შემდეგ, ძნელი დასაჯერებელია შედეგი - Ogg Vorbis-ის ხმა ყველა თვალსაზრისით უკეთესია და ვერ შეედრება იმას, რასაც LAME აწარმოებს 320 kbps-ზე! ორიგინალთან შედარებით, ასევე ძალიან რთულია განსხვავების პოვნა. Ogg Vorbis-მა 287 ბიტიანი სიჩქარით დაამარცხა LAME 320 ბიტით, ეს არის ზუსტად ის, რაც ვთქვი სტატიის დასაწყისში: OGG ფორმატმა შეიძლება კარგად დაამარცხოს MP3.

კარგი, რას გვეტყვის ჯილდოს მფლობელი LQT ფორმატი მხოლოდ 252 ბიტის სიჩქარით? მაგრამ აქაც შოკისმომგვრელი შედეგი მიიღება - ორიგინალთან ძალიან ახლოს! ყოველ შემთხვევაში, განსხვავება იმდენად მცირეა, რომ შეიძლება უმნიშვნელოდ ჩაითვალოს. ასევე, ყურადღება მიაქციეთ საინტერესო ფაქტს: Roxette-ის ნიმუშების დაშიფვრისას საშუალო ბიტრეიტი იყო დაახლოებით 230 kbps, ხოლო ერთი შეხედვით მარტივ Clayderman ნიმუშებზე - 250 kbps. ეს იმაზე მეტყველებს, რომ LQT ბევრად უკეთ არის ადაპტირებული მუსიკის რეალურ ჟღერადობასთან, ის უფრო ზუსტად ითვალისწინებს ყველა ნიუანსს. შესანიშნავი ფორმატი. ის, რაც მას სურს, არის ნორმალური ენკოდერი ყოველგვარი შეფერხების გარეშე და ოდნავ მაღალი ბიტური სიჩქარით, რათა უფრო რთული ნიმუშების დაშიფვრა შეძლოს.

ეს იყო ჩემი სუბიექტური „აუდიტორული“ კვლევები. ახლა მოდით შევხედოთ სიხშირის პასუხს.

და ისევ, სიგნალების სიხშირეზე პასუხის ანალიზი მხოლოდ ადასტურებს ჩემს დასკვნებს მოსმენის შედეგებზე დაყრდნობით: LQT აწარმოებს უბრალოდ გამორჩეულ შედეგებს, ამჯერად უკეთესია, ვიდრე LAME. სიხშირის დიაპაზონის შესანიშნავი გადაცემა და დანაკარგები 21 kHz არის დისტანციური მაღალი სიხშირის ხმაური, რაც კი მისასალმებელია. LAME ჩამორჩება, მაგრამ დიდად არა. როგორც მოსალოდნელი იყო, MP3-ის სიხშირის დიაპაზონი კარგია. მაგრამ Ogg Vorbis-ის ნიმუშის სიხშირეზე პასუხი იმედგაცრუებული იყო: შეხედეთ სიხშირეების შემცირებას. მაგრამ ეს იმაზე უკეთ ჟღერს, ვიდრე შეიძლება ვიფიქროთ მისი სიხშირის პასუხის დათვალიერებით. როგორც ჩანს, ზოგიერთი სიხშირის ჭრით შესაძლებელია მთლიანი ხმის სურათის უფრო ზუსტად გადმოცემა.

და რას მივიღებთ შედეგად? ორი ლიდერი: LAME და LQT მაქსიმალური ბიტური სიჩქარით. OGG ძალიან უხდება MP3-ს და მომავალში გაიმარჯვებს, თუ მისმა დეველოპერებმა თავიანთი იდეა საბოლოო განსახიერებამდე მიიტანენ: უფრო მცირე ზომა და უკეთესი ხარისხი.

დელტა სიგნალის კვლევა

MP3 ფორმატი, მაღალი ბიტური სიჩქარის გამო, უკეთესია უმეტეს ჩანაწერებზე. თუმცა, ის კარგავს ადგილს, როდესაც საქმე გვაქვს ძალიან მაღალი ხარისხის ხმასთან. აქ LQT არის აბსოლუტური ფავორიტი. მაგრამ განსხვავება 256-სა და 320-ს შორის არც თუ ისე დიდია, ამიტომ ყველაზე ხშირად ის შეიძლება შეიწიროს უფრო მოსახერხებელი და ფართო ფორმატის გულისთვის. ბევრი ადამიანი, მათ შორის მე, ამას აკეთებს თავის მუსიკალურ ბიბლიოთეკაში და ისინი უბრალოდ ყიდულობენ განსაკუთრებით მაღალი ხარისხის ჩანაწერებს დისკზე.

ეს ყველაფერი, რა თქმა უნდა, კარგია, მაგრამ ეს ორი ფორმატი განსხვავებულად ჟღერს და ეს ბევრს აწუხებს. არის კიდევ ერთი საინტერესო კვლევა. შესაძლებელია სხვაობის სიგნალის გამოთვლა (შემდგომში მოხსენიებული როგორც დელტა სიგნალი) ორი ნიმუში და ამით გაარკვიეთ, როგორ განსხვავდებიან ისინი. ეს, რა თქმა უნდა, არის წმინდა ციფრული კვლევა, რადგან... განსხვავება შეიძლება არ იყოს საკმარისად მნიშვნელოვანი, რომ მოისმინოს. ჩვენს შემთხვევაში ყველაფერი სულ სხვანაირად აღმოჩნდა.

სხვაობის სიგნალის მოცულობა -25 დბ-ს აღწევს და მისი სიხშირეზე პასუხი ძალიან ჰგავს ფართოზოლოვან ხმაურს. თუ თქვენ უსმენთ დელტას სიგნალს, ის ჟღერს როგორც ფართოზოლოვანი დამახინჯების ნაკრები, ე.ი. თქვენ აშკარად გესმით განსხვავება ფსიქოაკუსტიკური მოდელები MP3 და LQT.

იგივე სქემის გამოყენებით MP3-ს OGG ფორმატთან შედარება, ახალი ვერაფერი მივიღეთ (განსხვავება, რა თქმა უნდა, უფრო მცირეა, მაგრამ მაინც მნიშვნელოვანია):

მსგავსი შედეგები მიიღება წყვილისთვის LQT და OGG.

დელტა სიგნალების შესწავლის შედეგები მიუთითებს, რომ სამი განხილული ფორმატის ფსიქოაკუსტიკური მოდელები ძალიან განსხვავდება ერთმანეთისგან და აზრი არ აქვს მათ ერთმანეთთან შედარებას სიხშირეზე რეაგირების სხვაობის თვალსაზრისით.

დასკვნა

მოდით, შევეცადოთ გამოვიტანოთ რამდენიმე საბოლოო დასკვნა, წარმოვადგინოთ ისინი პრაქტიკული რეკომენდაციების სახით:

LAME არის MP3 ფორმატის ენკოდერების საუკეთესო წარმომადგენელი, ის აწარმოებს თითქმის მაქსიმუმს, რაც შეიძლება მიიღოთ MP3-დან. ყველა ძალიან ხმამაღალი და მკვრივი ჩანაწერისთვის გირჩევთ გამოიყენოთ LAME 320-ზე.
OGG არის MP3 ფორმატის გარკვეული სტრუქტურული მოდიფიკაცია ახალი ფსიქოაკუსტიკური მოდელით, რომლის მათემატიკური დამუშავება და პრაქტიკული განხორციელება ფუნდამენტურად განსხვავდება MP3-ისგან. დაბალი ღირებულების და დაბალი ხარისხის ჩანაწერებისთვის გამოყენებული იქნება OGG 192 კბიტ/წმ რეჟიმში (ან LQT 128 გამჭვირვალე რეჟიმში, საშუალოდ 160-180 კბიტ/წმ).
MP3-ისა და OGG-ისგან განსხვავებით, რომლებიც MPEG-1 ფორმატის ენკოდერების წარმომადგენლები არიან, LQT ფორმატი ეფუძნება MPEG-2 AAC სპეციფიკაციას. AAC ფორმატი აწვდის მნიშვნელოვნად უკეთეს ხარისხს დაბალი ბიტი სიჩქარით ფუნდამენტურად განსხვავებული აუდიო დამუშავების გამო. საშუალო მნიშვნელობის ჩანაწერებისთვის გირჩევთ LQT (მაქსიმალურად) ან თქვენს არჩევანს (მათ შორის განსხვავება მცირეა): OGG 256 kbps რეჟიმში, LAME 256. უმჯობესია არ გამოიყენოთ LAME ენკოდერის VBR რეჟიმი. , შესამჩნევად უარესია.
ძალიან მაღალი ხარისხის ჩანაწერებისთვის, სადაც მაშინაც კი, როცა კოდირებულია 320 კბიტ/წმ-ზე, თქვენ აშკარად გესმით რაიმე მნიშვნელოვანის არარსებობა ნიმუშის ხმაში, სცადეთ ნიმუშის დაშიფვრა Ogg Vorbis კოდირებით 350 კბიტ/წმ.
თუ ჯერ კიდევ არ ხართ კმაყოფილი დაკარგვით შეკუმშული ხმით, მოგიწევთ შეიძინოთ თქვენთვის სასურველი კომპოზიციები CD-DA დისკზე.

შესაძლოა, სტატიის რაღაც ნაწილი უფრო მეტად დაგაინტერესოთ. მომწერეთ - დიდი სიამოვნებით მოვისმენ თქვენს გამოხმაურებას.

1. შეკუმშვის აშკარა ტექნიკა, რომელიც შეიძლება გამოყენებულ იქნას მეტყველებაში, არის პაუზების მოხსნა, ᴛ.ᴇ. იმის ნაცვლად, რომ გამოიყენოთ 44,100 ნულოვანი ღირებულების ნიმუში სიჩუმის ყოველი წამის ჩასაწერად (სინჯვის სიხშირე 44,1 kHz), უბრალოდ მითითებულია პაუზის ხანგრძლივობა - ϶ᴛᴏ უზარმაზარ შეკუმშვა.

2. იმ შემთხვევაში, თუ ხმის ამპლიტუდა არ მიაღწევს მაქსიმალურ დონეს, რომელიც შეიძლება იყოს წარმოდგენილი ნიმუშის მოცემული ზომისთვის, ჰაფმანის (ჰოფმანის) კოდირება ეფექტური უნდა იყოს. ამ შემთხვევაში, სიგნალი წარმოდგენილია უფრო მცირე ნიმუშებით. ეს არის უდანაკარგო შეკუმშვის ალგორითმი - შეკუმშვის მხოლოდ განსაკუთრებული შემთხვევა.

3. მეტყველების შეკუმშვის ტექნოლოგიებს ასევე შეუწყო ხელი კომპანდინგის (გაფართოების) ტექნიკამ. იგი ემყარება ადამიანის აღქმას სხვადასხვა ხმაურის დონეებზე და შედგება არაწრფივი კვანტიზაციის დონეების გამოყენებაზე. თუ უფრო მაღალ დონეებს შორის მანძილი უფრო მეტია ვიდრე დაბალ დონეებს შორის, მაშინ მშვიდი ხმები უფრო დეტალურად არის წარმოდგენილი, ვიდრე ხმამაღალი.

4. შეკუმშვის კიდევ ერთი ტექნიკაა დიფერენციალური პულსის კოდის მოდულაცია. ეს სქემა დაკავშირებულია ჩარჩოებს შორის შეკუმშვასთან და ეფუძნება თანმიმდევრული ნიმუშების განსხვავებების ჩაწერას და არა მათ აბსოლუტურ მნიშვნელობებს.

5. ეფექტური დაკარგვის შეკუმშვა შედგება იმ მონაცემების იდენტიფიცირებისგან, რომლებიც არ არის მნიშვნელოვანი (ᴛ.ᴇ. არ ახდენს გავლენას სიგნალის აღქმაზე) და გაუქმებას. თუ აუდიო სიგნალი გაციფრულია პირდაპირი წესით (კომპიუტერზე), გაუგონარი ბგერების შესაბამისი მონაცემები შეიძლება შეიტანოს ციფრულ ვერსიაში. ეს აიხსნება იმით, რომ სიგნალი იწერს ჰაერის წნევის ყველა ფიზიკურ რყევებს, რომლებიც იწვევენ ხმას, მაგრამ ხმის აღქმა არის ტვინის პასუხისმგებლობა, რომელიც (ყურთან ერთად) არ რეაგირებს ხმის ტალღებზე ასე მარტივად.

ხმა ხშირად გამოიყენება ვიდეოს ან ანიმაციის წარმოების ნაწილად. ამ შემთხვევაში აუცილებელია ხმის და გამოსახულების სინქრონიზაცია. ამ პრობლემის გადასაჭრელად, დროის ხაზი გამოიყენება აუდიოსა და ვიდეოს ორგანიზებისთვის ზოგიერთ ვიდეო რედაქტირების აპლიკაციაში, როგორიცაა Final Cut Pro. სიგნალების შესწავლით, რედაქტორს შეუძლია განსაზღვროს აუდიო ტრეკის საკონტროლო წერტილები (მუსიკის მარცვლების დასაწყისი ან ხაზგასმული ზოლები), რომლებზედაც აგებულია შესაბამისი სურათები.

მულტიმედიური პროდუქტებისთვის მოძრავი სურათების ციფრული ფორმით გენერირების ორი გზა არსებობს.

უპირველეს ყოვლისა, ვიდეოკამერის გამოყენებით შეგიძლიათ ჩაწეროთ რეალური მოძრაობის ჩარჩოების თანმიმდევრობა რეალურ სამყაროში.

მეორეც, თქვენ შეგიძლიათ შექმნათ ყველა კადრი ცალ-ცალკე, კომპიუტერის გამოყენებით ან სურათების ერთჯერად ჩაწერით.

პირველ შემთხვევაში ჩვენ შევქმნით ვიდეოდა მეორეში - ანიმაცია.

ვიდეოს თანმიმდევრობაშედგება ჩარჩოების ნაკრებისგან, რომელთაგან თითოეული ცალკე გამოსახულებაა.

n ითვლება, რომ ორიგინალური სურათის ადეკვატურად გადმოსაცემად საჭიროა 16 მილიონი ჩრდილი, ამიტომ გამოიყენება 24-ბიტიანი ფერადი გამოსახულების ფორმატი. თუ სურათის ზომა არის 640 პიქსელი (სიგანე) 480 პიქსელი (სიმაღლე) და ფერის სიღრმე 24 ბიტი, მაშინ თითოეულ კადრს დასჭირდება 640x480x3=900 კბ.

n კადრების თანმიმდევრობის ციფრული ფორმით ჩაწერა მოითხოვს კომპიუტერის დიდი რაოდენობით გარე მეხსიერებას. არაკომპრესირებული NTSC ვიდეოს ერთი წამი (ჩრდილოეთი ამერიკა, იაპონია) შეიცავს 30 კადრს. ვიდეოს ყოველ წამს დასჭირდება 26 მბ-ზე მეტი მეხსიერება. ხოლო PAL ვიდეო სტანდარტისთვის (დასავლეთ ევროპა და ავსტრალია, 24 კადრი), ერთი წამის ჩასაწერად საჭიროა 21 მბ მეხსიერება, ხოლო წუთში 1,25 გბ.

n მაგრამ საკმარისი არ არის მხოლოდ კადრების თანმიმდევრობის დამახსოვრება, ის ასევე უნდა იყოს ნაჩვენები ეკრანზე შესაბამისი ტემპით. არცერთ არსებულ გარე შესანახ მოწყობილობას არ აქვს ინფორმაციის გადაცემის მსგავსი სიჩქარე - დაახლოებით 30 მბ/წმ. ასეთი ნომრებით ვიდეოს ჩაწერა (დაკვრა) CD, DVD-ზე და ქსელებით გადაცემა პრობლემურია. ვიდეოს გადაღება შესაძლებელია ვიდეო და სატელევიზიო სტუდიებისთვის.

n მონაცემთა რაოდენობის შესამცირებლად საჭიროა ვიდეო შეკუმშვის სქემები, ასევე სხვა მეთოდების გამოყენება.

ციფრული ვიდეოს კომპიუტერის ეკრანზე საჩვენებლად, თქვენ უნდა შეამციროთ გადაცემული მონაცემების რაოდენობა, რაც მიიღწევა:

n მინიატურების გამოსახულების ჩვენება პატარა ფანჯარაში

n კადრების სიჩქარის შემცირება 10-15 კადრ/წმ-მდე

n ბიტების/პიქსელის რაოდენობის შემცირება

ეს იწვევს სურათის ცუდ ხარისხს.

არსებობს სხვადასხვა ვიდეო ფორმატები: WMA, ASF, RM, SWF, DVC, VOB, მაგრამ ისინი იშვიათად გამოიყენება, რადგან მათ აქვთ სერიოზული ნაკლოვანებები ან ცუდად თავსებადია მულტიმედიური აპლიკაციების შესაქმნელად ჩვეულებრივ ინსტრუმენტებთან (მაგრამ შეიძლება გადაკეთდეს სხვა ფორმატში ნებისმიერი გამოყენებით. ვიდეო რედაქტორი).

n ყველაზე გავრცელებული ფორმატებია AVI და MPEG.

ნ აუდიო ვიდეო ინტერლევატი (AVI)– „მშობლიური“ ფორმატი Windows Media-სთვის Microsoft-ისგან. Windows სისტემა იყენებს საკუთრების კოდეკს. ამ ფორმატში ჩაწერისას გამოიყენება ვიდეო შეკუმშვის რამდენიმე განსხვავებული ალგორითმი. მათ შორის: Cinepak, Indeo video, Motion-JPEG (M-JPEG) და ა.შ.
გამოქვეყნებულია ref.rf
მაგრამ მათ შორის მხოლოდ M-JPEG იყო აღიარებული

ვიდეო შეკუმშვის საერთაშორისო სტანდარტი. თავდაპირველად, Microsoft-ის Video for Windows პროგრამული უზრუნველყოფის კომპლექტი გამოიყენებოდა ვიდეოს გადასაღებად და დასაკრავად, მაგრამ ახლა მომხმარებელს ამის უკეთესი ვარიანტები აქვს. AVI ფაილი არ შეიძლება იყოს 2 გბ-ზე მეტი. ამის გაცნობიერებით, Microsoft-მა გამოაცხადა ახალი ფორმატების შემუშავება, რომელიც შექმნილია AVI ფორმატის ჩასანაცვლებლად:

ნ ა.ს.ფ.(მოწინავე ყვირილის ფორმატი)

ნ AAF(Authoring Advanced Format)

ამ ფორმატების მხარდაჭერა 1999 წელს დაიწყო. ამავდროულად, გამოიყენება ძველი AVI ფორმატიც, არსებობს ინსტრუმენტები ამ ფორმატების კონვერტაციისთვის.

AVI ფორმატი არის არა მხოლოდ ვიდეო, არამედ მასთან სინქრონიზებული ხმაც. ჩვეულებრივ აუდიო კომპონენტს ჰქვია საუნდტრეკი ან აუდიო ჩანაწერი. AVI-სთვის ეს არის აუდიო WAV ფორმატში. ნებისმიერ ვიდეო რედაქტორში შეგიძლიათ აირჩიოთ აუდიო ჩანაწერი, შეინახოთ ის აუდიო ფაილში და დაარედაქტიროთ აუდიო რედაქტორში

ნ Windows Media ვიდეო (WMV)არის Microsoft-ის ახალი ვიდეო ფორმატი, რომელიც ცვლის AVI ფორმატს. იგი დაფუძნებულია Windows Video Codec-ზე, შემუშავებული MPEG-4 სტანდარტის საფუძველზე.

ნ სწრაფი დროის ფილმი (MOV)– ყველაზე გავრცელებული ფორმატი ვიდეოს ჩაწერისა და დაკვრისთვის, რომელიც შემუშავებულია Apple-ის მიერ Macintosh კომპიუტერებისთვის QuickTime ტექნოლოგიის ფარგლებში . მოიცავს არა მხოლოდ ვიდეოს, არამედ აუდიოს, ტექსტის, MPEG ნაკადების, გაფართოებული MIDI ბრძანებების, ვექტორული გრაფიკის, პანორამებისა და ობიექტების (QT VR) და 3D მოდელების მხარდაჭერას. მხარს უჭერს რამდენიმე სხვადასხვა ვიდეო შეკუმშვის ფორმატს, მათ შორის. MPEG და Indeo, ისევე როგორც საკუთარი შეკუმშვის მეთოდი.

ნ MPEG (MPG, MPEG) არის ვიდეოს ჩაწერისა და დაკვრის ფორმატი, რომელიც შეიქმნა 1992 წელს. მოძრავი სურათების ექსპერტთა ჯგუფი (MPEG). შექმნილია აუდიო და ვიდეო ფაილების შეკუმშვისთვის, გადმოსაწერად ან გასაგზავნად, მაგალითად, ინტერნეტით.

MPEG-4– სტანდარტი, რომელიც აღწერს ციფრული მულტიმედიური ინფორმაციის კოდირების წესებს. ამ სტანდარტის შემუშავებისას მთავარი ყურადღება გამახვილდა ვიდეო მონაცემების შეკუმშვის უნარზე ბევრად უფრო ძლიერად, ვიდრე გათვალისწინებულია, მაგალითად, MPEG-2 სტანდარტით. ეს საშუალებას აძლევს მონაცემთა გადაცემას დაბალი სიჩქარით, 1 მბიტ/წმ-ზე ნაკლები. ასეთი სიჩქარე ტიპიურია ინტერნეტის მომხმარებლების უმეტესობისთვის და აქტუალურია მობილური უკაბელო მოწყობილობების მომხმარებლებისთვის. MPEG-4 ჩანაწერები უფრო პატარა და მნიშვნელოვნად იაფია, ვიდრე MPEG-2-ით დაშიფრული მედია ფაილები. ასევე MPEG-4 კოდირებისა და დეკოდირების ხელსაწყოები უფრო მარტივია

ზოგადად, უზარმაზარ შეკუმშვის მნიშვნელობა ასეთია: ისინი პოულობენ გარკვეულ შაბლონს წყაროს მონაცემებში და, ამ ნიმუშის გათვალისწინებით, ქმნიან მეორე თანმიმდევრობას, რომელიც ცალსახად აღწერს თავდაპირველს. მაგალითად, ორობითი მიმდევრობების დაშიფვრად, რომლებსაც აქვთ მრავალი ნული და რამდენიმე, შეგვიძლია გამოვიყენოთ შემდეგი ჩანაცვლება:

00 > 0
01 > 10
10 > 110
11 > 111

ამ შემთხვევაში, თექვსმეტი ბიტი:

00 01 00 00 11 10 00 00

გარდაიქმნება ცამეტ ბიტად:

0 10 0 0 111 110 0 0

თუ ჩავწერთ შეკუმშულ სტრიქონს ინტერვალის გარეშე, ჩვენ მაინც შეგვიძლია ჩავდოთ მასში სივრცეები - და შესაბამისად აღვადგინოთ თავდაპირველი თანმიმდევრობა.

FLAC (უფასო უზარმაზარ აუდიო კოდეკი - უფასო უზარმაზარ აუდიო კოდეკი)

კოდირების პრინციპი: ალგორითმი ცდილობს აღწეროს სიგნალი ისეთი ფუნქციით, რომ ორიგინალიდან გამოკლების შემდეგ მიღებული შედეგი (ე.წ. განსხვავება, ნაშთი, შეცდომა) შეიძლება დაშიფრული იყოს ბიტების მინიმალური რაოდენობით.

მოდელის დამონტაჟების შემდეგ, ალგორითმი აკლებს მიახლოებას ორიგინალს, რათა წარმოქმნას ნარჩენი (მცდარი) სიგნალი, რომელიც შემდეგ დაშიფრულია უდანაკარგოდ.

დაკარგვის შეკუმშვა (MP3, AAC, WMA, OGG)

დაკარგვის შეკუმშვის ალგორითმის გამოყენებით, MP3 ფაილის ზომა საშუალო ბიტის სიჩქარით 128 kbps არის ორიგინალური აუდიო CD ფაილის ზომის დაახლოებით 1/11 (არაკომპრესირებულ CD-Audio აუდიოს აქვს ბიტრეიტი 1411.2 kbps). MP3 ფაილები შეიძლება შეიქმნას მაღალი ან დაბალი ბიტური სიჩქარით, რაც გავლენას ახდენს შედეგის ხარისხზე.

შეკუმშვის პრინციპი არის აუდიო ნაკადის გარკვეული ნაწილების სიზუსტის შემცირება, რაც ფაქტობრივად გაუგონარი გახდება ადამიანების უმეტესობის ყურისთვის. ხმის სიგნალი დაყოფილია თანაბარი ხანგრძლივობის სეგმენტებად, რომელთაგან თითოეული დამუშავების შემდეგ შეფუთულია საკუთარ ჩარჩოში (ჩარჩოში). სპექტრში დაშლა მოითხოვს შეყვანის სიგნალის უწყვეტობას და, შესაბამისად, წინა და შემდეგი ჩარჩოები ასევე გამოიყენება გამოთვლებისთვის. ხმის სიგნალი შეიცავს უფრო დაბალი ამპლიტუდის მქონე ჰარმონიებს და უფრო ინტენსიურთან ახლოს მდებარე ჰარმონიებს - ასეთი ჰარმონიები წყდება, რადგან საშუალო ადამიანის ყური ყოველთვის ვერ შეძლებს განსაზღვროს ასეთი ჰარმონიების არსებობა ან არარსებობა. სმენის ამ თვისებას ნიღბის ეფექტი ეწოდება. ასევე შესაძლებელია ორი ან მეტი მიმდებარე მწვერვალის შეცვლა ერთი საშუალოდ (რაც, როგორც წესი, ხმის დამახინჯებას იწვევს). ათვლის კრიტერიუმი განისაზღვრება გამომავალი ნაკადის მოთხოვნით. იმის გამო, რომ მთელი სპექტრი აქტუალურია, მაღალი სიხშირის ჰარმონია არ არის შეწყვეტილი, არამედ მხოლოდ შერჩევით ამოღებულია, რათა შემცირდეს ინფორმაციის ნაკადი სპექტრის იშვიათი შემცირებით. სპექტრული "გაშიშვლების" შემდეგ გამოიყენება შეკუმშვის მათემატიკური მეთოდები და ჩარჩოებში შეფუთვა.

MP3 ბიტის სიჩქარის ტიპები

CBRნიშნავს Constant Bit Rate, ანუ მუდმივი ბიტის სიხშირე, რომელიც დაყენებულია მომხმარებლის მიერ და არ იცვლება სამუშაოს კოდირებისას. ამრიგად, ნაწარმოების ყოველი წამი შეესაბამება მონაცემთა ერთნაირი რაოდენობის დაშიფრულ ბიტებს (თუნდაც დუმილის კოდირებისას).

VBRდგას Variable Bit Rate, ანუ ცვალებადი ბიტის სიხშირე ან ცვლადი ბიტის სიხშირე, რომელიც დინამიურად იცვლება კოდირების პროგრამის მიერ კოდირების დროს, დაშიფრული აუდიო მასალის გაჯერებაზე და მომხმარებლის მიერ დადგენილ კოდირების ხარისხზე (მაგალითად, დუმილი არის დაშიფრულია მინიმალური ბიტური სიჩქარით). კოდირების ამ მეთოდის მინუსი არის ის, რომ VBR ჩუმ ფრაგმენტებს „უმნიშვნელო“ აუდიო ინფორმაციას თვლის, ამიტომ გამოდის, რომ თუ ძალიან ხმამაღლა მოუსმენთ, ეს ფრაგმენტები იქნება უხარისხო, ხოლო CBR ჩუმად და ხმამაღალ ფრაგმენტებს ერთნაირად გადმოსცემს. ბიტის სიჩქარე .

ABRნიშნავს Average Bit Rate, ანუ საშუალო ბიტის სიხშირეს, რომელიც არის VBR და CBR-ის ჰიბრიდი: კბიტ/წმ-ში ბიტის სიხშირე დგინდება მომხმარებლის მიერ და პროგრამა ცვლის მას, მუდმივად არეგულირებს მას მოცემულ ბიტირზე. ამრიგად, კოდეკი ფრთხილად იქნება მაქსიმალური და მინიმალური შესაძლო ბიტური სიჩქარის მნიშვნელობების გამოყენებასთან დაკავშირებით, რადგან ის საფრთხეს უქმნის მომხმარებლის მიერ მითითებულ ბიტრეიტს არ მოერგოს. ეს ამ მეთოდის აშკარა მინუსია, რადგან ის გავლენას ახდენს გამომავალი ფაილის ხარისხზე, რომელიც ოდნავ უკეთესი იქნება, ვიდრე CBR-ის გამოყენებისას, მაგრამ უარესი ვიდრე VBR (იგივე ფაილის ზომით) გამოყენებისას.

MP3 აუდიო შეკუმშვის ფორმატი

აუდიო შეკუმშვის მეთოდები

აუდიო შეკუმშვა

აუდიო შეკუმშვა არის ბიტის სიჩქარის შემცირების პროცესი ციფრული აუდიო სიგნალის სტატისტიკური და ფსიქოაკუსტიკური სიჭარბის შემცირებით.

აუდიო შეკუმშვა(აუდიო შეკუმშვა) - მონაცემთა შეკუმშვის ტიპი, კოდირება, რომელიც გამოიყენება აუდიო ფაილების ზომის შესამცირებლად ან აუდიოს სტრიმინგისთვის გამტარუნარიანობის შესამცირებლად. აუდიო ფაილების შეკუმშვის ალგორითმები დანერგილია კომპიუტერულ პროგრამებში, რომელსაც ეწოდება აუდიო კოდეკები. აუდიო მონაცემების შეკუმშვის სპეციალური ალგორითმების გამოგონება მოტივირებულია იმით, რომ ზოგადი შეკუმშვის ალგორითმები არაეფექტურია აუდიოზე მუშაობისთვის და შეუძლებელს ხდის რეალურ დროში მუშაობას.

როგორც ზოგად შემთხვევაში, განასხვავებენ უზარმაზარ აუდიო შეკუმშვას, რაც შესაძლებელს ხდის ორიგინალური მონაცემების აღდგენას დამახინჯების გარეშე და დანაკარგებით შეკუმშვას შორის, რომელშიც ასეთი აღდგენა შეუძლებელია. დაკარგვის შეკუმშვის ალგორითმები უზრუნველყოფენ შეკუმშვის მაღალ ხარისხს, მაგალითად, აუდიო დისკზე იტევს არაუმეტეს ერთი საათისა „შეუკუმშველი“ მუსიკის უდანაკარგო შეკუმშვისას, CD–ს შეუძლია იტევს თითქმის 2 საათის მუსიკას და საშუალოდ დაკარგულ კომპრესიას ბიტის სიჩქარე - 7-10 საათი.

უკარგავი შეკუმშვა

უდანაკარგო აუდიო შეკუმშვის სირთულე არის ის, რომ აუდიო ჩანაწერები ძალიან რთულია მათი სტრუქტურით. შეკუმშვის ერთ-ერთი მეთოდია შაბლონების პოვნა და მათი გამეორება, მაგრამ ეს მეთოდი არ არის ეფექტური უფრო ქაოტური მონაცემებისთვის, როგორიცაა ციფრული აუდიო ან ფოტოები. საინტერესოა, რომ მიუხედავად იმისა, რომ კომპიუტერის მიერ გენერირებული გრაფიკა ბევრად უფრო ადვილია შეკუმშვა დაკარგვის გარეშე, სინთეზირებულ აუდიოს ამ მხრივ არანაირი უპირატესობა არ აქვს. ეს იმიტომ ხდება, რომ კომპიუტერის მიერ წარმოქმნილ ხმასაც კი ჩვეულებრივ აქვს ძალიან რთული ფორმა, რაც ალგორითმის გამოგონებას უქმნის გამოწვევას.

კიდევ ერთი სირთულე ის არის, რომ ხმა, როგორც წესი, ძალიან სწრაფად იცვლება და ეს ასევე არის მიზეზი იმისა, რომ შეკვეთილი ბაიტების თანმიმდევრობა ძალიან იშვიათად ჩნდება.

უზარმაზარ შეკუმშვის ყველაზე გავრცელებული ფორმატებია:
უფასო Lossless აუდიო კოდეკი (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio და TTA.

დაკარგული შეკუმშვა

დაკარგვის შეკუმშვას აქვს ძალიან ფართო გამოყენება. კომპიუტერული პროგრამების გარდა, დაკარგვის შეკუმშვა გამოიყენება DVD აუდიო ნაკადში, ციფრულ ტელევიზიასა და რადიოში და ინტერნეტ ნაკადის მედიაში.

ამ შეკუმშვის მეთოდის ინოვაცია იყო ფსიქოაკუსტიკის გამოყენება ხმის კომპონენტების გამოსავლენად, რომლებიც არ აღიქმება ადამიანის ყურით. მაგალითად არის მაღალი სიხშირეები, რომლებიც აღიქმება მხოლოდ მაშინ, როდესაც მათი სიმძლავრე საკმარისია, ან მშვიდი ხმები, რომლებიც წარმოიქმნება ერთდროულად ან მაშინვე ხმამაღალი ბგერების შემდეგ და, შესაბამისად, მათ მიერ ნიღბიანი - ასეთი ხმის კომპონენტები შეიძლება გადაიცეს ნაკლებად ზუსტად, ან საერთოდ არ გადაიცეს.

ნიღბის განსახორციელებლად, ამპლიტუდის ნიმუშების დროის თანმიმდევრობის სიგნალი გარდაიქმნება ხმის სპექტრის თანმიმდევრობაში, რომელშიც თითოეული სპექტრის კომპონენტი დაშიფრულია ცალკე. ასეთი ტრანსფორმაციის განსახორციელებლად გამოიყენება სწრაფი ფურიეს ტრანსფორმაციის მეთოდები, MDCT, კვადრატულ-სარკე ფილტრები ან სხვა. ასეთი გადაკოდირების დროს ინფორმაციის მთლიანი რაოდენობა უცვლელი რჩება. შეკუმშვა გარკვეულ სიხშირის დომენში შეიძლება მოიცავდეს ნიღბიან ან ნულ კომპონენტებს, რომლებიც საერთოდ არ ინახება, ან დაშიფრულია უფრო დაბალი გარჩევადობით. მაგალითად, 200 ჰც-მდე და 14 კჰც-მდე სიხშირის კომპონენტები შეიძლება იყოს კოდირებული 4 ბიტით, ხოლო საშუალო დიაპაზონის კომპონენტები დაშიფრულია 16 ბიტით. ასეთი ოპერაციის შედეგი იქნება კოდირება 8-ბიტიანი ბიტის საშუალო სიღრმით, მაგრამ შედეგი საგრძნობლად უკეთესი იქნება, ვიდრე მთელი სიხშირის დიაპაზონის 8-ბიტიანი ბიტით კოდირებისას.

თუმცა, აშკარაა, რომ დაბალი გარჩევადობით ხელახალი კოდირებული სპექტრის ფრაგმენტები ზუსტად ვეღარ აღდგება და, შესაბამისად, სამუდამოდ იკარგება.
დაკარგვის შეკუმშვის მთავარი პარამეტრი არის ბიტრეიტი, რომელიც განსაზღვრავს ფაილის შეკუმშვის ხარისხს და, შესაბამისად, ხარისხს. არსებობს შეკუმშვა მუდმივი ბიტის სიჩქარით (CBR), ცვლადი ბიტური სიჩქარით (VBR) და საშუალო ბიტური სიჩქარით (ABR).

ყველაზე გავრცელებული დაკარგვითი შეკუმშვის ფორმატებია: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA და სხვა.

MP3 აუდიო შეკუმშვის ფორმატი

MPEG-1 Audio Layer 3 ფაილის გაფართოება: .mp3 MIME ტიპი: audio/mpeg ფორმატის ტიპი: აუდიო

MP3 (უფრო ზუსტად, ინგლისური MPEG-1/2/2.5 Layer 3 (მაგრამ არა MPEG-3) არის მესამე MPEG აუდიო ჩანაწერის კოდირების ფორმატი) - ლიცენზირებული ფაილის ფორმატი აუდიო ინფორმაციის შესანახად.

ამ დროისთვის MP3 არის ყველაზე ცნობილი და პოპულარული ციფრული აუდიო კოდირების საერთო დაკარგვის ფორმატებს შორის. იგი ფართოდ გამოიყენება ფაილების გაზიარების ქსელებში მუსიკის შესაფასებლად. ფორმატის დაკვრა შესაძლებელია თითქმის ნებისმიერ პოპულარულ ოპერაციულ სისტემაში, თითქმის ნებისმიერ პორტატულ აუდიო პლეერზე და ასევე მხარდაჭერილია სტერეო სისტემებისა და DVD ფლეერების ყველა თანამედროვე მოდელით.

MP3 ფორმატი იყენებს დაკარგვის შეკუმშვის ალგორითმს, რომელიც შექმნილია იმისთვის, რომ მნიშვნელოვნად შეამციროს ჩანაწერის დასაკრავად საჭირო მონაცემთა ზომა და უზრუნველყოს დაკვრის ხარისხი ძალიან ახლოს ორიგინალთან (მსმენელთა უმეტესობის მიხედვით), თუმცა აუდიოფილები აღნიშნავენ შესამჩნევ განსხვავებას. MP3-ის შექმნისას საშუალო ბიტის სიჩქარით 128 kbps, შედეგად მიღებული ფაილი არის ორიგინალური აუდიო CD ფაილის ზომის დაახლოებით 1/10. MP3 ფაილები შეიძლება შეიქმნას მაღალი ან დაბალი ბიტური სიჩქარით, რაც გავლენას ახდენს მიღებული ფაილის ხარისხზე.

შეკუმშვის პრინციპი არის აუდიო ნაკადის გარკვეული ნაწილების სიზუსტის შემცირება, რაც ფაქტობრივად გაუგონარი გახდება ადამიანების უმეტესობის ყურისთვის. ამ მეთოდს ეწოდება აღქმის კოდირება. ამ შემთხვევაში, პირველ ეტაპზე, ხმის დიაგრამა აგებულია დროის მოკლე პერიოდის თანმიმდევრობის სახით, შემდეგ მისგან ამოღებულია ინფორმაცია, რომელიც არ არის შესამჩნევი ადამიანის ყურისთვის, ხოლო დარჩენილი ინფორმაცია ინახება კომპაქტურში. ფორმა. ეს მიდგომა წააგავს შეკუმშვის მეთოდს, რომელიც გამოიყენება სურათების JPEG ფორმატში შეკუმშვისას.

MP3 შეიმუშავა Fraunhofer Institute-ის სამუშაო ჯგუფმა (გერმანულად: Fraunhofer-Institut f?r Integrierte Schaltungen), რომელსაც ხელმძღვანელობდა კარლჰაინც ბრანდენბურგი და ერლანგენ-ნიურნბერგის უნივერსიტეტი AT&T Bell Labs-თან და Thomson-თან (Johnson, Stoll, Deery და ა.შ.) თანამშრომლობით. .).

MP3-ის განვითარების საფუძველი იყო ექსპერიმენტული კოდეკი ASPEC (Adaptive Spectral Perceptual Entropy Coding). პირველი MP3 შიფრატორი იყო L3Enc პროგრამა, რომელიც გამოვიდა 1994 წლის ზაფხულში. ერთი წლის შემდეგ გამოჩნდა პირველი პროგრამული MP3 პლეერი - Winplay3.

ალგორითმის შემუშავებისას ტესტები ჩატარდა ძალიან კონკრეტულ პოპულარულ კომპოზიციებზე. მთავარი სიმღერა იყო სიუზან ვეგას "Tom's Diner" ხუმრობა, რომ "MP3 შეიქმნა მხოლოდ ბრანდენბურგის საყვარელი სიმღერის კომფორტული მოსმენის მიზნით" და ვეგას დაერქვა "MP3 დედა".

ფორმატის აღწერა

ამ ფორმატში ბგერები დაშიფრულია სიხშირის წესით (დისკრეტული ნაწილების გარეშე); არსებობს სტერეოს მხარდაჭერა და ორ ფორმატში (დეტალები ქვემოთ). MP3 არის დაკარგვის შეკუმშვის ფორმატი, ანუ აუდიო ინფორმაციის ნაწილი, რომელსაც (ფსიქოაკუსტიკური მოდელის მიხედვით) ადამიანის ყური ვერ აღიქვამს ან არ აღიქვამს ყველა ადამიანს, სამუდამოდ ამოღებულია ჩანაწერიდან. შეკუმშვის დონე შეიძლება განსხვავდებოდეს, მათ შორის ერთი ფაილის ფარგლებში. ბიტის სიჩქარის შესაძლო მნიშვნელობების დიაპაზონი არის 8 - 320 კბიტ/წმ. შედარებისთვის, ჩვეულებრივი აუდიო-CD ფორმატის CD-დან მონაცემთა ნაკადი არის 1411.2 კბიტი/წმ, შერჩევის სიხშირით 44100 ჰც.

MP3 და "Audio-CD ხარისხი"

წარსულში გავრცელებული იყო მოსაზრება, რომ 128 kbps ჩანაწერი შესაფერისი იყო იმ მუსიკისთვის, რომელიც მოსასმენად იყო განკუთვნილი ადამიანების უმეტესობისთვის, რაც უზრუნველყოფს აუდიო-CD ხარისხის ხმას. სინამდვილეში, ყველაფერი ბევრად უფრო რთულია. პირველ რიგში, მიღებული MP3-ის ხარისხი დამოკიდებულია არა მხოლოდ ბიტის სიჩქარეზე, არამედ კოდირების პროგრამაზე (კოდეკი) (სტანდარტი არ ადგენს კოდირების ალგორითმს, ის მხოლოდ აღწერს პრეზენტაციის მეთოდს). მეორეც, გაბატონებული CBR (მუდმივი ბიტრეიტი) რეჟიმის გარდა (რომელშიც, მარტივად რომ ვთქვათ, აუდიოს ყოველი წამი დაშიფრულია იმავე რაოდენობის ბიტით), არის ABR (საშუალო ბიტრეიტი) და VBR (ცვლადი ბიტრეიტი) რეჟიმები. მესამე, 128 კბიტ/წმ ლიმიტი თვითნებურია, რადგან ის "გამოიგონეს" ფორმატის ფორმირების ეპოქაში, როდესაც ხმის ბარათების და კომპიუტერის დინამიკების დაკვრის ხარისხი ჩვეულებრივ უფრო დაბალი იყო, ვიდრე ახლა.

ციფრული აუდიო, გარდა იმ შემთხვევისა, როდესაც მუსიკა შეიძლება იყოს კოდირებული MIDI-ის სახით, ისეთივე უხერხულია შეკუმშვა, როგორც სურათი. აუდიო სიგნალს იშვიათად აქვს ზედმეტი, ე.ი. აქვს განმეორებადი მონაკვეთები (ძირითადად ხმაურის გამო). ეს ნიშნავს, რომ ის ცუდად არის შეკუმშული LZW-ის ან ჰაფმანის მეთოდის მსგავსი უზარმაზარი შეკუმშვის ალგორითმების გამოყენებით.

1940 წელს ჰარვი ფლეტჩერმა, გამოჩენილმა ამერიკელმა ფიზიკოსმა და სტერეო ხმის მამამ, ადამიანთა სმენის შესასწავლად უამრავი სუბიექტი აიყვანა. მან გააანალიზა სმენის აბსოლუტური ზღურბლის დამოკიდებულება სიგნალის სიხშირეზე, ე.ი. რა ამპლიტუდაზეა გარკვეული სიხშირის ხმა, რომელიც არ ისმის ადამიანისთვის. ექსპერიმენტებიდან აგებულ მრუდში მაქსიმალური მნიშვნელობები, როგორც მოსალოდნელია, არის მოსმენის დიაპაზონის საზღვრებზე (დაახლოებით 20 ჰც და უფრო ახლოს 20 კჰც-მდე), ხოლო მინიმალური არის დაახლოებით 5 კჰც. მაგრამ მთავარი, რაზეც მან ყურადღება გაამახვილა, იყო სმენის ადაპტაციის უნარი ახალი ბგერების გარეგნობასთან, რაც გამოიხატება სმენის ზღურბლის ზრდით. სხვა სიტყვებით რომ ვთქვათ, ზოგიერთ ბგერს შეუძლია სხვებს გაუგონარი გახადოს, რასაც ერთი ბგერის მეორეთი ნიღბვა ჰქვია.

შეკუმშვის დროს მოსმენის ეს უკანასკნელი თვისება საშუალებას იძლევა, ხმამაღალი ხმოვანი სიგნალის შემდეგ, საერთოდ არ მოხდეს რეპროდუცირება გარკვეული დროის განმავლობაში და, შესაბამისად, არ შეინახოს რაიმე ხმა. მაგალითად, 0,1 წამის ხანგრძლივობის ხმამაღალი დაწკაპუნებამ შეიძლება დაფაროს შემდგომი ხმები 0,5 წამის განმავლობაში, რომლებიც არ საჭიროებს შენახვას. შეკუმშვის კოეფიციენტი ამ მაგალითში ნათქვამია, რომ აღწევს , და აღწერილია შეკუმშვის პროცედურა ჩვეულებრივ ეწოდება დროის დომენის ნიღაბი.

ზე სიხშირის დომენის ნიღაბისინუსოიდური სიგნალი ნიღბავს უფრო ჩუმ სიგნალებს, რომლებიც ახლოსაა სიხშირით, მათ შორის გაცილებით დაბალი ამპლიტუდის სინუსოიდური სიგნალების ჩათვლით. მოსახერხებელია გამოიყენოს სპექტრის დაყოფა სხვადასხვა სიგანის ზოლებად, ადამიანის სმენის მახასიათებლების საფუძველზე. ჩვეულებრივ არის 27 ეგრეთ წოდებული კრიტიკული დიაპაზონი: 0-ე 50-დან 95 ჰც-მდე, 1-ლი 95-დან 140 ჰც-მდე, ..., 26-ე 20250 ჰც-დან და ზემოთ.

შეკუმშვის ალგორითმის შესასრულებლად, ორიგინალური სიგნალი იყოფა ჩარჩოებად, რომლებიც ექვემდებარება სიხშირის ანალიზს. შეკუმშვის ალგორითმი ასე გამოიყურება:

1. სპეციალური ალგორითმების გამოყენებით (ისინი შეიძლება იყოს სწრაფი ფურიეს ტრანსფორმაცია ან მსგავსი), სიგნალები იყოფა 32 თანაბარ სპექტრის ზოლად და რამდენიმე კრიტიკული ზოლი შეიძლება ერთდროულად მოხვდეს ერთ მიღებულ ზოლში.

2. ე.წ.

3. ზოლში ის დონე, რომელიც არ აღემატება გამოთვლილ ზღვარს, ითვლება ნულის ტოლად და არ ინახება. ამის საპირისპიროდ, ნიღბიანი დონე იწერება გამომავალ მონაცემებზე.

შემდგომში, ბიტების გარკვეული რაოდენობა ნაწილდება თითოეულ არანულოვან დონეზე, რაც საკმარისია მისი სავარაუდო წარმოდგენისთვის. ასე რომ, სპექტრის იმ ნაწილში, სადაც ადამიანის ყურს აქვს ყველაზე დაბალი სმენის ბარიერი, ინფორმაცია დაშიფრულია თექვსმეტი ბიტით, ხოლო კიდეებზე, სადაც ყური ნაკლებად მგრძნობიარეა დამახინჯების მიმართ, ექვსი ან ნაკლები ბიტით. მაგალითად, ჰაფმანის შეკუმშვის ალგორითმი შეიძლება გამოყენებულ იქნას მიღებული ბიტის ნაკადზე.

MPEG აუდიო შეკუმშვით აღწერილი ალგორითმის სამი ვერსია არსებობს. თითოეულ ვერსიაში მონაცემები იყოფა ჩარჩოებად, ე.ი. ერთი ჩარჩო შედგება 32 ზოლისგან, თითოეული 12 მნიშვნელობით.

MPEG layer1-ში (სიტყვასიტყვით "ფენა 1") სიხშირის ფილტრი იყენებს ერთ ჩარჩოს და ალგორითმებს, რომლებიც დაფუძნებულია დისკრეტულ კოსინუს ტრანსფორმაციაზე (DCT). ფსიქოაკუსტიკური მოდელი მოიცავს მხოლოდ სიხშირის დაფარვას. ალგორითმი საშუალებას იძლევა შეფუთვა 1:4 თანაფარდობით 384 Kbps ნაკადით.

MPEG layer2 იყენებს სამ ჩარჩოს სიხშირის ფილტრში (წინა, მიმდინარე და შემდგომი) საერთო მოცულობა 32 ზოლით 12 მნიშვნელობით 3 ჩარჩოში. მოდელი ასევე იყენებს დროებით ნიღბებს. პაკეტები 1:6-დან 1:8-მდე თანაფარდობით.