რით განსხვავდება ხელოვნური ინტელექტის გამოყენებით მასშტაბირება ტრადიციული ზომის შეცვლის მეთოდებისგან?

ხელოვნური ინტელექტის გაფართოება პროგნოზირებს გამოსახულებაში არსებული ნიმუშებიდან მაღალი გარჩევადობის დეტალების გამოტოვებას და არა პიქსელების უბრალოდ გაჭიმვას, როგორც ამას ტრადიციული მეთოდები, როგორიცაა ბიკუბური ინტერპოლაცია, აკეთებენ. ეს იწვევს უფრო მკვეთრ და დეტალურ სურათებს.

ხელოვნური ინტელექტის გაუმჯობესებისას რა გავრცელებულ არტეფაქტებს უნდა მივაქციო ყურადღება?

გავრცელებული არტეფაქტებია კიდეების გარშემო ჰალოები, ტექსტურის განმეორებითი ნიმუშები, ზედმეტად გლუვი ან ცვილისებრი ზედაპირები და ტექსტი, რომელიც „თითქმის ასოებად“ გარდაიქმნება. ბუნებრივი იერის შედეგის უზრუნველსაყოფად მნიშვნელოვანია ამ პრობლემების მონიტორინგი.

რატომ ჩანს სახეები ზოგჯერ ძალიან გლუვი ან არარეალური გადიდების შემდეგ?

სახეები შეიძლება ზედმეტად გლუვი გამოიყურებოდეს აგრესიული ხმაურის მოხსნისა და სიმკვეთრის გამო, რამაც შეიძლება წაშალოს ტექსტურები, როგორიცაა ფორები. უფრო ბუნებრივი იერსახის მისაღწევად, განიხილეთ ხმაურის მოხსნისა და სიმკვეთრის პარამეტრების შემცირება.

რა უნდა გავაკეთო, თუ ხელოვნური ინტელექტით გადიდების გამოყენების შემდეგ ჩემი სურათები ხრაშუნა ჩანს ან ზედმეტად ხმაურიანია?

თუ თქვენი სურათები ხრაშუნა გამოიყურება, სცადეთ ხმაურის შემცირებისა და დეტალების გაუმჯობესების სლაიდერების რეგულირება. დახვეწილი მარცვლოვანი ეფექტის დამატება ასევე დაგეხმარებათ ფოტოგრაფიული იერსახის აღდგენაში.

როგორ შევადაროთ GAN და CNN მოდელები ხელოვნური ინტელექტის გაუმჯობესების შედეგებს?

CNN მოდელები, როგორც წესი, სტაბილური და პროგნოზირებადია, ხოლო GAN მოდელები ხშირად უფრო მკვეთრ დეტალებს გვთავაზობენ, თუმცა არარეალური ელემენტების შემოტანის რისკი არსებობს. მათ შორის არჩევანი დამოკიდებულია რეალიზმისა და გაუმჯობესებული ტექსტურის საჭიროებებზე.

არის თუ არა ხელოვნური ინტელექტის გამოყენებით გაფართოება ვიდეო კონტენტისთვის შესაფერისი და რა გამოწვევებს წარმოშობს ის?

დიახ, ხელოვნური ინტელექტის გამოყენებით გაფართოება ვიდეოსთვის შესაფერისია, თუმცა ეს შეიძლება რთული იყოს, რადგან კადრებს შორის თანმიმდევრულობა გადამწყვეტია. ციმციმებმა ან მოციმციმე დეტალებმა შეიძლება ყურადღება გადაიტანოს მაყურებელზე, ამიტომ რეკომენდებულია ვიდეოზე ორიენტირებული სპეციალიზებული მეთოდების გამოყენება.

როდის არ არის მიზანშეწონილი ხელოვნური ინტელექტის გაფართოებაზე დაყრდნობა?

ხელოვნური ინტელექტის გაფართოება სიფრთხილით უნდა იქნას გამოყენებული მაღალი რისკის მქონე სცენარებში, როგორიცაა ჟურნალისტიკა ან სასამართლო ანალიზი, სადაც სიზუსტე კრიტიკულად მნიშვნელოვანია. ის უმჯობესია განვიხილოთ, როგორც გაუმჯობესება და არა საბოლოო მტკიცებულება, ხოლო ხელოვნური ინტელექტის პროცესების გამჭვირვალობა აუცილებელია.

რა უნდა გავითვალისწინო ძლიერ შეკუმშული სურათების გადიდებისას?

ძლიერ შეკუმშული სურათებისთვის, არასასურველი დაბლოკვის მინიმიზაციისთვის დაიწყეთ არტეფაქტების მოშორებით. ამის შემდეგ, საჭიროების შემთხვევაში, შეგიძლიათ გაზარდოთ მასშტაბირება და გამოიყენოთ მსუბუქი სიმკვეთრე დეტალების შესანარჩუნებლად შეკუმშვის არტეფაქტების გაძლიერების გარეშე.

როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება? [ვიდეო და ვიქტორინა]

მოკლე პასუხი: ხელოვნური ინტელექტის გაფართოება მუშაობს მოდელის დაბალი და მაღალი გარჩევადობის დაწყვილებულ სურათებზე წვრთნით, შემდეგ კი მისი გამოყენებით გაზრდის დროს დამაჯერებელი დამატებითი პიქსელების პროგნოზირებისთვის. თუ მოდელმა ვარჯიშის დროს დაინახა მსგავსი ტექსტურები ან სახეები, მას შეუძლია დამაჯერებელი დეტალების დამატება; თუ არა, მას შეუძლია ვიდეოში „ჰალუცინაციები“ გამოიწვიოს, როგორიცაა ჰალოები, ცვილისებრი კანი ან ციმციმი.

ძირითადი დასკვნები:

პროგნოზირება: მოდელი წარმოშობს დამაჯერებელ დეტალებს და არა რეალობის გარანტირებულ რეკონსტრუქციას.

მოდელის არჩევანი: CNN-ები, როგორც წესი, უფრო სტაბილურია; GAN-ები შეიძლება უფრო მკვეთრად გამოიყურებოდეს, მაგრამ არსებობს ფუნქციების გამოგონების რისკი.

არტეფაქტების შემოწმება: ყურადღება მიაქციეთ ჰალოებს, განმეორებად ტექსტურებს, „თითქმის ასოებს“ და პლასტიკურ სახეებს.

ვიდეოს სტაბილურობა: გამოიყენეთ დროითი მეთოდები, წინააღმდეგ შემთხვევაში კადრ-კადრში ციმციმს და დრიფტს დაინახავთ.

მაღალი ფსონების გამოყენება: თუ სიზუსტეს მნიშვნელობა აქვს, გაამჟღავნეთ დამუშავება და შედეგები საილუსტრაციოდ მიიჩნიეთ.

როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება? ინფოგრაფიკა.

ალბათ გინახავთ: პაწაწინა, ხრაშუნა სურათი საკმარისად მკვეთრ რამედ იქცევა, რომ შეკრთობის გარეშე დაიბეჭდოს, გადაიცეს ან პრეზენტაციაზე ჩააგდოს. ეს მოტყუებას ჰგავს. და - საუკეთესო გაგებით - ერთგვარად ასეც არის 😅

ასე რომ, ხელოვნური ინტელექტის გადიდების მუშაობის პრინციპი უფრო კონკრეტულ რამეზეა დამოკიდებული, ვიდრე „კომპიუტერი აძლიერებს დეტალებს“ (ხელის ტალღისებური ფორმა) და უფრო ახლოსაა „მოდელი პროგნოზირებს დამაჯერებელ მაღალი გარჩევადობის სტრუქტურას მრავალი მაგალითიდან შესწავლილი ნიმუშების საფუძველზე“ (Deep Learning for Image Super-resolution: A Survey). პროგნოზირების ეს ეტაპი მთელი თამაშია - და სწორედ ამიტომ შეიძლება ხელოვნური ინტელექტის გადიდება განსაცვიფრებლად გამოიყურებოდეს... ან ცოტა პლასტმასის... ან თითქოს თქვენს კატას დამატებითი ულვაშები გაეზარდა.

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 როგორ მუშაობს ხელოვნური ინტელექტი
შეისწავლეთ მოდელების, მონაცემებისა და დასკვნების საფუძვლები ხელოვნურ ინტელექტში.

🔗 როგორ სწავლობს ხელოვნური ინტელექტი
ნახეთ, როგორ აუმჯობესებს სასწავლო მონაცემები და უკუკავშირი მოდელის მუშაობას დროთა განმავლობაში.

🔗 როგორ აღმოაჩენს ხელოვნური ინტელექტი ანომალიებს
გაიგეთ ნიმუშების საბაზისო ხაზები და ის, თუ როგორ აფიქსირებს ხელოვნური ინტელექტი უჩვეულო ქცევას სწრაფად.

🔗 როგორ პროგნოზირებს ხელოვნური ინტელექტი ტენდენციებს
შეისწავლეთ პროგნოზირების მეთოდები, რომლებიც აფიქსირებენ სიგნალებს და პროგნოზირებენ მომავალ მოთხოვნას.

როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება: ძირითადი იდეა, ყოველდღიური სიტყვებით 🧩

მასშტაბირება ნიშნავს გარჩევადობის გაზრდას: მეტი პიქსელი, უფრო დიდი გამოსახულება. ტრადიციული მასშტაბირება (მაგალითად, ბიკუბური) ძირითადად აჭიმავს პიქსელებს და ასწორებს გადასვლებს (ბიკუბური ინტერპოლაცია). კარგია, მაგრამ მას არ შეუძლია ახალი დეტალების გამოგონება - ის უბრალოდ ინტერპოლაციას ახდენს.

ხელოვნური ინტელექტის გაფართოება უფრო თამამ რამეს ცდილობს (კვლევის სამყაროში იგივე „სუპერგარჩევადობას“) (გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: გამოკითხვა):

ის დაბალი გარჩევადობის შემავალ სიგნალს უყურებს
ამოიცნობს ნიმუშებს (კიდეები, ტექსტურები, სახის ნაკვთები, ტექსტის შტრიხები, ქსოვილის ქსოვა...)
პროგნოზირებს, თუ როგორი უნდა იყოს უფრო მაღალი გარჩევადობის ვერსია
წარმოქმნის დამატებით პიქსელურ მონაცემებს, რომლებიც შეესაბამება ამ შაბლონებს

არა „რეალობის იდეალურად აღდგენა“, არამედ „ძალიან დამაჯერებელი ვარაუდის გაკეთება“ (სურათის სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN)). თუ ეს ოდნავ საეჭვოდ ჟღერს, არ ცდებით - მაგრამ სწორედ ამიტომ მუშაობს ასე კარგად 😄

და დიახ, ეს ნიშნავს, რომ ხელოვნური ინტელექტის გამოყენებით გაფართოება ძირითადად კონტროლირებადი ჰალუცინაციაა... მაგრამ პროდუქტიული, პიქსელების პატივისცემით.

რა ხდის ხელოვნური ინტელექტის გაუმჯობესების ვერსიას კარგს? ✅🛠️

თუ ხელოვნური ინტელექტის ამაღლების პროგრამას (ან წინასწარ დაყენებულ პარამეტრს) აფასებთ, აი, რა არის ყველაზე მნიშვნელოვანი:

დეტალების აღდგენა ზედმეტად გადაწვის გარეშე.
კარგი მასშტაბირება სქელ ელფერს და სტრუქტურას მატებს და არა ხრაშუნა ხმაურს ან ყალბ ფორებს.
კიდეების დისციპლინა -
სუფთა ხაზები სუფთა რჩება. ცუდი მოდელები კიდეებს რხევას ან ჰალოების გაჩენას იწვევს.
ტექსტურის რეალიზმი.
თმა არ უნდა იქცეს ფუნჯის შტრიხად. აგური არ უნდა იქცეს განმეორებად ნიმუშად.
ხმაურისა და შეკუმშვის დამუშავება.
ყოველდღიური სურათების უმეტესობა JPEG ფორმატში სრულ დამუშავებას განიცდის. კარგი ხმაურის გამაძლიერებელი (Real-ESRGAN) ამ ზიანს არ აძლიერებს.
სახისა და ტექსტის აღქმა
სახეები და ტექსტი შეცდომების შემჩნევის ყველაზე მარტივი ადგილია. კარგი მოდელები მათ ნაზად ეპყრობიან (ან სპეციალიზებული რეჟიმები აქვთ).
თანმიმდევრულობა კადრებს შორის (ვიდეოსთვის)
თუ დეტალები კადრში ციმციმებს, თქვენი თვალები იკივლებს. ვიდეოს გაფართოება დროითი სტაბილურობით ცოცხლობს ან კვდება (BasicVSR (CVPR 2021)).
ლოგიკური მართვის საშუალებები
თქვენ გჭირდებათ სლაიდერები, რომლებიც რეალურ შედეგებზეა ორიენტირებული: ხმაურის შემცირება, დაბინდვისგან გასუფთავება, არტეფაქტების მოცილება, მარცვლების შენარჩუნება, სიმკვეთრე… პრაქტიკული დეტალები.

ჩუმი წესი, რომელიც ძალაშია: „საუკეთესო“ გაფართოება ხშირად ისაა, რომელსაც ძლივს ამჩნევ. უბრალოდ, თავიდანვე უკეთესი კამერა გქონდათ 📷✨

შედარების ცხრილი: ხელოვნური ინტელექტის გაუმჯობესების პოპულარული ვარიანტები (და რისთვის არიან ისინი კარგი) 📊🙂

ქვემოთ მოცემულია პრაქტიკული შედარება. ფასები განზრახ ბუნდოვანია, რადგან ინსტრუმენტები განსხვავდება ლიცენზიის, პაკეტების, გამოთვლითი ხარჯების და სხვა გასართობი რაღაცეების მიხედვით.

ინსტრუმენტი / მიდგომა	საუკეთესოა	ფასის განწყობა	რატომ მუშაობს (დაახლოებით)
Topaz-ის სტილის დესკტოპის გამაუმჯობესებლები (Topaz Photo, Topaz Video)	ფოტოები, ვიდეო, მარტივი სამუშაო პროცესი	ფასიანი	ძლიერი ზოგადი მოდელები + ბევრი ტიუნინგი, ძირითადად „უბრალოდ მუშაობს“..
Adobe-ის „Super Resolution“ ტიპის ფუნქციები (Adobe Enhance > Super Resolution)	ფოტოგრაფები, რომლებიც უკვე ამ ეკოსისტემაში არიან	გამოწერა-y	მყარი დეტალების რეკონსტრუქცია, როგორც წესი, კონსერვატიული (ნაკლებად დრამატული)
Real-ESRGAN / ESRGAN ვარიანტები (Real-ESRGAN, ESRGAN)	საკუთარი ხელით შეკვეთა, დეველოპერები, ჯგუფური სამუშაოები	უფასო (მაგრამ დროის ხარჯვა)	შესანიშნავია ტექსტურის დეტალებისთვის, შეიძლება სახეზე მკვეთრი იყოს, თუ ფრთხილად არ იქნებით
დიფუზიაზე დაფუძნებული გადიდების რეჟიმები (SR3)	შემოქმედებითი ნამუშევარი, სტილიზებული შედეგები	შერეული	შეუძლია შესანიშნავი დეტალების შექმნა - ასევე შეუძლია სისულელეების გამოგონება, ასე რომ... კი
თამაშის გაუმჯობესების მოწყობილობები (DLSS/FSR სტილის) (NVIDIA DLSS, AMD FSR 2)	რეალურ დროში თამაში და რენდერინგი	შეფუთული	იყენებს მოძრაობის მონაცემებს და შეძენილ პრიორებს - გლუვი შესრულების მოგება 🕹️
ღრუბლოვანი სერვისების გაფართოება	მოხერხებულობა, სწრაფი გამარჯვებები	გადახდა გამოყენებისთვის	სწრაფი + მასშტაბირებადი, მაგრამ კონტროლსა და ზოგჯერ დახვეწილობას ცვლით
ვიდეოზე ორიენტირებული ხელოვნური ინტელექტის ამაღლების სერვისები (BasicVSR, Topaz Video)	ძველი კადრები, ანიმე, არქივები	ფასიანი	დროებითი ხრიკები ციმციმის შესამცირებლად + სპეციალიზებული ვიდეო მოდელები
„ჭკვიანი“ ტელეფონის/გალერეის გაფართოება	შემთხვევითი გამოყენება	შედის	მსუბუქი მოდელები, რომლებიც მორგებულია სასიამოვნო გამოსავლისთვის და არა სრულყოფილებისთვის (მაინც მოსახერხებელია)

ფორმატირების თავისებურების აღიარება: „გადახდილი“ ბევრ საქმეს აკეთებს ამ ცხრილში. მაგრამ აზრს მიხვდით 😅

დიდი საიდუმლო: მოდელები სწავლობენ დაბალი გარჩევადობიდან მაღალი გარჩევადობისკენ მიბმას 🧠➡️🖼️

ხელოვნური ინტელექტის გამოყენებით გაუმჯობესების უმეტესი პროცესის ცენტრში ზედამხედველობითი სწავლების სისტემაა (გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN)):

დაიწყეთ მაღალი გარჩევადობის სურათებით („სიმართლე“)
შეამცირეთ მათი ხარისხი დაბალი გარჩევადობის ვერსიებამდე („შეყვანა“)
მოდელის გაწვრთნა, რათა დაბალი გარჩევადობიდან ორიგინალი მაღალი გარჩევადობა აღადგინოს

დროთა განმავლობაში, მოდელი სწავლობს კორელაციებს, როგორიცაა:

„თვალის ირგვლივ ასეთი დაბინდვა, როგორც წესი, წამწამებს ახასიათებთ“
„ეს პიქსელური კლასტერი ხშირად სერიფ ტექსტზე მიუთითებს“
„ეს კიდის გრადიენტი სახურავის ხაზს ჰგავს და არა შემთხვევით ხმაურს“

ეს არ არის კონკრეტული სურათების დამახსოვრება (მარტივი გაგებით), ეს არის სტატისტიკური სტრუქტურის შესწავლა (გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: კვლევა). წარმოიდგინეთ ეს ტექსტურებისა და კიდეების გრამატიკის სწავლას ჰგავს. არა პოეზიის გრამატიკა, უფრო... IKEA-ს სახელმძღვანელოს გრამატიკას ჰგავს 🪑📦 (უხერხული მეტაფორა, მაგრამ საკმარისად ახლოს).

ძირითადი დეტალები: რა ხდება ინფერენციის დროს (როდესაც ამაღლებთ მასშტაბს) ⚙️✨

როდესაც სურათს ხელოვნური ინტელექტის გამაძლიერებელ მოწყობილობაში შეჰყავთ, როგორც წესი, ასეთი პროცესი მიმდინარეობს:

წინასწარი დამუშავება
- ფერთა სივრცის კონვერტაცია (ზოგჯერ)
- პიქსელის მნიშვნელობების ნორმალიზება
- თუ სურათი დიდია, დაყავით ნაწილებად (VRAM-ის რეალობის შემოწმება 😭) (Real-ESRGAN საცავი (ფილების პარამეტრები))
მახასიათებლების ამოღება
- ადრეული ფენები აღმოაჩენენ კიდეებს, კუთხეებს, გრადიენტებს
- უფრო ღრმა ფენები აფიქსირებენ ნიმუშებს: ტექსტურებს, ფორმებს, სახის კომპონენტებს
რეკონსტრუქცია
- მოდელი ქმნის მაღალი გარჩევადობის მახასიათებლების რუკას
- შემდეგ ამას რეალურ პიქსელის გამომავალად გარდაქმნის
შემდგომი დამუშავება
- სურვილისამებრ სიმკვეთრე
- ხმაურის შემცირება სურვილისამებრ
- არტეფაქტების (ზარის ხმა, ჰალოები, დაბლოკვა) სურვილისამებრ ჩახშობა

ერთი დახვეწილი დეტალი: ბევრი ხელსაწყო ფილებში ამაღლებს ხარისხს, შემდეგ კი ნაკერებს ურევს. შესანიშნავი ხელსაწყოები მალავს ფილების საზღვრებს. საშუალო ხარისხის ხელსაწყოები ტოვებს ბადისებრ ნიშნებს, თუ თვალებს დახუჭავთ. და დიახ, თვალებს დახუჭავთ, რადგან ადამიანებს უყვართ პატარა ნაკლოვანებების 300%-იანი მასშტაბირებით შემოწმება, როგორც პატარა გრემლინებს 🧌

ხელოვნური ინტელექტის გაუმჯობესებისთვის გამოყენებული ძირითადი მოდელების ოჯახები (და რატომ განსხვავდებიან ისინი ერთმანეთისგან) 🤖📚

1) CNN-ზე დაფუძნებული სუპერგარჩევადობა (კლასიკური სამუშაო ცხენი)

კონვოლუციური ნეირონული ქსელები შესანიშნავად უმკლავდება ლოკალურ ნიმუშებს: კიდეებს, ტექსტურებს, მცირე სტრუქტურებს (გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN)).

დადებითი: სწრაფი, სტაბილური, ნაკლები სიურპრიზები
უარყოფითი მხარეები: ზედმეტად გამოყენების შემთხვევაში შეიძლება ცოტა „დამუშავებული“ ჩანდეს

2) GAN-ზე დაფუძნებული გაფართოება (ESRGAN-ის სტილში) 🎭

GAN-ები (გენერაციული ავერსიული ქსელები) ავარჯიშებენ გენერატორს მაღალი გარჩევადობის სურათების შესაქმნელად, რომელთა გარჩევაც დისკრიმინატორს რეალურისგან არ შეუძლია (გენერაციული ავერსიული ქსელები).

დადებითი: მკვეთრი დეტალები, შთამბეჭდავი ტექსტურა
უარყოფითი მხარეები: შეუძლია ისეთი დეტალების გამოგონება, რომლებიც არ არსებობდა - ზოგჯერ არასწორი, ზოგჯერ უცნაური (SRGAN, ESRGAN)

GAN-ს შეუძლია მოგანიჭოთ შთამბეჭდავი სიმკვეთრე. მას ასევე შეუძლია თქვენი პორტრეტის სუბიექტს დამატებითი წარბები შესძინოს. ასე რომ... აირჩიეთ თქვენი ბრძოლები 😬

3) დიფუზიაზე დაფუძნებული ამაღლება (კრეატიული ველური ბარათი) 🌫️➡️🖼️

დიფუზიური მოდელები ხმაურს ეტაპობრივად აშორებს და მათი მართვა მაღალი გარჩევადობის დეტალების მისაღებად შეიძლება (SR3).

დადებითი: შეიძლება წარმოუდგენლად კარგი იყოს დამაჯერებელი დეტალების დამუშავებაში, განსაკუთრებით შემოქმედებითი სამუშაოსთვის
უარყოფითი მხარეები: შეიძლება გადაუხვიოს თავდაპირველ იდენტობას/სტრუქტურას, თუ პარამეტრები აგრესიულია (SR3)

სწორედ აქ იწყება „განვითარება“ „ხელახლა წარმოდგენაში“. ზოგჯერ ეს ზუსტად ისაა, რაც გსურთ. ზოგჯერ კი არა.

4) ვიდეოს გაფართოება დროითი თანმიმდევრულობით 🎞️

ვიდეოს გაფართოება ხშირად მოძრაობის შესახებ ინფორმაციის მიღების ლოგიკას ამატებს:

დეტალების სტაბილიზაციისთვის მეზობელ კადრებს იყენებს (BasicVSR (CVPR 2021))
ცდილობს თავიდან აიცილოს ციმციმი და მცოცავი არტეფაქტები
ხშირად აერთიანებს სუპერ გარჩევადობას ხმაურის დენოიზთან და დეინტერლეისთან (Topaz Video)

თუ სურათის გაფართოება ერთი ნახატის აღდგენას ჰგავს, ვიდეოს გაფართოება ფლიპბუქის აღდგენას ჰგავს პერსონაჟის ცხვირის ფორმის ყოველ გვერდზე შეცვლის გარეშე. რაც... უფრო რთულია, ვიდრე ჟღერს.

რატომ გამოიყურება ზოგჯერ ხელოვნური ინტელექტის გაფართოება ყალბად (და როგორ ამოვიცნოთ ეს) 👀🚩

ხელოვნური ინტელექტის გაფართოება შესამჩნევად წარუმატებელია. როგორც კი ნიმუშებს შეისწავლით, მათ ყველგან დაინახავთ, მაგალითად, ახალი მანქანის ყიდვისას და ამ მოდელის უეცრად შემჩნევისას ყველა ქუჩაზე 😵💫

საერთო მოგვითხრობს:

კანის დეპილაცია (ზედმეტად ხმაურის მოშორება + გასწორება)
ზედმეტად გამკვეთრი ჰალოები კიდეების გარშემო (კლასიკური „გადაჭარბების“ ტერიტორია) (ბიკუბური ინტერპოლაცია)
განმეორებითი ტექსტურები (აგურის კედლები კოპირებულ-ჩასმულ ნიმუშებად იქცევა)
ხრაშუნა მიკროკონტრასტი , რომელიც „ალგორითმს“ ყვირის
ტექსტის დამახინჯება, სადაც ასოები თითქმის ასოებად იქცევა (ყველაზე ცუდი სახეობა)
დეტალების დრიფტი , სადაც მცირე მახასიათებლები დახვეწილად იცვლება, განსაკუთრებით დიფუზიური სამუშაო პროცესების დროს (SR3)

რთული ნაწილი: ზოგჯერ ეს არტეფაქტები ერთი შეხედვით „უკეთესად“ გამოიყურება. თქვენს ტვინს სიმკვეთრე მოსწონს. მაგრამ ერთი წამის შემდეგ, ის... არასწორად გეჩვენებათ.

კარგი ტაქტიკაა დააპატარავო და შეამოწმო, ბუნებრივად გამოიყურება თუ არა ნორმალური ხედვის მანძილიდან. თუ მხოლოდ 400%-იანი ზუმით კარგად გამოიყურება, ეს გამარჯვება არ არის, ეს ჰობია 😅

როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება: ტრენინგის მხარე, მათემატიკის თავის ტკივილის გარეშე 📉🙂

სუპერგარჩევადობის მოდელების სწავლება, როგორც წესი, მოიცავს:

დაწყვილებული მონაცემთა ნაკრებები (დაბალი გარჩევადობის შეყვანა, მაღალი გარჩევადობის სამიზნე) (გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN))
დაკარგვის ფუნქციები , რომლებიც სჯიან არასწორ რეკონსტრუქციებს (SRGAN)

დანაკარგების ტიპიური ტიპები:

პიქსელების დაკარგვა (L1/L2)
ხელს უწყობს სიზუსტეს. შეიძლება ოდნავ სუსტი შედეგების მიღება.
აღქმის დანაკარგი
ადარებს უფრო ღრმა მახასიათებლებს (მაგალითად, „ეს ჰგავს არა“) ზუსტი პიქსელების ნაცვლად (აღქმის დანაკარგები (ჯონსონი და სხვ., 2016)).
შეჯიბრებითი დანაკარგი (GAN)
ხელს უწყობს რეალიზმს, ზოგჯერ სიტყვასიტყვითი სიზუსტის ფასად (SRGAN, გენერაციული შეჯიბრებითი ქსელები).

მუდმივი კამათი მიმდინარეობს:

ორიგინალისადმი ერთგული გახადეთ vs.
ვიზუალურად სასიამოვნო გახადეთ

ამ სპექტრის სხვადასხვა ნაწილში სხვადასხვა ხელსაწყო გამოიყენება. შესაძლოა, რომელიმე მათგანი უპირატესობას ანიჭებდეთ იმისდა მიხედვით, ოჯახურ ფოტოებს აღადგენთ თუ პოსტერს ამზადებთ, სადაც „ლამაზი გარეგნობა“ სასამართლო ექსპერტიზის სიზუსტეზე მნიშვნელოვანია.

პრაქტიკული სამუშაო პროცესები: ფოტოები, ძველი სკანირებული მასალები, ანიმე და ვიდეო 📸🧾🎥

ფოტოები (პორტრეტები, პეიზაჟები, პროდუქტის ფოტოები)

საუკეთესო პრაქტიკა, როგორც წესი, შემდეგია:

ჯერ მსუბუქი ხმაურის მოხსნა (საჭიროების შემთხვევაში)
მაღალი კლასის კონსერვატიული გარემოთი
თუ ყველაფერი ძალიან გლუვია, დაამატეთ მარცვლეული (დიახ, მართლა)

მარცვლეული მარილივითაა. ძალიან ბევრი ვახშამს აფუჭებს, მაგრამ არცერთი არ შეიძლება უგემური იყოს 🍟

ძველი სკანირებული და ძლიერ შეკუმშული სურათები

ესენი უფრო რთულია, რადგან მოდელმა შეიძლება შეკუმშვის ბლოკები „ტექსტურად“ მიიჩნიოს.
სცადეთ:

არტეფაქტების მოცილება ან განბლოკვა
შემდეგ მაღალი კლასის
შემდეგ სინათლის სიმკვეთრე (არც ისე ბევრი... ვიცი, ყველა ამას ამბობს, მაგრამ მაინც)

ანიმე და ხაზოვანი არტი

ხაზოვანი ხელოვნების უპირატესობები:

მოდელები, რომლებიც ინარჩუნებენ სუფთა კიდეებს
ტექსტურის ჰალუცინაციის შემცირება.
ანიმეს გაფართოება ხშირად შესანიშნავად გამოიყურება, რადგან ფორმები უფრო მარტივი და თანმიმდევრულია. (იღბლიანი.)

ვიდეო

ვიდეო დამატებით ნაბიჯებს ამატებს:

ხმაურის მოხსნა
დეინტერლეისი (გარკვეული წყაროებისთვის)
მაღალი კლასის
დროებითი გასწორება ან სტაბილიზაცია (BasicVSR (CVPR 2021))
მარცვლეულის შერევა შეკავშირებისთვის სურვილისამებრ

თუ დროებით თანმიმდევრულობას გამოტოვებთ, დეტალის მოციმციმე ციმციმს მიიღებთ. როგორც კი შეამჩნევთ, ვეღარასდროს შეამჩნევთ. როგორც ჩუმ ოთახში ჭრიალა სკამი 😖

პარამეტრების არჩევა ზედმეტი გამოცნობის გარეშე (პატარა ხრიკების ფურცელი) 🎛️😵💫

აქ არის ღირსეული საწყისი აზროვნება:

თუ სახეები პლასტიკურად გამოიყურება
, შეამცირეთ ხმაურის მოხსნა, სიმკვეთრე ან სცადეთ სახის შენარჩუნების მოდელი ან რეჟიმი.
თუ ტექსტურები ძალიან ინტენსიურად გამოიყურება,
შეამცირეთ „დეტალის გაუმჯობესების“ ან „დეტალების აღდგენის“ სლაიდერები, შემდეგ დაამატეთ დახვეწილი მარცვლოვანება.
თუ კიდეები ანათებს,
შეამცირეთ სიმკვეთრე, შეამოწმეთ ჰალოების ჩახშობის ვარიანტები.
თუ სურათი ზედმეტად „ხელოვნური ინტელექტით“ გამოიყურება,
უფრო კონსერვატიულად მოიქეცით. ზოგჯერ საუკეთესო ნაბიჯი უბრალოდ... ნაკლებია.

ასევე: ნუ გაზრდით 8-ჯერ მხოლოდ იმიტომ, რომ შეგიძლიათ. სუფთა 2x ან 4x ხშირად იდეალური ვარიანტია. ამის გარდა, თქვენ სთხოვთ მოდელს, დაწეროს ფანფიქშენი თქვენი პიქსელების შესახებ 📖😂

ეთიკა, ავთენტურობა და „სიმართლის“ უხერხული კითხვა 🧭😬

ხელოვნური ინტელექტის გაფართოება ზღვარს აშორებს:

რესტავრაცია გულისხმობს იმის აღდგენას, რაც იყო
გაუმჯობესება გულისხმობს იმის დამატებას, რაც არ იყო

პირადი ფოტოების შემთხვევაში, ეს, როგორც წესი, ნორმალურია (და სასიამოვნოც). ჟურნალისტიკაში, იურიდიულ მტკიცებულებებში, სამედიცინო ვიზუალიზაციაში ან ნებისმიერ სხვა საკითხში, სადაც სიზუსტე მნიშვნელოვანია... სიფრთხილე გმართებთ (OSAC/NIST: სასამართლო ციფრული გამოსახულების მართვის სტანდარტული სახელმძღვანელო, სასამართლო გამოსახულების ანალიზის SWGDE სახელმძღვანელო).

მარტივი წესი:

თუ ფსონები მაღალია, ხელოვნური ინტელექტის გაფართოება საილუსტრაციოდდა არა საბოლოო.

ასევე, გამჟღავნებას მნიშვნელობა აქვს პროფესიულ კონტექსტში. არა იმიტომ, რომ ხელოვნური ინტელექტი ბოროტებაა, არამედ იმიტომ, რომ აუდიტორიას იმსახურებს იცოდეს, დეტალები აღდგენილია თუ დაფიქსირებულია თუ არა. ეს უბრალოდ... პატივისცემის ნიშნად ჟღერს.

დასკვნითი შენიშვნები და მოკლე მიმოხილვა 🧡✅

ასე რომ, ხელოვნური ინტელექტის გამოყენებით გაფართოება ასე მუშაობს : მოდელები სწავლობენ, თუ როგორ უკავშირდება მაღალი გარჩევადობის დეტალები დაბალი გარჩევადობის ნიმუშებს, შემდეგ კი ზრდის დროს პროგნოზირებენ დამაჯერებელ დამატებით პიქსელებს ( გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: კვლევა ). მოდელების ოჯახიდან (CNN, GAN, დიფუზია, ვიდეო-დროითი), ეს პროგნოზი შეიძლება იყოს კონსერვატიული და ზუსტი... ან თამამი და ზოგჯერ არათანმიმდევრული 😅

მოკლე მიმოხილვა

ტრადიციული გადიდება პიქსელებს აფართოებს (ბიკუბური ინტერპოლაცია)
ხელოვნური ინტელექტის გაფართოება დაკარგული დეტალების პროგნოზირებას ახდენს შესწავლილი შაბლონების გამოყენებით (გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN))
შესანიშნავი შედეგები მიიღება სწორი მოდელით + თავშეკავებით
ვიდეოში დააკვირდით ჰალოებს, ცვილისებრ ზედაპირებს, განმეორებად ტექსტურებსა და ციმციმს (BasicVSR (CVPR 2021))
მასშტაბირება ხშირად „დამაჯერებელი რეკონსტრუქციაა“ და არა სრულყოფილი სიმართლე (SRGAN, ESRGAN).

თუ გინდა, მითხარი, რას ამაღლებ (სახეებს, ძველ ფოტოებს, ვიდეოებს, ანიმეს, ტექსტის სკანირებას) და შემოგთავაზებ პარამეტრების სტრატეგიას, რომელიც თავიდან აგაცილებს „ხელოვნური ინტელექტის იერსახის“ გავრცელებულ ხაფანგებს 🎯🙂

რეალური მაგალითი: ძველი სავაჭრო ნიშნის პროდუქტების ფოტოების გაუმჯობესება 📸

სცენარი

მეორადი კამერების პატარა მაღაზიას ძველი ვებსაიტიდან ექსპორტირებული აქვს 40 პროდუქტის ფოტო 800 პიქსელის სიგანით. მფლობელს სურს მათი ხელახლა გამოყენება ახალ ელექტრონული კომერციის გვერდზე, სადაც რეკომენდებული სურათის ზომა 1600 პიქსელის სიგანისაა.

პრობლემა: ჩვეულებრივი ზომის შეცვლა კამერებს რბილს ხდის, ხოლო აგრესიული ხელოვნური ინტელექტის გამოყენებით მასშტაბირებამ შეიძლება რეზინის სახელურები, სერიული ნომრები და ლინზების მარკირება საეჭვოდ ყალბი გახადოს. ეს მნიშვნელოვანია, რადგან მყიდველები შეძენამდე ამ დეტალებს ეყრდნობიან.

მიზანი არ არის დაკარგული ინფორმაციის სრულყოფილად „აღდგენა“. მიზანია უფრო სუფთა სიის სურათების შექმნა ორიგინალი ფაილების ხელმისაწვდომობის შენარჩუნებით, რადგან ხელოვნური ინტელექტის გაფართოება პროგნოზირებს დამაჯერებელ დეტალებს და არა გარანტირებულ სიმართლეს.

რა არის საჭირო სამუშაო პროცესისთვის

ორიგინალი პროდუქტის ფოტოები, იდეალურ შემთხვევაში ყველაზე ნაკლებად შეკუმშული ვერსიები

სამიზნე გამომავალი ზომა, მაგალითად, 2× მასშტაბირება 800 პიქსელიდან 1600 პიქსელამდე სიგანეზე

ინსტრუმენტი ან მოდელი, რომელსაც აქვს ცალკეული კონტროლი ხმაურის მოსაშორებლად, სიმკვეთრისთვის და არტეფაქტების მოსაშორებლად

ტექსტის, კიდეების, ლოგოების, ხრახნების, ღილაკების, ტყავის ტექსტურისა და ანარეკლების მარტივი მიმოხილვის საკონტროლო სია

ორიგინალებისთვის განკუთვნილი საქაღალდე და რედაქტირებული ექსპორტისთვის ცალკე საქაღალდე, ამიტომ არაფერი არ გადაიწერება

მაგალითი ინსტრუქცია

ხელოვნური ინტელექტის გამაძლიერებლის ტესტირებისას გამოიყენეთ ამ ტიპის ინსტრუქცია:

ელექტრონული კომერციის განცხადების განსათავსებლად, პროდუქტის ეს ფოტო 2-ჯერ გაზარდეთ. ობიექტის ფორმა, ლოგოს განლაგება, ლინზების მარკირება, ღილაკების კიდეები და ზედაპირის ტექსტურა მაქსიმალურად მიახლოებული უნდა იყოს ორიგინალთან. გამოიყენეთ მსუბუქი შეკუმშვის მეთოდი, დაბალი სიმკვეთრე და მოერიდეთ დამატებითი ტექსტის, ნაკაწრების, ეტიკეტების, სერიული ნომრების ან დეკორატიული დეტალების გამოგონებას. საბოლოო სურათი ბუნებრივად უნდა გამოიყურებოდეს პროდუქტის გვერდის ნორმალური ზომით და არა ხელოვნურად მკვეთრი 400%-იანი მასშტაბირებით.

როგორ გამოვცადოთ ის

სრული პარტიის დამუშავებამდე დაიწყეთ ხუთი შერეული სურათით:

ერთი სუფთა პროდუქტის ფოტო კარგი განათებით

ერთი JPEG-შეკუმშული სურათი დაბლოკილი ფუნქციით

ერთი ფოტო პატარა დაბეჭდილი ტექსტით ან ლინზის ნიშნებით

ერთი ბნელი სურათი ჩრდილში ხმაურით

ერთი გამოსახულება ამრეკლავი ლითონის ან მინის გამოყენებით

მასშტაბირების შემდეგ, შეადარეთ თითოეული შედეგი ორიგინალს 100%-ით და 200%-ით. შეამოწმეთ, ემთხვევა თუ არა ბრენდის სახელები, ციფერბლატები, ხრახნები, პორტები და ტექსტურის ნიმუშები. თუ მოდელი ქმნის „თითქმის ასოებს“ ან ყალბ ზედაპირულ ნიშნებს, შეამცირეთ სიმკვეთრის ან დეტალების აღდგენის პარამეტრი.

შედეგი

საილუსტრაციო შედეგი: დაფუძნებულია ხუთსურათიანი ტესტის დროის განსაზღვრაზე ამ სამუშაო პროცესის გამოყენებამდე და მის შემდეგ.

ხელით გაწმენდას და ზომის შეცვლას თითო სურათისთვის დაახლოებით 9 წუთი დასჭირდა, ხოლო ხუთი სურათისთვის - 45 წუთი.

ხელოვნური ინტელექტის დახმარებით დამუშავებულ სამუშაო პროცესს თითო სურათზე დაახლოებით 3 წუთი სჭირდებოდა, ხოლო ხუთი სურათისთვის - 15 წუთი.

ეს, სავარაუდოდ, ხუთ სურათზე დაზოგილი 30 წუთია, ან 40 სურათისგან შემდგარი პაკეტის შემთხვევაში დაახლოებით 4 საათი.

ხარისხის შემოწმების შედეგი: 5-დან 4 სურათი წარმატებით გაიარა პირველი მიმოხილვა. ერთი სურათი ვერ გაიარა, რადგან გამადიდებელმა დაამახინჯა ლინზის პატარა ტექსტი, ამიტომ ის ხელახლა დამუშავდა უფრო დაბალი სიმკვეთრით და ტექსტის გაუმჯობესების გარეშე.

აქ ღირებული მეტრიკა მხოლოდ „უფრო მკვეთრად“ არ არის. ეს არის: რამდენი სურათი გადის გვერდიგვერდ მიმოხილვას გამოგონილი დეტალების გარეშე?

რა შეიძლება არასწორად წავიდეს

მოდელმა შეიძლება მტვერი, JPEG ბლოკები ან ნაკაწრები „ნამდვილ“ ტექსტურად აქციოს.

პაწაწინა ტექსტი შეიძლება ყალბ ტექსტად იქცეს, რომელიც დამაჯერებლად გამოიყურება მანამ, სანამ მასშტაბს არ გაადიდებთ.

ხმაურის ჭარბმა შემცირებამ შეიძლება რეზინის, ტყავის ან გაპრიალებული ლითონის ცვილისებრი იერი მისცეს.

ძლიერმა სიმკვეთრემ შეიძლება პროდუქტის კიდეების გარშემო ჰალოები შექმნას.

პარტიულ დამუშავებას შეუძლია შეცდომების დამალვა, ამიტომ ყველაფრის ექსპორტამდე გადახედეთ ნიმუშს.

ელექტრონული კომერციისთვის ყველაზე უსაფრთხო წესი მარტივია: არასდროს გამოიყენოთ ხელოვნური ინტელექტის გამოყენებით პროდუქტის მასშტაბირება დაზიანების დასამალად, მდგომარეობის შესაცვლელად ან პროდუქტის რეალურად არსებულზე უფრო ახალი იერსახის მისაცემად.

პრაქტიკული რჩევები

ხელოვნური ინტელექტის გაფართოება საუკეთესოდ მუშაობს, როდესაც მას კონტროლირებად დასრულების ნაბიჯად აღიქვამთ და არა ჯადოსნურ შეკეთების ღილაკად. გამოიყენეთ კონსერვატიული 2× პარამეტრები, შეამოწმეთ დეტალები, რომლებიც მყიდველებს აინტერესებთ და შეინახეთ ორიგინალი სურათი, რათა რედაქტირებული ვერსია სანდო დარჩეს.

რეალური მაგალითი: ძველი სავარჯიშო ვიდეოს მასშტაბირება მისი ბზინვარების გარეშე

სცენარი

მცირე სასწავლო კომპანიას აქვს 7-წუთიანი უსაფრთხოების დემონსტრაციის ვიდეო, რომელიც 2014 წელს 720p გარჩევადობით არის ჩაწერილი. კონტენტს მაინც აქვს ღირებულება, თუმცა კადრები კომპანიის ახალ ვებსაიტზე, განსაკუთრებით უფრო დიდი ლეპტოპის ეკრანებზე, რბილად გამოიყურება.

გუნდს სურს, ხელახლა გადაღების გარეშე, უფრო სუფთა 1080p ვერსიის ექსპორტი განახორციელოს. არსებობს რისკი, რომ აგრესიული ხელოვნური ინტელექტის გაფართოებამ შესაძლოა სახეები ცვილისებრ იერს მისცეს, აბრაზე ტექსტი „თითქმის სიტყვებად“ აქციოს ან კადრიდან კადრში მოციმციმე ტექსტურა შექმნას.

მიზანი არ არის ვიდეოს ახალი იერსახის მიცემა. მიზანია ის უფრო მკაფიო, სტაბილური და ნაკლებად შეკუმშული გახადოს, ამავდროულად, ინსტრუქტორის სახე, გამაფრთხილებელი წარწერები, ხელის მოძრაობები და აღჭურვილობის დეტალები ორიგინალისადმი ერთგული იყოს.

რა არის საჭირო სამუშაო პროცესისთვის

ორიგინალი ვიდეო ფაილი, თუ შესაძლებელია, არა სოციალური მედიის შეკუმშული ჩამოტვირთვა

ექსპორტის სამიზნე ზომა, მაგალითად, 720p-დან 1080p-მდე, 4K-ზე პირდაპირ გადასვლის ნაცვლად

ვიდეოს გამაუმჯობესებელი ხმაურის დეზოქსირაციის, სიმკვეთრის, შეკუმშვის აღდგენისა და დროებითი თანმიმდევრულობის ვარიანტებით

მოკლე სატესტო კლიპი სახეებით, მოძრაობით, ტექსტით და დეტალური ზედაპირებით

ციმციმის, ჰალოების, დამახინჯებული ტექსტის, სახის ტექსტურისა და მოძრავი კიდეების მიმოხილვის საკონტროლო სია

ორიგინალი ვიდეოს შენახული ასლი შედარებისა და საჭიროების შემთხვევაში გამჟღავნებისთვის

მაგალითი ინსტრუქცია

სრული ვიდეოს დამუშავებამდე გამოიყენეთ ამ ტიპის ინსტრუქცია:

გააუმჯობესეთ ეს 720p სასწავლო ვიდეო 1080p-მდე. უპირატესობა მიანიჭეთ ბუნებრივ მოძრაობას, სტაბილურ კიდეებს, წასაკითხ არსებულ ტექსტს და რეალისტურ კანის ტექსტურას. გამოიყენეთ მსუბუქი შეკუმშვის აღდგენა და დაბალი სიმკვეთრე. არ მოიგონოთ დაკარგული ტექსტი, ლოგოები, ეტიკეტები, ნაკაწრები, სახის დეტალები ან აღჭურვილობის აღნიშვნები. მოერიდეთ კადრ-კადრ ციმციმს. საბოლოო შედეგი უფრო მკაფიო უნდა გამოიყურებოდეს ნორმალური ხედვის ზომაზე და არა ხელოვნურად მკვეთრი პაუზის და მასშტაბირებისას.

როგორ გამოვცადოთ ის

სრული 7-წუთიანი ფაილის დამუშავებამდე, ექსპორტირებული უნდა იყოს 20-წამიანი ნიმუში, რომელიც მოიცავს:

ინსტრუქტორის სახე საუბრის დროს

ხელის მოძრაობა ჩარჩოში

გამაფრთხილებელი ეტიკეტი ან პატარა დაბეჭდილი ტექსტი

ტექსტურირებული ზედაპირი, როგორიცაა ქსოვილი, ბეტონი, გაპრიალებული ლითონი ან პლასტმასი

კამერის პანელი ან ნებისმიერი კანკალიანი მოძრაობა

ორჯერ უყურეთ ნიმუშს: ერთხელ ნორმალური სიჩქარით და ერთხელ კადრი-კადრიანი პაუზებით. ნორმალური სიჩქარით, ყურადღება მიაქციეთ ციმციმს, ტექსტურის ცოცვას ან არაბუნებრივ მოძრაობას კიდეების გარშემო. პაუზის დროს, შეადარეთ ორიგინალი და გაუმჯობესებული ვერსიები, რათა შეამოწმოთ, კვლავ ემთხვევა თუ არა ტექსტი, ღილაკები, ხელსაწყოები და სახის ნაკვთები.

შედეგი

საილუსტრაციო შედეგი: დაფუძნებულია ერთი 20-წამიანი სატესტო კლიპის დროის განსაზღვრასა და შემდეგ იგივე პარამეტრების 7-წუთიან ვიდეოზე გამოყენებაზე.

ხელით „ზომის შეცვლისა და სიმკვეთრის“ სამუშაო პროცესს, ექსპორტისა და მიმოხილვის ჩათვლით, დაახლოებით 35 წუთი დასჭირდა, თუმცა შედეგად ინსტრუქტორის თმაზე თვალსაჩინო ციმციმი და უსაფრთხოების ნიშნების გარშემო ჰალოები გამოჩნდა.

ხელოვნური ინტელექტის დახმარებით განხორციელებულ სამუშაო პროცესს, სატესტო ექსპორტის ჩათვლით, დაახლოებით 55 წუთი დასჭირდა, თუმცა განხილვის პრობლემები პირველ ექსპორტის დროს 8 ხილული პრობლემიდან საბოლოო ექსპორტის დროს 2 მცირე პრობლემამდე შემცირდა.

საბოლოო ვერსიამ მიმოხილვის საკონტროლო სიიდან 12-დან 10 შემოწმება გაიარა. დარჩენილი ორი პრობლემა იყო ფონური ტექსტის მცირედი სირბილე და ერთ ბნელ კუთხეში მცირე ხმაური. ორივე მიღებული იქნა, რადგან ინსტრუქტორი, აღჭურვილობა და უსაფრთხოების ზომები ვიზუალურად თანმიმდევრული დარჩა.

აქ მნიშვნელოვანი მეტრიკა არ არის „მიღწეული 1080p“. ეს არის: ვიდეოს რამდენ წამში ჩანს ყურადღების გამფანტველი არტეფაქტები ნორმალური დაკვრის დროს?

რა შეიძლება არასწორად წავიდეს

მოდელმა შეიძლება გაამკვეთროს შეკუმშვის ბლოკები და მათ ნამდვილი ტექსტურის იერი მისცეს.

დახვეწილი ტექსტი შეიძლება უფრო დამაჯერებლად გამოიყურებოდეს, მაგრამ ნაკლებად ზუსტი გახდეს.

სახეები შეიძლება ძალიან გლუვი გახდეს, თუ ხმაურის დენოიზირება ძალიან მაღალია.

მოძრავი კიდეები შეიძლება ციმციმებდეს, თუ ინსტრუმენტი თითოეულ ჩარჩოს ძალიან დამოუკიდებლად დაამუშავებს.

4K ექსპორტი შეიძლება უარესად გამოიყურებოდეს, ვიდრე შეზღუდული 1080p ექსპორტი, რადგან მოდელს ძალიან ბევრი დეტალის გამოგონება უწევს.

ყველაზე დიდი შეცდომა მხოლოდ პაუზირებული კადრის შეფასებაა. ვიდეოს გაფართოება ბუნებრივად უნდა გამოიყურებოდეს მოძრაობაში და არა მხოლოდ შთამბეჭდავი, როგორც უძრავი გამოსახულება.

პრაქტიკული რჩევები

ვიდეოსთვის, ხელოვნური ინტელექტის გამოყენებით გაფართოება საუკეთესოდ მუშაობს, როდესაც ჯერ მოკლე მონაკვეთს ცდით, შემდეგ გაფართოებას ზომიერად ინარჩუნებთ და სიმკვეთრემდე მოძრაობას აფასებთ. ოდნავ უფრო რბილი, მაგრამ სტაბილური შედეგი, როგორც წესი, უკეთესია, ვიდრე მკაფიო ვერსია, რომელიც ყოველი მოძრაობისას ციმციმებს.

ხშირად დასმული კითხვები

ხელოვნური ინტელექტის გაფართოება და მისი მუშაობის პრინციპი

ხელოვნური ინტელექტის მიერ მასშტაბირება (რომელსაც ხშირად „სუპერ-გარჩევადობას“ უწოდებენ) ზრდის გამოსახულების გარჩევადობას ვარჯიშის დროს შესწავლილი ნიმუშებიდან მაღალი გარჩევადობის დეტალების გამოტოვების პროგნოზირებით. ბიკუბური ინტერპოლაციის მსგავსად პიქსელების უბრალოდ გაჭიმვის ნაცვლად, მოდელი სწავლობს კიდეებს, ტექსტურებს, სახეებს და ტექსტის მსგავს შტრიხებს, შემდეგ კი წარმოქმნის ახალ პიქსელურ მონაცემებს, რომლებიც შეესაბამება ამ შესწავლილ ნიმუშებს. ეს ნაკლებად „აღადგენს რეალობას“ და უფრო მეტად „აკეთებს დამაჯერებელ ვარაუდს“, რომელიც ბუნებრივად აღიქმება.

ხელოვნური ინტელექტის გაფართოება ბიკუბურ ან ტრადიციულ ზომის შეცვლასთან შედარებით

ტრადიციული მასშტაბირების მეთოდები (მაგალითად, ბიკუბური) ძირითადად არსებულ პიქსელებს შორის ინტერპოლაციას ახდენს, რაც გადასვლებს ახალი დეტალების შექმნის გარეშე ასწორებს. ხელოვნური ინტელექტის მასშტაბირება მიზნად ისახავს დამაჯერებელი სტრუქტურის რეკონსტრუქციას ვიზუალური მინიშნებების ამოცნობით და ამ მინიშნებების მაღალი გარჩევადობის ვერსიების პროგნოზირებით. სწორედ ამიტომ, ხელოვნური ინტელექტის შედეგები შეიძლება გაცილებით მკვეთრი იყოს და ასევე, მათ შეუძლიათ ისეთი არტეფაქტების შემოტანა ან დეტალების „გამოგონება“, რომლებიც წყაროში არ იყო.

რატომ შეიძლება სახე ცვილისებრი ან ზედმეტად გლუვი გამოიყურებოდეს

ცვილისებრი ზედაპირები, როგორც წესი, მიიღება აგრესიული ხმაურის მოცილებისა და გასწორების შედეგად, რომელიც შერწყმულია კანის ბუნებრივ ტექსტურასთან, რაც აშორებს მას. ბევრი ინსტრუმენტი ხმაურსა და წვრილ ტექსტურას ანალოგიურად ამუშავებს, ამიტომ გამოსახულების „გასუფთავებას“ შეუძლია ფორებისა და დახვეწილი დეტალების წაშლა. გავრცელებული მიდგომაა ხმაურის მოცილებისა და სიმკვეთრის შემცირება, სახის შენარჩუნების რეჟიმის გამოყენება, თუ ეს შესაძლებელია, შემდეგ კი მარცვლოვანი ელფერის ხელახლა დანერგვა, რათა შედეგი ნაკლებად პლასტიკური და უფრო ფოტოგრაფიული იყოს.

ხელოვნური ინტელექტის გაუმჯობესების გავრცელებული არტეფაქტები, რომლებსაც ყურადღება უნდა მიაქციოთ

ტიპურ მინიშნებებს შორისაა კიდეების გარშემო ჰალოები, ტექსტურის განმეორებითი ნიმუშები (მაგალითად, კოპირება-ჩასმის აგურები), ხრაშუნა მიკროკონტრასტი და ტექსტი, რომელიც „თითქმის ასოებად“ გარდაიქმნება. დიფუზიაზე დაფუძნებულ სამუშაო პროცესებში ასევე შეგიძლიათ შეამჩნიოთ დეტალების გადახრა, სადაც მცირე მახასიათებლები ოდნავ იცვლება. ვიდეოს შემთხვევაში, ციმციმი და დეტალების კადრებში გადაადგილებისას დიდი საშიშროებაა. თუ ვიდეო კარგად მხოლოდ ექსტრემალური მასშტაბირებისას გამოიყურება, პარამეტრები, სავარაუდოდ, ძალიან აგრესიულია.

როგორ განსხვავდებიან GAN, CNN და დიფუზიის ამაღლების სერვისები შედეგებში

CNN-ზე დაფუძნებული სუპერგარჩევადობა, როგორც წესი, უფრო სტაბილური და პროგნოზირებადია, თუმცა, თუ ძლიერად დააჭერთ, შეიძლება „დამუშავებულად“ გამოიყურებოდეს. GAN-ზე დაფუძნებული პარამეტრები (ESRGAN-ის სტილის) ხშირად უფრო მკვეთრ ტექსტურას და აღქმულ სიმკვეთრეს ქმნის, თუმცა მათ შეუძლიათ არასწორი დეტალების ჰალუცინაცია, განსაკუთრებით სახეებზე. დიფუზიაზე დაფუძნებულმა გაფართოებამ შეიძლება ლამაზი, დამაჯერებელი დეტალები წარმოქმნას, თუმცა, თუ მიმართულების ან სიძლიერის პარამეტრები ძალიან ძლიერია, ისინი შეიძლება გადაუხვიონ თავდაპირველ სტრუქტურას.

პრაქტიკული პარამეტრების სტრატეგია „ზედმეტად ხელოვნური ინტელექტის“ იერსახის თავიდან ასაცილებლად

დაიწყეთ კონსერვატიულად: ექსტრემალურ ფაქტორებზე გადასვლამდე გაზარდეთ მასშტაბი 2× ან 4×. თუ სახეები პლასტიურად გამოიყურება, შეამცირეთ ხმაურის შემცირება და სიმკვეთრე და სცადეთ სახის ცნობიერების რეჟიმი. თუ ტექსტურები ძალიან ინტენსიური ხდება, შეამცირეთ დეტალების გაუმჯობესება და შემდეგ განიხილეთ დახვეწილი მარცვლოვანი ეფექტის დამატება. თუ კიდეები ანათებს, შეამცირეთ სიმკვეთრე და შეამოწმეთ ჰალო ან არტეფაქტების ჩახშობა. ბევრ პროცესორში „ნაკლები“ იმარჯვებს, რადგან ის ინარჩუნებს დამაჯერებელ რეალიზმს.

ძველი სკანირებული ან ძლიერ JPEG შეკუმშული სურათების დამუშავება მასშტაბირებამდე

შეკუმშული სურათების დამუშავება რთულია, რადგან მოდელებს შეუძლიათ ბლოკის არტეფაქტების რეალურ ტექსტურად აღქმა და მათი გაძლიერება. გავრცელებული სამუშაო პროცესია ჯერ არტეფაქტების მოცილება ან განბლოკვა, შემდეგ მასშტაბირება და მხოლოდ საჭიროების შემთხვევაში მსუბუქი სიმკვეთრის გაზრდა. სკანირებისთვის, ნაზი გაწმენდა დაეხმარება მოდელს, ყურადღება გაამახვილოს რეალურ სტრუქტურაზე და არა დაზიანებაზე. მიზანია „ყალბი ტექსტურის მინიშნებების“ შემცირება, რათა მასშტაბირების შემქმნელმა არ აიძულოს ხმაურიანი შეყვანის მონაცემების საფუძველზე თავდაჯერებული ვარაუდები გააკეთოს.

რატომ არის ვიდეოს გაფართოება უფრო რთული, ვიდრე ფოტოს გაფართოება

ვიდეოს მასშტაბირება თანმიმდევრული უნდა იყოს ყველა კადრში და არა მხოლოდ ერთ ფოტოზე. თუ დეტალები კადრში ციმციმებს, შედეგი სწრაფად ყურადღების გამფანტველი ხდება. ვიდეოზე ორიენტირებული მიდგომები იყენებს მეზობელი კადრების დროებით ინფორმაციას რეკონსტრუქციის სტაბილიზაციისა და მოციმციმე არტეფაქტების თავიდან ასაცილებლად. ბევრი სამუშაო პროცესი ასევე მოიცავს ხმაურის დენოიზირებას, გარკვეული წყაროების დეინტერლეისინგის და მარცვლების ხელახლა შეტანის არჩევით შესაძლებლობას, რათა მთელი თანმიმდევრობა ხელოვნურად მკვეთრის ნაცვლად, შეკრული იყოს.

როდესაც ხელოვნური ინტელექტის გაფართოება არ არის მიზანშეწონილი ან მასზე დაყრდნობა სარისკოა

ხელოვნური ინტელექტის გამოყენებით მასშტაბირება უმჯობესია განვიხილოთ, როგორც გაუმჯობესება და არა როგორც მტკიცებულება. მაღალი რისკის მქონე კონტექსტებში, როგორიცაა ჟურნალისტიკა, იურიდიული მტკიცებულებები, სამედიცინო ვიზუალიზაცია ან სასამართლო ექსპერტიზა, „დამაჯერებელი“ პიქსელების გენერირებამ შეიძლება შეცდომაში შეიყვანოს ინფორმაცია, რადგან შეიძლება დაამატოს დეტალები, რომლებიც არ არის დაფიქსირებული. უფრო უსაფრთხო ჩარჩოა მისი ილუსტრაციულად გამოყენება და იმის გამჟღავნება, რომ ხელოვნური ინტელექტის პროცესმა დეტალების რეკონსტრუქცია მოახდინა. თუ სიზუსტე კრიტიკულად მნიშვნელოვანია, შეინახეთ ორიგინალები და დოკუმენტირეთ დამუშავების ყველა ეტაპი და პარამეტრი.

ცნობები

arXiv - ღრმა სწავლება გამოსახულების სუპერგარჩევადობისთვის: გამოკითხვა - arxiv.org
arXiv - გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) - arxiv.org
arXiv - რეალური ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA-ს დეველოპერი - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
კომპიუტერული ხედვის ფონდის (CVF) ღია წვდომა - BasicVSR: ვიდეო სუპერგარჩევადობის აუცილებელი კომპონენტების ძიება (CVPR 2021) - openaccess.thecvf.com
arXiv - გენერაციული კონკურენტული ქსელები - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - აღქმის დანაკარგები (ჯონსონი და სხვ., 2016) - arxiv.org
GitHub - Real-ESRGAN საცავი (ფილების ვარიანტები) - github.com
ვიკიპედია - ბიკუბური ინტერპოლაცია - wikipedia.org
Topaz Labs - Topaz-ის ფოტო - topazlabs.com
Topaz Labs - Topaz ვიდეო - topazlabs.com
Adobe-ს დახმარების ცენტრი - Adobe Enhance > Super Resolution - helpx.adobe.com
NIST / OSAC - ციფრული ფორენზიკური გამოსახულების მართვის სტანდარტული სახელმძღვანელო (ვერსია 1.0) - nist.gov
SWGDE - სასამართლო გამოსახულების ანალიზის სახელმძღვანელო პრინციპები - swgde.org

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება

დამატებითი ხშირად დასმული კითხვები

რით განსხვავდება ხელოვნური ინტელექტის გამოყენებით მასშტაბირება ტრადიციული ზომის შეცვლის მეთოდებისგან?

ხელოვნური ინტელექტის გაფართოება პროგნოზირებს გამოსახულებაში არსებული ნიმუშებიდან მაღალი გარჩევადობის დეტალების გამოტოვებას და არა პიქსელების უბრალოდ გაჭიმვას, როგორც ამას ტრადიციული მეთოდები, როგორიცაა ბიკუბური ინტერპოლაცია, აკეთებენ. ეს იწვევს უფრო მკვეთრ და დეტალურ სურათებს.
ხელოვნური ინტელექტის გაუმჯობესებისას რა გავრცელებულ არტეფაქტებს უნდა მივაქციო ყურადღება?

გავრცელებული არტეფაქტებია კიდეების გარშემო ჰალოები, ტექსტურის განმეორებითი ნიმუშები, ზედმეტად გლუვი ან ცვილისებრი ზედაპირები და ტექსტი, რომელიც „თითქმის ასოებად“ გარდაიქმნება. ბუნებრივი იერის შედეგის უზრუნველსაყოფად მნიშვნელოვანია ამ პრობლემების მონიტორინგი.
რატომ ჩანს სახეები ზოგჯერ ძალიან გლუვი ან არარეალური გადიდების შემდეგ?

სახეები შეიძლება ზედმეტად გლუვი გამოიყურებოდეს აგრესიული ხმაურის მოხსნისა და სიმკვეთრის გამო, რამაც შეიძლება წაშალოს ტექსტურები, როგორიცაა ფორები. უფრო ბუნებრივი იერსახის მისაღწევად, განიხილეთ ხმაურის მოხსნისა და სიმკვეთრის პარამეტრების შემცირება.
რა უნდა გავაკეთო, თუ ხელოვნური ინტელექტით გადიდების გამოყენების შემდეგ ჩემი სურათები ხრაშუნა ჩანს ან ზედმეტად ხმაურიანია?

თუ თქვენი სურათები ხრაშუნა გამოიყურება, სცადეთ ხმაურის შემცირებისა და დეტალების გაუმჯობესების სლაიდერების რეგულირება. დახვეწილი მარცვლოვანი ეფექტის დამატება ასევე დაგეხმარებათ ფოტოგრაფიული იერსახის აღდგენაში.
როგორ შევადაროთ GAN და CNN მოდელები ხელოვნური ინტელექტის გაუმჯობესების შედეგებს?

CNN მოდელები, როგორც წესი, სტაბილური და პროგნოზირებადია, ხოლო GAN მოდელები ხშირად უფრო მკვეთრ დეტალებს გვთავაზობენ, თუმცა არარეალური ელემენტების შემოტანის რისკი არსებობს. მათ შორის არჩევანი დამოკიდებულია რეალიზმისა და გაუმჯობესებული ტექსტურის საჭიროებებზე.
არის თუ არა ხელოვნური ინტელექტის გამოყენებით გაფართოება ვიდეო კონტენტისთვის შესაფერისი და რა გამოწვევებს წარმოშობს ის?

დიახ, ხელოვნური ინტელექტის გამოყენებით გაფართოება ვიდეოსთვის შესაფერისია, თუმცა ეს შეიძლება რთული იყოს, რადგან კადრებს შორის თანმიმდევრულობა გადამწყვეტია. ციმციმებმა ან მოციმციმე დეტალებმა შეიძლება ყურადღება გადაიტანოს მაყურებელზე, ამიტომ რეკომენდებულია ვიდეოზე ორიენტირებული სპეციალიზებული მეთოდების გამოყენება.
როდის არ არის მიზანშეწონილი ხელოვნური ინტელექტის გაფართოებაზე დაყრდნობა?

ხელოვნური ინტელექტის გაფართოება სიფრთხილით უნდა იქნას გამოყენებული მაღალი რისკის მქონე სცენარებში, როგორიცაა ჟურნალისტიკა ან სასამართლო ანალიზი, სადაც სიზუსტე კრიტიკულად მნიშვნელოვანია. ის უმჯობესია განვიხილოთ, როგორც გაუმჯობესება და არა საბოლოო მტკიცებულება, ხოლო ხელოვნური ინტელექტის პროცესების გამჭვირვალობა აუცილებელია.
რა უნდა გავითვალისწინო ძლიერ შეკუმშული სურათების გადიდებისას?

ძლიერ შეკუმშული სურათებისთვის, არასასურველი დაბლოკვის მინიმიზაციისთვის დაიწყეთ არტეფაქტების მოშორებით. ამის შემდეგ, საჭიროების შემთხვევაში, შეგიძლიათ გაზარდოთ მასშტაბირება და გამოიყენოთ მსუბუქი სიმკვეთრე დეტალების შესანარჩუნებლად შეკუმშვის არტეფაქტების გაძლიერების გარეშე.