მოკლე პასუხი: ხელოვნური ინტელექტის გაფართოება მუშაობს მოდელის დაბალი და მაღალი გარჩევადობის დაწყვილებულ სურათებზე წვრთნით, შემდეგ კი მისი გამოყენებით გაზრდის დროს დამაჯერებელი დამატებითი პიქსელების პროგნოზირებისთვის. თუ მოდელმა ვარჯიშის დროს დაინახა მსგავსი ტექსტურები ან სახეები, მას შეუძლია დამაჯერებელი დეტალების დამატება; თუ არა, მას შეუძლია ვიდეოში „ჰალუცინაციები“ გამოიწვიოს, როგორიცაა ჰალოები, ცვილისებრი კანი ან ციმციმი.
ძირითადი დასკვნები:
პროგნოზირება : მოდელი წარმოშობს დამაჯერებელ დეტალებს და არა რეალობის გარანტირებულ რეკონსტრუქციას.
მოდელის არჩევანი : CNN-ები, როგორც წესი, უფრო სტაბილურია; GAN-ები შეიძლება უფრო მკვეთრად გამოიყურებოდეს, მაგრამ არსებობს ფუნქციების გამოგონების რისკი.
არტეფაქტების შემოწმება : ყურადღება მიაქციეთ ჰალოებს, განმეორებად ტექსტურებს, „თითქმის ასოებს“ და პლასტიკურ სახეებს.
ვიდეოს სტაბილურობა : გამოიყენეთ დროითი მეთოდები, წინააღმდეგ შემთხვევაში კადრ-კადრში ციმციმს და დრიფტს დაინახავთ.
მაღალი ფსონების გამოყენება : თუ სიზუსტეს მნიშვნელობა აქვს, გაამჟღავნეთ დამუშავება და შედეგები საილუსტრაციოდ მიიჩნიეთ.

ალბათ გინახავთ: პაწაწინა, ხრაშუნა სურათი საკმარისად მკვეთრ რამედ იქცევა, რომ შეკრთობის გარეშე დაიბეჭდოს, გადაიცეს ან პრეზენტაციაზე ჩააგდოს. ეს მოტყუებას ჰგავს. და - საუკეთესო გაგებით - ერთგვარად ასეც არის 😅
ასე რომ, ხელოვნური ინტელექტის გადიდების მუშაობის პრინციპი უფრო კონკრეტულ რამეზეა დამოკიდებული, ვიდრე „კომპიუტერი აძლიერებს დეტალებს“ (ხელის ტალღისებური ფორმა) და უფრო ახლოსაა „მოდელი პროგნოზირებს დამაჯერებელ მაღალი გარჩევადობის სტრუქტურას მრავალი მაგალითიდან შესწავლილი ნიმუშების საფუძველზე“ ( Deep Learning for Image Super-resolution: A Survey ). პროგნოზირების ეს ეტაპი მთელი თამაშია - და სწორედ ამიტომ შეიძლება ხელოვნური ინტელექტის გადიდება განსაცვიფრებლად გამოიყურებოდეს... ან ცოტა პლასტმასის... ან თითქოს თქვენს კატას დამატებითი ულვაშები გაეზარდა.
სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:
🔗 როგორ მუშაობს ხელოვნური ინტელექტი
შეისწავლეთ მოდელების, მონაცემებისა და დასკვნების საფუძვლები ხელოვნურ ინტელექტში.
🔗 როგორ სწავლობს ხელოვნური ინტელექტი
ნახეთ, როგორ აუმჯობესებს სასწავლო მონაცემები და უკუკავშირი მოდელის მუშაობას დროთა განმავლობაში.
🔗 როგორ აღმოაჩენს ხელოვნური ინტელექტი ანომალიებს
გაიგეთ ნიმუშების საბაზისო ხაზები და ის, თუ როგორ აფიქსირებს ხელოვნური ინტელექტი უჩვეულო ქცევას სწრაფად.
🔗 როგორ პროგნოზირებს ხელოვნური ინტელექტი ტენდენციებს
შეისწავლეთ პროგნოზირების მეთოდები, რომლებიც აფიქსირებენ სიგნალებს და პროგნოზირებენ მომავალ მოთხოვნას.
როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება: ძირითადი იდეა, ყოველდღიური სიტყვებით 🧩
მასშტაბირება ნიშნავს გარჩევადობის გაზრდას: მეტი პიქსელი, უფრო დიდი გამოსახულება. ტრადიციული მასშტაბირება (მაგალითად, ბიკუბური) ძირითადად აჭიმავს პიქსელებს და ასწორებს გადასვლებს ( ბიკუბური ინტერპოლაცია ). კარგია, მაგრამ მას არ შეუძლია ახალი დეტალების გამოგონება - ის უბრალოდ ინტერპოლაციას ახდენს.
ხელოვნური ინტელექტის გაფართოება უფრო თამამ რამეს ცდილობს (კვლევის სამყაროში იგივე „სუპერგარჩევადობას“) ( გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: გამოკითხვა ):
-
ის დაბალი გარჩევადობის შემავალ სიგნალს უყურებს
-
ამოიცნობს ნიმუშებს (კიდეები, ტექსტურები, სახის ნაკვთები, ტექსტის შტრიხები, ქსოვილის ქსოვა...)
-
უნდა იყოს უფრო მაღალი გარჩევადობის ვერსია
-
წარმოქმნის დამატებით პიქსელურ მონაცემებს, რომლებიც შეესაბამება ამ შაბლონებს
არა „რეალობის იდეალურად აღდგენა“, არამედ „ძალიან დამაჯერებელი ვარაუდის გაკეთება“ ( სურათის სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) ). თუ ეს ოდნავ საეჭვოდ ჟღერს, არ ცდებით - მაგრამ სწორედ ამიტომ მუშაობს ასე კარგად 😄
და დიახ, ეს ნიშნავს, რომ ხელოვნური ინტელექტის გამოყენებით გაფართოება ძირითადად კონტროლირებადი ჰალუცინაციაა... მაგრამ პროდუქტიული, პიქსელების პატივისცემით.
რა ხდის ხელოვნური ინტელექტის გაუმჯობესების ვერსიას კარგს? ✅🛠️
თუ ხელოვნური ინტელექტის ამაღლების პროგრამას (ან წინასწარ დაყენებულ პარამეტრს) აფასებთ, აი, რა არის ყველაზე მნიშვნელოვანი:
-
დეტალების აღდგენა ზედმეტად გადაწვის გარეშე.
კარგი მასშტაბირება სქელ ელფერს და სტრუქტურას მატებს და არა ხრაშუნა ხმაურს ან ყალბ ფორებს. -
კიდეების დისციპლინა -
სუფთა ხაზები სუფთა რჩება. ცუდი მოდელები კიდეებს რხევას ან ჰალოების გაჩენას იწვევს. -
ტექსტურის რეალიზმი.
თმა არ უნდა იქცეს ფუნჯის შტრიხად. აგური არ უნდა იქცეს განმეორებად ნიმუშად. -
ხმაურისა და შეკუმშვის დამუშავება.
ყოველდღიური სურათების უმეტესობა JPEG ფორმატში სრულ დამუშავებას განიცდის. კარგი ხმაურის გამაძლიერებელი ( Real-ESRGAN ) ამ ზიანს არ აძლიერებს. -
სახისა და ტექსტის აღქმა
სახეები და ტექსტი შეცდომების შემჩნევის ყველაზე მარტივი ადგილია. კარგი მოდელები მათ ნაზად ეპყრობიან (ან სპეციალიზებული რეჟიმები აქვთ). -
თანმიმდევრულობა კადრებს შორის (ვიდეოსთვის)
თუ დეტალები კადრში ციმციმებს, თქვენი თვალები იკივლებს. ვიდეოს გაფართოება დროითი სტაბილურობით ცოცხლობს ან კვდება ( BasicVSR (CVPR 2021) ). -
ლოგიკური მართვის საშუალებები
თქვენ გჭირდებათ სლაიდერები, რომლებიც რეალურ შედეგებზეა ორიენტირებული: ხმაურის შემცირება, დაბინდვისგან გასუფთავება, არტეფაქტების მოცილება, მარცვლების შენარჩუნება, სიმკვეთრე… პრაქტიკული დეტალები.
ჩუმი წესი, რომელიც ძალაშია: „საუკეთესო“ გაფართოება ხშირად ისაა, რომელსაც ძლივს ამჩნევ. უბრალოდ, თავიდანვე უკეთესი კამერა გქონდათ 📷✨
შედარების ცხრილი: ხელოვნური ინტელექტის გაუმჯობესების პოპულარული ვარიანტები (და რისთვის არიან ისინი კარგი) 📊🙂
ქვემოთ მოცემულია პრაქტიკული შედარება. ფასები განზრახ ბუნდოვანია, რადგან ინსტრუმენტები განსხვავდება ლიცენზიის, პაკეტების, გამოთვლითი ხარჯების და სხვა გასართობი რაღაცეების მიხედვით.
| ინსტრუმენტი / მიდგომა | საუკეთესოა | ფასის განწყობა | რატომ მუშაობს (დაახლოებით) |
|---|---|---|---|
| Topaz-ის სტილის დესკტოპის გამაუმჯობესებლები ( Topaz Photo , Topaz Video ) | ფოტოები, ვიდეო, მარტივი სამუშაო პროცესი | ფასიანი | ძლიერი ზოგადი მოდელები + ბევრი ტიუნინგი, ძირითადად „უბრალოდ მუშაობს“.. |
| Adobe-ის „Super Resolution“ ტიპის ფუნქციები ( Adobe Enhance > Super Resolution ) | ფოტოგრაფები, რომლებიც უკვე ამ ეკოსისტემაში არიან | გამოწერა-y | მყარი დეტალების რეკონსტრუქცია, როგორც წესი, კონსერვატიული (ნაკლებად დრამატული) |
| Real-ESRGAN / ESRGAN ვარიანტები ( Real-ESRGAN , ESRGAN ) | საკუთარი ხელით შეკვეთა, დეველოპერები, ჯგუფური სამუშაოები | უფასო (მაგრამ დროის ხარჯვა) | შესანიშნავია ტექსტურის დეტალებისთვის, შეიძლება სახეზე მკვეთრი იყოს, თუ ფრთხილად არ იქნებით |
| დიფუზიაზე დაფუძნებული გადიდების რეჟიმები ( SR3 ) | შემოქმედებითი ნამუშევარი, სტილიზებული შედეგები | შერეული | შეუძლია შესანიშნავი დეტალების შექმნა - ასევე შეუძლია სისულელეების გამოგონება, ასე რომ... კი |
| თამაშის გაუმჯობესების მოწყობილობები (DLSS/FSR სტილის) ( NVIDIA DLSS , AMD FSR 2 ) | რეალურ დროში თამაში და რენდერინგი | შეფუთული | იყენებს მოძრაობის მონაცემებს და შეძენილ პრიორებს - გლუვი შესრულების მოგება 🕹️ |
| ღრუბლოვანი სერვისების გაფართოება | მოხერხებულობა, სწრაფი გამარჯვებები | გადახდა გამოყენებისთვის | სწრაფი + მასშტაბირებადი, მაგრამ კონტროლსა და ზოგჯერ დახვეწილობას ცვლით |
| ვიდეოზე ორიენტირებული ხელოვნური ინტელექტის ამაღლების სერვისები ( BasicVSR , Topaz Video ) | ძველი კადრები, ანიმე, არქივები | ფასიანი | დროებითი ხრიკები ციმციმის შესამცირებლად + სპეციალიზებული ვიდეო მოდელები |
| „ჭკვიანი“ ტელეფონის/გალერეის გაფართოება | შემთხვევითი გამოყენება | შედის | მსუბუქი მოდელები, რომლებიც მორგებულია სასიამოვნო გამოსავლისთვის და არა სრულყოფილებისთვის (მაინც მოსახერხებელია) |
ფორმატირების თავისებურების აღიარება: „გადახდილი“ ბევრ საქმეს აკეთებს ამ ცხრილში. მაგრამ აზრს მიხვდით 😅
დიდი საიდუმლო: მოდელები სწავლობენ დაბალი გარჩევადობიდან მაღალი გარჩევადობისკენ მიბმას 🧠➡️🖼️
ხელოვნური ინტელექტის გამოყენებით გაუმჯობესების უმეტესი პროცესის ცენტრში ზედამხედველობითი სწავლების სისტემაა ( გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) ):
-
დაიწყეთ მაღალი გარჩევადობის სურათებით („სიმართლე“)
-
შეამცირეთ მათი ხარისხი დაბალი გარჩევადობის ვერსიებამდე („შეყვანა“)
-
მოდელის გაწვრთნა, რათა დაბალი გარჩევადობიდან ორიგინალი მაღალი გარჩევადობა აღადგინოს
დროთა განმავლობაში, მოდელი სწავლობს კორელაციებს, როგორიცაა:
-
„თვალის ირგვლივ ასეთი დაბინდვა, როგორც წესი, წამწამებს ახასიათებთ“
-
„ეს პიქსელური კლასტერი ხშირად სერიფ ტექსტზე მიუთითებს“
-
„ეს კიდის გრადიენტი სახურავის ხაზს ჰგავს და არა შემთხვევით ხმაურს“
ეს არ არის კონკრეტული სურათების დამახსოვრება (მარტივი გაგებით), ეს არის სტატისტიკური სტრუქტურის შესწავლა ( გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: კვლევა ). წარმოიდგინეთ ეს ტექსტურებისა და კიდეების გრამატიკის სწავლას ჰგავს. არა პოეზიის გრამატიკა, უფრო... IKEA-ს სახელმძღვანელოს გრამატიკას ჰგავს 🪑📦 (უხერხული მეტაფორა, მაგრამ საკმარისად ახლოს).
ძირითადი დეტალები: რა ხდება ინფერენციის დროს (როდესაც ამაღლებთ მასშტაბს) ⚙️✨
როდესაც სურათს ხელოვნური ინტელექტის გამაძლიერებელ მოწყობილობაში შეჰყავთ, როგორც წესი, ასეთი პროცესი მიმდინარეობს:
-
წინასწარი დამუშავება
-
ფერთა სივრცის კონვერტაცია (ზოგჯერ)
-
პიქსელის მნიშვნელობების ნორმალიზება
-
თუ სურათი დიდია, დაყავით ნაწილებად (VRAM-ის რეალობის შემოწმება 😭) ( Real-ESRGAN საცავი (ფილების პარამეტრები) )
-
-
მახასიათებლების ამოღება
-
ადრეული ფენები აღმოაჩენენ კიდეებს, კუთხეებს, გრადიენტებს
-
უფრო ღრმა ფენები აფიქსირებენ ნიმუშებს: ტექსტურებს, ფორმებს, სახის კომპონენტებს
-
-
რეკონსტრუქცია
-
მოდელი ქმნის მაღალი გარჩევადობის მახასიათებლების რუკას
-
შემდეგ ამას რეალურ პიქსელის გამომავალად გარდაქმნის
-
-
შემდგომი დამუშავება
-
სურვილისამებრ სიმკვეთრე
-
ხმაურის შემცირება სურვილისამებრ
-
არტეფაქტების (ზარის ხმა, ჰალოები, დაბლოკვა) სურვილისამებრ ჩახშობა
-
ერთი დახვეწილი დეტალი: ბევრი ხელსაწყო ფილებში ამაღლებს ხარისხს, შემდეგ კი ნაკერებს ურევს. შესანიშნავი ხელსაწყოები მალავს ფილების საზღვრებს. საშუალო ხარისხის ხელსაწყოები ტოვებს ბადისებრ ნიშნებს, თუ თვალებს დახუჭავთ. და დიახ, თვალებს დახუჭავთ, რადგან ადამიანებს უყვართ პატარა ნაკლოვანებების 300%-იანი მასშტაბირებით შემოწმება, როგორც პატარა გრემლინებს 🧌
ხელოვნური ინტელექტის გაუმჯობესებისთვის გამოყენებული ძირითადი მოდელების ოჯახები (და რატომ განსხვავდებიან ისინი ერთმანეთისგან) 🤖📚
1) CNN-ზე დაფუძნებული სუპერგარჩევადობა (კლასიკური სამუშაო ცხენი)
კონვოლუციური ნეირონული ქსელები შესანიშნავად უმკლავდება ლოკალურ ნიმუშებს: კიდეებს, ტექსტურებს, მცირე სტრუქტურებს ( გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) ).
-
დადებითი: სწრაფი, სტაბილური, ნაკლები სიურპრიზები
-
უარყოფითი მხარეები: ზედმეტად გამოყენების შემთხვევაში შეიძლება ცოტა „დამუშავებული“ ჩანდეს
2) GAN-ზე დაფუძნებული გაფართოება (ESRGAN-ის სტილში) 🎭
GAN-ები (გენერაციული ავერსიული ქსელები) ავარჯიშებენ გენერატორს მაღალი გარჩევადობის სურათების შესაქმნელად, რომელთა გარჩევაც დისკრიმინატორს რეალურისგან არ შეუძლია ( გენერაციული ავერსიული ქსელები ).
-
დადებითი: მკვეთრი დეტალები, შთამბეჭდავი ტექსტურა
-
უარყოფითი მხარეები: შეუძლია ისეთი დეტალების გამოგონება, რომლებიც არ არსებობდა - ზოგჯერ არასწორი, ზოგჯერ უცნაური ( SRGAN , ESRGAN )
GAN-ს შეუძლია მოგანიჭოთ შთამბეჭდავი სიმკვეთრე. მას ასევე შეუძლია თქვენი პორტრეტის სუბიექტს დამატებითი წარბები შესძინოს. ასე რომ... აირჩიეთ თქვენი ბრძოლები 😬
3) დიფუზიაზე დაფუძნებული ამაღლება (კრეატიული ველური ბარათი) 🌫️➡️🖼️
დიფუზიური მოდელები ხმაურს ეტაპობრივად აშორებს და მათი მართვა მაღალი გარჩევადობის დეტალების მისაღებად შეიძლება ( SR3 ).
-
დადებითი: შეიძლება წარმოუდგენლად კარგი იყოს დამაჯერებელი დეტალების დამუშავებაში, განსაკუთრებით შემოქმედებითი სამუშაოსთვის
-
უარყოფითი მხარეები: შეიძლება გადაუხვიოს თავდაპირველ იდენტობას/სტრუქტურას, თუ პარამეტრები აგრესიულია ( SR3 )
სწორედ აქ იწყება „განვითარება“ „ხელახლა წარმოდგენაში“. ზოგჯერ ეს ზუსტად ისაა, რაც გსურთ. ზოგჯერ კი არა.
4) ვიდეოს გაფართოება დროითი თანმიმდევრულობით 🎞️
ვიდეოს გაფართოება ხშირად მოძრაობის შესახებ ინფორმაციის მიღების ლოგიკას ამატებს:
-
დეტალების სტაბილიზაციისთვის მეზობელ კადრებს იყენებს ( BasicVSR (CVPR 2021) )
-
ცდილობს თავიდან აიცილოს ციმციმი და მცოცავი არტეფაქტები
-
ხშირად აერთიანებს სუპერ გარჩევადობას ხმაურის დენოიზთან და დეინტერლეისთან ( Topaz Video )
თუ სურათის გაფართოება ერთი ნახატის აღდგენას ჰგავს, ვიდეოს გაფართოება ფლიპბუქის აღდგენას ჰგავს პერსონაჟის ცხვირის ფორმის ყოველ გვერდზე შეცვლის გარეშე. რაც... უფრო რთულია, ვიდრე ჟღერს.
რატომ გამოიყურება ზოგჯერ ხელოვნური ინტელექტის გაფართოება ყალბად (და როგორ ამოვიცნოთ ეს) 👀🚩
ხელოვნური ინტელექტის გაფართოება შესამჩნევად წარუმატებელია. როგორც კი ნიმუშებს შეისწავლით, მათ ყველგან დაინახავთ, მაგალითად, ახალი მანქანის ყიდვისას და ამ მოდელის უეცრად შემჩნევისას ყველა ქუჩაზე 😵💫
საერთო მოგვითხრობს:
-
კანის დეპილაცია (ზედმეტად ხმაურის მოშორება + გასწორება)
-
ზედმეტად გამკვეთრი ჰალოები კიდეების გარშემო (კლასიკური „გადაჭარბების“ ტერიტორია) ( ბიკუბური ინტერპოლაცია )
-
განმეორებითი ტექსტურები (აგურის კედლები კოპირებულ-ჩასმულ ნიმუშებად იქცევა)
-
ხრაშუნა მიკროკონტრასტი , რომელიც „ალგორითმს“ ყვირის
-
ტექსტის დამახინჯება, სადაც ასოები თითქმის ასოებად იქცევა (ყველაზე ცუდი სახეობა)
-
დეტალების დრიფტი , სადაც მცირე მახასიათებლები დახვეწილად იცვლება, განსაკუთრებით დიფუზიური სამუშაო პროცესების დროს ( SR3 )
რთული ნაწილი: ზოგჯერ ეს არტეფაქტები ერთი შეხედვით „უკეთესად“ გამოიყურება. თქვენს ტვინს სიმკვეთრე მოსწონს. მაგრამ ერთი წამის შემდეგ, ის... არასწორად გეჩვენებათ.
კარგი ტაქტიკაა დააპატარავო და შეამოწმო, ბუნებრივად გამოიყურება თუ არა ნორმალური ხედვის მანძილიდან. თუ მხოლოდ 400%-იანი ზუმით კარგად გამოიყურება, ეს გამარჯვება არ არის, ეს ჰობია 😅
როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება: ტრენინგის მხარე, მათემატიკის თავის ტკივილის გარეშე 📉🙂
სუპერგარჩევადობის მოდელების სწავლება, როგორც წესი, მოიცავს:
-
დაწყვილებული მონაცემთა ნაკრებები (დაბალი გარჩევადობის შეყვანა, მაღალი გარჩევადობის სამიზნე) ( გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) )
-
დაკარგვის ფუნქციები , რომლებიც სჯიან არასწორ რეკონსტრუქციებს ( SRGAN )
დანაკარგების ტიპიური ტიპები:
-
პიქსელების დაკარგვა (L1/L2)
ხელს უწყობს სიზუსტეს. შეიძლება ოდნავ სუსტი შედეგების მიღება. -
აღქმის დანაკარგი
ადარებს უფრო ღრმა მახასიათებლებს (მაგალითად, „ეს ჰგავს არა“) ზუსტი პიქსელების ნაცვლად ( აღქმის დანაკარგები (ჯონსონი და სხვ., 2016) ). -
შეჯიბრებითი დანაკარგი (GAN)
ხელს უწყობს რეალიზმს, ზოგჯერ სიტყვასიტყვითი სიზუსტის ფასად ( SRGAN , გენერაციული შეჯიბრებითი ქსელები ).
მუდმივი კამათი მიმდინარეობს:
-
ორიგინალისადმი
ერთგული გახადეთ vs. -
ვიზუალურად სასიამოვნო გახადეთ
ამ სპექტრის სხვადასხვა ნაწილში სხვადასხვა ხელსაწყო გამოიყენება. შესაძლოა, რომელიმე მათგანი უპირატესობას ანიჭებდეთ იმისდა მიხედვით, ოჯახურ ფოტოებს აღადგენთ თუ პოსტერს ამზადებთ, სადაც „ლამაზი გარეგნობა“ სასამართლო ექსპერტიზის სიზუსტეზე მნიშვნელოვანია.
პრაქტიკული სამუშაო პროცესები: ფოტოები, ძველი სკანირებული მასალები, ანიმე და ვიდეო 📸🧾🎥
ფოტოები (პორტრეტები, პეიზაჟები, პროდუქტის ფოტოები)
საუკეთესო პრაქტიკა, როგორც წესი, შემდეგია:
-
ჯერ მსუბუქი ხმაურის მოხსნა (საჭიროების შემთხვევაში)
-
მაღალი კლასის კონსერვატიული გარემოთი
-
თუ ყველაფერი ძალიან გლუვია, დაამატეთ მარცვლეული (დიახ, მართლა)
მარცვლეული მარილივითაა. ძალიან ბევრი ვახშამს აფუჭებს, მაგრამ არცერთი არ შეიძლება უგემური იყოს 🍟
ძველი სკანირებული და ძლიერ შეკუმშული სურათები
ესენი უფრო რთულია, რადგან მოდელმა შეიძლება შეკუმშვის ბლოკები „ტექსტურად“ მიიჩნიოს.
სცადეთ:
-
არტეფაქტების მოცილება ან განბლოკვა
-
შემდეგ მაღალი კლასის
-
შემდეგ სინათლის სიმკვეთრე (არც ისე ბევრი... ვიცი, ყველა ამას ამბობს, მაგრამ მაინც)
ანიმე და ხაზოვანი არტი
ხაზოვანი ხელოვნების უპირატესობები:
-
მოდელები, რომლებიც ინარჩუნებენ სუფთა კიდეებს
-
ტექსტურის ჰალუცინაციის შემცირება.
ანიმეს გაფართოება ხშირად შესანიშნავად გამოიყურება, რადგან ფორმები უფრო მარტივი და თანმიმდევრულია. (იღბლიანი.)
ვიდეო
ვიდეო დამატებით ნაბიჯებს ამატებს:
-
ხმაურის მოხსნა
-
დეინტერლეისი (გარკვეული წყაროებისთვის)
-
მაღალი კლასის
-
დროებითი გასწორება ან სტაბილიზაცია ( BasicVSR (CVPR 2021) )
-
მარცვლეულის შერევა შეკავშირებისთვის სურვილისამებრ
თუ დროებით თანმიმდევრულობას გამოტოვებთ, დეტალის მოციმციმე ციმციმს მიიღებთ. როგორც კი შეამჩნევთ, ვეღარასდროს შეამჩნევთ. როგორც ჩუმ ოთახში ჭრიალა სკამი 😖
პარამეტრების არჩევა ზედმეტი გამოცნობის გარეშე (პატარა ხრიკების ფურცელი) 🎛️😵💫
აქ არის ღირსეული საწყისი აზროვნება:
-
თუ სახეები პლასტიკურად გამოიყურება
, შეამცირეთ ხმაურის მოხსნა, სიმკვეთრე ან სცადეთ სახის შენარჩუნების მოდელი ან რეჟიმი. -
თუ ტექსტურები ძალიან ინტენსიურად გამოიყურება,
შეამცირეთ „დეტალის გაუმჯობესების“ ან „დეტალების აღდგენის“ სლაიდერები, შემდეგ დაამატეთ დახვეწილი მარცვლოვანება. -
თუ კიდეები ანათებს,
შეამცირეთ სიმკვეთრე, შეამოწმეთ ჰალოების ჩახშობის ვარიანტები. -
თუ სურათი ზედმეტად „ხელოვნური ინტელექტით“ გამოიყურება,
უფრო კონსერვატიულად მოიქეცით. ზოგჯერ საუკეთესო ნაბიჯი უბრალოდ... ნაკლებია.
ასევე: ნუ გაზრდით 8-ჯერ მხოლოდ იმიტომ, რომ შეგიძლიათ. სუფთა 2x ან 4x ხშირად იდეალური ვარიანტია. ამის გარდა, თქვენ სთხოვთ მოდელს, დაწეროს ფანფიქშენი თქვენი პიქსელების შესახებ 📖😂
ეთიკა, ავთენტურობა და „სიმართლის“ უხერხული კითხვა 🧭😬
ხელოვნური ინტელექტის გაფართოება ზღვარს აშორებს:
-
რესტავრაცია გულისხმობს იმის აღდგენას, რაც იყო
-
გაუმჯობესება გულისხმობს იმის დამატებას, რაც არ იყო
პირადი ფოტოების შემთხვევაში, ეს, როგორც წესი, ნორმალურია (და სასიამოვნოც). ჟურნალისტიკაში, იურიდიულ მტკიცებულებებში, სამედიცინო ვიზუალიზაციაში ან ნებისმიერ სხვა საკითხში, სადაც სიზუსტე მნიშვნელოვანია... სიფრთხილე გმართებთ ( OSAC/NIST: სასამართლო ციფრული გამოსახულების მართვის სტანდარტული სახელმძღვანელო , სასამართლო გამოსახულების ანალიზის SWGDE სახელმძღვანელო ).
მარტივი წესი:
-
თუ ფსონები მაღალია, ხელოვნური ინტელექტის გაფართოება საილუსტრაციოდ და არა საბოლოო.
ასევე, გამჟღავნებას მნიშვნელობა აქვს პროფესიულ კონტექსტში. არა იმიტომ, რომ ხელოვნური ინტელექტი ბოროტებაა, არამედ იმიტომ, რომ აუდიტორიას იმსახურებს იცოდეს, დეტალები აღდგენილია თუ დაფიქსირებულია თუ არა. ეს უბრალოდ... პატივისცემის ნიშნად ჟღერს.
დასკვნითი შენიშვნები და მოკლე მიმოხილვა 🧡✅
ასე რომ, ხელოვნური ინტელექტის გამოყენებით გაფართოება ასე მუშაობს უკავშირდება მაღალი გარჩევადობის დეტალები დაბალი გარჩევადობის ნიმუშებს, შემდეგ კი ზრდის დროს პროგნოზირებენ დამაჯერებელ დამატებით პიქსელებს ( გამოსახულების სუპერგარჩევადობის ღრმა შესწავლა: კვლევა ). მოდელების ოჯახიდან (CNN, GAN, დიფუზია, ვიდეო-დროითი), ეს პროგნოზი შეიძლება იყოს კონსერვატიული და ზუსტი... ან თამამი და ზოგჯერ არათანმიმდევრული 😅
მოკლე მიმოხილვა
-
ტრადიციული გადიდება პიქსელებს აფართოებს ( ბიკუბური ინტერპოლაცია )
-
ხელოვნური ინტელექტის გაფართოება დაკარგული დეტალების პროგნოზირებას ახდენს შესწავლილი შაბლონების გამოყენებით ( გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) )
-
შესანიშნავი შედეგები მიიღება სწორი მოდელით + თავშეკავებით
-
ვიდეოში დააკვირდით ჰალოებს, ცვილისებრ ზედაპირებს, განმეორებად ტექსტურებსა და ციმციმს ( BasicVSR (CVPR 2021) )
-
მასშტაბირება ხშირად „დამაჯერებელი რეკონსტრუქციაა“ და არა სრულყოფილი სიმართლე ( SRGAN , ESRGAN ).
თუ გინდა, მითხარი, რას ამაღლებ (სახეებს, ძველ ფოტოებს, ვიდეოებს, ანიმეს, ტექსტის სკანირებას) და შემოგთავაზებ პარამეტრების სტრატეგიას, რომელიც თავიდან აგაცილებს „ხელოვნური ინტელექტის იერსახის“ გავრცელებულ ხაფანგებს 🎯🙂
ხშირად დასმული კითხვები
ხელოვნური ინტელექტის გაფართოება და მისი მუშაობის პრინციპი
ხელოვნური ინტელექტის მიერ მასშტაბირება (რომელსაც ხშირად „სუპერ-გარჩევადობას“ უწოდებენ) ზრდის გამოსახულების გარჩევადობას ვარჯიშის დროს შესწავლილი ნიმუშებიდან მაღალი გარჩევადობის დეტალების გამოტოვების პროგნოზირებით. ბიკუბური ინტერპოლაციის მსგავსად პიქსელების უბრალოდ გაჭიმვის ნაცვლად, მოდელი სწავლობს კიდეებს, ტექსტურებს, სახეებს და ტექსტის მსგავს შტრიხებს, შემდეგ კი წარმოქმნის ახალ პიქსელურ მონაცემებს, რომლებიც შეესაბამება ამ შესწავლილ ნიმუშებს. ეს ნაკლებად „აღადგენს რეალობას“ და უფრო მეტად „აკეთებს დამაჯერებელ ვარაუდს“, რომელიც ბუნებრივად აღიქმება.
ხელოვნური ინტელექტის გაფართოება ბიკუბურ ან ტრადიციულ ზომის შეცვლასთან შედარებით
ტრადიციული მასშტაბირების მეთოდები (მაგალითად, ბიკუბური) ძირითადად არსებულ პიქსელებს შორის ინტერპოლაციას ახდენს, რაც გადასვლებს ახალი დეტალების შექმნის გარეშე ასწორებს. ხელოვნური ინტელექტის მასშტაბირება მიზნად ისახავს დამაჯერებელი სტრუქტურის რეკონსტრუქციას ვიზუალური მინიშნებების ამოცნობით და ამ მინიშნებების მაღალი გარჩევადობის ვერსიების პროგნოზირებით. სწორედ ამიტომ, ხელოვნური ინტელექტის შედეგები შეიძლება გაცილებით მკვეთრი იყოს და ასევე, მათ შეუძლიათ ისეთი არტეფაქტების შემოტანა ან დეტალების „გამოგონება“, რომლებიც წყაროში არ იყო.
რატომ შეიძლება სახე ცვილისებრი ან ზედმეტად გლუვი გამოიყურებოდეს
ცვილისებრი ზედაპირები, როგორც წესი, მიიღება აგრესიული ხმაურის მოცილებისა და გასწორების შედეგად, რომელიც შერწყმულია კანის ბუნებრივ ტექსტურასთან, რაც აშორებს მას. ბევრი ინსტრუმენტი ხმაურსა და წვრილ ტექსტურას ანალოგიურად ამუშავებს, ამიტომ გამოსახულების „გასუფთავებას“ შეუძლია ფორებისა და დახვეწილი დეტალების წაშლა. გავრცელებული მიდგომაა ხმაურის მოცილებისა და სიმკვეთრის შემცირება, სახის შენარჩუნების რეჟიმის გამოყენება, თუ ეს შესაძლებელია, შემდეგ კი მარცვლოვანი ელფერის ხელახლა დანერგვა, რათა შედეგი ნაკლებად პლასტიკური და უფრო ფოტოგრაფიული იყოს.
ხელოვნური ინტელექტის გაუმჯობესების გავრცელებული არტეფაქტები, რომლებსაც ყურადღება უნდა მიაქციოთ
ტიპურ მინიშნებებს შორისაა კიდეების გარშემო ჰალოები, ტექსტურის განმეორებითი ნიმუშები (მაგალითად, კოპირება-ჩასმის აგურები), ხრაშუნა მიკროკონტრასტი და ტექსტი, რომელიც „თითქმის ასოებად“ გარდაიქმნება. დიფუზიაზე დაფუძნებულ სამუშაო პროცესებში ასევე შეგიძლიათ შეამჩნიოთ დეტალების გადახრა, სადაც მცირე მახასიათებლები ოდნავ იცვლება. ვიდეოს შემთხვევაში, ციმციმი და დეტალების კადრებში გადაადგილებისას დიდი საშიშროებაა. თუ ვიდეო კარგად მხოლოდ ექსტრემალური მასშტაბირებისას გამოიყურება, პარამეტრები, სავარაუდოდ, ძალიან აგრესიულია.
როგორ განსხვავდებიან GAN, CNN და დიფუზიის ამაღლების სერვისები შედეგებში
CNN-ზე დაფუძნებული სუპერგარჩევადობა, როგორც წესი, უფრო სტაბილური და პროგნოზირებადია, თუმცა, თუ ძლიერად დააჭერთ, შეიძლება „დამუშავებულად“ გამოიყურებოდეს. GAN-ზე დაფუძნებული პარამეტრები (ESRGAN-ის სტილის) ხშირად უფრო მკვეთრ ტექსტურას და აღქმულ სიმკვეთრეს ქმნის, თუმცა მათ შეუძლიათ არასწორი დეტალების ჰალუცინაცია, განსაკუთრებით სახეებზე. დიფუზიაზე დაფუძნებულმა გაფართოებამ შეიძლება ლამაზი, დამაჯერებელი დეტალები წარმოქმნას, თუმცა, თუ მიმართულების ან სიძლიერის პარამეტრები ძალიან ძლიერია, ისინი შეიძლება გადაუხვიონ თავდაპირველ სტრუქტურას.
პრაქტიკული პარამეტრების სტრატეგია „ზედმეტად ხელოვნური ინტელექტის“ იერსახის თავიდან ასაცილებლად
დაიწყეთ კონსერვატიულად: ექსტრემალურ ფაქტორებზე გადასვლამდე გაზარდეთ მასშტაბი 2× ან 4×. თუ სახეები პლასტიურად გამოიყურება, შეამცირეთ ხმაურის შემცირება და სიმკვეთრე და სცადეთ სახის ცნობიერების რეჟიმი. თუ ტექსტურები ძალიან ინტენსიური ხდება, შეამცირეთ დეტალების გაუმჯობესება და შემდეგ განიხილეთ დახვეწილი მარცვლოვანი ეფექტის დამატება. თუ კიდეები ანათებს, შეამცირეთ სიმკვეთრე და შეამოწმეთ ჰალო ან არტეფაქტების ჩახშობა. ბევრ პროცესორში „ნაკლები“ იმარჯვებს, რადგან ის ინარჩუნებს დამაჯერებელ რეალიზმს.
ძველი სკანირებული ან ძლიერ JPEG შეკუმშული სურათების დამუშავება მასშტაბირებამდე
შეკუმშული სურათების დამუშავება რთულია, რადგან მოდელებს შეუძლიათ ბლოკის არტეფაქტების რეალურ ტექსტურად აღქმა და მათი გაძლიერება. გავრცელებული სამუშაო პროცესია ჯერ არტეფაქტების მოცილება ან განბლოკვა, შემდეგ მასშტაბირება და მხოლოდ საჭიროების შემთხვევაში მსუბუქი სიმკვეთრის გაზრდა. სკანირებისთვის, ნაზი გაწმენდა დაეხმარება მოდელს, ყურადღება გაამახვილოს რეალურ სტრუქტურაზე და არა დაზიანებაზე. მიზანია „ყალბი ტექსტურის მინიშნებების“ შემცირება, რათა მასშტაბირების შემქმნელმა არ აიძულოს ხმაურიანი შეყვანის მონაცემების საფუძველზე თავდაჯერებული ვარაუდები გააკეთოს.
რატომ არის ვიდეოს გაფართოება უფრო რთული, ვიდრე ფოტოს გაფართოება
ვიდეოს მასშტაბირება თანმიმდევრული უნდა იყოს ყველა კადრში და არა მხოლოდ ერთ ფოტოზე. თუ დეტალები კადრში ციმციმებს, შედეგი სწრაფად ყურადღების გამფანტველი ხდება. ვიდეოზე ორიენტირებული მიდგომები იყენებს მეზობელი კადრების დროებით ინფორმაციას რეკონსტრუქციის სტაბილიზაციისა და მოციმციმე არტეფაქტების თავიდან ასაცილებლად. ბევრი სამუშაო პროცესი ასევე მოიცავს ხმაურის დენოიზირებას, გარკვეული წყაროების დეინტერლეისინგის და მარცვლების ხელახლა შეტანის არჩევით შესაძლებლობას, რათა მთელი თანმიმდევრობა ხელოვნურად მკვეთრის ნაცვლად, შეკრული იყოს.
როდესაც ხელოვნური ინტელექტის გაფართოება არ არის მიზანშეწონილი ან მასზე დაყრდნობა სარისკოა
ხელოვნური ინტელექტის გამოყენებით მასშტაბირება უმჯობესია განვიხილოთ, როგორც გაუმჯობესება და არა როგორც მტკიცებულება. მაღალი რისკის მქონე კონტექსტებში, როგორიცაა ჟურნალისტიკა, იურიდიული მტკიცებულებები, სამედიცინო ვიზუალიზაცია ან სასამართლო ექსპერტიზა, „დამაჯერებელი“ პიქსელების გენერირებამ შეიძლება შეცდომაში შეიყვანოს ინფორმაცია, რადგან შეიძლება დაამატოს დეტალები, რომლებიც არ არის დაფიქსირებული. უფრო უსაფრთხო ჩარჩოა მისი ილუსტრაციულად გამოყენება და იმის გამჟღავნება, რომ ხელოვნური ინტელექტის პროცესმა დეტალების რეკონსტრუქცია მოახდინა. თუ სიზუსტე კრიტიკულად მნიშვნელოვანია, შეინახეთ ორიგინალები და დოკუმენტირეთ დამუშავების ყველა ეტაპი და პარამეტრი.
ცნობები
-
arXiv - ღრმა სწავლება გამოსახულების სუპერგარჩევადობისთვის: გამოკითხვა - arxiv.org
-
arXiv - გამოსახულების სუპერგარჩევადობა ღრმა კონვოლუციური ქსელების გამოყენებით (SRCNN) - arxiv.org
-
arXiv - რეალური ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA-ს დეველოპერი - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
კომპიუტერული ხედვის ფონდის (CVF) ღია წვდომა - BasicVSR: ვიდეო სუპერგარჩევადობის აუცილებელი კომპონენტების ძიება (CVPR 2021) - openaccess.thecvf.com
-
arXiv - გენერაციული კონკურენტული ქსელები - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - აღქმის დანაკარგები (ჯონსონი და სხვ., 2016) - arxiv.org
-
GitHub - Real-ESRGAN საცავი (ფილების ვარიანტები) - github.com
-
ვიკიპედია - ბიკუბური ინტერპოლაცია - wikipedia.org
-
Topaz Labs - Topaz-ის ფოტო - topazlabs.com
-
Topaz Labs - Topaz ვიდეო - topazlabs.com
-
Adobe-ს დახმარების ცენტრი - Adobe Enhance > Super Resolution - helpx.adobe.com
-
NIST / OSAC - ციფრული ფორენზიკური გამოსახულების მართვის სტანდარტული სახელმძღვანელო (ვერსია 1.0) - nist.gov
-
SWGDE - სასამართლო გამოსახულების ანალიზის სახელმძღვანელო პრინციპები - swgde.org