ობიექტების შენახვა ხელოვნური ინტელექტისთვის: არჩევანი, არჩევანი, არჩევანი

როდესაც ადამიანების უმეტესობა ისმენს „ხელოვნურ ინტელექტს“, მათ წარმოუდგენიათ ნეირონული ქსელები, უცნაური ალგორითმები ან შესაძლოა ის ოდნავ უცნაური ჰუმანოიდი რობოტები. რასაც იშვიათად ახსენებენ პირდაპირ, არის ის, რომ ხელოვნური ინტელექტი მეხსიერებას თითქმის ისევე გაუმაძღარად ჭამს, როგორც გამოთვლებს. და არა ნებისმიერი შენახვის ობიექტის საცავი ჩუმად დგას ფონზე და ასრულებს არამომხიარულ, მაგრამ აბსოლუტურად აუცილებელ სამუშაოს - მოდელებისთვის საჭირო მონაცემების მიწოდებას.

მოდით განვიხილოთ, თუ რა ხდის ობიექტების შენახვას ასე მნიშვნელოვანს ხელოვნური ინტელექტისთვის, რით განსხვავდება ის შენახვის სისტემების „ძველი გვარდიისგან“ და რატომ ხდება ის მასშტაბირებისა და შესრულების ერთ-ერთი მთავარი ბერკეტი.

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 რომელი ტექნოლოგიები უნდა არსებობდეს ბიზნესისთვის მასშტაბური გენერაციული ხელოვნური ინტელექტის გამოსაყენებლად?
ძირითადი ტექნოლოგიები, რომლებიც ბიზნესებს სჭირდებათ გენერაციული ხელოვნური ინტელექტის ეფექტური მასშტაბირებისთვის.

🔗 მონაცემთა მართვა ხელოვნური ინტელექტის ინსტრუმენტებისთვის, რომელსაც ყურადღება უნდა მიაქციოთ
ხელოვნური ინტელექტის მუშაობის ოპტიმიზაციისთვის მონაცემების დამუშავების საუკეთესო პრაქტიკა.

🔗 ხელოვნური ინტელექტის გავლენა ბიზნეს სტრატეგიაზე
როგორ მოქმედებს ხელოვნური ინტელექტი ბიზნეს სტრატეგიებსა და გრძელვადიან გადაწყვეტილებებზე.

რა ხდის ობიექტების შენახვას ხელოვნური ინტელექტისთვის მიმზიდველს? 🌟

მთავარი იდეა: ობიექტების შენახვა არ მოიცავს საქაღალდეებს ან ხისტ ბლოკურ განლაგებას. ის მონაცემებს ყოფს „ობიექტებად“, რომელთაგან თითოეული მონიშნულია მეტამონაცემებით. ეს მეტამონაცემები შეიძლება იყოს სისტემის დონის ინფორმაცია (ზომა, დროის ნიშნულები, შენახვის კლასი) და მომხმარებლის მიერ განსაზღვრული key:value ტეგები [1]. წარმოიდგინეთ ეს როგორც ყველა ფაილი, რომელსაც აქვს წებოვანი ფურცლების დასტა, რომელიც ზუსტად გეუბნებათ, თუ რა არის ის, როგორ შეიქმნა და სად ჯდება თქვენს სამუშაო პროცესში.

ხელოვნური ინტელექტის გუნდებისთვის ეს მოქნილობა თამაშის წესებს ცვლის:

მასშტაბირება პრობლემების გარეშე - მონაცემთა ტბები პეტაბაიტებამდეა გადაჭიმული და ობიექტების საცავები მას მარტივად ამუშავებენ. ისინი შექმნილია თითქმის შეუზღუდავი ზრდისა და მრავალ AZ-იანი გამძლეობისთვის (Amazon S3 სტანდარტულად ამაყობს „11 ცხრიანით“ და ზონებს შორის რეპლიკაციით) [2].
მეტამონაცემების სიმდიდრე - უფრო სწრაფი ძიება, უფრო სუფთა ფილტრები და უფრო ჭკვიანი არხები, რადგან კონტექსტი თითოეულ ობიექტთან ერთად მუშაობს [1].
ღრუბლოვანი - მონაცემები HTTP(S)-ის საშუალებით მოდის, რაც იმას ნიშნავს, რომ შეგიძლიათ პარალელურად დააყენოთ pull-ები და გააგრძელოთ განაწილებული ტრენინგის ხმაურის შენარჩუნება.
მდგრადობა - როდესაც დღეების განმავლობაში ვარჯიშობთ, არ შეგიძლიათ რისკზე წასვლა და მე-12 ეპოქის კორუმპირებული შარდის განადგურება. ობიექტების შენახვა ამას თავისი განზრახვით თავიდან აგაცილებთ [2].

ეს არსებითად უძირო ზურგჩანთაა: შესაძლოა შიგნიდან არეული იყოს, მაგრამ ხელის წასმისას ყველაფრის ამოღება მაინც შეგიძლიათ.

ხელოვნური ინტელექტის ობიექტების შენახვის სწრაფი შედარების ცხრილი 🗂️

ინსტრუმენტი / სერვისი	საუკეთესო (აუდიტორიისთვის)	ფასების დიაპაზონი	რატომ მუშაობს ეს (შენიშვნები მინდვრებში)
ამაზონ S3	საწარმოები + ღრუბელზე ორიენტირებული გუნდები	გადაიხადეთ თქვენი ხარჯის მიხედვით	უკიდურესად გამძლე, რეგიონულად მდგრადი [2]
Google-ის ღრუბლოვანი საცავი	მონაცემთა მეცნიერები და მანქანური სწავლების დეველოპერები	მოქნილი იარუსები	ძლიერი მანქანური სწავლების ინტეგრაციები, სრულად ღრუბლოვანი ტექნოლოგიებით აღჭურვილი
Azure Blob საცავი	Microsoft-ის მსხვილი მაღაზიები	ფენოვანი (ცხელი/ცივი)	შეუფერხებლად მუშაობს Azure-ის მონაცემებთან + ML ინსტრუმენტებთან
მინიიო	ღია კოდის / DIY კონფიგურაციები	უფასო/თვითმასპინძლობა	S3-თან თავსებადი, მსუბუქი, განსათავსებელი ნებისმიერ ადგილას 🚀
ვასაბის ცხელი ღრუბელი	ხარჯებისადმი მგრძნობიარე ორგანიზაციები	დაბალი ფიქსირებული ტარიფი $	გასვლის ან API-ს მოთხოვნის საფასური არ არის (პოლისის მიხედვით) [3]
IBM-ის ღრუბლოვანი ობიექტების საცავი	მსხვილი საწარმოები	მერყეობს	მოწიფული დასტა ძლიერი საწარმოს უსაფრთხოების ვარიანტებით

ყოველთვის შეადარეთ ფასები რეალურ მოხმარებას - განსაკუთრებით გასავალს, მოთხოვნის მოცულობას და შენახვის კლასის ნაზავს.

რატომ უყვარს ხელოვნური ინტელექტის ტრენინგს ობიექტების შენახვა 🧠

ტრენინგი არ არის „ერთი მუჭა ფაილი“. ეს არის მილიონობით ჩანაწერის პარალელურად განადგურება. იერარქიული ფაილური სისტემები ძლიერ პარალელურობის პირობებში იშლება. ობიექტების შენახვა ამას გვერდს უვლის ბრტყელი სახელთა სივრცეებითა და სუფთა API-ებით. ყველა ობიექტს აქვს უნიკალური გასაღები; თანამშრომლები პარალელურად ანაწილებენ და იღებენ მონაცემებს. დაქუცმაცებული მონაცემთა ნაკრებები + პარალელური შეყვანა/გამოსვლა = გრაფიკული პროცესორები დაკავებულები რჩებიან ლოდინის ნაცვლად.

რჩევა: ცხელი ფრაგმენტები შეინახეთ გამოთვლითი კლასტერის მახლობლად (იმავე რეგიონში ან ზონაში) და აგრესიულად შეინახოთ ქეში SSD-ზე. თუ გჭირდებათ GPU-ებთან თითქმის პირდაპირი მიწოდება, NVIDIA GPUDirect Storage-ის განხილვა - ის ამცირებს CPU-ს გადატვირთვის ბუფერებს, ამცირებს შეყოვნებას და ზრდის გამტარუნარიანობას პირდაპირ ამაჩქარებლებზე [4].

მეტამონაცემები: დაუფასებელი სუპერძალა 🪄

სწორედ აქ გამოირჩევიან ობიექტების შენახვა ნაკლებად აშკარა ასპექტებით. ატვირთვისას შეგიძლიათ დაურთოთ მორგებული მეტამონაცემები (მაგალითად, x-amz-meta-… S3-ისთვის). მაგალითად, ხედვის მონაცემთა ნაკრებში შეიძლება გამოსახულებები მონიშნული იყოს lighting=low ან blur=high. ეს საშუალებას აძლევს მილსადენებს გაფილტრონ, დააბალანსონ ან სტრატიფიცირება მოახდინონ ნედლი ფაილების ხელახალი სკანირების გარეშე [1].

და ასევე არსებობს ვერსიონირება. ბევრი ობიექტის საცავი ობიექტის რამდენიმე ვერსიას გვერდიგვერდ ინახავს - იდეალურია რეპროდუცირებადი ექსპერიმენტებისთვის ან მართვის პოლიტიკისთვის, რომლებიც საჭიროებენ გაუქმებას [5].

ობიექტი vs ბლოკი vs ფაილების შენახვა ⚔️

ბლოკური შენახვა: შესანიშნავია ტრანზაქციული მონაცემთა ბაზებისთვის - სწრაფი და ზუსტი - მაგრამ ძალიან ძვირია პეტაბაიტების მასშტაბის არასტრუქტურირებული მონაცემებისთვის.
ფაილების შენახვა: ნაცნობი, POSIX-თან თავსებადი, მაგრამ დირექტორიები ძალიან იტანჯება პარალელური დატვირთვების გამო.
ობიექტის შენახვა: შექმნილია ნულიდან მასშტაბირების, პარალელიზმისა და მეტამონაცემებზე დაფუძნებული წვდომისთვის [1].

თუ უხერხული მეტაფორა გსურთ: ბლოკების საცავი საქაღალდეების კარადაა, ფაილების საცავი სამუშაო მაგიდის საქაღალდეა, ხოლო ობიექტების საცავი... უძირო ორმოა წებოვანი ფურცლებით, რომლებიც როგორღაც მის გამოყენებადობას ხდის.

ჰიბრიდული ხელოვნური ინტელექტის სამუშაო პროცესები 🔀

ეს ყოველთვის მხოლოდ ღრუბლოვანი მომსახურება არ არის. გავრცელებული მიქსი ასე გამოიყურება:

მგრძნობიარე ან რეგულირებადი მონაცემებისთვის ადგილზე განთავსებული ობიექტების შენახვა (MinIO, Dell ECS)
ღრუბლოვანი ობიექტების საცავი პაკეტური სამუშაო დატვირთვებისთვის, ექსპერიმენტებისთვის ან თანამშრომლობისთვის.

ეს ბალანსი გავლენას ახდენს ფასზე, შესაბამისობასა და მოქნილობაზე. მე მინახავს გუნდები, რომლებიც სიტყვასიტყვით ღამით ტერაბაიტებს ყრიდნენ S3 კომპიუტერში, რათა დროებითი GPU კლასტერი აეღო - შემდეგ კი სპრინტის დასრულების შემდეგ ყველაფერი ატომური ბომბებით აფეთქებდნენ. უფრო შეზღუდული ბიუჯეტისთვის, Wasabi-ს ფიქსირებული/არასამუშაო მოდელი [3] პროგნოზირებას აადვილებს.

ნაწილი, რომლითაც არავინ ტრაბახობს 😅

რეალობის შემოწმება: ეს უნაკლო არ არის.

შეყოვნება - გამოთვლითი და მეხსიერების ძალიან შორს განთავსებით, თქვენი გრაფიკული პროცესორები ცუდ მდგომარეობაში აღმოჩნდებიან. GDS ეხმარება, მაგრამ არქიტექტურა მაინც მნიშვნელოვანია [4].
ხარჯების სიურპრიზები - გასვლისა და API მოთხოვნის საფასური ხალხისთვის ფარულად იმატებს. ზოგიერთი პროვაიდერი უარს ამბობს მათზე (Wasabi აკეთებს ამას; სხვები არა) [3].
მეტამონაცემების ქაოსი მასშტაბურად - ვინ განსაზღვრავს „სიმართლეს“ თეგებსა და ვერსიებში? დაგჭირდებათ კონტრაქტები, პოლიტიკა და გარკვეული მმართველობითი ძალა [5].

ობიექტების შენახვა ინფრასტრუქტურის სანტექნიკაა: გადამწყვეტი მნიშვნელობისაა, მაგრამ არა მომხიბვლელი.

საით მიემართება 🚀

უფრო ჭკვიანი, ხელოვნური ინტელექტის მქონე საცავი , რომელიც ავტომატურად ახდენს მონაცემების მონიშვნას და გამოვლენას SQL-ის მსგავსი შეკითხვის ფენების მეშვეობით [1].
აპარატურის უფრო მჭიდრო ინტეგრაცია (DMA ბილიკები, NIC-ის განტვირთვა), რათა გრაფიკული პროცესორები არ იყვნენ შემავალი/გამომავალი სისტემების დეფიციტის მქონე [4].
გამჭვირვალე, პროგნოზირებადი ფასები (გამარტივებული მოდელები, გათავისუფლებული გასასვლელი საკომისიოები) [3].

ხალხი ხელოვნური ინტელექტის მომავალზე გამოთვლით ტექნოლოგიებზე საუბრობს. მაგრამ რეალურად? პრობლემა ასევე მდგომარეობს მონაცემების მოდელებში სწრაფად შეტანაში ბიუჯეტის გადაჭარბების გარეშე. სწორედ ამიტომ იზრდება ობიექტების შენახვის როლი.

შეჯამება 📝

ობიექტების შენახვა არ არის თვალშისაცემი, მაგრამ ის ფუნდამენტურია. მასშტაბირებადი, მეტამონაცემებისადმი მგრძნობიარე და მდგრადი შენახვის გარეშე, დიდი მოდელების წვრთნა სანდლებით მარათონში სირბილს ჰგავს.

ასე რომ, დიახ - გრაფიკულ პროცესორებს, ჩარჩოებს მნიშვნელობა აქვს. მაგრამ თუ ხელოვნურ ინტელექტს სერიოზულად უყურებთ, ნუ უგულებელყოფთ, თუ სად ინახება თქვენი მონაცემები. დიდი ალბათობით, ობიექტების შენახვა უკვე ჩუმად აგრძელებს მთელ ოპერაციას.

ცნობები

[1] AWS S3 – ობიექტის მეტამონაცემები - სისტემის და მორგებული მეტამონაცემები
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – შენახვის კლასები - გამძლეობა („11 ცხრიანი“) + მდგრადობა
https://aws.amazon.com/s3/storage-classs/

[3] Wasabi Hot Cloud – ფასები - ფიქსირებული ტარიფი, გასვლის/API საკომისიოს გარეშე
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – დოკუმენტაცია - DMA გზები GPU-ებისკენ
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – ვერსიონირება - მართვის/რეპროდუცირების მრავალი ვერსია
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება