როგორ აფიქსირებს ხელოვნური ინტელექტი ანომალიებს?

ანომალიების აღმოჩენა მონაცემთა ოპერაციების ჩუმი გმირია - კვამლის სიგნალიზაცია, რომელიც ჩურჩულებს, სანამ რამეს ცეცხლი წაეკიდება.

მარტივად რომ ვთქვათ: ხელოვნური ინტელექტი სწავლობს, როგორ გამოიყურება „ნორმალური“, ახალ მოვლენებს ანიჭებს ანომალიის ქულას და შემდეგ წყვეტს, დაურეკოს თუ არა ადამიანს (თუ ავტომატურად დაბლოკოს ობიექტი) გარკვეული ზღურბლის . საქმე იმაშია, თუ როგორ განმარტავთ „ნორმალურს“, როდესაც თქვენი მონაცემები სეზონური, არეული, ცვალებადი და ზოგჯერ გატყუებთ. [1]

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 რატომ შეიძლება ხელოვნური ინტელექტი იყოს საზიანო საზოგადოებისთვის -
იკვლევს ხელოვნური ინტელექტის ფართოდ გავრცელების ეთიკურ, ეკონომიკურ და სოციალურ რისკებს.

🔗 რამდენ წყალს მოიხმარენ სინამდვილეში ხელოვნური ინტელექტის სისტემები.
განმარტავს მონაცემთა ცენტრის გაგრილებას, ტრენინგის მოთხოვნებს და წყლის გარემოზე ზემოქმედებას.

🔗 რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები და რატომ არის ის მნიშვნელოვანი?
განსაზღვრავს მონაცემთა ნაკრებებს, ეტიკეტირებას, წყაროებს და მათ როლს მოდელის მუშაობაში.

🔗 როგორ პროგნოზირებს ხელოვნური ინტელექტი ტენდენციებს რთული მონაცემებიდან.
მოიცავს ნიმუშების ამოცნობას, მანქანური სწავლების მოდელებს და რეალურ სამყაროში პროგნოზირების გამოყენებას.

„როგორ ავლენს ხელოვნური ინტელექტი ანომალიებს?“

კარგი პასუხი ალგორითმების ჩამოთვლაზე მეტს უნდა აკეთებდეს. ის უნდა ხსნიდეს მექანიკას და იმას, თუ როგორ გამოიყურება ისინი რეალურ, არასრულყოფილ მონაცემებზე გამოყენებისას. საუკეთესო ახსნა-განმარტებები:

აჩვენეთ ძირითადი ინგრედიენტები: მახასიათებლები , საბაზისო მაჩვენებლები , ქულები და ზღვრული მაჩვენებლები . [1]
პრაქტიკული ოჯახების შედარება: მანძილი, სიმჭიდროვე, ერთი კლასი, იზოლაცია, ალბათური, რეკონსტრუქცია. [1]
დროის სერიების თავისებურებების მართვა: „ნორმალური“ დამოკიდებულია დღის მონაკვეთზე, კვირის დღეს, გამოშვებებსა და არდადეგებზე. [1]
შეფასებას რეალურ შეზღუდვად მოეპყარით: ცრუ განგაში არა მხოლოდ შემაწუხებელია - ისინი ნდობას წვავენ. [4]
ინტერპრეტაციის შესაძლებლობა + ადამიანის ჩართულობა ჩართეთ, რადგან „უცნაურია“ არ არის ძირითადი მიზეზი. [5]

ძირითადი მექანიკა: საბაზისო ხაზები, ქულები, ზღურბლები 🧠

ანომალიური სისტემების უმეტესობა - უცნაური თუ უცნაური - სამ მოძრავ ნაწილად დაიყვანება:

ხედავს მოდელი )

ნედლი სიგნალები იშვიათად არის საკმარისი. თქვენ ან ქმნით მახასიათებლებს (მოძრავი სტატისტიკა, თანაფარდობები, შეფერხებები, სეზონური დელტა) ან სწავლობთ წარმოდგენებს (ჩანერგვები, ქვესივრცეები, რეკონსტრუქციები). [1]

2) ქულების დათვლა (ანუ რამდენად „უცნაურია“ ეს?)

ქულების დათვლის საერთო იდეები მოიცავს:

მანძილზე დაფუძნებული : მეზობლებისგან შორს ყოფნა = ეჭვი. [1]
სიმჭიდროვეზე დაფუძნებული : დაბალი ადგილობრივი სიმჭიდროვე = საეჭვო (LOF არის საორიენტაციო ნიშანი). [1]
ერთი კლასის საზღვრები : ისწავლეთ „ნორმალური“, მონიშნეთ ის, რაც მის მიღმაა. [1]
ალბათური : მორგებული მოდელის შემთხვევაში დაბალი ალბათობა = საეჭვო. [1]
რეკონსტრუქციის შეცდომა : თუ ნორმალურ რეჟიმში გაწვრთნილი მოდელი ვერ ახერხებს მის ხელახლა აწყობას, ის სავარაუდოდ არასწორია. [1]

3) ზღურბლის დაფიქსირება (ანუ ზარის დარეკვის დრო)

ზღვრები შეიძლება იყოს ფიქსირებული, კვანტილებზე დაფუძნებული, სეგმენტზე დაფუძნებული ან ხარჯებზე მგრძნობიარე - მაგრამ ისინი უნდა იყოს დაკალიბრებული განგაშის ბიუჯეტებისა და შემდგომი ხარჯების მიხედვით და არა ვიბრაციების მიხედვით. [4]

ერთი ძალიან პრაქტიკული დეტალი: scikit-learn-ის გამონაკლისების/სიახლის დეტექტორები ავლენენ ნედლ ქულებს და შემდეგ იყენებენ ზღურბლს (რომელიც ხშირად კონტროლდება დაბინძურების სტილის ვარაუდით) ქულების შიდა/გამონაკლისების გადაწყვეტილებებად გადასაყვანად. [2]

სწრაფი განმარტებები, რომლებიც მოგვიანებით ტკივილს თავიდან აგაცილებთ 🧯

ორი განსხვავება, რომელიც გიხსნით დახვეწილი შეცდომებისგან:

გამონაკლისების აღმოჩენა : თქვენი სასწავლო მონაცემები შეიძლება უკვე შეიცავდეს გამონაკლისებს; ალგორითმი მაინც ცდილობს „მკვრივი ნორმალური რეგიონის“ მოდელირებას.
სიახლის აღმოჩენა : სასწავლო მონაცემები სუფთად ითვლება; თქვენ აფასებთ, შეესაბამება თუ არა ახალი დაკვირვებები შესწავლილ ნორმალურ ნიმუშს. [2]

ერთკლასიან კლასიფიკაციად არის ჩამოყალიბებული - ნორმალურის მოდელირება, რადგან არანორმალური მაგალითები მწირია ან განუსაზღვრელია. [1]

ზედამხედველობის გარეშე მომუშავე ცხენები, რომლებსაც ნამდვილად გამოიყენებთ 🧰

როდესაც ეტიკეტები მწირია (რაც ძირითადად ყოველთვის ასეა), რეალურ მილსადენებში ეს არის ინსტრუმენტები, რომლებიც ჩნდება:

იზოლაციის ტყე : ძლიერი ნაგულისხმევი ფუნქცია ბევრ ტაბულურ შემთხვევაში, ფართოდ გამოიყენება პრაქტიკაში და დანერგილია scikit-learn-ში. [2]
ერთკლასიანი SVM : შეიძლება იყოს ეფექტური, მაგრამ მგრძნობიარეა რეგულირებისა და ვარაუდების მიმართ; scikit-learn აშკარად მიუთითებს ჰიპერპარამეტრების ფრთხილად რეგულირების აუცილებლობაზე. [2]
ადგილობრივი გამონაკლის ფაქტორი (LOF) : კლასიკური სიმკვრივეზე დაფუძნებული შეფასება; შესანიშნავია, როდესაც „ნორმალური“ არ არის მოწესრიგებული ლაქა. [1]

პრაქტიკული რამ, რასაც გუნდები ყოველკვირეულად აღმოაჩენენ: LOF განსხვავებულად იქცევა იმისდა მიხედვით, ახორციელებთ თუ არა გამონაკლისის აღმოჩენას სასწავლო ნაკრებში თუ სიახლის აღმოჩენას ახალ მონაცემებში - scikit-learn-ის შემთხვევაშიც კი საჭიროა novelty=True, რათა უსაფრთხოდ დააგროვოთ უხილავი ქულები. [2]

საიმედო საბაზისო ბაზა, რომელიც მაინც მუშაობს, როდესაც მონაცემები არასტაბილურია 🪓

თუ თქვენ იმ რეჟიმში ხართ, რომ „უბრალოდ ისეთი რამ გვჭირდება, რაც დავიწყებაში არ ჩაგვაგდებს“, სანდო სტატისტიკა არასაკმარისად არის შეფასებული.

მოდიფიცირებული z-ქულა იყენებს მედიანას და MAD-ს (საშუალო აბსოლუტური გადახრა) ექსტრემალური მნიშვნელობების მიმართ მგრძნობელობის შესამცირებლად. NIST-ის EDA სახელმძღვანელო აღწერს მოდიფიცირებულ z-ქულას ფორმას და აღნიშნავს ხშირად გამოყენებულ „პოტენციური გამონაკლისის“ წესს 3.5- . [3]

ეს ყველა ანომალიის პრობლემას ვერ გადაჭრის - თუმცა ხშირად ის თავდაცვის ძლიერი პირველი ხაზია, განსაკუთრებით ხმაურიანი მეტრიკისა და ადრეული ეტაპის მონიტორინგისთვის. [3]

დროის სერიის რეალობა: „ნორმალური“ დამოკიდებულია იმაზე, თუ როდის ⏱️📈

დროის სერიების ანომალიები რთულია, რადგან მთელი არსი კონტექსტია: შუადღისას პიკი შეიძლება მოსალოდნელი იყოს; იგივე პიკი დილის 3 საათზე შეიძლება ნიშნავდეს, რომ რაღაც ცეცხლშია. ამიტომ, ბევრი პრაქტიკული სისტემა ნორმალურობის მოდელირებას ახდენს დროის გათვალისწინებით (ჩამორჩენილობები, სეზონური დელტები, მოძრავი ფანჯრები) და აფასებს გადახრებს მოსალოდნელ ნიმუშთან მიმართებაში. [1]

თუ მხოლოდ ერთი წესი გახსოვთ: სეგმენტირეთ თქვენი საბაზისო მაჩვენებელი (საათი/დღე/რეგიონი/მომსახურების დონე), სანამ თქვენი ტრაფიკის ნახევარს „ანომალიურად“ გამოაცხადებთ. [1]

შეფასება: იშვიათი მოვლენების ხაფანგი 🧪

ანომალიის აღმოჩენა ხშირად „ნემსს თივის ზვინში“ ჰგავს, რაც შეფასებას უცნაურს ხდის:

ROC მრუდები შეიძლება მატყუარად კარგად გამოიყურებოდეს, როდესაც დადებითი მაჩვენებლები იშვიათია.
ზუსტი გახსენების ხედები ხშირად უფრო ინფორმაციულია არაბალანსირებული პარამეტრებისთვის, რადგან ისინი ფოკუსირებულია დადებით კლასზე მუშაობაზე. [4]
ოპერატიულად, ასევე გჭირდებათ შეტყობინებების ბიუჯეტი : საათში რამდენი შეტყობინების დახარისხება შეუძლიათ ადამიანებს რეალურად რისხვის შეწყვეტის გარეშე? [4]

მოძრავი ფანჯრების უკუტესტირება დაგეხმარებათ კლასიკური წარუმატებლობის რეჟიმის აღმოჩენაში: „ის შესანიშნავად მუშაობს... გასული თვის დისტრიბუციაზე“. [1]

ინტერპრეტაცია და ძირითადი მიზეზი: აჩვენეთ თქვენი ნამუშევარი 🪄

ახსნა-განმარტების გარეშე გაგზავნა იდუმალი საფოსტო ბარათის მიღებას ჰგავს. ცოტა სასარგებლოა, მაგრამ იმედგაცრუებული.

იმ მახასიათებლების მითითებით, ანომალიის ქულას, ან სტილის ახსნა-განმარტებების მიწოდებით, როგორიცაა „რა უნდა შეიცვალოს, რომ ეს ნორმალურად გამოიყურებოდეს?“. „ინტერპრეტირებადი მანქანური სწავლება “ წარმოადგენს მყარი, კრიტიკული სახელმძღვანელოს გავრცელებული მეთოდების (მათ შორის SHAP სტილის ატრიბუციების) და მათი შეზღუდვების შესახებ. [5]

მიზანი მხოლოდ დაინტერესებული მხარეების კომფორტი არ არის - ეს უფრო სწრაფი ტრიაჟი და განმეორებითი ინციდენტების შემცირებაა.

განლაგება, დრიფტი და უკუკავშირის მარყუჟები 🚀

მოდელები სლაიდებში არ ცხოვრობენ. ისინი მილსადენებში ცხოვრობენ.

„წარმოებაში პირველი თვის“ გავრცელებული ისტორია: დეტექტორი ძირითადად აფიქსირებს განლაგებას, ჯგუფურ დავალებებს და დაკარგული მონაცემებს... რაც მაინც სასარგებლოა , რადგან გაიძულებთ, განასხვავოთ „მონაცემთა ხარისხის ინციდენტები“ „ბიზნეს ანომალიებისგან“.

პრაქტიკაში:

ქცევის ცვლილებისას დრიფტის მონიტორინგი
ქულების შეყვანის ჟურნალი + მოდელის ვერსია , რათა შეძლოთ იმის რეპროდუცირება, თუ რატომ არის რაღაც გვერდად დაწერილი. [5]
ადამიანის უკუკავშირის აღრიცხვა (სასარგებლო და ხმაურიანი შეტყობინებები) დროთა განმავლობაში ზღურბლებისა და სეგმენტების დასარეგულირებლად. [4]

უსაფრთხოების კუთხე: IDS და ქცევითი ანალიტიკა 🛡️

უსაფრთხოების ჯგუფები ხშირად ურევენ ანომალიების იდეებს წესებზე დაფუძნებულ აღმოჩენასთან: „ჩვეულებრივი ჰოსტის ქცევის“ საბაზისო ნიშნულებს, პლუს ხელმოწერებსა და პოლიტიკას ცნობილი ცუდი ნიმუშებისთვის. NIST-ის SP 800-94 (საბოლოო) კვლავ ფართოდ ციტირებადი ჩარჩოა შეჭრის აღმოჩენისა და პრევენციის სისტემის განხილვისთვის; ასევე აღნიშნულია, რომ 2012 წლის პროექტი „Rev. 1“ არასოდეს გამხდარა საბოლოო და მოგვიანებით ამოღებულია. [3]

თარგმანი: გამოიყენეთ მანქანური სწავლება იქ, სადაც ეს დაგეხმარებათ, მაგრამ ნუ გადააგდებთ მოსაწყენ წესებს - ისინი მოსაწყენია, რადგან მუშაობენ.

შედარების ცხრილი: პოპულარული მეთოდების მიმოხილვა 📊

ინსტრუმენტი / მეთოდი	საუკეთესოა	რატომ მუშაობს (პრაქტიკაში)
მყარი / მოდიფიცირებული z-ქულები	მარტივი მეტრიკები, სწრაფი საბაზისო მაჩვენებლები	ძლიერი პირველი გავლა, როდესაც „საკმარისად კარგი“ გჭირდებათ და ნაკლები ცრუ განგაში. [3]
იზოლირებული ტყე	ტაბულური, შერეული მახასიათებლები	მყარი ნაგულისხმევი იმპლემენტაცია და პრაქტიკაში ფართოდ გამოყენება. [2]
ერთკლასიანი SVM	კომპაქტური „ნორმალური“ რეგიონები	საზღვრებზე დაფუძნებული სიახლის აღმოჩენა; რეგულირებას დიდი მნიშვნელობა აქვს. [2]
ადგილობრივი გამონაკლის ფაქტორი	მანიფოლდის მსგავსი ნორმები	სიმკვრივის კონტრასტი მეზობლებთან შედარებით ლოკალურ უცნაურობას აფიქსირებს. [1]
რეკონსტრუქციის შეცდომა (მაგ., ავტოენკოდერის სტილი)	მაღალი განზომილების ნიმუშები	ნორმალური ტემპით სწავლება; რეკონსტრუქციის დიდმა შეცდომებმა შეიძლება გადახრების ნიშანი გამოიწვიოს. [1]

ჩეთ კოდი: დაიწყეთ ძლიერი საბაზისო ხაზებით + მოსაწყენი, უკონტროლო მეთოდით, შემდეგ კი დაამატეთ სირთულე მხოლოდ იქ, სადაც ეს ღირს.

მინი სახელმძღვანელო: ნულიდან გაფრთხილებებამდე 🧭

განსაზღვრეთ „უცნაური“ ოპერაციულად (შეყოვნება, თაღლითობის რისკი, პროცესორის ტრაფიკი, ინვენტარიზაციის რისკი).
დაიწყეთ საბაზისო დონით (მყარი სტატისტიკა ან სეგმენტირებული ზღურბლები). [3]
აირჩიეთ ერთი უკონტროლო მოდელი (იზოლაციის ტყე / LOF / ერთკლასიანი SVM). [2]
დააწესეთ ზღვრები განგაშის ბიუჯეტით და შეაფასეთ PR სტილის აზროვნებით, თუ დადებითი შედეგები იშვიათია. [4]
დაამატეთ განმარტებები + ჟურნალირება , რათა ყველა შეტყობინება იყოს რეპროდუცირებადი და გამართვადი. [5]
უკუტესტირება, გაგზავნა, სწავლა, ხელახალი დაკალიბრება - დრიფტი ნორმალურია. [1]

ამის გაკეთება აბსოლუტურად ერთ კვირაში შეგიძლია... იმ პირობით, რომ შენი დროის ნიშნულები ლენტითა და იმედით არ არის დამაგრებული. 😅

დასკვნითი შენიშვნები - ძალიან გრძელია, არ წამიკითხავს🧾

ხელოვნური ინტელექტი ანომალიებს აფიქსირებს „ნორმის“ პრაქტიკული სურათის შესწავლით, გადახრების შეფასებით და ზღვარს გადაკვეთის ნიშნების აღნიშვნით. საუკეთესო სისტემები იმარჯვებენ არა თვალისმომჭრელი ხილვადობით, არამედ დაკალიბრებით : სეგმენტირებული საბაზისო ხაზები, განგაშის ბიუჯეტები, ინტერპრეტირებადი გამომავალი მონაცემები და უკუკავშირის მარყუჟი, რომელიც ხმაურიან სიგნალებს სანდო სიგნალად აქცევს. [1]

ცნობები

პიმენტელი და სხვ. (2014) - სიახლის აღმოჩენის მიმოხილვა (PDF, ოქსფორდის უნივერსიტეტი) წაიკითხეთ მეტი
scikit-learn დოკუმენტაცია - სიახლის და გამონაკლისების აღმოჩენა წაიკითხეთ მეტი
NIST/SEMATECH ელექტრონული სახელმძღვანელო - გამონაკლისების აღმოჩენა წაიკითხეთ მეტი და NIST CSRC - SP 800-94 (საბოლოო): შეჭრის აღმოჩენისა და პრევენციის სისტემების (IDPS) სახელმძღვანელო წაიკითხეთ მეტი
საიტო და რემსმაიერი (2015) - დისბალანსირებულ მონაცემთა ნაკრებებზე ბინარული კლასიფიკატორების შეფასებისას, ზუსტი გახსენების დიაგრამა უფრო ინფორმაციულია, ვიდრე ROC დიაგრამა (PLOS ONE). წაიკითხეთ მეტი.
მოლნარი - ინტერპრეტაბელური მანქანური სწავლება (ვებ წიგნი) წაიკითხეთ მეტი

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება

ქვეყანა/რეგიონი