თუ ხელოვნური ინტელექტის სისტემებს აწყობთ, ყიდულობთ ან უბრალოდ აფასებთ, ერთ მატყუარად მარტივ კითხვას წააწყდებით: რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები და რატომ არის ის ასეთი მნიშვნელოვანი? მოკლედ: ეს არის თქვენი მოდელის საწვავი, კულინარიული წიგნი და ზოგჯერ კომპასიც.
სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:
🔗 როგორ პროგნოზირებს ხელოვნური ინტელექტი ტენდენციებს
იკვლევს, თუ როგორ აანალიზებს ხელოვნური ინტელექტი ნიმუშებს მომავალი მოვლენებისა და ქცევების პროგნოზირებისთვის.
🔗 როგორ გავზომოთ ხელოვნური ინტელექტის მუშაობა
სიზუსტის, ეფექტურობისა და მოდელის სანდოობის შეფასების მეტრიკები და მეთოდები.
🔗 როგორ ვესაუბროთ ხელოვნურ ინტელექტს
ხელოვნური ინტელექტის მიერ გენერირებული პასუხების გასაუმჯობესებლად უკეთესი ურთიერთქმედებების შექმნის ინსტრუქცია.
🔗 რა არის ხელოვნური ინტელექტის სტიმულირება?
მიმოხილვა, თუ როგორ ქმნიან მინიშნებები ხელოვნური ინტელექტის შედეგებს და კომუნიკაციის საერთო ხარისხს.
რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები? მოკლე განმარტება 🧩
რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები? ეს არის მაგალითების ერთობლიობა, საიდანაც თქვენი მოდელი სწავლობს ან რომლებზეც ხდება მისი შეფასება. თითოეულ მაგალითს აქვს:
-
შეყვანები - მახასიათებლები, რომლებსაც მოდელი ხედავს, როგორიცაა ტექსტის ფრაგმენტები, სურათები, აუდიო, ცხრილის რიგები, სენსორის ჩვენებები, გრაფიკები.
-
მიზნები - ეტიკეტები ან შედეგები, რომლებიც მოდელმა უნდა იწინასწარმეტყველოს, როგორიცაა კატეგორიები, რიცხვები, ტექსტის სიგრძეები, მოქმედებები ან ზოგჯერ საერთოდ არაფერი.
-
მეტამონაცემები - კონტექსტი, როგორიცაა წყარო, შეგროვების მეთოდი, დროის ნიშნულები, ლიცენზიები, თანხმობის ინფორმაცია და ხარისხის შესახებ შენიშვნები.
წარმოიდგინეთ ეს, როგორც თქვენი მოდელისთვის განკუთვნილი ფრთხილად შეფუთული სადილის ყუთი: ინგრედიენტები, ეტიკეტები, კვებითი ღირებულება და დიახ, წებოვანი ფურცელი წარწერით „არ შეჭამოთ ეს ნაწილი“. 🍱
ზედამხედველობის ქვეშ მყოფი დავალებების შემთხვევაში, თქვენ ნახავთ შეყვანის მონაცემებს, რომლებიც დაწყვილებულია აშკარა ეტიკეტებით. ზედამხედველობის გარეშე დავალებების შემთხვევაში, თქვენ ნახავთ შეყვანის მონაცემებს ეტიკეტების გარეშე. გაძლიერებული სწავლებისთვის, მონაცემები ხშირად ჰგავს ეპიზოდებს ან ტრაექტორიებს მდგომარეობებით, მოქმედებებით, ჯილდოებით. მულტიმოდალური სამუშაოსთვის, მაგალითები შეიძლება გაერთიანდეს ტექსტი + სურათი + აუდიო ერთ ჩანაწერში. ჟღერს ფანტასტიურად; ძირითადად სანტექნიკაა.
სასარგებლო სახელმძღვანელოები და პრაქტიკები: მონაცემთა ნაკრებების მონაცემთა ფურცლების იდეა ეხმარება გუნდებს ახსნან, თუ რა არის შიგნით და როგორ უნდა იქნას გამოყენებული [1], ხოლო მოდელის ბარათები ავსებს მონაცემთა დოკუმენტაციას მოდელის მხარეს [2].

რა ქმნის კარგ ხელოვნური ინტელექტის მონაცემთა ნაკრებს ✅
მოდით, ვიყოთ გულახდილები, ბევრი მოდელი წარმატებულია, რადგან მონაცემთა ნაკრები საშინელი არ იყო. „კარგი“ მონაცემთა ნაკრებია:
-
რეალური გამოყენების შემთხვევების წარმომადგენელია
-
ზუსტად მონიშნული , მკაფიო მითითებებითა და პერიოდული განხილვით. შეთანხმების მეტრიკები (მაგ., კაპას სტილის საზომები) ხელს უწყობს თანმიმდევრულობის შემოწმებას.
-
სრულყოფილი და დაბალანსებული , რათა თავიდან აიცილოთ ჩუმი მარცხი გრძელ კუდებზე. დისბალანსი ნორმალურია; დაუდევრობა - არა.
-
წარმომავლობა სუფთაა , თანხმობით, ლიცენზიითა და ნებართვებით დოკუმენტირებული. მოსაწყენი დოკუმენტაცია ხელს უშლის საინტერესო სასამართლო დავებს.
-
კარგად დოკუმენტირებულია მონაცემთა ბარათების ან მონაცემთა ფურცლების გამოყენებით, რომლებიც აღწერენ დანიშნულ გამოყენებას, შეზღუდვებს და ცნობილ გაუმართაობის რეჟიმებს [1]
-
რეგულირება ხდება ვერსიონირების, ცვლილებების ჟურნალებისა და დამტკიცებების მეშვეობით. თუ მონაცემთა ნაკრების რეპროდუცირება შეუძლებელია, მოდელის რეპროდუცირებაც შეუძლებელია. NIST-ის ხელოვნური ინტელექტის რისკების მართვის ჩარჩოს მონაცემთა ხარისხსა და დოკუმენტაციას პირველი კლასის საზრუნავად მიიჩნევს [3].
ხელოვნური ინტელექტის მონაცემთა ნაკრებების ტიპები, იმის მიხედვით, თუ რას აკეთებთ 🧰
დავალების მიხედვით
-
კლასიფიკაცია - მაგ., სპამი vs არასპამი, სურათების კატეგორიები.
-
რეგრესია - უწყვეტი მნიშვნელობის, მაგალითად, ფასის ან ტემპერატურის, პროგნოზირება.
-
თანმიმდევრობის მარკირება - დასახელებული ერთეულები, მეტყველების ნაწილები.
-
თაობა - შეჯამება, თარგმანი, სურათების წარწერა.
-
რეკომენდაცია - მომხმარებელი, ნივთი, ურთიერთქმედებები, კონტექსტი.
-
ანომალიის აღმოჩენა - იშვიათი მოვლენები დროის სერიებში ან ჟურნალებში.
-
გაძლიერებული სწავლება - მდგომარეობა, მოქმედება, ჯილდო, შემდეგი მდგომარეობის თანმიმდევრობები.
-
მოძიება - დოკუმენტები, შეკითხვები, შესაბამისობის შესახებ გადაწყვეტილებები.
მოდალობით
-
ტაბულური - სვეტები, როგორიცაა ასაკი, შემოსავალი, თანამშრომლების გადინება. დაუფასებელი, სასტიკად ეფექტური.
-
ტექსტი - დოკუმენტები, ჩატები, კოდი, ფორუმის პოსტები, პროდუქტის აღწერილობები.
-
სურათები - ფოტოები, სამედიცინო სკანირება, თანამგზავრის ფილები; ნიღბებით ან მათ გარეშე, ყუთები, საკვანძო წერტილები.
-
აუდიო - ტალღის ფორმები, ტრანსკრიპტები, დინამიკის ტეგები.
-
ვიდეო - კადრი, დროითი ანოტაციები, მოქმედების ეტიკეტები.
-
გრაფიკები - კვანძები, კიდეები, ატრიბუტები.
-
დროის სერიები - სენსორები, ფინანსები, ტელემეტრია.
ზედამხედველობით
-
ეტიკეტირებული (ოქრო, ვერცხლი, ავტომატური ეტიკეტით), სუსტად ეტიკეტირებული , არაეტიკეტირებული , სინთეტიკური . მაღაზიაში ნაყიდი ნამცხვრის მიქსი შეიძლება კარგი იყოს - თუ ყუთს წაიკითხავთ.
ჩარჩოს შიგნით: სტრუქტურა, დაყოფა და მეტამონაცემები 📦
მყარი მონაცემთა ნაკრები, როგორც წესი, მოიცავს:
-
სქემა - აკრეფილი ველები, ერთეულები, დაშვებული მნიშვნელობები, ნულის დამუშავება.
-
გაყოფები - ტრენინგი, ვალიდაცია, ტესტირება. შეინახეთ ტესტის მონაცემები დალუქულად - მოეპყარით მათ, როგორც შოკოლადის ბოლო ნაჭერს.
-
შერჩევის გეგმა - როგორ ამოიღეთ მაგალითები პოპულაციიდან; მოერიდეთ მოხერხებულობის ნიმუშების აღებას ერთი რეგიონიდან ან მოწყობილობიდან.
-
აუგმენტაციები - გადაბრუნებები, ამოჭრა, ხმაური, პერიფრაზები, ნიღბები. კარგია, როდესაც გულწრფელია; მავნე, როდესაც იგონებენ ნიმუშებს, რომლებიც არასდროს ხდება ველურ ბუნებაში.
-
ვერსიირება - მონაცემთა ნაკრები v0.1, v0.2… დელტას აღმწერი ცვლილებების ჟურნალებით.
-
ლიცენზიები და თანხმობა - გამოყენების უფლებები, გადანაწილება და წაშლის ნაკადები. მონაცემთა დაცვის ეროვნული მარეგულირებელი ორგანოები (მაგ., დიდი ბრიტანეთის ICO) უზრუნველყოფენ პრაქტიკულ, კანონიერი დამუშავების საკონტროლო სიებს [4].
მონაცემთა ნაკრების სასიცოცხლო ციკლი, ეტაპობრივად 🔁
-
განსაზღვრეთ გადაწყვეტილება - რას გადაწყვეტს მოდელი და რა მოხდება, თუ ის არასწორი იქნება.
-
მასშტაბის მახასიათებლები და ეტიკეტები - გაზომვადი, დაკვირვებადი, შეგროვებისთვის ეთიკური.
-
წყაროს მონაცემები - ინსტრუმენტები, ჟურნალები, გამოკითხვები, საჯარო კორპუსები, პარტნიორები.
-
თანხმობა და იურიდიული ინფორმაცია - კონფიდენციალურობის შეტყობინებები, უარის თქმა, მონაცემთა მინიმიზაცია. იხილეთ მარეგულირებელი ორგანოს მითითებები „რატომ“ და „როგორ“-სთვის [4].
-
შეგროვება და შენახვა - უსაფრთხო შენახვა, როლებზე დაფუძნებული წვდომა, პირადი ინფორმაციის დამუშავება.
-
ლეიბლი - შიდა ანოტატორები, კრაუდსორსინგი, ექსპერტები; ხარისხის მართვა ოქროს დონის ამოცანებით, აუდიტებითა და შეთანხმების მეტრიკებით.
-
გაწმენდა და ნორმალიზება - დუბლირების მოხსნა, ხარვეზების დამუშავება, ერთეულების სტანდარტიზაცია, კოდირების გასწორება. მოსაწყენი, გმირული სამუშაო.
-
გაყოფა და ვალიდაცია - გაჟონვის თავიდან აცილება; საჭიროების შემთხვევაში სტრატიფიცირება; დროითი მონაცემებისთვის უპირატესობა მიანიჭეთ დროის მიხედვით განაწილებას; და საიმედო შეფასებებისთვის გააზრებულად გამოიყენეთ ჯვარედინი ვალიდაცია [5].
-
დოკუმენტი - მონაცემთა ცხრილი ან მონაცემთა ბარათი; დანიშნულებისამებრ გამოყენება, გაფრთხილებები, შეზღუდვები [1].
-
მონიტორინგი და განახლება - დრიფტის აღმოჩენა, განახლების კადენცია, გაუქმების გეგმები. NIST-ის ხელოვნური ინტელექტის RMF ქმნის ამ მიმდინარე მმართველობით მარყუჟს [3].
სწრაფი, რეალური სამყაროსგან მიღებული რჩევა: გუნდები ხშირად „დემო სესიას იგებენ“, მაგრამ წარმოებაში ცუდ შედეგებს აწყდებიან, რადგან მათი მონაცემთა ნაკრები ჩუმად იცვლება - ახალი პროდუქციის ხაზები, გადარქმეული ველი ან შეცვლილი პოლიტიკა. მარტივი ცვლილებების ჟურნალი + პერიოდული ხელახალი ანოტაციების გავლა ამ პრობლემის უმეტეს ნაწილს აგარიდებთ.
მონაცემთა ხარისხი და შეფასება - არც ისე მოსაწყენია, როგორც ჟღერს 🧪
ხარისხი მრავალგანზომილებიანია:
-
სიზუსტე - სწორია თუ არა ეტიკეტები? გამოიყენეთ შეთანხმების მეტრიკა და პერიოდული შეფასება.
-
სისრულე - დაფარეთ ის სფეროები და კლასები, რომლებიც ნამდვილად გჭირდებათ.
-
თანმიმდევრულობა - მოერიდეთ მსგავსი შეყვანისთვის წინააღმდეგობრივ ეტიკეტებს.
-
დროულობა - მოძველებული მონაცემები ვარაუდებს აქვეითებს.
-
სამართლიანობა და მიკერძოება - დემოგრაფიული მონაცემების, ენების, მოწყობილობების, გარემოს გაშუქება; დაიწყეთ აღწერითი აუდიტით, შემდეგ კი სტრეს-ტესტებით. დოკუმენტაციისადმი პირველ რიგში ორიენტირებული პრაქტიკა (მონაცემთა ფურცლები, მოდელის ბარათები) ამ შემოწმებებს თვალსაჩინოს ხდის [1], ხოლო მმართველობის ჩარჩოები მათ რისკების კონტროლის ფუნქციად აქცევს [3].
მოდელის შესაფასებლად გამოიყენეთ სათანადო დაყოფა და თვალყური ადევნეთ როგორც საშუალო მეტრიკებს, ასევე ყველაზე ცუდი ჯგუფის მეტრიკებს. ბრწყინვალე საშუალო მაჩვენებელს შეუძლია კრატერის დამალვა. ჯვარედინი ვალიდაციის საფუძვლები კარგად არის განხილული სტანდარტულ მანქანური სწავლების დოკუმენტებში [5].
ეთიკა, კონფიდენციალურობა და ლიცენზირება - დამცავი ბარიერები 🛡️
ეთიკური მონაცემები არ არის ვიბრაცია, ეს პროცესია:
-
თანხმობა და მიზნის შეზღუდვა - ნათლად მიუთითეთ გამოყენებისა და სამართლებრივი საფუძვლების შესახებ [4].
-
პირადი ინფორმაციის დამუშავება - საჭიროებისამებრ, მინიმუმამდე დაიყვანეთ, ფსევდონიმიზება მოახდინეთ ან ანონიმიზაცია მოახდინეთ; მაღალი რისკების შემთხვევაში, განიხილეთ კონფიდენციალურობის გამაძლიერებელი ტექნოლოგიების გამოყენება.
-
ატრიბუცია და ლიცენზიები - პატივი ეცით გაზიარების და კომერციული გამოყენების შეზღუდვებს.
-
მიკერძოება და ზიანი - შეამოწმეთ ყალბი კორელაციები („დღის სინათლე = უსაფრთხო“ ღამით ძალიან დამაბნეველი იქნება).
-
გამოსწორება - იცოდეთ, თუ როგორ წაშალოთ მონაცემები მოთხოვნის შემთხვევაში და როგორ გააუქმოთ მათზე გაწვრთნილი მოდელები (ამის შესახებ დოკუმენტირება მოახდინეთ თქვენს მონაცემთა ცხრილში) [1].
რამდენად დიდია საკმარისად დიდი? ზომები და სიგნალი-ხმაურის თანაფარდობა 📏
ზოგადი წესი: მეტი მაგალითი, როგორც წესი, სასარგებლოა, თუ ისინი რელევანტურია და არა თითქმის დუბლიკატები. თუმცა, ზოგჯერ უკეთესია ნაკლები, უფრო სუფთა და უკეთ მონიშნული ნიმუშების გამოყენება, ვიდრე უამრავი არეული მაგალითის გამოყენება.
დააკვირდით:
-
სწავლის მრუდები - აჩვენეთ გრაფიკის შესრულება ნიმუშის ზომასთან შედარებით, რათა ნახოთ, შეზღუდული ხართ მონაცემებზე თუ მოდელზე.
-
გრძელი კუდის დაფარვა - იშვიათ, მაგრამ კრიტიკულ კლასებს ხშირად სჭირდებათ მიზნობრივი შეგროვება და არა მხოლოდ უფრო დიდი რაოდენობით.
-
ხმაურის აღნიშვნა - გაზომეთ, შემდეგ შეამცირეთ; მცირე ხმაური ასატანია, მოქცევითი ტალღა - არა.
-
განაწილების ცვლილება - ერთი რეგიონიდან ან არხიდან მიღებული ტრენინგის მონაცემები შეიძლება არ განზოგადდეს მეორეზე; დაადასტურეთ სამიზნის მსგავს ტესტის მონაცემებზე [5].
ეჭვის შემთხვევაში, გამოიყენეთ მცირე ზომის პილოტური ვერსიები და გააფართოვეთ. ეს სანელებლების დამატებას ჰგავს - დაამატეთ, გასინჯეთ, შეასწორეთ, გაიმეორეთ.
სად ვიპოვოთ და მართოთ მონაცემთა ნაკრებები 🗂️
პოპულარული რესურსები და ინსტრუმენტები (URL-ების დამახსოვრება ამჟამად საჭირო არ არის):
-
ჩახუტების სახის მონაცემთა ნაკრებები - პროგრამული ჩატვირთვა, დამუშავება, გაზიარება.
-
Google-ის მონაცემთა ნაკრებების ძიება - მეტაძიება მთელ ინტერნეტში.
-
UCI ML საცავი - შერჩეული კლასიკური ნაწარმოებები საბაზისო და სწავლებისთვის.
-
OpenML - ამოცანები + მონაცემთა ნაკრებები + გაშვებები წარმოშობით.
-
AWS Open Data / Google Cloud Public Datasets - ჰოსტირებული, მასშტაბური კორპორაციები.
პროფესიონალური რჩევა: უბრალოდ არ ჩამოტვირთოთ. წაიკითხეთ ლიცენზია და მონაცემთა ცხრილი , შემდეგ კი თქვენივე ასლი ვერსიის ნომრებითა და წარმომავლობით დააფიქსირეთ [1].
ეტიკეტირება და ანოტაცია - სადაც სიმართლეზე მოლაპარაკებები მიმდინარეობს ✍️
ანოტაცია არის ის, სადაც თქვენი თეორიული ეტიკეტების სახელმძღვანელო რეალობას ებრძვის:
-
დავალების დიზაინი - დაწერეთ მკაფიო ინსტრუქციები მაგალითებითა და კონტრმაგალითებით.
-
ანოტატორის ტრენინგი - ოქროს პასუხებით დათესვა, კალიბრაციის რაუნდების გაშვება.
-
ხარისხის კონტროლი - შეთანხმების მეტრიკის, კონსენსუსის მექანიზმებისა და პერიოდული აუდიტის გამოყენება.
-
ინსტრუმენტები - აირჩიეთ ინსტრუმენტები, რომლებიც ახორციელებენ სქემის ვალიდაციისა და განხილვის რიგების აღსრულებას; წესებთან და შემოწმებებთან მუშაობა ცხრილებსაც კი შეუძლიათ.
-
უკუკავშირის ციკლები - ანოტატორის შენიშვნების აღრიცხვა და შეცდომების მოდელირება სახელმძღვანელოს დახვეწის მიზნით.
თუ ეს ისეთი შეგრძნება გეუფლება, თითქოს ლექსიკონს რედაქტირებ სამ მეგობართან ერთად, რომლებიც მძიმეებზე არ ეთანხმებიან ერთმანეთს... ეს ნორმალურია. 🙃
მონაცემთა დოკუმენტირება - იმპლიციტური ცოდნის ექსპლიციტურად გადაქცევა 📒
მსუბუქი მონაცემთა ცხრილი ან მონაცემთა ბარათი უნდა მოიცავდეს:
-
ვინ შეაგროვა იგი, როგორ და რატომ.
-
განკუთვნილი და ფარგლებს გარეთ გამოყენება.
-
ცნობილი ხარვეზები, მიკერძოებები და წარუმატებლობის რეჟიმები.
-
პროტოკოლის ეტიკეტირება, ხარისხის უზრუნველყოფის ეტაპები და შეთანხმების სტატისტიკა.
-
ლიცენზია, თანხმობა, პრობლემების შემთხვევაში კონტაქტი, წაშლის პროცესი.
შაბლონები და მაგალითები: მონაცემთა ნაკრებებისა და მოდელის ბარათების ფართოდ გამოიყენება საწყის წერტილებში [1].
ჩაწერეთ ის შექმნისას და არა დასრულების შემდეგ. მეხსიერება არასტაბილური შენახვის საშუალებაა.
შედარების ცხრილი - ადგილები, სადაც შეგიძლიათ იპოვოთ ან განათავსოთ ხელოვნური ინტელექტის მონაცემთა ნაკრებები 📊
კი, ეს ცოტა სუბიექტური მოსაზრებაა. ფორმულირებაც განგებ ოდნავ არათანაბარია. არა უშავს.
| ინსტრუმენტი / საცავი | აუდიტორია | ფასი | რატომ მუშაობს პრაქტიკაში |
|---|---|---|---|
| ჩახუტების სახის მონაცემთა ნაკრებები | მკვლევარები, ინჟინრები | თავისუფალი იარუსი | სწრაფი ჩატვირთვა, სტრიმინგი, საზოგადოების სკრიპტები; შესანიშნავი დოკუმენტები; ვერსიირებული მონაცემთა ნაკრებები |
| Google-ის მონაცემთა ნაკრებების ძიება | ყველა | უფასო | ფართო ზედაპირის ფართობი; შესანიშნავია აღმოჩენისთვის; თუმცა ზოგჯერ არათანმიმდევრული მეტამონაცემები |
| UCI ML საცავი | სტუდენტები, პედაგოგები | უფასო | შერჩეული კლასიკა; პატარა, მაგრამ მოწესრიგებული; კარგია საბაზისო და სწავლებისთვის |
| OpenML | რეპროდუცირების მკვლევრები | უფასო | დავალებები + მონაცემთა ნაკრებები + ერთად გაშვება; კარგი წარმოშობის ბილიკები |
| AWS-ის ღია მონაცემების რეესტრი | მონაცემთა ინჟინრები | ძირითადად უფასო | პეტაბაიტების მასშტაბის ჰოსტინგი; ღრუბლოვანი წვდომა; საათის გასვლის ხარჯები |
| Kaggle მონაცემთა ნაკრებები | პრაქტიკოსები | უფასო | მარტივი გაზიარება, სკრიპტები, კონკურსები; საზოგადოების სიგნალები ხმაურის გაფილტვრაში ეხმარება |
| Google Cloud-ის საჯარო მონაცემთა ნაკრებები | ანალიტიკოსები, გუნდები | უფასო + ღრუბელი | ჰოსტინგი კომპუტაციის მახლობლად; BigQuery ინტეგრაცია; სიფრთხილე ბილინგის დროს |
| აკადემიური პორტალები, ლაბორატორიები | ნიშის ექსპერტები | მერყეობს | მაღალ სპეციალიზებული; ზოგჯერ არასაკმარისად დოკუმენტირებული - მაინც ღირს ძებნა |
(თუ უჯრედი ლაქლაქურად გამოიყურება, ეს განზრახ არის.)
პირველის აწყობა - პრაქტიკული სასტარტო ნაკრები 🛠️
გსურთ, „რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები“-დან გადახვიდეთ „მე შევქმენი და მუშაობს“-ზე. სცადეთ ეს მინიმალური გზა:
-
დაწერეთ გადაწყვეტილება და მეტრიკა - მაგალითად, შეამცირეთ შემომავალი მხარდაჭერის არასწორი მარშრუტები სწორი გუნდის პროგნოზირებით. მეტრიკა: macro-F1.
-
ჩამოთვალეთ 5 დადებითი და 5 უარყოფითი მაგალითი - აიღეთ რეალური ბილეთების ნიმუშები; ნუ შექმნით თაღლითობას.
-
შეადგინეთ ეტიკეტის სახელმძღვანელო - ერთგვერდიანი; ჩართვის/გამორიცხვის მკაფიო წესები.
-
შეაგროვეთ მცირე, რეალური ნიმუში - რამდენიმე ასეული ბილეთი სხვადასხვა კატეგორიაში; ამოიღეთ არასაჭირო პირადი ინფორმაცია.
-
გაყოფა გაჟონვის შემოწმებით - შეინახეთ ერთი და იგივე მომხმარებლისგან მიღებული ყველა შეტყობინება ერთ გაყოფაში; გამოიყენეთ ჯვარედინი ვალიდაცია ვარიაციის შესაფასებლად [5].
-
ანოტაცია ხარისხის შემოწმებით - ორი ანოტატორი ქვესიმრავლეზე; უთანხმოებების მოგვარება; სახელმძღვანელოს განახლება.
-
მარტივი საბაზისო ხაზის მომზადება - პირველ რიგში ლოჯისტიკა (მაგ., ხაზოვანი მოდელები ან კომპაქტური ტრანსფორმატორები). საქმე მონაცემების შემოწმებაშია და არა მედლების მოგებაში.
-
გადახედეთ შეცდომებს - სად ხდება მისი ჩავარდნა და რატომ; განაახლეთ მონაცემთა ნაკრები და არა მხოლოდ მოდელი.
-
დოკუმენტი - მცირე მონაცემთა ცხრილი: წყარო, ეტიკეტის სახელმძღვანელო ბმული, დაყოფები, ცნობილი ლიმიტები, ლიცენზია [1].
-
დაგეგმეთ განახლება - ახალი კატეგორიები, ახალი ჟარგონი, ახალი დომენები ჩამოდის; დაგეგმეთ მცირე, ხშირი განახლებები [3].
ამ ციკლიდან ათასჯერ მეტის სწავლას შეძლებთ, ვიდრე უამრავი სხვა ვერსიიდან. ასევე, შეინახეთ სარეზერვო ასლები. გთხოვთ.
გუნდებში შეუმჩნეველი დატოვებული გავრცელებული ხაფანგები 🪤
-
მონაცემთა გაჟონვა - პასუხი ფუნქციებში იკარგება (მაგ., შედეგების პროგნოზირებისთვის შემდგომი გადაწყვეტის ველების გამოყენება). მოტყუებას ჰგავს, რადგან ასეა.
-
ზედაპირული მრავალფეროვნება - ერთი გეოგრაფია ან მოწყობილობა გლობალურად გვევლინება. ტესტები სიუჟეტის შემობრუნებას გამოავლენს.
-
ეტიკეტის დრიფტი - კრიტერიუმები დროთა განმავლობაში იცვლება, მაგრამ ეტიკეტის სახელმძღვანელო არა. დაადოკუმენტირეთ და ვერსიფიცირეთ თქვენი ონტოლოგია.
-
დაუზუსტებელი მიზნები - თუ ცუდი პროგნოზის განსაზღვრა არ შეგიძლიათ, თქვენი მონაცემებიც ვერ შეძლებს ამას.
-
არეული ლიცენზიები - ახლა წაშლა და მოგვიანებით ბოდიშის მოხდა, სტრატეგია არ არის.
-
ზედმეტი გადიდება - სინთეზური მონაცემები, რომლებიც არარეალურ არტეფაქტებს ასწავლის, მაგალითად, შეფ-მზარეულის პლასტმასის ხილზე წვრთნას.
მოკლე ხშირად დასმული კითხვები თავად ფრაზის შესახებ ❓
-
„რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები?“ მხოლოდ განმარტებაა? ძირითადად, მაგრამ ეს ასევე იმის სიგნალია, რომ თქვენ ზრუნავთ მოსაწყენ დეტალებზე, რომლებიც მოდელებს სანდოს ხდის.
-
ყოველთვის მჭირდება თუ არა ეტიკეტები? არა. ზედამხედველობის გარეშე, თვითზედამხედველობის ქვეშ მყოფი და RL კონფიგურაციები ხშირად გამოტოვებენ ექსპლიციტურ ეტიკეტებს, მაგრამ კურაციას მაინც აქვს მნიშვნელობა.
-
შემიძლია საჯარო მონაცემების გამოყენება რაიმე მიზნით? არა. პატივი ეცით ლიცენზიებს, პლატფორმის პირობებს და კონფიდენციალურობის ვალდებულებებს [4].
-
უფრო დიდი თუ უკეთესი? იდეალურ შემთხვევაში, ორივე. თუ არჩევანის გაკეთება გიწევთ, ჯერ უკეთესი აირჩიეთ.
დასკვნითი შენიშვნები - რისი გადაღება შეგიძლიათ სკრინშოტში 📌
თუ ვინმე გკითხავთ, რა არის ხელოვნური ინტელექტის მონაცემთა ნაკრები , უპასუხეთ: ეს არის კურირებული, დოკუმენტირებული მაგალითების კოლექცია, რომელიც ასწავლის და ამოწმებს მოდელს, შეფუთული მმართველობით, რათა ადამიანებმა ენდონ შედეგებს. საუკეთესო მონაცემთა ნაკრებები წარმომადგენლობითი, კარგად მონიშნული, იურიდიულად სუფთა და მუდმივად მოვლილია. დანარჩენი დეტალებია - მნიშვნელოვანი დეტალები - სტრუქტურის, გაყოფების და ყველა იმ პატარა დამცავი ბარიერის შესახებ, რომელიც ხელს უშლის მოდელებს ტრაფიკში ხეტიალში. ზოგჯერ პროცესი ცხრილებით მებაღეობას ჰგავს; ზოგჯერ კი - პიქსელების გროვას. ნებისმიერ შემთხვევაში, ჩადეთ ინვესტიცია მონაცემებში და თქვენი მოდელები ნაკლებად უცნაურად იმოქმედებენ. 🌱🤖
ცნობები
[1] მონაცემთა ნაკრებების მონაცემთა ფურცლები - Gebru და სხვ., arXiv. ბმული
[2] მოდელის ანგარიშგების სამოდელო ბარათები - Mitchell და სხვ., arXiv. ბმული
[3] NIST ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) . ბმული
[4] დიდი ბრიტანეთის GDPR სახელმძღვანელოები და რესურსები - ინფორმაციის კომისრის ოფისი (ICO). ბმული
[5] ჯვარედინი ვალიდაცია: შემფასებლის მუშაობის შეფასება - scikit-learn მომხმარებლის სახელმძღვანელო. ბმული