საიდან იღებს ხელოვნური ინტელექტი ინფორმაციას?

ოდესმე გიცდიათ თავის მოფხანა, თუ... საიდან მოდის ეს ყველაფერი სინამდვილეში? ვგულისხმობ, ხელოვნური ინტელექტი არ ათვალიერებს მტვრიან ბიბლიოთეკებს და არც YouTube-ის მოკლემეტრაჟიან ვიდეოებს უყურებს ფარულად. თუმცა, ის როგორღაც ყველაფერზე პასუხებს პოულობს - ლაზანიაზე ილეთებიდან დაწყებული შავი ხვრელის ფიზიკით დამთავრებული - თითქოს შიგნით რაღაც უძირო საქაღალდე ჰქონდეს. რეალობა უფრო უცნაურია და შესაძლოა უფრო საინტერესოც, ვიდრე წარმოგიდგენიათ. მოდით, ცოტა გავხსნათ (და დიახ, შესაძლოა, გზადაგზა რამდენიმე მითიც გავამსხვრიოთ).

ჯადოქრობაა? 🌐

ეს ჯადოქრობა არ არის, თუმცა ზოგჯერ ასეც ჩანს. ის, რაც ამ ყველაფრის მიღმა ხდება, ძირითადად, კანონზომიერების პროგნოზირებაა . დიდი ენობრივი მოდელები (LLM) ფაქტებს ისე არ ინახავს , როგორც თქვენი ტვინი ინახავს ბებიის ორცხობილის რეცეპტს; ამის ნაცვლად, ისინი გაწვრთნილნი არიან, რომ გამოიცნონ შემდეგი სიტყვა (ნიშანი) წინა სიტყვის მიხედვით [2]. პრაქტიკაში ეს ნიშნავს, რომ ისინი ეჭიდებიან ურთიერთობებს: რომელი სიტყვები ერთმანეთზეა გადაჯაჭვული, როგორ ყალიბდება წინადადებები, როგორ აგებულია მთლიანი იდეები, როგორც ხარაჩო. სწორედ ამიტომ, შედეგი სწორად ჟღერს , მიუხედავად იმისა, რომ - სრული გულწრფელობით - ეს სტატისტიკური მიმიკრიაა და არა გაგება [4].

მაშ ასე, რა ხდის ხელოვნური ინტელექტის მიერ გენერირებულ ინფორმაციას სასარგებლოს? რამდენიმე ფაქტორი:

მონაცემთა მრავალფეროვნება - მონაცემთა შეგროვება უამრავი წყაროდან და არა ერთი ვიწრო ნაკადიდან.
განახლებები - განახლების ციკლების გარეშე, ის სწრაფად ფუჭდება.
ფილტრაცია - იდეალურ შემთხვევაში, ნაგვის დაჭერა უნდა მოხდეს მის შიგნით შეღწევამდე (თუმცა, მოდით, რეალისტები ვიყოთ, ამ ბადეს ნახვრეტები აქვს).
ჯვარედინი შემოწმება - ავტორიტეტულ წყაროებზე დაყრდნობა (მაგალითად, NASA, ჯანმო, მსხვილი უნივერსიტეტები), რაც აუცილებელია ხელოვნური ინტელექტის მმართველობის სახელმძღვანელოების უმეტესობაში [3].

მიუხედავად ამისა, ზოგჯერ ის თავდაჯერებულად თხზავს. ეგრეთ წოდებული ჰალუცინაციები? ძირითადად, გაპრიალებული სისულელეები, რომლებიც პირდაპირ და ცალსახად არის ნათქვამი [2][3].

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 შეუძლია თუ არა ხელოვნურ ინტელექტს ლატარიის ნომრების პროგნოზირება?
ხელოვნური ინტელექტის ლატარიის პროგნოზებთან დაკავშირებული მითებისა და ფაქტების შესწავლა.

🔗 რას ნიშნავს ხელოვნური ინტელექტისადმი ჰოლისტური მიდგომის გამოყენება?
ხელოვნური ინტელექტის გაგება ეთიკისა და გავლენის დაბალანსებული პერსპექტივებით.

🔗 რას ამბობს ბიბლია ხელოვნურ ინტელექტზე
ტექნოლოგიასა და ადამიანის შექმნაზე ბიბლიური პერსპექტივების შესწავლა.

მოკლე შედარება: საიდან იღებს სათავეს ხელოვნური ინტელექტი 📊

ყველა წყარო ერთნაირი არ არის, მაგრამ თითოეული თავის როლს ასრულებს. აქ მოცემულია მოკლე მიმოხილვა.

წყაროს ტიპი	ვინ იყენებს მას (ხელოვნური ინტელექტი)	ღირებულება/ღირებულება	რატომ მუშაობს (ან არ მუშაობს...)
წიგნები და სტატიები	დიდი ენის მოდელები	ფასდაუდებელი (დაახლოებით)	მკვრივი, სტრუქტურირებული ცოდნა - უბრალოდ სწრაფად ბერდება.
ვებსაიტები და ბლოგები	თითქმის ყველა ხელოვნური ინტელექტი	უფასო (ხმაურით)	ველური ჯიში; ბრწყინვალებისა და აბსოლუტური ნაგვის ნაზავი.
აკადემიური ნაშრომები	კვლევაზე ორიენტირებული ხელოვნური ინტელექტი	ზოგჯერ ფასიანია	სიმკაცრე + სანდოობა, მაგრამ მძიმე ჟარგონით გამოხატული.
მომხმარებლის მონაცემები	პერსონალიზებული ხელოვნური ინტელექტი	მაღალი მგრძნობელობა ⚠️	დახვეწილი კერვა, მაგრამ კონფიდენციალურობასთან დაკავშირებული უამრავი თავის ტკივილი.
რეალურ დროში ვებგვერდი	ძიებასთან დაკავშირებული ხელოვნური ინტელექტი	უფასო (თუ ონლაინ რეჟიმშია)	ინფორმაციის განახლებას უზრუნველყოფს; უარყოფითი მხარე ჭორების გაძლიერების რისკია.

ტრენინგის მონაცემების სამყარო 🌌

ეს „ბავშვობის სწავლის“ ფაზაა. წარმოიდგინეთ, რომ ბავშვს ერთდროულად მილიონობით ზღაპრის წიგნი, ახალი ამბების ამონარიდი და ვიკიპედიის ზღაპრები აჩუქოთ. ასე გამოიყურება წინასწარი ტრენინგი. რეალურ სამყაროში, პროვაიდერები ერთად აერთიანებენ საჯაროდ ხელმისაწვდომ მონაცემებს, ლიცენზირებულ წყაროებს და ტრენერის მიერ გენერირებულ ტექსტს [2].

ზემოდან მოყვანილია: შერჩეული ადამიანური მაგალითები - კარგი პასუხები, ცუდი პასუხები, სწორი მიმართულებით ბიძგები - გაძლიერების დაწყებამდეც კი [1].

გამჭვირვალობის გაფრთხილება: კომპანიები ყველა დეტალს არ ამჟღავნებენ. ზოგიერთი დამცავი ბარიერი (ინტელექტუალური საკუთრება, უსაფრთხოების საკითხები) საიდუმლოდ არის დაცული, ამიტომ თქვენ მხოლოდ ნაწილობრივ ხედავთ რეალურ მდგომარეობას [2].

რეალურ დროში ძიება: დამატებითი ინგრედიენტები 🍒

ზოგიერთ მოდელს ახლა უკვე შეუძლია საკუთარი სასწავლო ბუშტის გარეთაც კი გამოიხედოს. ეს არის აღდგენის გზით გაფართოებული გენერაცია (RAG)- ძირითადად, ცოცხალი ინდექსიდან ან დოკუმენტების მაღაზიიდან ფრაგმენტების ამოღება და შემდეგ მათი პასუხში ჩაქსოვა [5]. იდეალურია სწრაფად ცვალებადი ინფორმაციისთვის, როგორიცაა სიახლეების სათაურები ან აქციების ფასები.

პრობლემა? ინტერნეტი ერთდროულად გენიოსიცაა და ნაგვის ცეცხლიც. თუ ფილტრები ან წარმომავლობის შემოწმება სუსტია, არსებობს რისკი, რომ არასაჭირო მონაცემები უკან დაიპაროს - ზუსტად ის, რაზეც რისკ-ფრეიმერების ჩარჩოები გვაფრთხილებენ [3].

გავრცელებული გამოსავალი: კომპანიები მოდელებს საკუთარ შიდა მონაცემთა ბაზებს უკავშირებენ, ამიტომ პასუხებში ხაზგასმის ნაცვლად, მოქმედი HR პოლიტიკა ან განახლებული პროდუქტის დოკუმენტია მითითებული. დაფიქრდით: ნაკლები „უჰ“ მომენტი, მეტი სანდო პასუხი.

დახვეწა: ხელოვნური ინტელექტის დახვეწის ნაბიჯი 🧪

წინასწარ მომზადებული ნედლი მოდელები მოუხერხებელია. ამიტომ ისინი უფრო დახვეწილად იხვეწება:

ასწავლეთ მათ იყვნენ დამხმარე, უვნებელი და პატიოსანი (ადამიანური უკუკავშირის გამოყენებით განმტკიცების სწავლების გზით, RLHF) [1].
სახიფათო ან ტოქსიკური კიდეების დამუშავება (გასწორება) [1].
ტონის კორექტირება - იქნება ეს მეგობრული, ფორმალური თუ ხუმრობით სარკასტული.

ეს იმდენად ბრილიანტის გაპრიალება არ არის, რამდენადაც სტატისტიკური ზვავის მობილიზება, რათა უფრო მეტად თანამოსაუბრესავით მოიქცეს.

დაბრკოლებები და წარუმატებლობები 🚧

ნუ ვიტყვით, რომ უნაკლოა:

ჰალუცინაციები - მკვეთრი პასუხები, რომლებიც აბსოლუტურად არასწორია [2][3].
მიკერძოება - ის ასახავს მონაცემებში ჩანერგილ შაბლონებს; შეუძლია მათი გაძლიერებაც კი, თუ არ შემოწმდება [3][4].
პირადი გამოცდილების გარეშე - მას შეუძლია საუბარი , მაგრამ არასდროს გაუსინჯავს [4].
ზედმეტი თავდაჯერებულობა - პროზა ისე მიედინება, თითქოს იცის, მაშინაც კი, როცა არ იცის. რისკის ჩარჩოები ხაზს უსვამენ ვარაუდების შესუსტებას [3].

რატომ არის ეს შეგრძნება 🧠

მას არ გააჩნია რწმენა, არც მეხსიერება ადამიანური გაგებით და რა თქმა უნდა, არც „მე“. თუმცა, რადგან ის წინადადებებს შეუფერხებლად აწყობს, თქვენი ტვინი მას ისე კითხულობს, თითქოს ესმის. რაც ხდება, ეს არის მასშტაბური შემდეგი ნიშნის პროგნოზირება: ტრილიონობით ალბათობის დამუშავება წამების მეასედებში [2].

„ინტელექტის“ ვიბრაცია ევოლუციური ქცევაა - მკვლევარები მას, ცოტა უხეშად რომ ვთქვათ, „სტოქასტურ თუთიყუშის“ ეფექტს უწოდებენ [4].

ბავშვებისთვის შესაფერისი ანალოგია 🎨

წარმოიდგინეთ თუთიყუში, რომელმაც ბიბლიოთეკაში ყველა წიგნი წაიკითხა. ის ვერ ხვდება მოთხრობებს, მაგრამ შეუძლია სიტყვების ხელახლა შერწყმა ისეთ რამედ, რაც ბრძნულად ჟღერს. ზოგჯერ ეს ზუსტია, ზოგჯერ კი აბსურდი - მაგრამ საკმარისი ნიჭით, ყოველთვის ვერ შეამჩნევთ განსხვავებას.

შეჯამება: საიდან მოდის ხელოვნური ინტელექტის ინფორმაცია 📌

მარტივად რომ ვთქვათ:

ტრენინგების მასიური მონაცემები (საჯარო + ლიცენზირებული + ტრენერის მიერ გენერირებული) [2].
ტონის/ქცევის ფორმირებისთვის ადამიანური უკუკავშირის გამოყენებით დახვეწა [1]
მოძიების სისტემები , როდესაც ისინი დაკავშირებულია რეალურ მონაცემთა ნაკადებთან [5].

ხელოვნური ინტელექტი არ „იცის“ რაღაცეებს - ის ტექსტს პროგნოზირებს. ეს მისი სუპერძალაცაა და აქილევსის ქუსლიც. საბოლოო ჯამში? მნიშვნელოვანი ინფორმაცია ყოველთვის სანდო წყაროსთან შეადარეთ [3].

ცნობები

ოუიანგი, ლ. და სხვ. (2022). ენობრივი მოდელების სწავლება ინსტრუქციების შესასრულებლად ადამიანის უკუკავშირის გამოყენებით (InstructGPT). arXiv.
OpenAI (2023). GPT-4 ტექნიკური ანგარიში - ლიცენზირებული, საჯარო და ადამიანის მიერ შექმნილი მონაცემების ნაზავი; შემდეგი ტოკენის პროგნოზირების მიზანი და შეზღუდვები. arXiv.
NIST (2023). ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) - წარმომავლობა, სანდოობა და რისკების კონტროლი. PDF.
ბენდერი, ე.მ., გებრუ, თ., მაკმილან-მეიჯორი, ა., მიტჩელი, ს. (2021). სტოქასტური თუთიყუშების საფრთხეების შესახებ: შეიძლება თუ არა ენობრივი მოდელები ძალიან დიდი იყოს? PDF.
ლუისი, პ. და სხვ. (2020). ცოდნის ინტენსიური NLP-სთვის აღდგენის გზით გაფართოებული გენერაცია. arXiv.

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება