ტექსტის მოპოვება: თანამედროვე ტექნოლოგიები საინფორმაციო მაღაროებში. ტექსტის მონაცემთა ეფექტური ანალიზის ტექნოლოგია: ცოდნის მოპოვება. ჩვენი გზა: ძებნა, მოპოვება, ანალიზი

ვებ მაინინგიშეიძლება ითარგმნოს როგორც "ვებ მონაცემთა მოპოვება". Web Intelligence ან Web Intelligence მზადაა „გახსნას ახალი თავი“ ელექტრონული ბიზნესის სწრაფ განვითარებაში. თითოეული ვიზიტორის ინტერესებისა და პრეფერენციების განსაზღვრის შესაძლებლობა მის ქცევაზე დაკვირვებით არის სერიოზული და კრიტიკული კონკურენტული უპირატესობა ელექტრონული კომერციის ბაზარზე.

ვებ მაინინგ სისტემებს შეუძლიათ უპასუხონ ბევრ კითხვას, მაგალითად, რომელი ვიზიტორია ვებ მაღაზიის პოტენციური კლიენტი, ვებ მაღაზიის მომხმარებელთა რომელ ჯგუფს მოაქვს ყველაზე მეტი შემოსავალი, რა ინტერესები აქვს კონკრეტული ვიზიტორის ან ვიზიტორთა ჯგუფის.

ვებ მაინინგის ტექნოლოგია მოიცავს მეთოდებს, რომლებსაც შეუძლიათ საიტის მონაცემების საფუძველზე აღმოაჩინონ ახალი, მანამდე უცნობი ცოდნა და რომლებიც შემდგომში შეიძლება გამოყენებულ იქნას პრაქტიკაში. სხვა სიტყვებით რომ ვთქვათ, Web Mining ტექნოლოგია იყენებს მონაცემთა მოპოვების ტექნოლოგიას, რათა გააანალიზოს ვებ გვერდებზე არსებული არასტრუქტურირებული, ჰეტეროგენული, განაწილებული და დიდი მოცულობის ინფორმაცია.

ვებ მაინინგის ტაქსონომიის მიხედვით, აქ ორი ძირითადი სფეროა: ვებ კონტენტის მოპოვება და ვებ გამოყენების მაინინგი.

ვებ კონტენტის მაინინგიმოიცავს ავტომატურ ძიებას და მაღალი ხარისხის ინფორმაციის მოპოვებას სხვადასხვა ინტერნეტ წყაროებიდან, გადატვირთული " ინფორმაციის ხმაური„საუბარია ასევე დოკუმენტების კლასტერიზაციისა და ანოტაციის სხვადასხვა საშუალებებზე.

ამ მიმართულებით, თავის მხრივ, არსებობს ორი მიდგომა: აგენტზე დაფუძნებული მიდგომა და მონაცემთა ბაზაზე დაფუძნებული მიდგომა.

აგენტზე დაფუძნებული მიდგომა მოიცავს შემდეგ სისტემებს:

  • ინტელექტუალური საძიებო აგენტები;
  • ინფორმაციის გაფილტვრა/კლასიფიკაცია;
  • პერსონალიზებული ქსელის აგენტები.

საძიებო აგენტის ინტელექტუალური სისტემების მაგალითები:

  • მოსავალი (ბრაუნი და სხვ., 1994),
  • FAQ-Finder (Hammond et al., 1995),
  • ინფორმაციის მანიფოლდი (Kirk et al., 1995)
  • OCCAM (Kwok and Weld, 1996) და ParaSite (Spertus, 1997),
  • ILA (ინფორმაციის შემსწავლელი აგენტი) (პერკოვიცი და ეციონი, 1995),
  • ShopBot (Doorenbos et al., 1996).

მონაცემთა ბაზის მიდგომა მოიცავს სისტემებს:

  • მრავალ დონის მონაცემთა ბაზები;
  • ვებ შეკითხვის სისტემები;

ვებ მოთხოვნის სისტემების მაგალითები:

  • W3QL (Konopnicki and Shmueli, 1995),
  • WebLog (Lakshmanan et al., 1996),
  • ლორელი (Quass et al., 1995),
  • UnQL (Buneman et al., 1995 და 1996),
  • TSIMMIS (Chawathe et al., 1994).

მეორე მიმართულება ვებ გამოყენების მოპოვებამოიცავს შაბლონების აღმოჩენას ვებ საიტის მომხმარებლის ან მომხმარებელთა ჯგუფის ქმედებებში.

გაანალიზებულია შემდეგი ინფორმაცია:

  • რა გვერდები ნახა მომხმარებელმა;
  • როგორია გვერდების ნახვის თანმიმდევრობა.

ის ასევე აანალიზებს მომხმარებელთა რომელი ჯგუფის იდენტიფიცირება შესაძლებელია მთლიან რიცხვს შორის ვებსაიტის დათვალიერების ისტორიის საფუძველზე.

ვებ გამოყენების მოპოვება მოიცავს შემდეგ კომპონენტებს:

  • წინასწარი დამუშავება;
  • ოპერატიული იდენტიფიკაცია;
  • ნიმუშის გამოვლენის ხელსაწყოები;
  • ნიმუშის ანალიზის ინსტრუმენტები.

ვებ მაინინგის გამოყენებისას დეველოპერებს ორი სახის ამოცანის წინაშე დგანან. პირველი ეხება მონაცემთა შეგროვებას, მეორე კი პერსონალიზაციის მეთოდების გამოყენებას. კონკრეტული კლიენტის შესახებ გარკვეული რაოდენობის პერსონალიზებული რეტროსპექტული მონაცემების შეგროვების შედეგად სისტემა აგროვებს გარკვეულ ცოდნას მის შესახებ და შეუძლია მას რეკომენდაცია გაუწიოს, მაგალითად, საქონლის ან მომსახურების გარკვეული ნაკრები. საიტის ყველა ვიზიტორის შესახებ ინფორმაციის საფუძველზე, ვებ სისტემას შეუძლია ვიზიტორთა გარკვეული ჯგუფების იდენტიფიცირება და ასევე რეკომენდაცია გაუწიოს მათ პროდუქტებს ან შესთავაზოს პროდუქტები ფოსტით.

ვებ მაინინგის ამოცანები შეიძლება დაიყოს შემდეგ კატეგორიებად:

  • მონაცემთა წინასწარი დამუშავება ვებ მაინინგისთვის.
  • ნიმუშის აღმოჩენა და ცოდნის აღმოჩენა ასოციაციის წესების, დროითი მიმდევრობების, კლასიფიკაციისა და კლასტერიზაციის გამოყენებით;
  • მიღებული ცოდნის ანალიზი.

ტექსტის მაინინგი

ტექსტის მაინინგიმოიცავს სემანტიკური ტექსტის ანალიზის, ინფორმაციის მოძიებისა და მართვის ახალ ტექნიკას. ტექსტის მოპოვების კონცეფციის სინონიმია KDT (Knowledge Discovering in Text - ტექსტში ცოდნის ძიება ან აღმოჩენა).

მონაცემთა მოპოვების ტექნოლოგიისგან განსხვავებით, რომელიც მოიცავს გარკვეულ სტრუქტურებში ორგანიზებული ინფორმაციის ანალიზს, ტექსტის მოპოვების ტექნოლოგია აანალიზებს არასტრუქტურირებული ინფორმაციის დიდ და ულტრა დიდ მასივებს.

პროგრამები, რომლებიც ახორციელებენ ამ ამოცანას, როგორღაც უნდა მოქმედებდნენ ბუნებრივ ადამიანურ ენაზე და ამავდროულად გააცნობიერონ გაანალიზებული ტექსტის სემანტიკა. ერთ-ერთი მეთოდი, რომელსაც ტექსტის მოპოვების ზოგიერთი სისტემა ეფუძნება, არის სტრიქონში ეგრეთ წოდებული ქვესტრინგის ძიება.

ზარის მაინინგი

ენ ბედნარცის თქმით, ზარის მაინინგი შეიძლება გახდეს პოპულარული ინსტრუმენტი საწარმოთა საინფორმაციო სისტემებში.

ტექნიკა ზარის მაინინგიაერთიანებს მეტყველების ამოცნობას, მეტყველების ანალიზს და მონაცემთა მოპოვებას. მისი მიზანია აუდიო არქივებში ძიების გამარტივება, რომელიც შეიცავს ოპერატორებსა და კლიენტებს შორის საუბრების ჩანაწერებს. ამ ტექნოლოგიის გამოყენებით ოპერატორებს შეუძლიათ დაადგინონ ხარვეზები მომხმარებელთა მომსახურებაში, დაადგინონ გაყიდვების გაზრდის შესაძლებლობები და დაადგინონ ტენდენციები მომხმარებელთა კომუნიკაციაში.

Call Mining („მაინინგი“ და ზარების ანალიზი) ახალი ტექნოლოგიის შემქმნელებს შორის არიან კომპანიები CallMiner, Nexidia, ScanSoft, Witness Systems. Call Mining ტექნოლოგიამ შეიმუშავა ორი მიდგომა - მეტყველების ტექსტში კონვერტაციის საფუძველზე და ფონეტიკური ანალიზის საფუძველზე.

პირველი მიდგომის განხორციელების მაგალითი, რომელიც დაფუძნებულია მეტყველების კონვერტაციაზე, არის CallMiner სისტემა. Call Mining-ის პროცესში ჯერ გამოიყენება მეტყველების კონვერტაციის სისტემა, რასაც მოჰყვება მისი ანალიზი, რომლის დროსაც, საუბრის შინაარსიდან გამომდინარე, გენერირდება სატელეფონო ზარების სტატისტიკა. მიღებული ინფორმაცია ინახება მონაცემთა ბაზაში, რომლის მოძიება, მოძიება და დამუშავება შესაძლებელია.

მეორე მიდგომის - ფონეტიკური ანალიზის განხორციელების მაგალითია Nexidia-ს პროდუქტი. ამ მიდგომით, მეტყველება იყოფა ფონემებად, რომლებიც წარმოადგენენ ბგერებს ან ბგერების კომბინაციას. ასეთი ელემენტები ქმნიან ცნობად ფრაგმენტებს. გარკვეული სიტყვებისა და მათი კომბინაციების ძიებისას სისტემა მათ იდენტიფიცირებს ფონემებით.

ანალიტიკოსები აღნიშნავენ, რომ ბოლო წლებში საგრძნობლად გაიზარდა ინტერესი Call Mining-ზე დაფუძნებული სისტემების მიმართ. ეს აიხსნება იმით, რომ სხვადასხვა სფეროში მოღვაწე კომპანიების უფროსი მენეჯერები, მ.შ. ფინანსების, მობილური კომუნიკაციების და ავიაკომპანიების ბიზნესის სფეროში, მათ არ სურთ დიდი დროის დახარჯვა ზარების მოსასმენად, რათა შეაჯამონ ინფორმაცია ან დაადგინონ რაიმე დარღვევის ფაქტი.

Datamonitor-ის ანალიტიკოსის დანიელ ჰონგის თქმით: „ამ ტექნოლოგიების გამოყენება ზრდის ეფექტურობას და ამცირებს ინფორმაციის დამუშავების ღირებულებას“.

Nexidia-ს დეველოპერისგან პროდუქციის ტიპიური ინსტალაცია 100-დან 300 ათას დოლარამდე ღირს.

შოლერის თქმით, აუდიო მაინინგი და ვიდეო მაინინგი აპლიკაციები საბოლოოდ უფრო ფართო გამოყენებას მოიპოვებს, მაგალითად, საგანმანათლებლო ვიდეოებისა და პრეზენტაციების ინდექსირებაში კომპანიის მედია ბიბლიოთეკებში. თუმცა, აუდიო მაინინგი და ვიდეო მაინინგი ტექნოლოგიები ახლა ახალ დონეზეა და მათი პრაქტიკული გამოყენება ძალიან ადრეულ ეტაპზეა.

სტატია დიმიტრი ლანდეს"ცოდნის მოპოვება" იყო ერთ-ერთი პირველი სტატია, რომელიც წავიკითხე ტექსტის მოპოვების შესახებ - რომელიც გამოქვეყნდა ჟურნალ CHIP-ში 2003 წლის ოქტომბერში.

დაუმუშავებელი არასტრუქტურირებული მონაცემები შეადგენს იმ ინფორმაციის სულ მცირე 90%-ს, რომლებთანაც დაკავშირებულია მომხმარებლები. ასეთ მონაცემებში რაიმე ღირებულის პოვნა შესაძლებელია მხოლოდ სპეციალიზებული ტექნოლოგიებით.

ელექტრონული ინფორმაცია სულ უფრო მნიშვნელოვან როლს თამაშობს თანამედროვე საზოგადოების ცხოვრების ყველა სფეროში. ტერაბაიტი ტექსტური მონაცემები გროვდება მთელ მსოფლიოში გავრცელებულ საინფორმაციო საცავებში. ინტერნეტ საინფორმაციო რესურსების განვითარებამ არაერთხელ გამწვავდა ინფორმაციის გადატვირთვის პრობლემა.

კვლევის სერვისმა Cyveillance-მა იტყობინება, რომ ჯერ კიდევ 2001 წელს ინტერნეტში გვერდების საერთო რაოდენობამ 4 მილიარდს გადააჭარბა. ვებ გვერდის საშუალო ზომაა 10 KB, საშუალო გვერდი შეიცავს 23 შიდა ბმულს, 5.6 გარე ბმულს და 14-15 სურათს. თუ ამას დავუმატებთ არასტრუქტურირებული დოკუმენტების მასივებს კორპორატიულ ფაილურ სისტემებში და მონაცემთა ბაზებში, ადვილი მისახვედრია, რატომ არის ბევრი ორგანიზაცია დაინტერესებული ბუნებრივ ენაზე წარმოდგენილი ინფორმაციის ავტომატური ანალიზისა და კლასიფიკაციის ტექნოლოგიებით. მართლაც, ამჟამინდელი შეფასებით, არასტრუქტურირებული მონაცემები - ძირითადად ტექსტი - შეადგენს იმ ინფორმაციის სულ მცირე 90%-ს, რომელსაც ფირმები და ორგანიზაციები ამუშავებენ. და მხოლოდ 10% მოდის რელაციურ DBMS-ებში ჩატვირთული სტრუქტურირებული მონაცემებიდან.

„ადამიანები მოიძიებენ იმას, რაც იციან დოკუმენტების საცავებში წვდომით. თუმცა, ისინი არ ან უბრალოდ ვერ სვამენ კითხვას, რაც არ იციან, თუნდაც წვდომა ჰქონდეთ დოკუმენტების კრებულზე“, - თქვა Semio-ს ვიცე-პრეზიდენტმა ჯიმ ნისბეტმა. რომელიც მონაცემთა მოპოვების სისტემების ერთ-ერთი წამყვანი მწარმოებელია. "ტექსტის ეფექტური ანალიზის ტიპი - ტექსტის მაინინგი- გამოთვლითი ძალის გამოყენებით უნდა იდენტიფიცირდეს ურთიერთობები, რომლებმაც შეიძლება გამოიწვიოს მომხმარებლის მიერ ახალი ცოდნის შეძენა.

ტექსტის ეფექტური ანალიზის ტექნოლოგია ტექსტის მაინინგიშეუძლია იმოქმედოს როგორც დამრიგებელი, რომელიც მთელი კურსის შესწავლის შემდეგ ასწავლის მხოლოდ ყველაზე საკვანძო და მნიშვნელოვან ინფორმაციას. ამრიგად, მომხმარებელს არ სჭირდება საკუთარი თავის უზარმაზარი რაოდენობის არასტრუქტურირებული ინფორმაციის „გაცრა“. შემუშავებულია სტატისტიკური და ლინგვისტური ანალიზის, ასევე ხელოვნური ინტელექტის, ტექნოლოგიების საფუძველზე ტექსტის მაინინგიისინი ზუსტად შექმნილია სემანტიკური ანალიზის, ნავიგაციისა და ძიების უზრუნველსაყოფად არასტრუქტურირებულ ტექსტებში. მათზე აგებული სისტემების გამოყენებით მომხმარებლები შეძლებენ მიიღონ ახალი ღირებული ინფორმაცია - ცოდნა.

ხორბლის გამოყოფა ჭარხლისგან...

CIA-მ ახლახან გამოაქვეყნა თავისი სტრატეგიული საინვესტიციო გეგმა სადაზვერვო საზოგადოების ანალიზისთვის. გეგმაში, დაზვერვის ოფიციალური პირები აღიარებენ, რომ მათ სრულად არ გამოიყენეს ღია წყაროების ძალა და მათთან მუშაობა ახლა უნდა გახდეს "უმაღლესი საინვესტიციო პრიორიტეტი". ახლა CIA გონივრულად თვლის, რომ ინფორმაციის აღება ღია წყაროებიდან უფრო უსაფრთხო და იაფია, ვიდრე დაზვერვის გამოყენება. ტექსტის სიღრმისეული ანალიზის ტექნოლოგია - ტექსტის მაინინგი- ეს არის ინსტრუმენტების ნაკრები, რომელიც საშუალებას გაძლევთ გაანალიზოთ დიდი მოცულობის ინფორმაცია ტენდენციების, შაბლონებისა და ურთიერთობების ძიებაში, რაც დაგეხმარებათ სტრატეგიული გადაწყვეტილებების მიღებაში. გარდა ამისა, ტექსტის მაინინგიარის ახალი ტიპის ძიება, რომელიც, განსხვავებით ტრადიციული მიდგომებისგან, არა მხოლოდ პოულობს დოკუმენტების ჩამონათვალს, რომლებიც ფორმალურად შეესაბამება შეკითხვებს, არამედ ეხმარება პასუხის გაცემაზე კითხვაზე: „დამეხმარე მნიშვნელობის გაგებაში, ამ საკითხთან დაკავშირებით“. კლოდ ვოგელი, Semio-ს თანადამფუძნებელი და ტექნოლოგიის მთავარი ოფიცერი, განმარტავს: „ბიბლიოთეკის ანალოგიის, ტექნოლოგიის გამოყენებით ტექსტის მაინინგიჰგავს წიგნის გახსნას მკითხველისთვის საჭირო ინფორმაციის გადახაზვით. შეადარეთ ეს მკითხველისთვის დოკუმენტების და წიგნების დასტას, რომლებიც სადღაც შეიცავს ინფორმაციას, რომელიც მკითხველს სჭირდება, მაგრამ ადვილად ვერ პოულობს მას." აზრიანი ძიების პროცესი შორს არის ტრივიალურისგან; ხშირად დოკუმენტების კრებულში არის საჭირო ინფორმაციის მხოლოდ მინიშნებაა ძლიერი დაზვერვის შესაძლებლობა, რომ იპოვოთ ის, რაც საჭიროა.

აღსანიშნავია, რომ ტექსტის სიღრმისეული ანალიზის ტექნოლოგიას ისტორიულად წინ უძღოდა მონაცემთა მოპოვების ტექნოლოგია (Data Mining), რომლის მეთოდოლოგია და მიდგომები ფართოდ გამოიყენება მეთოდებში. ტექსტის მაინინგი. ტექსტის მაინინგისთვის, მსოფლიოში ერთ-ერთი წამყვანი ექსპერტის, გრიგორი პიატეცკი-შაპიროს მიერ GTE Labs-ის მიერ მონაცემთა მოპოვებისთვის მოცემული განმარტება საკმაოდ სამართლიანია: „ნედლეულ მონაცემებში მანამდე უცნობი, არატრივიალური, პრაქტიკულად სასარგებლო და ინტერპრეტაციადი ცოდნის აღმოჩენის პროცესი. აუცილებელია ადამიანის საქმიანობის სხვადასხვა სფეროში გადაწყვეტილების მიღებისთვის. როგორც კოგნიტური ტექნოლოგიების უმეტესობა - ტექსტის მაინინგიარის ადრე უცნობი კავშირებისა და კორელაციების ალგორითმული იდენტიფიკაცია არსებულ ტექსტურ მონაცემებში.

ჩამოყალიბდა მეოცე საუკუნის 90-იანი წლების შუა ხანებში, როგორც არასტრუქტურირებული ტექსტების ანალიზის მიმართულება, ტექნოლოგია ტექსტის მაინინგიდაუყოვნებლივ მიიღო მონაცემთა მოპოვების კლასიკური მეთოდები, როგორიცაა კლასიფიკაცია ან კლასტერირება. IN ტექსტის მაინინგიასევე გამოჩნდა დამატებითი ფუნქციები, როგორიცაა ტექსტების ავტომატური შეჯამება და ცნებების, ფენომენების და ფაქტების შერჩევა. თანამედროვე სისტემების შესაძლებლობები ტექსტის მაინინგიშეიძლება გამოყენებულ იქნას ცოდნის მენეჯმენტში ტექსტში შაბლონების იდენტიფიცირებისთვის, მომხმარებლისთვის საინტერესო პროფილებზე ინფორმაციის ავტომატურად „გამოსაყვანად“ ან ინფორმაციის განთავსებაზე და დოკუმენტის მიმოხილვის შესაქმნელად. ტექნოლოგიები ტექსტის მაინინგიგარდა ამისა, ობიექტურობა თანდაყოლილია – არ არსებობს ადამიანის ანალიტიკოსისთვის დამახასიათებელი სუბიექტივიზმი.

ტექნოლოგიის მნიშვნელოვანი კომპონენტი ტექსტის მაინინგიასოცირდება ტექსტიდან მისი დამახასიათებელი ელემენტების ან თვისებების ამოღებასთან, რომლებიც შეიძლება გამოყენებულ იქნას დოკუმენტის მეტამონაცემებად, საკვანძო სიტყვებად და ანოტაციებად. კიდევ ერთი მნიშვნელოვანი ამოცანაა გარკვეული კატეგორიებისთვის დოკუმენტის მინიჭება მოცემული სისტემატიზაციის სქემიდან. ტექსტის მაინინგიასევე უზრუნველყოფს სემანტიკური დოკუმენტის ძიების ახალ დონეს.

ტექსტის მოპოვების ტექნოლოგიის საფუძვლები

უკვე დადგენილი მეთოდოლოგიის შესაბამისად ძირითადი ელემენტები ტექსტის მაინინგიმოიცავს შეჯამებას, მახასიათებლების მოპოვებას, კლასტერიზაციას, კლასიფიკაციას, კითხვებზე პასუხის გაცემას, თემატურ ინდექსირებას და საკვანძო სიტყვების ძიებას. ასევე, ზოგიერთ შემთხვევაში, კომპლექტს ავსებს ტაქსონომიების (ოფტაქსონომიების) და თეზაურების მხარდაჭერისა და შექმნის ინსტრუმენტები.

ალექსანდრე ლინდენმა, Gartner Research-ის დირექტორმა, გამოავლინა ტექნოლოგიური აპლიკაციების ოთხი ძირითადი ტიპი ტექსტის მაინინგი:

ტექსტის კლასიფიკაცია, რომელიც იყენებს სტატისტიკურ კორელაციებს დოკუმენტების წინასწარ განსაზღვრულ კატეგორიებში განთავსების წესების ასაგებად. კლასტერირება დოკუმენტის მახასიათებლებზე დაყრდნობით, ლინგვისტური და მათემატიკური მეთოდების გამოყენებით წინასწარ განსაზღვრული კატეგორიების გამოყენების გარეშე. შედეგი არის ტაქსონომია ან ვიზუალური რუკა, რომელიც უზრუნველყოფს მონაცემთა დიდი მოცულობის ეფექტურ დაფარვას. სემანტიკური ქსელები ან ბმულების ანალიზი, რომლებიც განსაზღვრავენ დოკუმენტში აღწერების (საკვანძო ფრაზების) გამოჩენას ნავიგაციის უზრუნველსაყოფად. ფაქტების მოპოვება შექმნილია ტექსტიდან ზოგიერთი ფაქტის მისაღებად, რათა გაუმჯობესდეს კლასიფიკაცია, მოძიება და კლასტერირება.

ისე ხდება, რომ ის ყველაზე ხშირად გვხვდება ტექსტის მაინინგიამოცანაა კლასიფიკაცია - მონაცემთა ბაზის ობიექტების მინიჭება წინასწარ განსაზღვრულ კატეგორიებზე. ფაქტობრივად, კლასიფიკაციის ამოცანა არის კლასიკური ამოცნობის ამოცანა, სადაც სასწავლო ნიმუშის საფუძველზე სისტემა ახალ ობიექტს ანიჭებს ამა თუ იმ კატეგორიას. სისტემის თვისება ტექსტის მაინინგიარის ის, რომ ობიექტების რაოდენობა და მათი ატრიბუტები შეიძლება იყოს ძალიან დიდი; ამიტომ, ინტელექტუალური მექანიზმები უნდა იყოს უზრუნველყოფილი კლასიფიკაციის პროცესის ოპტიმიზაციისთვის. დღეს არსებულ სისტემებში კლასიფიკაცია გამოიყენება, მაგალითად, შემდეგ ამოცანებში: დოკუმენტების დაჯგუფება ინტრანეტებსა და ვებსაიტებზე, დოკუმენტების განთავსება კონკრეტულ საქაღალდეებში, ელექტრონული ფოსტის შეტყობინებების დახარისხება, ახალი ამბების შერჩევით გავრცელება აბონენტებისთვის.

მეორე ამოცანაა კლასტერირება - მსგავსი თვისებების მქონე ობიექტების კომპაქტური ქვეჯგუფების იდენტიფიცირება. სისტემამ დამოუკიდებლად უნდა მოძებნოს ნიშნები და დაყოს ობიექტები ქვეჯგუფებად. ის ჩვეულებრივ წინ უსწრებს კლასიფიკაციის ამოცანას, რადგან ის საშუალებას გაძლევთ განსაზღვროთ ობიექტების ჯგუფები. არსებობს კლასტერიზაციის ორი ძირითადი ტიპი - იერარქიული და ბინარული. იერარქიული კლასტერირება შედგება მტევანთა ხის აგებისგან, რომელთაგან თითოეული შეიცავს დოკუმენტების მცირე ჯგუფს. ორობითი კლასტერული პროგრამის მაგალითი ხელმისაწვდომია IBM სერვერზე http://www.software.ibm.com/data/iminer/fortext. ორობითი კლასტერირება უზრუნველყოფს დოკუმენტების კლასტერების დაჯგუფებას და დათვალიერებას მსგავსების ბმულების საფუძველზე. დოკუმენტები, რომლებიც ყველაზე ახლოს არიან თავიანთ თვისებებში, მოთავსებულია ერთ კლასტერში. კლასტერიზაციის პროცესში, დოკუმენტიდან დოკუმენტამდე იქმნება ბმულების საფუძველი, წონების და განსაზღვრული საკვანძო სიტყვების ერთობლივი გამოყენების საფუძველზე. დღეს კლასტერირება გამოიყენება დიდი დოკუმენტური მასივების აბსტრაქტში, დოკუმენტების ურთიერთდაკავშირებული ჯგუფების იდენტიფიცირებისთვის, საჭირო ინფორმაციის ძიებისას დათვალიერების პროცესის გამარტივებაში, კოლექციიდან უნიკალური დოკუმენტების პოვნაში, დუბლიკატების ან შინაარსით ძალიან მსგავსი დოკუმენტების იდენტიფიცირებისთვის.

შეგვიძლია დავასახელოთ კიდევ რამდენიმე ტექნოლოგიური გამოწვევა ტექსტის მაინინგიმაგალითად, პროგნოზირება, რომელიც მოიცავს სხვების მნიშვნელობების წინასწარმეტყველებას ობიექტის ზოგიერთი მახასიათებლის მნიშვნელობებზე დაყრდნობით.

კიდევ ერთი ამოცანაა გამონაკლისების პოვნა, ანუ ისეთი ობიექტების მოძიება, რომლებიც გამოირჩევიან ბრბოსგან თავიანთი მახასიათებლებით. ამისათვის ჯერ განისაზღვრება ობიექტების საშუალო პარამეტრები, შემდეგ კი განიხილება ის ობიექტები, რომელთა პარამეტრები ყველაზე ძლიერ განსხვავდება საშუალო მნიშვნელობებისგან. როგორც ცნობილია, გამონაკლისების ძიება ფართოდ გამოიყენება, მაგალითად, სადაზვერვო სააგენტოების მუშაობაში. ასეთი ანალიზი ხშირად ტარდება კლასიფიკაციის შემდეგ, რათა გაირკვეს, რამდენად ზუსტი იყო ეს უკანასკნელი.

კლასტერიზაციის ამოცანისგან გარკვეულწილად განცალკევებულია ცალკეული დოკუმენტების მონათესავე მახასიათებლების (ველები, ცნებები) ძიება.

ეს ამოცანა განსხვავდება წინასწარმეტყველებისგან იმით, რომ წინასწარ არ არის ცნობილი, თუ რა მახასიათებლებით არის რეალიზებული ურთიერთობა; მიზანი სწორედ მახასიათებლებს შორის კავშირის პოვნაა. ეს ამოცანა კლასტერიზაციის მსგავსია, მაგრამ არა დოკუმენტების ნაკრებით, არამედ მათი თანდაყოლილი მახასიათებლების სიმრავლით. ტექსტის მაინინგივიზუალიზაციას დიდი მნიშვნელობა აქვს. მონაცემთა ვიზუალიზაცია გულისხმობს სტრუქტურირებული რიცხვითი მონაცემების დამუშავებას, მაგრამ ის ასევე საკვანძოა არასტრუქტურირებული ტექსტურ დოკუმენტებში შაბლონების წარმოსაჩენად. კერძოდ, თანამედროვე კლასის სისტემები ტექსტის მაინინგიშეუძლია გააანალიზოს დოკუმენტების დიდი მასივი და შექმნას ცნებებისა და თემების საგნობრივი ინდექსები ამ დოკუმენტებში. ვიზუალიზაცია ჩვეულებრივ გამოიყენება როგორც დოკუმენტების მთელი მასივის შინაარსის წარმოდგენის საშუალება, ასევე სანავიგაციო მექანიზმის განსახორციელებლად, რომელიც შეიძლება გამოყენებულ იქნას დოკუმენტების და მათი კლასების შესწავლაში.

სისტემის დანერგვები

ამჟამად, მრავალი წამყვანი პროგრამული მწარმოებელი გვთავაზობს თავის პროდუქტებსა და გადაწყვეტილებებს ტექსტის მაინინგის სფეროში. როგორც წესი, ეს არის მასშტაბირებადი სისტემები, რომლებიც ახორციელებენ სხვადასხვა მათემატიკურ და ენობრივ ალგორითმს ტექსტური მონაცემების გასაანალიზებლად. მათ აქვთ კარგად განვითარებული გრაფიკული ინტერფეისები, მდიდარი ვიზუალიზაციისა და მონაცემთა მანიპულირების შესაძლებლობები, უზრუნველყოფენ წვდომას სხვადასხვა მონაცემთა წყაროზე და მოქმედებენ კლიენტ-სერვერის არქიტექტურაში. აქ მოცემულია ასეთი სისტემების რამდენიმე მაგალითი:

  • ინტელექტუალური მაინერი ტექსტისთვის (IBM)
  • TextAnalyst, WebAnalyst (მეგაკომპიუტერული ინტელექტი)
  • ტექსტის მაინერი (SAS)
  • SemioMap (Semio Corp.)
  • Oracle ტექსტი (Oracle)
  • ცოდნის სერვერი (ავტონომია)
  • Galaktika-ZOOM (Galaktika Corporation)
  • InfoStream (საინფორმაციო ცენტრი "ELVISTI")

ქვემოთ განვიხილავთ ზოგიერთ ამ სისტემას უფრო დეტალურად.

ინტელექტუალური მაინერი ტექსტისთვის

IBM Intelligent Miner for Text პროდუქტი არის ცალკეული კომუნალური საშუალებების ნაკრები, რომელიც გაშვებულია ბრძანების ხაზიდან ან სკრიპტებიდან ერთმანეთისგან დამოუკიდებლად. ეს სისტემა ერთ-ერთი საუკეთესო ინსტრუმენტია ტექსტის სიღრმისეული ანალიზისთვის. სისტემა შეიცავს შემდეგ ძირითად კომუნალურ პროგრამებს (ინსტრუმენტები) ცოდნის მართვის აპლიკაციების შესაქმნელად:

ენის იდენტიფიკაციის ხელსაწყო - ენის იდენტიფიკაციის პროგრამა - ავტომატურად განსაზღვრავს ენას, რომელშიც შედგენილია დოკუმენტი.

Categorization Tool - კლასიფიკაციის უტილიტა - ტექსტის ავტომატური მინიჭება გარკვეულ კატეგორიაზე (ამ ხელსაწყოს სასწავლო ფაზის შეყვანის ინფორმაცია შეიძლება იყოს შემდეგი უტილიტის - Clusterisation Tool-ის შედეგი).

კლასტერიზაციის ხელსაწყო - კლასტერიზაციის პროგრამა - ყოფს დოკუმენტების დიდ ჯგუფს ჯგუფებად, იდენტიფიცირებული საკვანძო სიტყვების სტილის, ფორმისა და სხვადასხვა სიხშირის მახასიათებლების მიხედვით.

Feature Extraction Tool - პროგრამა ახალი ნივთების იდენტიფიცირებისთვის - დოკუმენტში ახალი საკვანძო სიტყვების იდენტიფიცირება (შესაბამისი სახელები, სათაურები, აბრევიატურები) წინასწარ განსაზღვრული ლექსიკონის ანალიზის საფუძველზე.

ანოტაციის ხელსაწყო - პროგრამა ტექსტების „მნიშვნელობის იდენტიფიცირებისთვის“ და აბსტრაქტების შედგენისთვის - ანოტაციები წყარო ტექსტებზე.

IBM Intelligent Miner for Text აერთიანებს ინსტრუმენტების მძლავრ კომპლექტს, რომელიც დაფუძნებულია ძირითადად ინფორმაციის მოპოვების მექანიზმებზე, რაც წარმოადგენს მთელი პროდუქტის სპეციფიკას. სისტემა მოიცავს უამრავ ძირითად კომპონენტს, რომლებსაც აქვთ დამოუკიდებელი მნიშვნელობა "ტექსტის მოპოვების" ტექნოლოგიის მიღმა - ეს არის ტექსტის საძიებო სისტემის ინფორმაციის მოძიების სისტემა, ვებ მცოცავი პროგრამა ვებ სივრცის სკანირებისთვის, Net Question Solution - გამოსავალი ლოკალური ძიებისთვის. ვებ საიტი ან რამდენიმე ინტრანეტის/ინტერნეტ სერვერი, Java Sample GUI - Java Beans ინტერფეისების ნაკრები ტექსტის საძიებო სისტემის საფუძველზე ძიების ადმინისტრირებისა და ორგანიზებისთვის.

Intelligent Miner for Text, როგორც IBM პროდუქტი, შედის კომპლექსში "ინფორმაციის ინტეგრატორი კონტენტისთვის" DB2 DBMS-ისთვის, როგორც ინფორმაციის მოპოვების ინსტრუმენტი.

Intelligent Miner ოჯახის სხვადასხვა დონის პროდუქციის ღირებულება 18-დან 75 ათას დოლარამდე მერყეობს.

ტექსტის ანალიტიკოსი

რუსულმა კომპანიამ Megaputer Intelligence, რომელიც ცნობილია თავისი PolyAnalyst Data Mining კლასის სისტემით, ასევე შეიმუშავა TextAnalyst სისტემა (http://www.megaputer.com/products/ta/index.php3, რომელიც წყვეტს ასეთ პრობლემებს. ტექსტის მაინინგი: დიდი ტექსტის სემანტიკური ქსელის შექმნა, ტექსტის შეჯამების მომზადება, ტექსტის ძიება და ტექსტების ავტომატური კლასიფიკაცია და დაჯგუფება. სემანტიკური ქსელის აგება არის ტექსტის ძირითადი ცნებების ძიება და მათ შორის ურთიერთობის დამყარება. ასეთი ქსელის გამოყენებით, თქვენ შეგიძლიათ არა მხოლოდ გაიგოთ რა არის ნათქვამი ტექსტში, არამედ განახორციელოთ კონტექსტური ნავიგაცია. რეზიუმეს მომზადება გულისხმობს ტექსტში წინადადებების ხაზგასმას, რომლებშიც ამ ტექსტისთვის მნიშვნელოვანი სიტყვები უფრო ხშირად გვხვდება, ვიდრე სხვები. 80% შემთხვევაში ეს სავსებით საკმარისია ტექსტის წარმოდგენისთვის. სისტემაში ინფორმაციის მოსაძიებლად გათვალისწინებულია მოთხოვნების გამოყენება ბუნებრივ ენაზე. მოთხოვნის საფუძველზე აგებულია უნიკალური სემანტიკური ქსელი, რომელიც დოკუმენტის ქსელთან ურთიერთობისას საშუალებას გაძლევთ აირჩიოთ საჭირო ტექსტის ფრაგმენტები. კლასტერირება და კლასიფიკაცია ხორციელდება მონაცემთა მოპოვების სტანდარტული მეთოდების გამოყენებით.

ტექსტის ანალიტიკოსის სისტემა, მიიჩნევს ტექსტის მაინინგიროგორც ცალკეული მათემატიკური აპარატი, რომელიც პროგრამული უზრუნველყოფის შემქმნელებს შეუძლიათ თავიანთ პროდუქტებში ჩააშენონ ინფორმაციის მოძიების სისტემის პლატფორმებზე ან DBMS-ებზე დაყრდნობის გარეშე. სისტემის გამოყენების ძირითადი პლატფორმა არის MS Windows 9x/2000/NT. არსებობს TextAnalyst მოდული Microsoft Internet Explorer-ისთვის.

ვებ ანალიტიკოსი

WebAnalyst სისტემა (http://www.megaputer.com/products/wa/index.php3) - ასევე Megaputer Intelligence-ის პროდუქტი - არის ინტელექტუალური, მასშტაბირებადი კლიენტი/სერვერის გადაწყვეტა კომპანიებისთვის, რომელთაც სურთ მაქსიმალურად გაზარდონ მონაცემთა ანალიზის გავლენა ვებ გარემო. WebAnalyst სერვერი ფუნქციონირებს როგორც საექსპერტო სისტემა ინფორმაციის შეგროვებისა და ვებ საიტის შინაარსის მართვისთვის. WebAnalyst მოდულები წყვეტს სამ პრობლემას: მაქსიმალური რაოდენობის ინფორმაციის შეგროვება საიტის ვიზიტორებისა და მათ მიერ მოთხოვნილი რესურსების შესახებ; შეგროვებული მონაცემების კვლევა და კვლევის შედეგების საფუძველზე პერსონალიზებული შინაარსის გენერირება. ამ პრობლემების ერთად გადაჭრამ, სისტემის დეველოპერების აზრით, უნდა გამოიწვიოს ვებსაიტზე ახალი ვიზიტორების რაოდენობის მაქსიმიზაცია და არსებულის შენარჩუნება და, შესაბამისად, გაზარდოს რესურსის პოპულარობა ტექსტის მაინინგიპირდაპირ ორგანიზაციის ვებსაიტზე. ეს საშუალებას გაძლევთ შემოგთავაზოთ პერსონალიზებული, ავტომატიზირებული და მიზანმიმართული მარკეტინგი, ავტომატიზირებული წყაროები და ჯვარედინი გაყიდვები და მომხმარებლის მიერ მორგებული მონაცემების გაფართოებული დიაპაზონი. თავის არსში, WebAnalyst არის ინტელექტუალური ელექტრონული კომერციის აპლიკაციის სერვერი.

ტექნიკური პლატფორმა იგივეა, რაც TextAnalyst.

ტექსტის მაინერი

ამერიკულმა კომპანია SAS Institute-მა გამოუშვა SAS Text Miner სისტემა წერილობით მეტყველებაში გარკვეული გრამატიკული და ვერბალური თანმიმდევრობების შესადარებლად. Text Miner არის ძალიან მრავალმხრივი, რადგან მას შეუძლია იმუშაოს ტექსტურ დოკუმენტებთან სხვადასხვა ფორმატში - მონაცემთა ბაზებში, ფაილურ სისტემებში და თუნდაც ინტერნეტში.

Text Miner უზრუნველყოფს ტექსტის ლოგიკურ დამუშავებას ძლიერი SAS Enterprise Miner პაკეტის ფარგლებში. ეს საშუალებას აძლევს მომხმარებლებს გაამდიდრონ მონაცემთა ანალიზის პროცესი არასტრუქტურირებული ტექსტური ინფორმაციის ინტეგრირებით არსებულ სტრუქტურირებულ მონაცემებთან, როგორიცაა ასაკი, შემოსავალი და მომხმარებელთა მოთხოვნის შაბლონები. ტექსტის მაინერი.

Text Miner-ის ლოგიკური შესაძლებლობების წარმატებული გამოყენების მაგალითი გვიჩვენებს Compaq Computer Corp.-ს, რომელიც ამჟამად ამოწმებს Text Miner-ს ელექტრონული ფოსტით მიღებული და კომპანიის წარმომადგენლების მიერ შეგროვებული 2,5 გიგაბაიტზე მეტი ტექსტური დოკუმენტების ანალიზით. ადრე ასეთი მონაცემების დამუშავება თითქმის შეუძლებელი იყო

Text Miner პროგრამა საშუალებას გაძლევთ განსაზღვროთ რამდენად ჭეშმარიტია კონკრეტული ტექსტური დოკუმენტი. დოკუმენტებში სიცრუის გამოვლენა ხდება ტექსტის ანალიზით და წერის სტილის ცვლილებების იდენტიფიცირებით, რაც შეიძლება მოხდეს ინფორმაციის დამახინჯების ან დამალვის მცდელობისას. ასეთი ცვლილებების მოსაძებნად გამოყენებული პრინციპია მონაცემთა ბაზის ჩანაწერებში ანომალიების და ტენდენციების ძიება მათი მნიშვნელობის გაცნობის გარეშე. ამავდროულად, Text Miner მოიცავს სხვადასხვა ხარისხის სიზუსტის დოკუმენტების ფართო კრებულს, რომელთა სტრუქტურა აღებულია შაბლონებად. სიცრუის დეტექტორზე „გაშვებული“ თითოეული დოკუმენტი ანალიზდება და ადარებს ამ სტანდარტებს, რის შემდეგაც პროგრამა ანიჭებს დოკუმენტს სიმართლის ამა თუ იმ ინდექსს. პროგრამა განსაკუთრებით სასარგებლოა ორგანიზაციებში, რომლებიც იღებენ დიდი მოცულობის ელექტრონულ კორესპონდენციას, ისევე როგორც სამართალდამცავ უწყებებში მტკიცებულებების გაანალიზებისთვის სიცრუის დეტექტორებთან ერთად, რომელთა მოქმედება ეფუძნება ადამიანის ემოციური მდგომარეობის მონიტორინგს.

Text Miner-ის მედიცინაში გამოყენების საინტერესო მაგალითი: ამერიკის ერთ-ერთმა ჯანდაცვის ეროვნულმა ორგანიზაციამ შეაგროვა 10 ათასზე მეტი სამედიცინო ჩანაწერი გულის დაავადებების შესახებ, რომლებიც შეგროვდა მთელი ქვეყნის კლინიკებიდან. Text Miner-ის გამოყენებით ამ მონაცემების გაანალიზებით, ექსპერტებმა აღმოაჩინეს გარკვეული ადმინისტრაციული დარღვევები მოხსენებაში და ასევე შეძლეს დაედგინათ კავშირი გულ-სისხლძარღვთა დაავადებასა და სხვა დაავადებებს შორის, რომლებიც არ იყო განსაზღვრული ტრადიციული მეთოდებით.

ამავდროულად, SAS აღნიშნავს, რომ გამოუშვებს თავის Text Miner პროდუქტს ძირითადად ბიზნეს ინტელიგენციის ყურადღების მიქცევისთვის.

SemioMap

SemioMap არის Entrieva პროდუქტი, რომელიც შეიქმნა 1996 წელს სემიოტიკის მეცნიერის კლოდ ვოგელის მიერ. 1998 წლის მაისში პროდუქტი გამოვიდა როგორც სამრეწველო კომპლექსი SemioMap 2.0 - პირველი სისტემა. ტექსტის მაინინგი, მუშაობს კლიენტ-სერვერის არქიტექტურაში. SemioMap სისტემა შედგება ორი ძირითადი კომპონენტისგან - SemioMap სერვერი და SemioMap კლიენტი. სისტემა მუშაობს სამ ეტაპად:

  • ინდექსირება; SemioMap სერვერი ავტომატურად კითხულობს არასტრუქტურირებული ტექსტის მასივებს, ამოიღებს საკვანძო ფრაზებს (ცნებებს) და ქმნის მათგან ინდექსს;
  • ცნებების კლასტერირება; SemioMap სერვერი იდენტიფიცირებს კავშირებს ამოღებულ ფრაზებს შორის და აყალიბებს მათგან, თანამონაწილეობის საფუძველზე, ლექსიკურ ქსელს („კონცეფციის რუკა“);
  • გრაფიკული ჩვენება და ნავიგაცია; გონების რუქების ვიზუალიზაცია, რომელიც უზრუნველყოფს სწრაფ ნავიგაციას საკვანძო ფრაზებისა და მათ შორის კავშირების მეშვეობით, ასევე კონკრეტული დოკუმენტების სწრაფი წვდომის შესაძლებლობას.

SemioMap მხარს უჭერს მასალის "საქაღალდეებად" დაყოფას, თითოეული საქაღალდისთვის ცალკე მონაცემთა ბაზის შექმნას. ცნებებს შორის კავშირები, რომლებსაც SemioMap ამოიცნობს, ეფუძნება წყაროს ტექსტის მასივის აბზაცებში ფრაზების თანხვედრას.

SemioMap-ის ცენტრალური ბლოკი არის ლექსიკური ექსტრაქტორი - პროგრამა, რომელიც ამოიღებს ფრაზებს ტექსტური კოლექციიდან და განსაზღვრავს ამ ფრაზების (მათი ურთიერთკავშირების) თანამონაწილეობას. ლექსიკური ექსტრაქტორი დაფუძნებულია დაპატენტებულ SEMIOLEX ტექნოლოგიაზე. იგი ახორციელებს კლოდ ვოგელის მიერ შემუშავებულ გამოთვლითი სემიოტიკის იდეებს, ნიშნების მეცნიერებას ლინგვისტურ კომუნიკაციაში.

ინტერმედია ტექსტი, Oracle ტექსტი

ნიშნავს ტექსტის მაინინგი, დაწყებული ტექსტური სერვერით Oracle 7.3.3-ში და interMedia Text კარტრიჯი Oracle8i-ში, არის Oracle-ის პროდუქტების განუყოფელი ნაწილი. Oracle9i-ში ეს ინსტრუმენტები განვითარდა და მიიღო ახალი სახელი - Oracle Text - DBMS-ში ინტეგრირებული პროგრამული პაკეტი, რომელიც საშუალებას გაძლევთ ეფექტურად იმუშაოთ არასტრუქტურირებულ ტექსტებთან დაკავშირებულ შეკითხვებთან. ამ შემთხვევაში ტექსტის დამუშავება შერწყმულია მომხმარებლისთვის მიწოდებულ შესაძლებლობებთან ურთიერთობით მონაცემთა ბაზებთან მუშაობისთვის. კერძოდ, შესაძლებელი გახდა SQL-ის გამოყენება ტექსტის დამუშავების აპლიკაციების წერისას.

მთავარი ამოცანა, რომლის გადაჭრასაც მიზნად ისახავს Oracle Text ინსტრუმენტები, არის დოკუმენტების მოძიება მათი შინაარსით - სიტყვებით ან ფრაზებით, რომლებიც, საჭიროების შემთხვევაში, გაერთიანებულია ლოგიკური ოპერაციების გამოყენებით. ძიების შედეგები რანჟირებულია შესაბამისობის მიხედვით, მოძიებულ დოკუმენტებში მოთხოვნის სიტყვების გაჩენის სიხშირის გათვალისწინებით. ძიების სისრულის გასაზრდელად Oracle Text გთავაზობთ საძიებო შეკითხვის გაფართოების უამრავ ინსტრუმენტს, რომელთა შორის შეიძლება გამოიყოს სამი ჯგუფი. პირველ რიგში, ეს არის კითხვის სიტყვების გაფართოება ყველა მორფოლოგიური ფორმით, რაც რეალიზდება ენის მორფოლოგიის შესახებ ცოდნის ჩართვით. მეორეც, Oracle Text იძლევა სათხოვარი სიტყვების გაფართოებას მნიშვნელობით ახლო სიტყვებით თეზაურუსის - სემანტიკური ლექსიკონის შეერთებით, ასევე შეკითხვის გაფართოება მართლწერისა და ბგერის მსგავსი სიტყვებით - ბუნდოვანი ძიება და თანხმოვანი სიტყვების ძიება. მიზანშეწონილია გამოიყენოთ ბუნდოვანი ძიება არასწორად დაწერილი სიტყვების ძიებისას, ასევე იმ შემთხვევებში, როდესაც ჩნდება ეჭვი სწორ მართლწერაში - გვარები, ორგანიზაციის სახელები და ა.შ.

Oracle Text სისტემა უზრუნველყოფს ტექსტების თემატურ ანალიზს ინგლისურ ენაზე. დამუშავებისას თითოეული დოკუმენტის ტექსტი ექვემდებარება ლინგვისტური და სტატისტიკური ანალიზის პროცედურებს, რის შედეგადაც დგინდება მისი ძირითადი თემები და აგებულია თემატური რეზიუმეები, ასევე ზოგადი რეზიუმე - რეზიუმე.

ყველა აღწერილი ინსტრუმენტის გამოყენება შესაძლებელია ერთად, რომელსაც მხარს უჭერს შეკითხვის ენა ტრადიციულ SQL და PL/SQL სინტაქსის კომბინაციაში დოკუმენტების საძიებლად. Oracle Text იძლევა თანამედროვე რელაციურ DBMS-ებთან მუშაობის უნარს ტექსტური მონაცემების რთული მრავალფუნქციური ძიებისა და ანალიზის კონტექსტში.

Oracle Text-ში ტექსტური ინფორმაციის რუსულ ენაზე დამუშავების შესაძლებლობები საკმაოდ შეზღუდულია. ამ პრობლემის გადასაჭრელად Garant-Park-Internet კომპანიამ შეიმუშავა რუსული კონტექსტური ოპტიმიზატორი (RCO) მოდული, რომელიც განკუთვნილია ინტერმედია ტექსტთან (ან Oracle Text) ერთად გამოსაყენებლად. რუსულენოვანი მორფოლოგიის მხარდაჭერის გარდა, RCO მოიცავს ბუნდოვანი ძიების, თემატური ანალიზისა და დოკუმენტების აბსტრაქციის ინსტრუმენტებს.

ავტონომიის ცოდნის სერვერი

ცნობილია სტატისტიკური შინაარსის ანალიზში განვითარებით, ავტონომიის სისტემის არქიტექტურა აერთიანებს ნიმუშების ინტელექტუალურ ანალიზს დახვეწილ კონტექსტუალურ ანალიზთან და მნიშვნელობის ამოღების ტექნიკასთან ავტომატური კლასიფიკაციისა და ჯვარედინი მითითების პრობლემების გადასაჭრელად. ავტონომიის სისტემის მთავარი უპირატესობაა სტატისტიკურ დამუშავებაზე დაფუძნებული ძლიერი ინტელექტუალური ალგორითმები. ეს ალგორითმები ეფუძნება კლოდ შენონის საინფორმაციო თეორიას, ბაიესის ალბათობებსა და ნერვულ ქსელებს.

ადაპტაციური ალბათური მოდელირების კონცეფცია (APCM) საშუალებას აძლევს ავტონომიას დაადგინოს შაბლონები დოკუმენტის ტექსტში და ავტომატურად აღმოაჩინოს მსგავსი ნიმუშები სხვადასხვა დოკუმენტებში.

ავტონომიის ცოდნის სერვერის სისტემაში მნიშვნელოვანი პუნქტია ტექსტების ანალიზისა და დოკუმენტების შიგნით ძირითადი ცნებების იდენტიფიცირების შესაძლებლობა ტექსტის მნიშვნელობასთან სიხშირეებისა და ტერმინების ურთიერთკავშირის ანალიზით. Autonomy - Agentware კომპონენტი იყენებს უნიკალურ ნიმუშის ანალიზის ტექნოლოგიას (არაწრფივი ადაპტური ციფრული სიგნალის დამუშავება) დოკუმენტებიდან მნიშვნელობის ამოსაღებად და ტექსტებში მოცემული მახასიათებლების დასადგენად. APCM საშუალებას გაძლევთ ამოიცნოთ ტექსტის მნიშვნელობის უნიკალური „ხელმოწერები“, ასევე შექმნათ კონცეფციის აგენტები, რომლებიც ეძებენ მსგავს ჩანაწერებს ვებსაიტებზე, სიახლეებზე, ელ.ფოსტის არქივებში და სხვა დოკუმენტებში. ვინაიდან სისტემა არ არის დაფუძნებული წინასწარ განსაზღვრულ საკვანძო სიტყვებზე, მას შეუძლია ნებისმიერ ენაზე მუშაობა.

ავტონომიის აგენტური სისტემის ბირთვი არის დინამიური მსჯელობის ძრავა (DRE), რომელიც დაფუძნებულია შაბლონების დამუშავების ტექნოლოგიაზე, რომელიც იყენებს ნერვულ ქსელის ტექნიკას, რომელიც წარმოიშვა Autonomy-ის მშობელი კომპანიისგან, ნეიროდინამიკისგან. DRE იყენებს ადაპტური ალბათური მოდელირების კონცეფციას ოთხი ძირითადი ფუნქციის განსახორციელებლად: კონცეფციის აღმოჩენა, აგენტის შექმნა, აგენტის მომზადება და სტანდარტული ტექსტის ძიება. DRE იღებს ბუნებრივ ენაზე შეკითხვებს, ან ტერმინებს, რომლებიც დაკავშირებულია ლოგიკური ოპერატორების მიერ და აბრუნებს დოკუმენტების ჩამონათვალს, რომლებიც დალაგებულია მოთხოვნასთან შესაბამისობის მიხედვით. ეს მექანიზმი არის ავტონომიის აგენტური სისტემის ყველა პროდუქტის საფუძველი. Autonomy's Knowledge Server-ის აღწერა შეგიძლიათ იხილოთ http://www.autonomy.com/tech/whitepaper.pdf.

გალაქტიკა-ZOOM

Galaktika-ZOOM სისტემა რუსული კორპორაციის Galaktika-ს პროდუქტია. სისტემის მთავარი მიზანია ინტელექტუალური ძიება საკვანძო სიტყვების გამოყენებით, რუსული და ინგლისური ენების მორფოლოგიის გათვალისწინებით, ასევე კონკრეტული ასპექტების შესახებ ინფორმაციის მასივების ფორმირება. ამავდროულად, ინფორმაციის მოცულობამ შეიძლება მიაღწიოს ასობით გიგაბაიტს. ეს არის აქცენტი მსხვილ საინფორმაციო ობიექტებზე - მედია შეტყობინებები და სტატიები, ინდუსტრიის პრესა, მარეგულირებელი დოკუმენტაცია, საქმიანი მიმოწერა და საწარმოს შიდა დოკუმენტური ნაკადის მასალები, ინფორმაცია ინტერნეტიდან. ამავდროულად, სისტემა უზრუნველყოფს გარკვეულ ინსტრუმენტებს არჩეული მონაცემების ობიექტური სემანტიკური კავშირების გასაანალიზებლად და პრობლემის „გამოსახულების“ ფორმირებისთვის - მრავალგანზომილებიანი მოდელი ინფორმაციის ნაკადში მნიშვნელოვანი სიტყვების რანჟირებული სიის სახით, რომლებიც გამოიყენება ერთად. პრობლემის თემით. სისტემაში დიდი ყურადღება ეთმობა შესწავლილი პრობლემის განვითარების დინამიკის ტენდენციების იდენტიფიცირებას. სისტემა შეიცავს კონვერტორებს საერთო ფორმატებისთვის: უბრალო ტექსტი, RTF, DOC, HTML. Galaktika-ZOOM მუშაობს Windows 2000 OS გარემოში.

ინფოსტრიმი

ინტერნეტში მუდმივად გენერირებული დიდი დინამიური ინფორმაციის მასივების დაფარვა და განზოგადება მოითხოვდა თვისობრივად ახალ მიდგომებს. საჭიროა შეიქმნას საინფორმაციო რესურსების მონიტორინგის მეთოდები, რომლებიც მჭიდრო კავშირშია კონტენტ ანალიზის მეთოდოლოგიასთან – კონტენტ მონიტორინგთან. ხარისხობრივი და რაოდენობრივი მონაცემების მისაღებად, ასეთი მონიტორინგი უნდა განხორციელდეს უწყვეტად წინასწარ განუსაზღვრელი დროის განმავლობაში. ამ პრობლემის გადასაჭრელად, InfoStream™ ტექნოლოგია შემუშავდა უკრაინაში ELVISTI საინფორმაციო ცენტრში. InfoStream პროგრამული და ტექნოლოგიური ხელსაწყოები მოიცავს სამ ძირითად კომპონენტს:

  • ინფორმაციის შეგროვებისა და დამუშავების ცენტრი;
  • მონაცემთა ბაზებზე ინტერაქტიული წვდომის ორგანიზების ცენტრი;
  • შინაარსის მონიტორინგის ცენტრი.

InfoStream შინაარსის დამუშავების მექანიზმის ბირთვი არის სრული ტექსტის ინფორმაციის მოძიების სისტემა InfoReS. ტექნოლოგია საშუალებას გაძლევთ შექმნათ სრული ტექსტის მონაცემთა ბაზები და მოძებნოთ ინფორმაცია, შექმნათ თემატური საინფორმაციო არხები, ავტომატურად დაალაგოთ ინფორმაცია, შექმნათ დაიჯესტები, ცნებებს შორის ურთიერთობის ცხრილები (მათ გამოვლენასთან დაკავშირებით ონლაინ პუბლიკაციებში), წონის მნიშვნელობების განაწილების ჰისტოგრამები. ცალკეული ცნებების, ასევე დროთა განმავლობაში მათი წარმოშობის დინამიკას. InfoStream ტექნოლოგია საშუალებას გაძლევთ დაამუშავოთ მონაცემები MS WORD (DOC, RTF), PDF და ყველა ტექსტის ფორმატში (უბრალო ტექსტი, HTML, XML). InfoStream-ზე დაფუძნებული სისტემები ამჟამად მუშაობს შემდეგ OS პლატფორმებზე: FreeBDS, Linux, Solaris.

შევხედოთ მომავალს

ცოტა ხნის წინ, აშშ-ს ცენტრალურმა სადაზვერვო სააგენტომ წარუდგინა ფართო საზოგადოებას თავისი "მონაცემთა მოპოვების" ტექნოლოგიები, რომლებიც გამოიყენება ინფორმაციის მოსაძიებლად ტექსტებში, რადიო და სატელევიზიო გადაცემებში დაზვერვის სააგენტომ საზოგადოებას აჩვენა ტექნოლოგია "ტექსტური მონაცემთა მოპოვება, რომელიც გამოიყენება მნიშვნელოვანი ინფორმაციის მოსაძიებლად დოკუმენტების უზარმაზარ მასაში და რადიო და სატელევიზიო გადაცემებში სხვადასხვა ენაზე. ძიება ხორციელდება როგორც სისტემატიზებული, ისე შემთხვევითი წყაროების გამოყენებით, ხოლო საძიებო ობიექტებია ტექსტები ბეჭდურ პუბლიკაციებში და ციფრულ ფორმატში, გრაფიკული გამოსახულებები, აუდიო ინფორმაცია 35 ენაზე. აუდიო ინფორმაციის გასაფილტრად გამოიყენება „ოაზისის“ ტექნიკა, რომელიც ცნობს მეტყველებას და აქცევს მას ტექსტად. ამავდროულად, ტექნოლოგია შესაძლებელს ხდის მამრობითი ხმების გამოყოფას ქალის, ასევე სხვადასხვა ადამიანის კუთვნილი ხმებისა და დიალოგების სახით ჩაწერას. "Oasis" ტექნიკა საშუალებას გაძლევთ აირჩიოთ აუდიო ნაკადიდან მხოლოდ ის ხმები ან ის კონკრეტული ინფორმაცია, რომელიც შედის საძიებო პარამეტრებში.

კიდევ ერთი კომპიუტერული ტექნოლოგია სახელწოდებით Fluent საშუალებას აძლევს CIA-ს დანაყოფებს მოძებნონ ინფორმაცია ტექსტურ დოკუმენტებში. ეს ტექნოლოგია გულისხმობს საკვანძო სიტყვების ძიებას, სადაც სიტყვა ან კომბინაცია შეიტანება ინგლისურად, რომელიც დაუყოვნებლივ ითარგმნება უამრავ სხვა ენაზე და მონაცემთა ბაზიდან მოძიებული ინფორმაცია სხვადასხვა ენაზე ეგზავნება მკვლევარს ავტომატური თარგმნის შემდეგ. კიდევ ერთი პროგრამა, Text Data Mining, გაძლევთ საშუალებას ავტომატურად შექმნათ საგნობრივი ინდექსები ტექსტური დოკუმენტებისთვის, ასევე მიიღოთ მონაცემები დოკუმენტებში გარკვეული სიტყვების გამოყენების სიხშირის შესახებ. CIA იყენებს ამ ტექნოლოგიებს დღეს უკანონო ფინანსური ტრანზაქციებისა და ნარკოტიკებით ვაჭრობის თვალყურის დევნებისთვის.

ზემოთ ნახსენებ ტექნოლოგიებს მართავს CIA-ს მეცნიერებისა და ტექნოლოგიების დირექტორატის Advanced Information Technology (AIT) დეპარტამენტი. „ჩვენ არ ვიზრდებით საკმარისად სწრაფად, რომ თვალი ადევნოთ აქ ყოველდღიურად გავრცელებულ ინფორმაციას“, - თქვა AIT-ის დირექტორმა, ლარი ფეერჩაილდმა, „ჩვენ გვჭირდება თანამშრომლების აღჭურვა ტექნოლოგიით, რათა დავეხმაროთ მათ გაუმკლავდნენ მონაცემთა უზარმაზარ მოცულობას. ბუზი."

ხელსაწყოების პროფესიონალური გამოყენების თვალსაზრისით ტექსტის მაინინგი CIA შორს არის მონოპოლისტისაგან. ანალიტიკური კომპანია IDC-ის პროგნოზით, მსგავს პროგრამებზე მოთხოვნა მომდევნო 4-5 წლის განმავლობაში საგრძნობლად გაიზრდება. ამრიგად, 2005 წლისთვის მოსალოდნელია, რომ ასეთი პროგრამული უზრუნველყოფის მოგება გაიზრდება $540 მილიონიდან (2002 წელს) მილიარდნახევარ დოლარამდე. შესაძლებლობები, როგორიცაა აღმოჩენილი ინფორმაციის ექსპრეს ანალიზი, ინფორმაციის დაზვერვა (მიმოფანტული პირდაპირი და არაპირდაპირი ინფორმაციის მოპოვება გარკვეულ პრობლემაზე), თემატური დოსიეების ფორმირება და შენარჩუნება, ტენდენციებისა და ურთიერთობების იდენტიფიცირების უნარით ადამიანებს, მოვლენებსა და პროცესებს შორის უკვე არსებობს. გამოიყენება მრავალი მსხვილი საწარმოს მიერ და, რა თქმა უნდა, მოთხოვნადი იქნება შემდგომში.

2006 წლისთვის ამ ტიპის პროგრამები გახდება დომინანტი კლიენტების ინფორმაციის ანალიზში ნებისმიერი დონის კომპანიებში, იქნება ეს ქოლ ცენტრები, ინტერნეტ სააგენტოები თუ ანალიტიკური სააგენტოები, ამბობს ექსპერტი ალესანდრო ზანასი, ყოფილი META ჯგუფი. HR დეპარტამენტები გამოიყენებენ ტექსტის მოპოვების პროგრამებს რეზიუმეების მოსაძებნად, რომლებიც შეესაბამება ინდიკატორების რთულ ბადეს. მარკეტინგის განყოფილებები გამოიყენებენ ისეთ პროგრამებს, როგორიცაა ბაზრის სიტუაციის ანალიზატორები, ტენდენციების თვალყურის დევნება, კონკურენტების პოზიცია და სხვა ინდიკატორები, რომლებიც დაფუძნებულია ინფორმაციაზე და სხვადასხვა წყაროებზე - ახალი ამბების არხები, კვლევის ანგარიშები, მიმოხილვები, პატენტები.

დღესდღეობით 90-100%-ით მოგვარებულია სტრუქტურირებული ინფორმაციის ანალიზის საკითხები აპლიკაციის სხვადასხვა სფეროში, ამოცანების სპეციფიკიდან გამომდინარე. ტექნოლოგიური თვალსაზრისით, ეს შეიძლება აიხსნას ძალიან მარტივად: თანამედროვე ანალიზის ხელსაწყოები საშუალებას გაძლევთ „დაათვალიეროთ“ მონაცემთა ბაზაში შენახული მონაცემები. ბაზარზე ფართოდ არის წარმოდგენილი მომხმარებლებისთვის ნაცნობი ტექნოლოგიები, როგორიცაა OLAP, BI და მონაცემთა მოპოვება, სტატისტიკური დამუშავების, პროგნოზირების და ვიზუალიზაციის პოპულარულ მეთოდებზე დაყრდნობით.

სრულიად საპირისპირო ვითარება შეიქმნა არასტრუქტურირებული მონაცემების, სხვა სიტყვებით რომ ვთქვათ, ბუნებრივ ადამიანურ ენაზე დაწერილი ტექსტის ანალიზისას. ამ სფეროში ავტომატიზაციასთან დაკავშირებული პრობლემები მომხმარებელთა უმეტესობისთვის ჯერ არ არის მოგვარებული. დაუყოვნებლივ აღვნიშნოთ, რომ ანალიზზე საუბრისას ყოველთვის ვგულისხმობთ კონკრეტული ადამიანის კონკრეტულ კითხვაზე პასუხის ძიებას.

მაგალითად, ზედამხედველობის სამსახურის ანალიტიკოსი სვამს კითხვას: "რომელი რუსული ბანკებია ყველაზე რისკიანი?" გამარტივებული ფორმით, შედეგი უნდა იყოს სანდოობის მიხედვით დახარისხებული ბანკების სია, რომელიც შეიცავს რისკის შეფასებას. იმ შემთხვევაში, როდესაც ინფორმაცია მონაცემთა ბაზაშია, ყველაფერი ნათელია: თქვენ აყენებთ ანალიზის ინსტრუმენტს მონაცემთა ბაზაში შეკითხვისთვის, შეიყვანეთ ფორმულა და „სთხოვთ“ აჩვენოთ ცხრილი დახარისხებული რისკის დონის მიხედვით. მაგრამ სირთულე ის არის, რომ, როგორც წესი, ეს ინფორმაცია არ არის მონაცემთა ბაზაში. ამა თუ იმ ფორმით, ის არის ინტერნეტში და სხვა წყაროებში. მაგრამ როგორ ამოიღოთ იგი არასტრუქტურირებული მონაცემებიდან, მაგალითად, ბანკის ანგარიშებიდან და ინტერნეტში გამოქვეყნებული სხვა დოკუმენტებიდან?

თითქმის ყველა მომხმარებელი აკეთებს შემდეგს: მიდიან საძიებო სისტემაში, მაგალითად Yandex-ში, წერენ შეკითხვას - და... იღებენ ათასობით და ათასობით ბმულს... ახლა კი ყველაზე საინტერესო: ვუხვევთ ხელებს და ვაწკაპუნებთ. ლინკებზე გადახედეთ ტექსტს, შეარჩიეთ საჭირო ფრაგმენტები ბანკის სახელწოდებით, ინფორმაცია მისი სერვისების, საწესდებო კაპიტალის, მომგებიანობის, ხარჯებისა და სხვა ინდიკატორების შესახებ, რომლებიც აუცილებელია მეთოდოლოგიით ან ჩვენი გაგებით, რისკების შესაფასებლად. მიღებულ მონაცემებს ვტვირთავთ MS Excel-ში, ვიყენებთ ფორმულებს, ვხატავთ გრაფიკებს და ბოლოს აღფრთოვანებული ვართ პატიოსანი და შრომისმოყვარეობით მიღებული შედეგით.

მსგავსი მაგალითები ბევრია როგორც ყოველდღიურ ცხოვრებაში, ასევე ბიზნესში. მათ აქვთ ერთი საერთო - რუტინა, რომელიც დაკავშირებულია ხელით ძიებასთან და მონაცემთა ამოღებასთან. ეს ყველაფერი ძალიან მოგვაგონებს შუასაუკუნეების მაღაროების სურათს: ათასობით ადამიანი მწვერვალებითა და ნიჩბებით იჭრება ჯიუტ კლდეში და მოიპოვებს სასარგებლო მინერალების მარცვლებს. გამოდის, რომ არასტრუქტურირებულ ინფორმაციასთან მუშაობის კუთხით, ჩვენ შუა საუკუნეებში ვართ. შესაძლებელია თუ არა დღეს ამ „მაღაროელების“ შრომის ავტომატიზაცია?

როგორც რუსული და უცხოური პრაქტიკის ანალიზი აჩვენებს, ასეთი ტექნოლოგიები არსებობს. შევეცადოთ გავიგოთ, როგორ შეიძლება ისინი სასარგებლო იყოს მომხმარებლებისთვის და გამოვყოთ მითები რეალობისგან.

ჩვენი გზა: ძებნა, მოპოვება, ანალიზი

ზემოთ მოყვანილი გამარტივებული მაგალითიდან ჩანს, რომ საბოლოო შედეგის მიღების პროცესი (კითხვაზე პასუხის გაცემა) შეიძლება დაიყოს სამ ფაზად. ჯერ ვეძებთ შესაბამის დოკუმენტებს, შემდეგ გამოვყოფთ მონაცემებს ნაპოვნიდან და ბოლოს ვაანალიზებთ. შესაბამისად, თანამედროვე მიდგომები შეიძლება დაიყოს სამ ჯგუფად ამ პროცესის სხვადასხვა ფაზის ავტომატიზაციის ხარისხის მიხედვით: დოკუმენტის ძიება, ინფორმაციის მოპოვება, ანალიზი.

ამავდროულად, მხოლოდ ძიების ავტომატიზაციაზე დაფუძნებული მიდგომა გამოიყენება შემთხვევების 90% -ში, ინფორმაციის მოძიება ავტომატიზირებულია გადაწყვეტილებების დაახლოებით 10% -ში და მხოლოდ იშვიათ შემთხვევებში ასეთი სისტემები იღებენ ანალიტიკურ მუშაობას. მიუხედავად იმისა, რომ ეს არის ანალიზის ინსტრუმენტები, რომლებიც ყველაზე გასაგებია საბოლოო მომხმარებლისთვის. ამ სიტუაციის მიზეზები შემდგომში იქნება განხილული.

საძიებო სისტემების გამოყენება

ეს მიდგომა გულისხმობს საწარმოში საძიებო სისტემის არსებობას, რომელიც გამოიყენება არასტრუქტურირებულ ტექსტებთან მუშაობის მთავარ ინსტრუმენტად.

მენეჯერი ან ანალიტიკოსი შეაქვს საკვანძო სიტყვებს, ამუშავებს მითითებებს, იღებს დოკუმენტს, განიხილავს შინაარსს, ირჩევს სასურველ ინფორმაციას, ატვირთავს მას საანალიზო პროგრამაში ან მონაცემთა ბაზაში და ქმნის ანგარიშს. ცნობილია, რომ ასეთი სამუშაოს პროდუქტიულობა მერყეობს 400-დან 1000 სტატიამდე დღეში, რაც დამოკიდებულია ანალიტიკოსის გამოცდილებაზე. ეს შრომატევადი სამუშაოა, შედარება ზემოხსენებულ მაღაროებში. აქ ადამიანი ძირითადად რუტინული ოპერაციებით არის დაკავებული და ამიტომ ვერ აქცევს დიდ ყურადღებას ჭეშმარიტად ინტელექტუალურ მუშაობას.

ამ მიდგომის მთავარი უპირატესობები საკმაოდ აშკარაა: საძიებო ტექნოლოგიების გავრცელება და ზოგადი ხელმისაწვდომობა. ეს არის ეგრეთ წოდებული ერთი დაწკაპუნებით გადაწყვეტა, როცა აკრეფდი საკვანძო სიტყვას, აჭერდი ერთ ღილაკს და... ამას ემატება ჩვევა იმისა, რომ ადამიანის გარდა ვერავინ უმკლავდება ინფორმაციის შემდგომ დამუშავებას.

ვინაიდან საძიებო ინსტრუმენტები დიდი ხნის განმავლობაში ვითარდებოდა და მიაღწიეს სიმწიფის მაღალ საფეხურს, ისინი საკმაოდ წარმატებით უპასუხებენ კითხვას, თუ სად მდებარეობს ინფორმაცია. ისინი შეიძლება შევადაროთ კომპასს, რომელიც საშუალებას გაძლევთ ნავიგაცია არასტრუქტურირებული მონაცემების სამყაროში. მომხმარებლები უკვე ისე მიეჩვივნენ საძიებო სისტემებს, რომ არ არის საჭირო რაიმე სპეციალური ტრენინგი.

თუმცა, თუ ვსაუბრობთ მონაცემთა დიდი მოცულობის დამუშავებაზე, მხოლოდ საძიებო სისტემების გამოყენება ხდება არაეფექტური, ვინაიდან ის მოითხოვს მნიშვნელოვან ადამიანურ რესურსებს ფაქტების „მაინინგის“ და მათი ანალიზის ეტაპებზე.

ინფორმაციის მოპოვების ავტომატიზაცია

ეს მიდგომა ითვალისწინებს ტექნოლოგიურად „მოწინავე“ ხელსაწყოს არსებობას, რომელსაც შეუძლია ტექსტიდან საჭირო ელემენტების ამოღება (ტექსტის მოპოვება). მისი საქმეა ის, რომ შეყვანა არის ტექსტი დაწერილი ბუნებრივ ენაზე, ხოლო გამოსავალზე მომხმარებელი იღებს მოთხოვნილ ინფორმაციას სტრუქტურირებული ფორმით. სტრუქტურებს შეუძლიათ წარმოადგინონ როგორც მარტივი ერთეულები (პირები, ორგანიზაციები, გეოგრაფიული სახელები), ასევე რთული (ფაქტები, რომლებიც შეიცავს მოვლენას, მის მონაწილეებს, თარიღს, ფინანსურ პარამეტრებს და ა.შ.). მოვლენები შეიძლება ძალიან განსხვავებული იყოს: ინციდენტები, ტრანზაქციები, სასამართლოები და ა.შ. ეს ინსტრუმენტი საშუალებას გაძლევთ ავტომატურად შეაგროვოთ თქვენი მუშაობის შედეგები მონაცემთა კრებულში, რომელიც უკვე შესაფერისია ანალიზისთვის.

ასეთი მონაცემთა ნაკრების ანალიზი, რა თქმა უნდა, უფრო ადვილი და სწრაფია, ვიდრე საძიებო სისტემის შედეგები. თუმცა, აქაც საჭიროა ძალისხმევა ტექსტის მოპოვების ინსტრუმენტების დოკუმენტის წყაროებთან, საძიებო სისტემებთან და ანალიტიკურ ინსტრუმენტებთან ინტეგრირებისთვის. დღეს, ტექსტის მოპოვების ხელსაწყოების გამყიდველები თავიანთ პროდუქტებს აწვდიან დოკუმენტის წყაროებთან (ძირითადად ვებ რესურსებთან) და მონაცემთა ბაზებთან ინტეგრაციის უნარს XML ფაილების საშუალებით. ასევე მოწოდებულია SDK, რომლის გამოყენება მოითხოვს საკმაოდ ძვირადღირებულ შემდგომ განვითარებას. მაგრამ ამ ტექნოლოგიების გამოყენების მთავარი პრობლემა არის ასეთი ხელსაწყოების დაყენებისა და შენარჩუნების სირთულე. ეს განპირობებულია კომპიუტერული ლინგვისტიკის სპეციფიკით, რომელიც მოქმედებს სინტაქსისა და სემანტიკის თვალსაზრისით. როგორც წესი, საბოლოო მომხმარებლები და დეველოპერები შორს არიან ამ საკითხებისგან და შედეგად, ასეთი ხელსაწყოების შესაძლებლობები მხოლოდ 5-10% -ით გამოიყენება.

თუმცა, მომხმარებელი უკვე თავისუფლდება ათასობით დოკუმენტის ხელით გადახედვისა და საკვანძო სიტყვების არჩევისგან. სისტემა ამას აკეთებს მისთვის. ჩნდება მსგავსი დოკუმენტების ავტომატური კლასიფიკაციისა და შედარების დამატებითი შესაძლებლობები. გარდა ამისა, პროგრამას შეუძლია ამოიცნოს ტექსტის სემანტიკური ელემენტები, მაგალითად, ფაქტები, მოვლენები და გადასცეს ისინი შემდგომი დამუშავებისთვის.

ანალიტიკური პროცედურების ავტომატიზაცია

უმარტივეს შემთხვევაში, საბოლოო მომხმარებელს აქვს ისეთი ანალიტიკური ინსტრუმენტები, როგორიცაა MS Excel და MS Access, მოწინავე შემთხვევაში - BI და მონაცემთა მოპოვება. ინდივიდუალური შეკვეთით შემუშავებულ განვითარებაში გარკვეული ნოუჰაუ დანერგილია. როგორც არ უნდა იყოს, აშკარა გამოსავალს გვთავაზობს: ჩამოყალიბდეს საძიებო სისტემის ტექნოლოგიური ჯაჭვი - ტექსტის მოპოვება - ანალიზის ინსტრუმენტი. თქვენ შეგიძლიათ დააკავშიროთ მითითებული ჯაჭვის ელემენტები მონაცემთა ბაზის საშუალებით. პროცესის ავტომატიზაციისთვის, იდეალურ შემთხვევაში, გჭირდებათ რაიმე სახის მექანიზმი, რომელიც მოითხოვს ინფორმაციას საძიებო სისტემიდან, თავად დოკუმენტების სკანირებას, საჭირო ფაქტების აღმოჩენას, სტრუქტურირებას, მონაცემთა ბაზაში შენახვას და დასრულებულ დავალების შესახებ მოხსენებას. მაშინ ანალიტიკოსს მოუწევს მხოლოდ ანგარიშების გახსნა და შედეგების ანალიზი.

ტექსტის მაინინგი - როგორ მუშაობს?

ტექსტის მოპოვება არის ტექნოლოგიებისა და მეთოდების ერთობლიობა, რომელიც შექმნილია ტექსტებიდან ინფორმაციის ამოსაღებად. მთავარი მიზანია ანალიტიკოსს მიეცეს საშუალება იმუშაოს წყაროს მონაცემების დიდი მოცულობით, საჭირო ინფორმაციის მოპოვების პროცესის ავტომატიზაციის გზით. დავასახელოთ ტექსტის მაინინგის ძირითადი ტექნოლოგიები.

1. ინფორმაციის მოპოვება:

ა) ფუნქცია (ერთეული) ამოღება - სიტყვების ან სიტყვების ჯგუფების ამოღება, რომლებიც მომხმარებლის თვალსაზრისით მნიშვნელოვანია დოკუმენტის შინაარსის აღწერისთვის. ეს შეიძლება იყოს მითითებები პირებზე, ორგანიზაციებზე, გეოგრაფიულ მდებარეობებზე, საგნის არეალის ტერმინებზე და სხვა სიტყვებზე ან ფრაზებებზე. ამოღებული ერთეულები ასევე შეიძლება იყოს ყველაზე მნიშვნელოვანი ფრაზები, რომლებიც ახასიათებს დოკუმენტს მისი ძირითადი თემის მიხედვით;

ბ) Feature (Entity) Association Extraction - უფრო რთული ტექნოლოგიური თვალსაზრისით. ამოღებულ ერთეულებს შორის იკვეთება სხვადასხვა სახის კავშირები. მაგალითად, მაშინაც კი, თუ შერჩეული საგნები მოხსენიებულია სხვადასხვა დოკუმენტში, მაგრამ აქვთ საერთო მახასიათებელი (დრო, ადგილი და ა.შ.), დარწმუნებით შეიძლება ითქვას, არის თუ არა მათ შორის რაიმე კავშირი;

გ) ურთიერთობა, მოვლენა და ფაქტის ამოღება - ინფორმაციის მოპოვების ყველაზე რთული ვერსია (Information Extraction), რომელიც მოიცავს ერთეულების ამოღებას, ფაქტებისა და მოვლენების ამოცნობას და ინფორმაციის ამოღებას ამ ფაქტებიდან. მაგალითად, სისტემამ შეიძლება დაასკვნა, რომ ივან პეტროვმა იყიდა Pupkin and Co. კომპანია, თუნდაც ტექსტი შეიცავს მხოლოდ ირიბ მითითებებს ამ მოვლენის შესახებ. საძიებო სისტემა აქ უმწეოა, რადგან ჩვეულებრივი ადამიანის მეტყველება მოიცავს პრეზენტაციის უამრავ ვარიანტს. მხოლოდ საძიებო სისტემის გამოყენებით, ჩვენ მოგვიწევს ამ ფაქტის ამოცნობა ყველა იმ საკვანძო სიტყვით, რომელიც მას ახასიათებს. და ტექსტის მოპოვების ტექნოლოგია ამას თავად აკეთებს და მითითებული შეზღუდვების შესაბამისად, განასხვავებს შესაბამის ფაქტებს მათთან არავითარ კავშირში. მაგალითად, თუ გავაანალიზებთ კომპანიების ყიდვა-გაყიდვის ტრანზაქციებს, სისტემას შეუძლია ფაქტების კლასიფიცირება „კაცმა იყიდა ერთი ბოთლი არაყი“ და „ივან პეტროვმა იყიდა კომპანია Pupkin and Co“.

2. შეჯამება (ავტომატური აბსტრაქცია, ანოტაცია) - დოკუმენტის რეზიუმეს აგება მისი სრული ტექსტის საფუძველზე.

3. კატეგორიზაცია (კატეგორიზაცია, კლასიფიკაცია) - დოკუმენტის ან მისი ნაწილის ერთ ან რამდენიმე კატეგორიაზე მინიჭება. კატეგორიებს შეუძლიათ განსაზღვრონ ტექსტის „მიმართულება“ - თემატური, ჟანრული, ემოციური, შეფასებითი.

4. კლასტერიზაცია - დოკუმენტების ჯგუფებად გაერთიანება მათი მსგავსების მიხედვით.

ამ მიდგომის პრობლემები აშკარაა და დაკავშირებულია გადაწყვეტის მრავალკომპონენტიან ბუნებასთან. თქვენ უნდა დააინსტალიროთ საძიებო სისტემა, ტექსტიდან მონაცემების ამოღების ინსტრუმენტი, ანალიზის ხელსაწყოები და გარდა ამისა, განახორციელოთ ყველა დაკავშირებული ინტეგრაცია. თუმცა, როგორც ჩანს, ეს არის გზა, რომელსაც საბოლოო მომხმარებლის გადაწყვეტილებების პროვაიდერები მიემართებიან. ამის რამდენიმე მიზეზი არსებობს.

1. ანალიზის ინსტრუმენტები, კერძოდ BI და Data Mining, ხდება დე ფაქტო სტანდარტი მთელ მსოფლიოში და სულ უფრო მეტი სპეციალისტი ეყრდნობა მათ, როგორც ანალიტიკური გარემოს შექმნის მთავარ საშუალებას. ამ ტიპის კომერციულ პროდუქტებთან ერთად, ვითარდება ღია რესურსების სამყარო (პროექტები Pentaho და Eclipse), რომლებიც ხელმისაწვდომია მომხმარებლების ფართო აუდიტორიისთვის.

2. ასევე მიმდინარეობს ტექსტის მოპოვების ტექნოლოგიები, მათ შორის ინტეგრაციის ინსტრუმენტები ინფორმაციის წყაროებთან და ანალიტიკურ ინსტრუმენტებთან (მათ სთავაზობენ კომპანიები, როგორიცაა Clarabridge, Nstein Technologies, Attensity).

3. ვითარდება თავად სამეცნიერო სფეროებიც - კომპიუტერული ლინგვისტიკა, ტექსტის ანალიზის მეთოდები. გამოჩნდნენ კონსულტანტები, რომელთა საქმიანობის ძირითადი სფეროც ასეთი პრობლემების გადაჭრას მოიცავს. ამ ექსპერტების ჩართულობა ამ ტიპის პროექტებს უაღრესად ეფექტურს ხდის.

მაგალითებისთვის შორს ყურების გარეშე...

მოვიყვანოთ ჩვენი კომპანიის მიერ Clarabridge-ის პლატფორმაზე დაფუძნებული არასტრუქტურირებული ინფორმაციის ძიება-მოპოვება-ანალიზის ტექნოლოგიური კომბინაციის მუშაობის რამდენიმე მაგალითი. გაითვალისწინეთ, რომ ისინი ასახავს ამ ტიპის ხელსაწყოს შესაძლებლობების მხოლოდ ნაწილს. გადაწყვეტის ფუნქციონირება შეიძლება ბევრად უფრო ფართო იყოს.

ტექნოლოგიური ბმულის პრინციპზე აგებული სისტემა საშუალებას გაძლევთ შეადგინოთ სხვადასხვა ტიპის რეიტინგები და პროგნოზები ღია და კორპორატიულ წყაროებში მოცემული ინფორმაციის საფუძველზე. ამგვარად, Yandex-ის ვებსაიტზე გამოქვეყნებულ სიახლეებში საავტომობილო ბრენდების ხსენებების რეიტინგის გამოთვლისას სისტემამ იპოვა ბმულები, ამოიღო ფაქტები, დაადგინა მათ შორის კავშირები, მოახდინა მიღებული ინფორმაციის სტრუქტურა და გააანალიზა იგი (იხ. ნახ. 1). მას შემდეგ, რაც პროცესი ავტომატიზირებულია, მომხმარებელი დაუყოვნებლივ იღებს მზა საინფორმაციო პროდუქტს, რომელიც საშუალებას აძლევს მას განსაჯოს რა დადებითი (უარყოფითი) თვისებები ასოცირდება თითოეულ წარმოდგენილ ბრენდთან და როგორ იცვლება მომხმარებელთა აზრი დროთა განმავლობაში. თუ დააწკაპუნებთ გრაფიკის ამა თუ იმ ნაწილზე - მაგალითად, BMW-ს რეიტინგის ვარდნის ჩვენებაზე - სისტემა გეტყვით ამ ვარდნის მიზეზებს (ამ შემთხვევაში მიზეზი ბაზრიდან მანქანების გამოძახება იყო).

ბრენდები ონლაინ საინფორმაციო წყაროებში

გარდა ამისა, Clarabridge-ის მსგავსი ტექნოლოგიური სისტემები შეიძლება გამოყენებულ იქნას „მომხმარებლის ხმის“ ან „ბაზრის სუნთქვის“ იდენტიფიცირებისთვის - კორესპონდენციის ანალიზი, სატელეფონო ცენტრის შენიშვნები, ახალი ამბების სტატიები მედიასა და ინტერნეტში, მომხმარებელთა მოსაზრებები ონლაინ ფორუმებზე და ბლოგები. ამავდროულად, არასტრუქტურირებული დოკუმენტებიდან მიღებული ინფორმაცია ინტეგრირებულია CRM სისტემებიდან და სხვა წყაროების მონაცემებთან.

ისტორიული ფონი

ტექსტის მოპოვების ტექნოლოგიის განვითარების დასაწყისად შეიძლება ჩაითვალოს აშშ-ს პრეზიდენტის რიჩარდ ნიქსონის (1969-1974) მეფობის ეპოქა. შემდეგ ათობით მილიონი დოლარი გამოიყო თარგმანის ავტომატიზაციასთან დაკავშირებული სამეცნიერო სფეროების განვითარებისთვის. ეს მოხდა ცივი ომის ეპოქაში, როდესაც, კერძოდ, ძალიან აქტუალური იყო რუსულიდან ინგლისურ ენაზე კომპიუტერის თარგმნის სამუშაოები მრავალფეროვანი დოკუმენტების, სამეცნიერო მოხსენებებიდან ტექნიკურ დოკუმენტაციამდე. გასაკვირი არ არის, რომ ეს პროექტი დაიხურა.

ამავდროულად, გამოჩნდა ცოდნის ახალი დარგი - ბუნებრივი ენის დამუშავება (NLP), რომელსაც რუსეთში კომპიუტერული ლინგვისტიკა უწოდეს. 90-იან წლებში ღია წყაროებში დაიწყო არა მხოლოდ სამეცნიერო კონფერენციების მოხსენებები, არამედ პროგრამის კოდებიც, რამაც შესაძლებელი გახადა განვითარებაში უფრო ფართო საერთაშორისო სამეცნიერო საზოგადოების ჩართვა. ამ სფეროში ყველაზე აქტიური მეცნიერები არიან აშშ, დიდი ბრიტანეთი, საფრანგეთი და გერმანია.

ჩვენს ქვეყანაში კომპიუტერული ლინგვისტიკის განვითარებას თავისი სპეციფიკა ჰქონდა. იგი ძირითადად განვითარდა თავდაცვის საწარმოებისა და უსაფრთხოების სამსახურების ინტერესებიდან გამომდინარე და არ იყო ორიენტირებული კონკრეტული ბიზნეს პრობლემების გადაჭრაზე. ბოლო წლებში ამ სფეროს მიზნობრივი დაფინანსების ნაკლებობამაც იქონია გავლენა. მიუხედავად ამისა, მედიისა და ინტერნეტის სწრაფი განვითარება იწვევს მოთხოვნას როგორც ფედერალური სამსახურების, ასევე კომერციული ორგანიზაციების მხრიდან (მაგალითად, კონკურენტული დაზვერვა).

ამრიგად, ინტერნეტ ფორუმებზე განხილული ფიჭური ოპერატორების ტარიფების პოპულარობის შედარებითი ანალიზისთვის, სისტემამ გააანალიზა 20-ზე მეტი ფორუმი და ბლოგი, ამოიღო ფაქტები დადგენილი კლასიფიკატორებისა და შემზღუდველების შესაბამისად, ჩაატარა შედარებითი ანალიზი და წარმოადგინა მონაცემები ფორმაში. მოსახერხებელია გადაწყვეტილების მიღებისთვის (იხ. ნახ. .2).

ბრინჯი. 2. ტენდენციები სატარიფო ხსენებებში

სხვადასხვა ტარიფების განხილვის ტენდენციების ანალიზი საშუალებას გაძლევთ ნახოთ მათი პოპულარობის განვითარება და ამის მიზეზები, ასევე მოდელირება და პროგნოზირება ახალი ტარიფების პოპულარიზაციის შესახებ. ამავდროულად, გარკვეული ინდიკატორები შეიძლება დაწვრილებით იქნეს წყაროს ტექსტის დონეზე, რაც შესაძლებელს ხდის ინფორმაციის აუდიტის შემოწმებას მონაცემთა სანდოობისა და სისტემის პარამეტრების სისწორის შესამოწმებლად.

დასკვნები

აზროვნების ინერციიდან გამომდინარე, მასობრივი აუდიტორია უნდობელია იმისა, რომ მანქანას შეუძლია იმუშაოს ფაქტების, მოვლენების, პიროვნებების, ორგანიზაციების და ა.შ. ცნებებით. ძირითადად, ეს არის ის, რაც გვაიძულებს მივატოვოთ ტექსტის მოპოვების ტექნოლოგიები და დატვირთოთ საკუთარი თავი. ძიების შედეგების ხელით დამუშავება. რა თქმა უნდა, არის ობიექტური სირთულეები. ტექსტის მოპოვების მეთოდები უნდა იყოს ადაპტირებული საგნობრივ სფეროსთან, რაც ხშირად დროსა და სხვა რესურსებს მოითხოვს. ზოგიერთი ტიპის ტექსტი (მაგალითად, მხატვრული, პროფესიული და სხვა ჟარგონი) ძნელად დასამუშავებელია.

იმავდროულად, არასტრუქტურირებული ტექსტებიდან ინფორმაციის ამოღების ტექნოლოგიები (Text Mining) დღეს უკვე გამოიყენება პრაქტიკაში. დროთა განმავლობაში, მათი გამოყენება მხოლოდ გაფართოვდება, რადგან ხელმისაწვდომი და სასარგებლო ინფორმაციის მოცულობა ყოველდღიურად იზრდება და მათი ანალიზის საჭიროება ჯერ კიდევ არ არის დაკმაყოფილებული.

არა მგონია, ამერიკას აღმოვაჩინო, თუ ვიტყვი, რომ ყველა ინფორმაცია ერთნაირად სასარგებლო არ არის. ზოგჯერ საჭიროა ბევრი ტექსტის დაწერა კონცეფციის ასახსნელად, ზოგჯერ კი მხოლოდ მარტივი დიაგრამის დათვალიერება რთული საკითხების ასახსნელად. ინფორმაციის სიჭარბის შესამცირებლად გამოიგონეს მათემატიკური ფორმულები, ნახატები, სიმბოლოები, პროგრამის კოდი და ა.შ. გარდა ამისა, მნიშვნელოვანია არა მხოლოდ თავად ინფორმაცია, არამედ მისი პრეზენტაციაც. ნათელია, რომ საფონდო კოტირების უფრო ნათლად დემონსტრირება შესაძლებელია გრაფიკის გამოყენებით, ხოლო მათემატიკური ფორმულები აღწერს ნიუტონის კანონებს უფრო კომპაქტური ფორმით.

საინფორმაციო ტექნოლოგიების, აგრეთვე მონაცემთა შეგროვებისა და შენახვის სისტემების განვითარების პროცესში - მონაცემთა ბაზები, მონაცემთა საწყობი და ახლახან ღრუბლოვანი საცავი, წარმოიშვა მონაცემთა დიდი მოცულობის ანალიზის პრობლემა, როდესაც ანალიტიკოსს ან მენეჯერს არ შეუძლია ხელით ამუშავებს დიდი რაოდენობით მონაცემებს და იღებს გადაწყვეტილებებს. ნათელია, რომ ანალიტიკოსს სჭირდება როგორმე წარმოადგინოს ორიგინალური ინფორმაცია უფრო კომპაქტური სახით, რომელსაც ადამიანის ტვინი უმკლავდება მისაღებ დროში.

მოდით გამოვყოთ ინფორმაციის რამდენიმე დონე:

  • წყაროს მონაცემები (ნედლეული მონაცემები, ისტორიული მონაცემები ან უბრალოდ მონაცემები) - ნედლეული მონაცემთა მასივები, რომლებიც მიღებულია გარკვეული დინამიური სისტემის ან ობიექტზე დაკვირვებისა და მისი მდგომარეობის ასახვის შედეგად დროის კონკრეტულ მომენტებში (მაგალითად, მონაცემები საფონდო ფასის შესახებ გასული წლის განმავლობაში) ;
  • ინფორმაცია – დამუშავებული მონაცემები, რომლებიც მომხმარებლისთვის გარკვეულ ინფორმაციულ მნიშვნელობას ატარებენ; უფრო კომპაქტური სახით წარმოდგენილი ნედლეული მონაცემები (მაგალითად, ძიების შედეგები);
  • ცოდნა - ახორციელებს გარკვეულ ნოუ-ჰაუს, აჩვენებს ფარულ ურთიერთობებს ობიექტებს შორის, რომლებიც არ არის საჯაროდ ხელმისაწვდომი (წინააღმდეგ შემთხვევაში, ეს იქნება მხოლოდ ინფორმაცია); მონაცემები მაღალი ენტროპიით (ან გაურკვევლობის საზომი).
მოდით შევხედოთ მაგალითს. ვთქვათ, გვაქვს გარკვეული მონაცემები ფორექსის ბაზარზე ვალუტის ტრანზაქციების შესახებ გარკვეული პერიოდის განმავლობაში. ეს მონაცემები შეიძლება ინახებოდეს ტექსტის სახით, XML ფორმატში, მონაცემთა ბაზაში ან ორობით ფორმაში და თავისთავად არ ატარებს რაიმე სასარგებლო სემანტიკურ დატვირთვას. შემდეგ, ანალიტიკოსი ატვირთავს ამ მონაცემებს, მაგალითად, Excel-ში და აშენებს ცვლილებების გრაფიკს, რითაც იღებს ინფორმაციას. შემდეგ ის ატვირთავს მონაცემებს (სრულად ან ნაწილობრივ დამუშავებულ Excel-ში), მაგალითად, Microsoft SQL Server-ში და ანალიზის სერვისების გამოყენებით იღებს ცოდნას, რომ სჯობს აქციები ხვალ გაყიდოთ. შემდეგ ანალიტიკოსს შეუძლია გამოიყენოს უკვე მიღებული ცოდნა ახალი შეფასებების გასაკეთებლად, რითაც მიიღოს უკუკავშირი ინფორმაციის პროცესში.

დონეებს შორის მკაფიო საზღვრები არ არსებობს, მაგრამ ასეთი კლასიფიკაცია საშუალებას მოგვცემს მომავალში თავიდან ავიცილოთ ტერმინოლოგიასთან დაბნეულობა.

მონაცემთა მოპოვება

ისტორიულად, ტერმინს მონაცემთა მოპოვება აქვს თარგმანის რამდენიმე ვარიანტი (და მნიშვნელობა):
  • მონაცემთა მოპოვება, მონაცემთა შეგროვება, მონაცემთა მოპოვება (ისინი ასევე იყენებენ ინფორმაციის მოძიებას ან IR);
  • ცოდნის მოპოვება, მონაცემთა მოპოვება (Knowledge Data Discovery ან KDD, Business Intelligence).
IR მუშაობს ინფორმაციის პირველი ორი დონის მიხედვით, KDD მუშაობს მესამე დონეზე. თუ ვსაუბრობთ განხორციელების მეთოდებზე, პირველი ვარიანტი ეხება გამოყენებით სფეროს, სადაც მთავარი მიზანია თავად მონაცემები, მეორე - მათემატიკა და ანალიტიკა, სადაც მნიშვნელოვანია ახალი ცოდნის მიღება არსებული მონაცემების დიდი რაოდენობით. ყველაზე ხშირად, მონაცემთა მოპოვება (შეგროვება) არის ცოდნის მოპოვების (ანალიზის) მოსამზადებელი ეტაპი.

მე ვბედავ შემოვიტანო სხვა ტერმინი პირველი პუნქტისთვის - მონაცემთა ამოღება, რომელსაც გამოვიყენებ მომავალში.

პრობლემები მოგვარებულია მონაცემთა მოპოვებით:

  1. კლასიფიკაცია არის შეყვანის ვექტორის (ობიექტი, მოვლენა, დაკვირვება) მინიჭება ერთ-ერთ ადრე ცნობილ კლასზე.
  2. კლასტერირება არის შემავალი ვექტორების სიმრავლის ჯგუფებად (კლასტერებად) დაყოფა ერთმანეთის „მსგავსების“ ხარისხის მიხედვით.
  3. აღწერის შემცირება - მონაცემების ვიზუალიზაცია, გაანგარიშებისა და ინტერპრეტაციის გამარტივება, შეგროვებული და შენახული ინფორმაციის მოცულობის შეკუმშვა.
  4. ასოციაცია - განმეორებადი შაბლონების ძიება. მაგალითად, ეძებთ „მდგრადი კავშირების კალათაში“.
  5. პროგნოზირება - ობიექტის მომავალი მდგომარეობის პოვნა წინა მდგომარეობებზე დაყრდნობით (ისტორიული მონაცემები)
  6. ანომალიის ანალიზი - მაგალითად, ქსელის ატიპიური აქტივობის იდენტიფიცირება საშუალებას გაძლევთ აღმოაჩინოთ მავნე პროგრამა.
  7. მონაცემთა ვიზუალიზაცია.

ინფორმაციის მოპოვება

ინფორმაციის მოძიება გამოიყენება სტრუქტურირებული მონაცემების ან უფრო მცირე ზომის წარმომადგენლობითი ნიმუშის მისაღებად. ჩვენი კლასიფიკაციის მიხედვით, ინფორმაციის მოძიება მოქმედებს პირველი დონის მონაცემებზე და, შედეგად, აწარმოებს მეორე დონის ინფორმაციას.

ინფორმაციის მოპოვების უმარტივესი მაგალითია საძიებო სისტემა, რომელიც გარკვეული ალგორითმების საფუძველზე ამოიღებს ინფორმაციის ნაწილს დოკუმენტების სრული ნაკრებიდან. გარდა ამისა, ნებისმიერი სისტემა, რომელიც მუშაობს სატესტო მონაცემებთან, მეტაინფორმაციასთან ან მონაცემთა ბაზებთან ამა თუ იმ გზით, იყენებს ინფორმაციის მოპოვების ინსტრუმენტებს. ინსტრუმენტები შეიძლება იყოს ინდექსირების, ფილტრაციის, მონაცემთა დახარისხების, პარსერების და ა.შ.

ტექსტის მაინინგი

სხვა სახელები: ტექსტის მონაცემთა მოპოვება, ტექსტის ანალიზი, ძალიან ახლო კონცეფცია ეხება მაინინგს.

ტექსტის მაინინგს შეუძლია იმუშაოს როგორც ნედლეულ, ასევე ნაწილობრივ დამუშავებულ მონაცემებთან, მაგრამ ინფორმაციის მოპოვებისგან განსხვავებით, ტექსტის მოპოვება აანალიზებს ტექსტურ ინფორმაციას მათემატიკური მეთოდების გამოყენებით, რაც საშუალებას გაძლევთ მიიღოთ შედეგები ცოდნის ელემენტებით.

ამოცანები, რომლებსაც ტექსტის მოპოვება წყვეტს არის: მონაცემთა შაბლონების მოძიება, სტრუქტურირებული ინფორმაციის მოპოვება, ობიექტების იერარქიების აგება, მონაცემთა კლასიფიკაცია და დაჯგუფება, თემების ან ცოდნის სფეროების იდენტიფიცირება, დოკუმენტების ავტომატური აბსტრაქცია, შინაარსის ავტომატური ფილტრაციის ამოცანები, სემანტიკური ურთიერთობების იდენტიფიცირება და სხვა.

ტექსტის მაინინგის ამოცანების გადასაჭრელად გამოიყენება სტატისტიკური მეთოდები, ინტერპოლაციის, დაახლოების და ექსტრაპოლაციის მეთოდები, ბუნდოვანი მეთოდები და შინაარსის ანალიზის მეთოდები.

ვებ მაინინგი

და ბოლოს, მივედით ვებ მაინინგზე - მიდგომებისა და ტექნიკის ერთობლიობა ვებ რესურსებიდან მონაცემების ამოღებისთვის.
ვინაიდან ვებ წყაროები, როგორც წესი, არ არის ტექსტური მონაცემები, მონაცემთა მოპოვების პროცესისადმი მიდგომები ამ შემთხვევაში განსხვავებულია. უპირველეს ყოვლისა, უნდა გახსოვდეთ, რომ ინტერნეტში ინფორმაცია ინახება სპეციალური HTML მარკირების ენის სახით (თუმცა არსებობს სხვა ფორმატები - RSS, Atom, SOAP, მაგრამ ამაზე მოგვიანებით ვისაუბრებთ), ვებგვერდებს შეუძლიათ აქვს დამატებითი მეტა ინფორმაცია, ასევე ინფორმაცია დოკუმენტის სტრუქტურის (სემანტიკის) შესახებ, თითოეული ვებ დოკუმენტი მდებარეობს გარკვეულ დომენში და მასზე შეიძლება გამოყენებულ იქნას საძიებო სისტემის ოპტიმიზაციის (SEO) წესები.

ეს არის პირველი სტატია სერიიდან, რომელიც ეძღვნება მონაცემთა მოპოვებას / ექსტრაქციას / ვებ მაინინგს. მიიღება წინადადებები და დასაბუთებული კრიტიკა.


ტექსტის მაინინგის ძირითადი ამოცანები ტექსტის მაინინგი არის ადრე უცნობი კავშირებისა და კორელაციების ალგორითმული იდენტიფიკაცია არსებულ ტექსტურ მონაცემებში. ტექსტის მოპოვების ტექნოლოგიის მნიშვნელოვანი ამოცანაა ტექსტიდან მისი დამახასიათებელი ელემენტების ან თვისებების ამოღება, რომლებიც შეიძლება გამოყენებულ იქნას როგორც დოკუმენტის მეტამონაცემები, საკვანძო სიტყვები და ანოტაციები. კიდევ ერთი მნიშვნელოვანი ამოცანაა გარკვეული კატეგორიებისთვის დოკუმენტის მინიჭება მოცემული სისტემატიზაციის სქემიდან. ტექსტის მოპოვება ასევე უზრუნველყოფს სემანტიკური დოკუმენტების ძიების ახალ დონეს. ტექსტის მოპოვების თანამედროვე სისტემების შესაძლებლობები შეიძლება გამოყენებულ იქნას ცოდნის მენეჯმენტში ტექსტში შაბლონების იდენტიფიცირებისთვის, მომხმარებლებისთვის საინტერესო პროფილებზე ინფორმაციის ავტომატურად „გამოდევნის“ ან ინფორმაციის განთავსებისა და დოკუმენტების მიმოხილვის შესაქმნელად.


ტექსტის მაინინგის ძირითადი ელემენტები უკვე ჩამოყალიბებული მეთოდოლოგიის შესაბამისად, ტექსტის მაინინგის ძირითადი ელემენტებია: კლასიფიკაცია, კლასტერირება, სემანტიკური ქსელების აგება, ფაქტების ამოღება, ცნებები (ფუნქციების ამოღება), შეჯამება, კითხვებზე პასუხის გაცემა (კითხვა) პასუხი), თემატური ინდექსირება. , საკვანძო სიტყვების ძიება. ასევე, ზოგიერთ შემთხვევაში, კომპლექტს ავსებს დამხმარე ინსტრუმენტები და ტაქსონომიების (ოფტაქსონომიები) და თეზაურების (თეზაური) შექმნა.


© ElVisti 4 კლასიფიკაცია ტექსტების კლასიფიკაციისას, სტატისტიკური კორელაციები გამოიყენება დოკუმენტების გარკვეულ კატეგორიებში განთავსების წესების შესაქმნელად. კლასიფიკაციის ამოცანა არის კლასიკური ამოცნობის ამოცანა, სადაც, ზოგიერთი საკონტროლო ნიმუშის საფუძველზე, სისტემა ანიჭებს ახალ ობიექტს ამა თუ იმ კატეგორიას. ტექსტის მაინინგის სისტემების თავისებურება ის არის, რომ ობიექტების რაოდენობა და მათი ატრიბუტები შეიძლება იყოს ძალიან დიდი, ამიტომ ინტელექტუალური მექანიზმები უნდა იყოს უზრუნველყოფილი კლასიფიკაციის პროცესის ოპტიმიზაციისთვის. დღეს არსებულ სისტემებში კლასიფიკაცია გამოიყენება, მაგალითად, შემდეგ ამოცანებში: დოკუმენტების დაჯგუფება ინტრანეტებსა და ვებსაიტებზე, დოკუმენტების განთავსება კონკრეტულ საქაღალდეებში, ელექტრონული ფოსტის შეტყობინებების დახარისხება, ახალი ამბების შერჩევით გავრცელება აბონენტებისთვის.


© ElVisti 5 კლასტერირება კლასტერირება ეფუძნება დოკუმენტის მახასიათებლებს, რომლებიც იყენებენ ენობრივ და მათემატიკურ მეთოდებს კონკრეტული კატეგორიების გამოყენების გარეშე. შედეგი არის ტაქსონომია ან ვიზუალური რუკა, რომელიც უზრუნველყოფს მონაცემთა დიდი მოცულობის ეფექტურ დაფარვას. კლასტერირება ტექსტის მოპოვებაში განიხილება, როგორც მსგავსი თვისებების მქონე ობიექტების კომპაქტური ქვეჯგუფების იდენტიფიცირების პროცესი. სისტემამ დამოუკიდებლად უნდა მოძებნოს ნიშნები და დაყოს ობიექტები ქვეჯგუფებად. კლასტერირება, როგორც წესი, უპირატესობას ანიჭებს კლასიფიკაციას, რადგან ის საშუალებას იძლევა განისაზღვროს ობიექტების ჯგუფები. არსებობს კლასტერიზაციის ორი ძირითადი ტიპი - იერარქიული და ბინარული. კლასტერირება გამოიყენება დიდი დოკუმენტური მასივების აბსტრაქციისას, დოკუმენტების ურთიერთდაკავშირებული ჯგუფების იდენტიფიცირებისას, დათვალიერების პროცესის გამარტივებისას საჭირო ინფორმაციის ძიებისას, უნიკალური დოკუმენტების პოვნა კოლექციიდან, დუბლიკატების ან შინაარსით ძალიან მსგავსი დოკუმენტების იდენტიფიცირებისას.


© ElVisti 6 სხვა ელემენტები სემანტიკური ქსელების აგება სემანტიკური ქსელების აგება ან კავშირების ანალიზი, რომლებიც განსაზღვრავენ დოკუმენტში აღწერების (საკვანძო ფრაზების) გამოჩენას ნავიგაციის უზრუნველსაყოფად. ფაქტების ამოღება ფაქტის ამოღება შექმნილია ტექსტიდან ზოგიერთი ფაქტის ამოსაღებად, რათა გაუმჯობესდეს კლასიფიკაცია, მოძიება და დაჯგუფება. პროგნოზირება მოიცავს სხვების მნიშვნელობების პროგნოზირებას ობიექტის ზოგიერთი მახასიათებლის მნიშვნელობების საფუძველზე. გამონაკლისების პოვნა მოძებნეთ ობიექტები, რომლებიც თავიანთი მახასიათებლებით გამოირჩევიან ბრბოსგან. ვიზუალიზაცია. ვიზუალიზაცია გამოიყენება როგორც ტექსტური მასივების შინაარსის წარმოდგენის, ასევე ნავიგაციის მექანიზმების დანერგვის საშუალებად.


© ElVisti 7 ავტომატური შეჯამება ტექსტის ავტომატური შეჯამება არის მასალების, ანოტაციების ან დაიჯესტების მოკლე რეზიუმეების შედგენა, ე.ი. ერთი ან რამდენიმე დოკუმენტიდან ყველაზე მნიშვნელოვანი ინფორმაციის მოპოვება და მათზე დაყრდნობით ლაკონური და ინფორმაციული მდიდარი ანგარიშების გენერირება. არსებობს ავტომატური აბსტრაქციის ორი მიმართულება - კვაზი-აბსტრაქცია და შინაარსის შეჯამება. კვაზი-აბსტრაქტი ეფუძნება დოკუმენტების ფრაგმენტების ამოღებას - ყველაზე ინფორმაციული ფრაზების გამოყოფას და მათგან კვაზი-აბსტრაქტების ფორმირებას. წყაროს მასალის მოკლე შეჯამება ეფუძნება ტექსტებიდან ყველაზე მნიშვნელოვანი ინფორმაციის იზოლირებას ხელოვნური ინტელექტის მეთოდებისა და სპეციალური საინფორმაციო ენების გამოყენებით და ახალი ტექსტების გენერირებას, რომლებიც არსებითად აჯამებენ პირველად დოკუმენტებს. აბსტრაქტების ფორმირების სემანტიკური მეთოდები იძლევა ორ ძირითად მიდგომას: წინადადებების სინტაქსური ანალიზების მეთოდი და ბუნებრივი ენის გაგებისა და ხელოვნური ინტელექტის მეთოდებზე დაფუძნებული მეთოდები.


ახალი ამბების ნაკადის თვალყურის დევნება. პრობლემური განცხადება მომხმარებლის საჭიროებებზე: მიიღეთ დღის ყველა ახალი ამბავი. დროთა განმავლობაში.


საინფორმაციო შეტყობინება არის გამოქვეყნებული შეტყობინება, რომელსაც აქვს შემდეგი მახასიათებლები: თარიღი, გამოქვეყნების დრო (შეიძლება განსხვავდებოდეს მოვლენის თარიღიდან/დროისგან) და წყარო (მედიის დასახელება). საინფორმაციო შეტყობინება არის გამოქვეყნებული შეტყობინება, რომელსაც აქვს შემდეგი მახასიათებლები: თარიღი, გამოქვეყნების დრო (შეიძლება განსხვავდებოდეს მოვლენის თარიღიდან/დროისგან) და წყარო (მედიის დასახელება). ახალი ამბები არის ინფორმაციის კრებული (საინფორმაციო შეტყობინებები) გარკვეული სუბიექტებისა და ფენომენების შესახებ (ადამიანების, ნივთების, ურთიერთობების, მოქმედებების, პროცესების, თვისებების და ა.შ.), ასევე დაკავშირებული ერთეულებისა და ფენომენების შესახებ. კეთდება ვარაუდი, რომ ახალი ამბების მსგავსი შინაარსის და დროში დახურული ახალი ამბების ჯგუფი შეესაბამება ახალ ამბავს. ამრიგად, ახალი ამბების ხაზგასმა ხდება შეტყობინებების ჯგუფებად დაყოფამდე. ახალი ამბები არის ინფორმაციის კრებული (საინფორმაციო შეტყობინებები) გარკვეული სუბიექტებისა და ფენომენების შესახებ (ადამიანების, ნივთების, ურთიერთობების, მოქმედებების, პროცესების, თვისებების და ა.შ.), ასევე დაკავშირებული ერთეულებისა და ფენომენების შესახებ. კეთდება ვარაუდი, რომ ახალი ამბების მსგავსი შინაარსის და დროში დახურული ახალი ამბების ჯგუფი შეესაბამება ახალ ამბავს. ამრიგად, ახალი ამბების ხაზგასმა ხდება შეტყობინებების ჯგუფებად დაყოფამდე. საინფორმაციო გამოშვება არის ახალი ამბების სია, რომლებიც დალაგებულია გარკვეული კრიტერიუმების მიხედვით. საინფორმაციო გამოშვება არის ახალი ამბების სია, რომლებიც დალაგებულია გარკვეული კრიტერიუმების მიხედვით. ახალი ამბების ნაკადის თვალყურის დევნება. პრობლემის განცხადება


ახალი მიმართულება IR კვლევისთვის: ახალი მიმართულება IR კვლევისთვის: ახალი ამბების ნაკადის თვალყურის დევნება. პრობლემის განცხადება TDT თემის გამოვლენა და თვალყურის დევნება??? რით განსხვავდება ახალი დავალება სტანდარტული IR ამოცანებისგან? ??? გამოიყენება თუ არა სტანდარტული IR მეთოდები ახალ პრობლემაზე? TDT არის ტექნოლოგიები, რომლებიც ემსახურება არა მხოლოდ მსგავსი ამბების მოძიებას, არამედ ცალკეული მოვლენების მონიტორინგს და გარკვეულ დროს მსოფლიოს საინფორმაციო სურათის მიღებას.


ახალი ამბების ნაკადის თვალყურის დევნება. პრობლემის ფორმულირება ძირითადი ამოცანების ჩამონათვალი სტატიების სეგმენტაცია (Story Segmentation) არის უწყვეტი ნაკადის დაყოფა იმავე მოვლენასთან დაკავშირებულ სიახლეებად. თემის თვალყურის დევნება - ყველა ახალი ამბების პოვნა, რომელიც მსგავსია მრავალი საცნობარო ახალი ამბების. თემის ამოცნობა - კონკრეტული მოვლენის მიერ გენერირებული ყველა ახალი ამბების კლასტერირება. პირველი მოთხრობის ამოცნობა - ახალი მოვლენის პირველი შეტყობინების პოვნა. Link Detection - გაძლევთ საშუალებას განსაზღვროთ არის თუ არა ორი ახალი ამბავი ერთი და იგივე მოვლენის გენერირებული.




TDT. ოფციები. მაგალითი 1. ფინანსთა სამინისტრომ მთავრობას წარუდგინა კანონპროექტი, რომელიც ითვალისწინებს ცვლილებებს საავტომობილო პასუხისმგებლობის სავალდებულო დაზღვევის შესახებ კანონში, რომლითაც შემოღებულ იქნა ახალი დებულება სადაზღვევო გადასახადების დაგვიანების შემთხვევაში მზღვეველების მიერ ჯარიმების გადახდის შესახებ. ბაზრის მონაწილეები, ზოგადად, მიესალმებიან ფინანსთა სამინისტროს ინიციატივებს, რადგან მიაჩნიათ, რომ დაგვიანებით გადახდები ცოტა იქნება. 2006 წელს სადაზღვევო ფედერალურმა სამსახურმა მიიღო 3099 საჩივარი, საიდანაც 1679 იყო საჩივარი სადაზღვევო ორგანიზაციების ქმედებებზე (უმოქმედობაზე) საავტომობილო პასუხისმგებლობის სავალდებულო დაზღვევის განხორციელებაში დარღვევებთან დაკავშირებით, ანუ საჩივრების 50%-ზე მეტი. ავტოპასუხისმგებლობის სავალდებულო დაზღვევასთან დაკავშირებული 784 საჩივარი მიუთითებს „განცხადებების განხილვისა და გადახდის დადგენილ ვადების შეუსრულებლობაზე“. ვერა ბალაკირევამ ასევე განმარტა, თუ რატომ არის დაკავშირებული ჯარიმის ოდენობა სადაზღვევო თანხასთან, და არა გადახდის ოდენობასთან: ”საკმაოდ ბევრია შემთხვევა, როდესაც მზღვეველი, დოკუმენტების მიღების შემდეგ, არ ცდილობს სადაზღვევო შემთხვევის გადაჭრას. ყველა. შემდეგ ის არ ითვლის გადახდის თანხას ან პასუხობს არამოტივირებული უარით. და ჯარიმის გადახდასთან დაკავშირება შეუძლებელია“.


TDT. ოფციები. მაგალითი 1. ფინანსთა სამინისტრომ მთავრობას წარუდგინა კანონპროექტი, რომელიც ითვალისწინებს ცვლილებებს საავტომობილო პასუხისმგებლობის სავალდებულო დაზღვევის შესახებ კანონში, რომლითაც შემოღებულ იქნა ახალი დებულება სადაზღვევო გადასახადების დაგვიანების შემთხვევაში მზღვეველების მიერ ჯარიმების გადახდის შესახებ. ბაზრის მონაწილეები, ზოგადად, მიესალმებიან ფინანსთა სამინისტროს ინიციატივებს, რადგან მიაჩნიათ, რომ დაგვიანებით გადახდები ცოტა იქნება. 2006 წელს სადაზღვევო ფედერალურმა სამსახურმა მიიღო 3099 საჩივარი, საიდანაც 1679 იყო საჩივარი სადაზღვევო ორგანიზაციების ქმედებებზე (უმოქმედობაზე) საავტომობილო პასუხისმგებლობის სავალდებულო დაზღვევის განხორციელებაში დარღვევებთან დაკავშირებით, ანუ საჩივრების 50%-ზე მეტი. ავტოპასუხისმგებლობის სავალდებულო დაზღვევასთან დაკავშირებული 784 საჩივარი მიუთითებს „განცხადებების განხილვისა და გადახდის დადგენილ ვადების შეუსრულებლობაზე“. ვერა ბალაკირევამ ასევე განმარტა, თუ რატომ არის დაკავშირებული ჯარიმის ოდენობა სადაზღვევო თანხასთან, და არა გადახდის ოდენობასთან: ”საკმაოდ ბევრია შემთხვევა, როდესაც მზღვეველი, დოკუმენტების მიღების შემდეგ, არ ცდილობს სადაზღვევო შემთხვევის გადაჭრას. ყველა. შემდეგ ის არ ითვლის გადახდის თანხას ან პასუხობს არამოტივირებული უარით. და ჯარიმის გადახდასთან დაკავშირება შეუძლებელია“.


TDT. ოფციები. მაგალითი 1. პრობლემები საინფორმაციო შეტყობინებები, მცირე მოცულობის ტექსტები ახალი ამბების შეტყობინებები, მცირე მოცულობის ტექსტები გაითვალისწინეთ „არალინგვისტური მახასიათებლები“ ​​გაითვალისწინეთ „არალინგვისტური მახასიათებლები“ ​​გაითვალისწინეთ სიტყვების მაქსიმალური რაოდენობა, როგორც პარამეტრები. განვიხილოთ ყველაზე დიდი სიტყვების შესაძლო რაოდენობა, როგორც პარამეტრები. მხედველობაში მიიღება მხოლოდ ლექსემები გარკვეული სემანტიკური ან მორფოლოგიური თვისებებით. მხედველობაში მიიღება მხოლოდ ლექსემები გარკვეული სემანტიკური ან მორფოლოგიური თვისებებით. „ტერმინების“ და „არატერმინების“ სიხშირე იგივეა, „ტერმინების“ სიხშირე და „არაპირდაპირი“ არის იგივე „არასტაბილურობა“ თემატური ელემენტების სიხშირის მახასიათებლების „არასტაბილურობა“ თემატური ელემენტების სიხშირის მახასიათებლების.


TDT. ოფციები. მაგალითი 1. პრობლემები ახალი ამბების ანგარიშები აცნობებს ხშირად მომხდარ მოვლენებს და ხშირად ნახსენებ ადამიანებს ან ორგანიზაციებს. გაგზავნა N-გრამის ნიშნები მაღალი tf.idf სიტყვებიდან N-გრამის მახასიათებლები მაღალი tf.idf


TDT. ოფციები. მაგალითი 1. პრობლემები ახალი ამბების ანგარიშები აცნობებს ხშირად მომხდარ მოვლენებს და ხშირად ნახსენებ ადამიანებს ან ორგანიზაციებს. შეტყობინება N-გრამის ნიშნები მაღალი tf.idf N-გრამის ნიშნები მაღალი tf.idf


TDT. ოფციები. მაგალითი 1. ამოცანები ბევრი მრავალსიტყვიანი სტაბილური ფრაზა, რომელიც შედგება ხშირად გამოყენებული სიტყვებისგან ბევრი მრავალსიტყვიანი სტაბილური ფრაზები, რომელიც შედგება ჩვეულებრივი სიტყვებისგან. გრამი, როგორც სტაბილური ფრაზა, შემდეგ დაითვალეთ წონა სტაბილური ფრაზისთვის (t-სტატისტიკა, ურთიერთ ინფორმაცია და ა. და ა.შ.) მაგალითად, გამოიყენეთ სპეციალური სტატისტიკა სიტყვების სტაბილური კომბინაციების ხაზგასასმელად (MWU), გამოიყენეთ ნაწილობრივი მეტყველების ფილტრები (არაღრმა გარჩევა, დაქუცმაცება)


TDT. ოფციები. მაგალითი 1. პრობლემები ახალი ამბების შეტყობინებები კომპაქტურია ახალი ამბების შეტყობინებები კომპაქტურია შეტყობინებების ავტორები ცდილობენ არ გაიმეორონ ერთი და იგივე მოვლენის შესახებ სხვადასხვა სიტყვებით, ეძახიან ერთსა და იმავე ობიექტს სხვადასხვა სახელით, ე.ი. არ არსებობს სრული გამეორება, მაგრამ არის სემანტიკური გამეორება დაბალი tf.idf ღონისძიების მონაწილეებს შორის შეტყობინებების ავტორები ცდილობენ არ გაიმეორონ ერთი და იგივე მოვლენის შესახებ სხვადასხვა სიტყვებით, ეძახიან ერთსა და იმავე ობიექტს სხვადასხვა სახელებით, ე.ი. არ არის სრული გამეორებები, მაგრამ არის სემანტიკური გამეორებები დაბალი tf.idf ღონისძიებების მონაწილეებს შორის იხ. ფინანსთა სამინისტრო, ფინანსთა სამინისტრო, სამინისტრო და სხვ., შერეული, ძაღლი, ძაღლი, შარიკი შდრ. ფინანსთა სამინისტრო, ფინანსთა სამინისტრო, სამინისტრო და ა.შ., შერეული, ძაღლი, ძაღლი, შარიკი პოსტულატი ტექსტური თანმიმდევრობის შესახებ პოსტულატი ტექსტური თანმიმდევრობის შესახებ ტექსტური თანმიმდევრობის მოდელირების სხვადასხვა გზები ტექსტის თანმიმდევრობის მოდელირების სხვადასხვა გზები


TDT. ოფციები. გაუმჯობესებები პოსტულატი ტექსტური თანმიმდევრობის შესახებ პოსტულატი ტექსტური თანმიმდევრობის შესახებ მათემატიკური მოდელირების მეთოდები მათემატიკური მოდელირების მეთოდები ლინგვისტური და „შემეცნებითი“ მოდელირების მეთოდები წინადადებაში სიტყვებს შორის ასოციაციური კავშირის ზომები კანდიდატები წინადადებაში ყველა ბიგრამის მახასიათებლებისთვის ცვლილებები კლასტერში ტექნოლოგიაში (დაჯგუფება წინადადებების მიხედვით, აბზაცებში და ა.შ.) მათემატიკური „ბრძოლის გზები“ მათემატიკური „ბრძოლის გზები“


TDT. გაუმჯობესების პარამეტრები პოსტულატი ტექსტური თანმიმდევრულობის შესახებ პოსტულატი ტექსტური თანმიმდევრობის შესახებ ლინგვისტური და „შემეცნებითი“ მოდელირების მეთოდები: ლინგვისტური და „შემეცნებითი“ მოდელირების მეთოდები: ლექსიკური ჯაჭვების ვექტორი (პირველი მოთხრობის გამოვლენა შედგენილი დოკუმენტის წარმოდგენის გამოყენებით. ნიკოლა სტოკსი, ჯო კარტის აღრიცხვა) ტიპის კლასტერული ნაკვეთი (Activity clustering) – ე.ი. სიტყვები, რომლებსაც აქვთ მაღალი tf.idf იმის გამო, რომ ისინი ახასიათებენ გარკვეული ტიპის მოვლენებს ("ქარიშხალი", "ტერორისტული თავდასხმა" და ა.


TDT. ოფციები. მაგალითი 1. პრობლემები ახალი ამბების შეტყობინებები მოძრაობს: დროთა განმავლობაში იცვლება სიუჟეტში დაჯგუფების პირობები, თუ თავიდან ახალი ამბებისადმი მიძღვნილი გვაქვს ახალი ტექსტი, მაშინ რა მოუვა საჭირო სიტყვების tf.idf-ს? ზოგიერთი დაემთხვევა საკვანძო სიტყვებს მსგავსი მოვლენების შესახებ სიახლეების შესახებ, ზოგი დაემთხვევა საკვანძო სიტყვებს მსგავსი მოვლენების შესახებ. რამდენად ხშირად ) შესაძლებელია სატესტო კორპუსზე წინასწარი სწავლება. წონების გამოთვლა სხვადასხვა კატეგორიის ლექსიკურ ერთეულებზე (წონები დასახელებული ობიექტებისთვის ცალკე)


TDT. ოფციები. ფუნქციების სივრცის გაუმჯობესება. რეზიუმე (1) tf.idf გამოითვლება სასწავლო კორპუსზე, როდესაც ახალი შეტყობინება მოდის, იგი ხელახლა გამოითვლება, მთელი კოლექცია, ახალი შეტყობინების ჩათვლით, კვლავ ექვემდებარება კლასტერირებას (ხარბ აგლომერაციული კლასტერიზაციის ალგორითმი) ყოველი ტერმინი იღებს დამატებით წონას მისი სიახლოვე ლექსიკურ ერთეულებთან, რომლებიც აღმოაჩენენ მოვლენების შემთხვევის დროს, დოკუმენტი ხასიათდება 2 ვექტორის კომბინაციით: სტანდარტული tf.idf ვექტორი + ლექსიკური ჯაჭვების ვექტორი (პირველი მოთხრობის გამოვლენა შედგენილი დოკუმენტის წარმოდგენის გამოყენებით. ნიკოლა სტოუკსი, ჯო კარტი)


TDT. ოფციები. ფუნქციების სივრცის გაუმჯობესება. შეჯამება (2) ტრადიციული პარამეტრების გათვალისწინება (პოზიცია ტექსტში და ა.შ.) ახალი ამბების ტიპის მიხედვით კლასტერიზაციის გათვალისწინებით (Activity clustering) - ე.ი. სიტყვები, რომლებსაც აქვთ მაღალი tf.idf იმის გამო, რომ ისინი ახასიათებენ გარკვეული ტიპის მოვლენებს ("ქარიშხალი", "ტერორისტული თავდასხმა" და ა. -2003) ცალკე წონები სათანადო სახელებისთვის (დასახელებული ერთეულებისთვის) დოკუმენტების კლასიფიკაცია კატეგორიებად, რის შემდეგაც ამოღებულია შეწყვეტის სიტყვები თითოეულ კატეგორიაში ცალკე და ფუნქციების ბაზის შერჩევა თითოეულ კატეგორიაში.


TDT. სიახლოვის ზომები, დაწესებულია ბარიერი: ზღურბლზე ზემოთ - "არა" - შეტყობინება ეხება ძველ ამბავს, ზღურბლის ქვემოთ - "დიახ" - პირველი შეტყობინება მოთხრობაში, დაწესებულია ბარიერი: ზღურბლზე ზემოთ - გამოყენება. კლასტერიზაციის რამდენიმე მეთოდი ერთდროულად - სიახლოვის შედეგი, როგორც სხვადასხვა მეთოდის შედეგების გარკვეული ფუნქცია


TDT. სიახლოვის ზომები ვექტორული მოდელი სხვა სიახლოვის საზომები: ჯერ ერთი, ღონისძიება არ ითვალისწინებს სხვაობას შედარებული დოკუმენტების ზომებში და მეორეც, მისი გაანგარიშებისას არ არის ინფორმაცია დოკუმენტების შემადგენელი ტერმინების გამოყენების სიხშირის შესახებ. გამოყენებული. sim(D i, D j) = Prob(w D i | w D j). ჯაკარდის ზომა


TDT. მათემატიკური მოდელირების მეთოდები. ახალი ამბების ტრეკის განმარტება. კლასტერიზაციის მეთოდები. კლასტერების ფორმირება: სისტემის შეყვანისას მიღებული ბოლო დოკუმენტი (დოკუმენტი ნომრით 1 საპირისპირო ნუმერაციაში) წარმოქმნის პირველ კლასტერს და შედარებულია ყველა წინასთან. თუ დოკუმენტის სიახლოვის საზომი უფრო ახლოსაა მოცემულ ზღვარზე, მაშინ მიმდინარე დოკუმენტი ენიჭება პირველ კლასტერს. შედარება გრძელდება მანამ, სანამ არ ამოიწურება მიმდინარე ნაკადის დოკუმენტების სია. დოკუმენტი 1-ის ასეთი დამუშავების შემდეგ მუშავდება შემდეგი დოკუმენტი, რომელიც არ შედის პირველ კლასტერში, რომელსაც თანმიმდევრულად ადარებენ ნაკადის ყველა მიმდინარე დოკუმენტს და ა.შ.


TDT. მათემატიკური მოდელირების მეთოდები საინფორმაციო ტრეკის განსაზღვრა. კლასტერიზაციის მეთოდები. რეიტინგი წონის მიხედვით შედეგად, იქმნება წინასწარ უცნობი კლასტერების გარკვეული რაოდენობა, რომლებიც ფასდება მათი წონების მიხედვით, რომლებიც მითითებულია კლასტერის ყველა ელემენტისთვის ნორმალიზებული სიახლოვის მეტრიკის ჯამით. მნიშვნელოვანი კლასტერების შერჩევა მიუხედავად იმისა, რომ მინიმალური კლასტერი შეიძლება შეიცავდეს მხოლოდ 1 დოკუმენტს, საბოლოო განსახილველად მიიღება მხოლოდ გარკვეული რაოდენობის კლასტერები უმაღლესი წონით, ე.ი. ყველაზე ციტირებული და შესაბამისი შეტყობინებების ჯგუფები. ცენტროიდების ხელახალი გამოთვლა შერჩეული კლასტერებისთვის ხდება ცენტროიდების ხელახალი გამოთვლა - დოკუმენტები, რომლებიც საუკეთესოდ ასახავს კლასტერის თემას. ამრიგად, იქმნება სიუჟეტების ჯაჭვები, რომლებიც ახორციელებენ შეკითხვებს, როგორიცაა "რაზე წერენ ბოლო დროს ყველაზე ხშირად?"


TDT. მათემატიკური მოდელირების მეთოდები. ახალი ამბების ტრეკის განმარტება. კლასტერიზაციის მეთოდები. სიუჟეტური ჯაჭვების აგება ავტომატურად განსაზღვრავს ყველაზე მნიშვნელოვან თემებს, რომლებიც დაფარულია ინფორმაციის ნაკადებში. მნიშვნელოვანი შეტყობინებების დაჯგუფება არჩეული თემების მიხედვით ყველა მნიშვნელოვანი შეტყობინება დაჯგუფებულია ავტომატურად აღმოჩენილ თემებთან მათი კუთვნილების მიხედვით. სიუჟეტის სათაურები შეტყობინებების სათაურები, რომლებიც ყველაზე ზუსტად ასახავს მათ არსს, გამოიყენება როგორც სიუჟეტების ჯაჭვის სათაურები. სიუჟეტების რეიტინგი განისაზღვრება სიუჟეტების ჯაჭვში შეტყობინებების რაოდენობის მიხედვით, რაც ასახავს თემისადმი ზოგად ინტერესს, წყაროს რეიტინგს და შეტყობინებების გამოქვეყნების დროს.


რაც უფრო მეტი ლექსიკური შესატყვისი, მით უფრო ახლოსაა ტექსტები რაც უფრო მეტი ლექსიკური შესატყვისი, მით უფრო ახლოს არის ტექსტები უახლოესი ტექსტები დუბლიკატები დუბლიკატებისაგან ან ძალიან ახლო ტექსტებისგან შემდგარი კლასტერები. შემდეგ კასეტური TDT. მათემატიკური მოდელირების მეთოდები. ახალი ამბების ტრეკის განმარტება. პრობლემები სემანტიკურად იდენტური ტექსტების პრობლემა სემანტიკურად იდენტური ტექსტების პრობლემა (1) მოხსენება, დღეს, კონფერენცია, თავი, ალექსეი, მილერი, პრემიერ მინისტრი, ბელარუსი, სერგეი, დასრულება, მოლაპარაკებები, მოსკოვი (2) PREVIOUS, PREVIOUS , ფასი, დოლარი, დოლარი, BE, გადახდა, ნაღდი ფული, სახსრები, ნაწილი, აქტივი, BELTRANSGAZ (3) ALEXEY, MILLER, TELL, ხელშეკრულება, მიწოდება, ტრანზიტი, რუსული, გაზი, ნიშანი, ბოლო, წუთი, წარსული, , (4) დაპირება, ბრძოლა, კრემლი, CHIMS ანგარიში, მიმდინარე, ზაფხული, თანაბარი, გაზიარება, გადახდა, ნახევარი, ღირებულება, BELTRANSGAZ, შეფასება, დოლარი


ერთიდაიგივე ტიპის მოვლენებზე მიძღვნილი სიახლეები (წყალდიდობა, სისხლის სამართლის საქმის აღძვრა, ტერორისტული თავდასხმა და ა.შ.) მოხვდება იმავე კლასტერში. .) .p.), მოხვდება იმავე კლასტერში. კლასიფიკაცია ახალი ამბების ტიპების მიხედვით (მოვლენების მიხედვით), შემდეგ ფუნქციების შერჩევა. მათემატიკური მოდელირების მეთოდები. ახალი ამბების ტრეკის განმარტება. კლასტერიზაციის მეთოდები. პრობლემები ალტერნატიული მიდგომა: კლასტერული პარამეტრების მთავარი მოვლენის კოორდინატები ალტერნატიული მიდგომა: კლასტერული პარამეტრების ძირითადი მოვლენის კოორდინატები ფოკუსირება ახალი ამბები ფოკუსირება სიახლეები


TDT. მათემატიკური მოდელირების მეთოდები. ახალი ამბების ტრეკის განმარტება. ახალი ამბების ფოკუსი ახალი ამბების ფოკუსი მოვლენის ფოკუსი არის ობიექტების ერთობლიობა, რომლებიც ურთიერთქმედებენ რაიმე ფორმით ახალ ამბებში და მათ თემატურ გარემოში (სინონიმები, აღწერილობები, ობიექტების დამატებები და სხვა პარამეტრები, რომლებიც ახასიათებს მოცემულ მოვლენას). ღონისძიების ფოკუსს შეუძლია უპასუხოს შემდეგ კითხვებს (სცენარი (ჩარჩო) სტანდარტული ამბებისთვის): ვინ? სად? როდის?


ძირითადი ტექნოლოგიები: TDT ამოცანები. IR მეთოდების „გადაცემადობა“ პარამეტრების ინფორმაციის პორტრეტი პარამეტრების მათემატიკური „კორელაციები“ (მაგალითად, წონა, ალბათობის შეფასება და ა.შ.) პარამეტრების ინფორმაციის პორტრეტი პარამეტრების მათემატიკური „კორელაციები“ (მაგალითად, წონები, ალბათობის შეფასება და ა.შ.) მეთოდები ობიექტების კლასებად დაყოფა ობიექტების კლასებად დაყოფის მეთოდები სიახლოვის ზომები - განსხვავებები სიახლოვის ზომები - განსხვავებები ამოცანები TDT ბაზა: IR მეთოდები კითხვები: რა განიხილება მახასიათებლები (სივრცის ზომები / ინტეგრალური მახასიათებლების პარამეტრები)? როგორ შევაფასოთ მახასიათებლის წონა (წერტილის პროექცია შესაბამის ღერძზე) როგორ შევაფასოთ ინტეგრალური მახასიათებელი (სიახლოვის საზომი სივრცეში) როგორ შევამციროთ ფუნქციების რაოდენობა როგორ შევამციროთ ხმაური (შეამციროთ ფუნქციების რაოდენობა , ფუნქციების კორელაციის ეფექტის შესუსტება/გაძლიერება)


ტექსტის დამუშავების ამოცანების შემუშავება ტექსტის დამუშავების ტექნოლოგიური ჯაჭვი თანამედროვე სისტემებში: შეყვანისას: ტექსტის ნაკადი 1) 1. მთლიანი ტექსტის „სემანტიკური“ მახასიათებლები ტექსტების დაჯგუფება „მოვლენის“ მიხედვით (კლასტერირება) მოვლენის კორელაცია გარკვეულ სფეროსთან. ცოდნის (კატეგორიზაცია) ტექსტის მინიჭება (აბსტრაქცია - შეჯამება) თემების შედარება ტექსტთან (სემანტიკური ტეგები - თემები)


ტექსტის დამუშავების ამოცანების შემუშავება 1) 2. ტექსტის შინაარსის ანალიზი ტექსტის „მთავარი პერსონაჟების“ ამოცნობა (დასახელებული ერთეულების ამოცნობა - NER - დასახელებული ერთეულების ამოცნობა შეადარეთ ერთეული ზოგიერთ ონტოლოგიურ აღწერილობას - პრესის პორტრეტი, დოსიე და ა.შ. (დამატებითი ორაზროვნების ამოხსნის ამოცანა - დასახელებული ერთეულების გაურკვევლობა) ტექსტის ლოკალიზაცია (გეოლოკაცია) ტექსტში თემატური დომინანტების განსაზღვრა (სემანტიკური ტეგები) მთავარი მოვლენების შერჩევა (ფაქტების ამოღება)


ტექსტის დამუშავების ამოცანების შემუშავება შეყვანისას: მომხმარებელი + ტექსტი ამოცანები: (ა) ჩამოაყალიბოს მომხმარებელში გარკვეული დამოკიდებულება ტექსტიდან ობიექტების მიმართ (ბ) მიაწოდოს მომხმარებელს დამატებითი შინაარსი მისი ინტერესების შესაბამისად (მათ შორის, მომხმარებლის ინტერესების გამოვლენა). - პერსონალიზაცია) აზრის მოპოვება (სენტიმენტის ანალიზი) ტექსტის ლოკალიზაცია (გეოლოკაცია) მოძებნეთ სოციალურ ქსელებში შეტყობინებები შესაბამის თემაზე სოციალური თეგირების რეკომენდაციები, კონტექსტური რეკლამა


დოკუმენტების კრებულის სემანტიკური რუქები კლასტერინგი საშუალებას გაძლევთ დაყოთ დოკუმენტების არჩევანი სტატისტიკურ სემანტიკურ ჯგუფებად, მაგრამ ხშირად ანალიტიკოსს სჭირდება უფრო დახვეწილი ინსტრუმენტი კოლექციის თემებს შორის იშვიათი, მაგრამ მნიშვნელოვანი კავშირების გამოსავლენად. ამ შემთხვევაში, ანალიზის ობიექტია დოკუმენტის თემებს შორის ურთიერთობის სემანტიკური რუკა და არა თავად დოკუმენტები. რუკა არის მიმართული გრაფიკი, კვანძების ზომა და კავშირის ხაზების სისქე, რომელზედაც შეესაბამება თემების და კავშირების შედარებით წონას კოლექციაში. ურთიერთობები შეიძლება იყოს ტიპური (დადგენილია კავშირის სემანტიკური ტიპი) ან ლოგიკური (დადგენილია მათი არსებობის ფაქტი). კავშირის ისრის მიმართულება გვიჩვენებს მიზეზ-შედეგობრივ კავშირს თემებს შორის და უფრო კონკრეტული თემა მითითებულია ისრით. თემებს შორის ისრის სისქე ასახავს მის მნიშვნელობას. წვეროები და ბმულები შეიცავს ჰიპერბმულებს, რომლებიც მიგვიყვანს დოკუმენტების შესაბამის კომპლექტამდე. რუკაზე კვანძის შერჩევის შემდეგ, ანალიტიკოსი ჩაყვინთვის თემებს, რომლებიც პირდაპირ კავშირშია კვანძის თემასთან, თითქოს ადიდებს რუკას და ცენტრავს რუკას თემაზე. ამავდროულად, შეიცვლება რუკის თემების შემადგენლობა და გამოჩნდება თემები, რომლებიც ყველაზე მჭიდროდ არის დაკავშირებული არჩეულთან. ანალიზის ეს მეთოდი ასევე ხშირად გამოიყენება რამდენიმე რუკის ერთობლივი ანალიზისთვის, მსგავსი სიტუაციების ან სემანტიკური შაბლონების მოსაძებნად სხვადასხვა რუკებში და სხვა ამოცანების შესასრულებლად. სემანტიკური რუკა.


© ElVisti 42 SemioMap (Semio Corp.) SemioMap არის Entrieva პროდუქტი, რომელიც შეიქმნა 1996 წელს სემიოტიკოსის კლოდ ვოგელის მიერ. 1998 წლის მაისში პროდუქტი გამოვიდა როგორც სამრეწველო კომპლექსი SemioMap, პირველი ტექსტის მოპოვების სისტემა, რომელიც მუშაობს კლიენტ-სერვერის არქიტექტურაში.


© ElVisti 43 SemioMap (Semio Corp.) SemioMap სისტემა შედგება ორი ძირითადი კომპონენტისგან - SemioMap სერვერი და SemioMap კლიენტი. სისტემა მუშაობს სამ ეტაპად: ინდექსირება: SemioMap სერვერი ავტომატურად კითხულობს არასტრუქტურირებული ტექსტის მასივებს, ამოიღებს საკვანძო ფრაზებს (ცნებებს) და ქმნის მათგან ინდექსს; კონცეფციის კლასტერირება: SemioMap სერვერი ამოიცნობს კავშირებს ამოღებულ ფრაზებს შორის და ქმნის მათგან, თანამოაზრეობის საფუძველზე, ლექსიკურ ქსელს („კონცეფციის რუკა“); გრაფიკული ჩვენება და ნავიგაცია: გონების რუქების ვიზუალიზაცია, რომელიც უზრუნველყოფს საკვანძო ფრაზებისა და მათ შორის ურთიერთობების სწრაფ ნავიგაციას, ასევე კონკრეტულ დოკუმენტებზე სწრაფად წვდომის შესაძლებლობას.



რაიმე შეკითხვა?

შეატყობინეთ შეცდომას

ტექსტი, რომელიც გაეგზავნება ჩვენს რედაქტორებს: