Watson wannabes: 4 open source-projekt för maskinintelligens

Under det senaste året, som en del av de nya företagstjänsterna som IBM har drivit om för att återuppfinna, har Watson blivit mindre en "Jeopardy" -vinnande gimmick och mer av ett verktyg. Det förblir också IBMs egenutvecklade skapelse.

Vilka är då chanserna att skapa ett naturligt språk maskininlärningssystem i Watsons ordning, om än med komponenter med öppen källkod? Till viss del har detta redan hänt - delvis för att Watson själv byggdes ovanpå befintligt öppen källkodsarbete, och andra har utvecklat liknande system parallellt med Watson. Här är en titt på fyra sådana projekt.

DARPA DeepDive

DARPA: s DeepDive-projekt är det största namnmärket för gänget menat inte att efterlikna Watsons enkla språkfrågesystem, utan snarare Watsons förmåga att förbättra sitt beslutsfattande över tiden med mänsklig vägledning.

Projektet utvecklades främst av Christopher Re, professor vid University of Wisconsin, och är öppen källkod (Apache 2.0). Enligt EE Times är DeepDives huvudmål att skapa ett automatiserat system för klassificering av ostrukturerad data - i ett exempel, kategorisering av artiklar i tekniska tidskrifter. De som planerar att använda DeepDive bör känna till SQL och Python, men systemet kan redan extrahera data från ett brett utbud av konventionella källor, till exempel webbsidor eller PDF-dokument.

Apache UIMA

Unstructured Information Management (UIMA) är en standard för analys av textinnehåll. Watson använde en implementering av UIMA, men du behöver inte gå igenom Watson för att använda UIMA. I själva verket var IBM: s UIMA-arkitektur öppen källkod och underhålls av Apache Foundation. Den har stöd för flera programmeringsspråk, med uppdateringar som läggs till regelbundet (senast i oktober 2014).

Apache UIMA som det är är långt ifrån att vara en fullständig maskininlärningslösning; det är bara en - om än en viktig - del av det hela som IBM skapade. Om du inte vill använda nakna ben kan du plocka upp ett av dess derivatprojekt, till exempel YodaQA, som utnyttjar UIMA för dess bearbetning och använder Wikipedia som en primär datakälla.

OpenCog

OpenCog "syftar till att ge forskare och programutvecklare en gemensam plattform för att bygga och dela program för artificiell intelligens." Projektets ambition är att driva intet mindre än vad dess skapare kallar "allmänt intelligenta" system, konstgjord intelligens som har bred, mänsklig förståelse av världen istället för domäncentrerade specialiteter (som att vara mycket bra på schack men inget annat).

OpenCogs skapare hävdar att deras ramverk redan används i "naturliga språkapplikationer, både för forskning och för kommersiella företag." Det lägger det lite längre bort från pie-in-the-sky AI-koncept och närmare den praktiska Q & A-domänen bebodd av Watson.

OAQA (Open Advancement of Question Answering Systems)

Som namnet antyder är OAQA: s uppdrag "öppen framsteg inom konstruktion av frågesvarssystem - språkprogramvarusystem som ger direkta svar på frågor som ställs på naturligt språk." Låter som ett av Watsons mål? Yup, särskilt eftersom OAQA initierades gemensamt av IBM och Carnegie Mellon University. Liksom Apache UIMA implementerar OAQA UIMA-ramverket, men tänk inte på det som en färdig lösning; det är en verktygslåda.

Den enda stora nackdelen med varje projekt, som du kan gissa, är att de inte erbjuds i nästan lika raffinerat eller polerat paket som Watson. Medan Watson är utformad för att användas omedelbart i affärssammanhang, är detta råa verktygssatser som kräver tunga lyft.

Dessutom har Watsons tjänster redan tränats med en kurator av verkliga data. Med dessa system måste du tillhandahålla datakällorna, vilket kan visa sig vara ett mycket större projekt än själva programmeringen.