Der Aufbau My Own Siri

Ich glaube, ich habe Zugang zu den richtigen Ressourcen, um diese KI zu erstellen.
Es gliedert sich in drei Hauptteile:
1) konvertiert Sprache in Text
2) Abfrage Datenbank mit q-a bevölkerten






3) umwandeln Text to Speech

Sprache in Text

Die meisten Sprache in Text Motoren saugen. Siri funktioniert besonders gut, weil der Motor nicht am Telefon ist ... es ist abgelegen. Ich sollte wir können Siri-Hack durch einen MITM Angriff auf ein iphone läuft und das SSL-Zertifikat fälschen und den Apfel ID Abfangen .... Oder wir können etwas viel einfacher machen. Chrome 11 Browser des Google enthält eine Spracheingabe-Funktion (den Teil des HTML5-Standard noch nicht ist) und Ihre Sprache in Text umwandeln kann. Dieser Typ entdeckte, dass sie aus der Ferne durch einen nicht dokumentierte API-Aufruf geschehen an Google. Alles, was wir tun müssen, ist diese gleiche API zugreifen und wir haben ihnen einen kostenlosen Speech-to-Text-Engine!

Falls Sie Perl nicht verstehen, das ist, wie Sie die API verwenden:

POST params. Inhalt (die den Inhalt einer .flac Kodierung Ihrer Stimme in Mono 16000Hz oder 8000Hz aufgezeichnet umfassen soll)
Content_Type (das lesen sollte „audio / x-flac; Rate = 16000“.. Oder 8000 je nach Sprachaufzeichnung Dies auch im Content-Type-Abschnitt Ihres Kopfes gespiegelt werden sollen)

Antwort. json Text

So nahm ich meine Stimme auf meinem iphone 3gs zu fragen: „Was für ein Tag ist heute?“ Und konvertiert sie in das entsprechende Format FLAC und veröffentlicht es auf Googles API und das ist, was ich als Antwort bekam:







Datenbank gefüllt mit Q-A

Text zu Sprache

Dieser Teil ist einfach ... und Google macht es noch einfacher mit einem weiteren undokumentierte API! Es ist ziemlich einfach. Eine einfache GET-Anfrage an:

Spracheingabe

Ich kann entweder mein Programm läuft über einen Web-Browser oder als Stand-alone-Anwendung machen. es über den Web-Browser läuft, ist cool, weil ich dann von fast jeder Maschine laufen würde. Leider ist HTML 5 nicht ein Mittel zur Aufnahme Stimme. Meine Optionen sind a) nur die Verwendung von Google Chrome, b) macht eine Flash-Anwendung, c) ein Java-Applet machen.

Anywho ... keine große Sache.

Putting It All Together

Es reagiert mit dieser Antwort. Braves Mädchen.
Es fehlt noch die Spracheingabeteil des Codes. Derzeit akzeptiert es nur eine .flac Datei. Ich schrieb 3 Teile des Codes, die ich zusammen als eine Pipeline von einem AI-Prozess gesetzt. Dies hat den Vorteil über Siri ist, dass ich jederzeit eingreifen kann. Ich kann es für bestimmte Fragen zu hören haben wie „Wer ist dein Herr?“ Und angemessen reagieren .... aber was noch wichtiger ist, kann ich es für „Schalten Sie meine Lichter“ oder „schalten Sie den Fernseher“ oder „öffnen Sie das Garagentor“ oder „turn 618 zu kanalisieren“ hören. Bestimmte Fragen werden meine Bot haben ein Signal an den entsprechenden Arduino gesteuert Lichtschalter oder in der Garage Schalter oder IR-Blaster senden und antworten mit einem „Ja, Meister“. Ich werde Videos posten, wenn es fertig ist.

Klicken Sie auf das kleine Mikrofon und versuchen, ihr eine Frage zu stellen wie: „Wie viele Beine hat eine Spinne haben?“ Oder „was 15 + 11?“ Oder „die Lichter ausschalten“. # 128578;

Update: Es ist ein Follow-up zu diesem Beitrag hier.

Quellcodes kann auf Github zu finden.

Awesome, ich war in Home-Automation durch diese Methode wirklich interessiert, aber ich werde Apple verwenden, - automatisieren Computer, zu Hause, und hoffentlich werde ich herausfinden, wie die APIs mit, es zu benutzen! Ich würde gerne auch in Ihrem Arduino Code zu sehen!

Ich hatte das gleiche für das Haus zu automatisieren. Aber erstens bin remaking ich meinen Computer. Ich wollte zu meinem Computer, um zu versuchen und Port Skyvie über.

Hey Mann das ist so cool. Ich wollte schon immer ein bisschen tun, das kann ich dieses Blog auf meiner Tech setzen. Prost







In Verbindung stehende Artikel