29 مارس 2014 من قبل ريان هاميلتون Let8217s ننظر في كيفية كتابة تحليلات المتوسط المتحرك في ف لقاعدة بيانات كدب. على سبيل المثال البيانات (mcd. csv) نحن نذهب لاستخدام بيانات سعر السهم لماكدونالدز مسد. سوف يقوم الرمز أدناه بتحميل بيانات المخزون التاريخية ل مسد ووضعها في الجدول t: المتوسط المتحرك البسيط يمكن استخدام المتوسط المتحرك البسيط للتخلص من البيانات المتقلبة لتحديد الاتجاهات والدورات الشاملة. المتوسط المتحرك البسيط هو متوسط نقاط البيانات والأوزان لكل قيمة في الحساب على حد سواء. على سبيل المثال للعثور على متوسط السعر المتحرك لأحد الأسهم خلال الأيام العشرة الماضية، نضيف ببساطة السعر اليومي لتلك الأيام العشرة ونقسم على عشرة. ثم يتحرك هذا الإطار من حجم عشرة أيام عبر التواريخ، وذلك باستخدام القيم داخل النافذة للعثور على المتوسط. Here8217s رمز في كدب لمتوسط المتحرك 1020 يوم والرسم البياني الناتج. المتوسط المتحرك البسيط الرسم البياني كدب (تم إنتاجه باستخدام كستوديو) ما هو المتوسط المتحرك الأسي وكيفية حسابه إحدى المشكلات مع المتوسط المتحرك البسيط هي أنه يعطي كل يوم ترجيح متساوي. ولأغراض كثيرة، يكون من المنطقي إعطاء الأيام الأكثر ترجيحا أعلى، طريقة واحدة للقيام بذلك هي استخدام المتوسط المتحرك الأسي. يستخدم هذا الوزن تناقصا أسيديا للتواريخ أكثر في الماضي. أبسط شكل من التجانس الأسي تعطى بالصيغة: حيث هو عامل تمهيد، و 0 يعرض هذا الجدول كيف يتم حساب مختلف ويزيماس نظرا للقيم 1،2،3 ، 4،8،10،20 وعامل تمهيد 0،7. (إكسيل سبريادشيت) لإجراء هذا الحساب في كدب يمكننا أن نفعل ما يلي: (تم نشر هذا الرمز أصلا إلى قائمة بريد جوجل من قبل أتيلا، ويمكن الاطلاع على مناقشة كاملة هنا) يعمل هذا العمل مائل مائل كما ببنية بديلة يعمم لوظائف 3 أو أكثر حيث يتم استخدام الوسيطة الأولى كقيمة أولية والوسيطات عناصر متطابقة من القوائم: متوسط الرسم البياني المتحرك الأسي وأخيرا نأخذ صيغتنا ونطبقها على بيانات تسعير المخزون لدينا، مما يسمح لنا برؤية المتوسط المتحرك الأسي لعاملين مختلفين للتمهيد: المتوسط المتحرك الأسي سعر السهم المخطط البياني الناتج باستخدام كوستوديو كما ترون مع إما يمكننا تحديد أولويات القيم الأحدث باستخدام عامل التمهيد المختار لتحديد التوازن بين البيانات الأخيرة والتاريخية. كتابة كدب تحليلات مثل المتوسط المتحرك الأسي يتم تغطيتها في دورة تدريبية كدب لدينا. ونحن نقدم بانتظام دورات تدريبية في لندن، نيويورك. آسيا أو لدينا بالطبع كد على الانترنت هو متاح لبدء الآن. 1 الرد على 8220 المتوسط المتحرك المتغير إما في Kdb8221 شكرا ريان، وهذا مفيد جدا. ولكن أعتقد أن هناك خطأ مطبعي في تعريف ema8217s، ينبغي أن يكون: إما: شي تنفيذ الفعل مسوم في كدب باستخدام رمز النافذة انزلاق. الخطوة الأولى هي العثور على وظيفة النافذة المنزلقة في q باستخدام عامل المسح الضوئي: الوسيطة الأولى لوظيفة دياديك الداخلية هي x 08217s والوسيطة الثانية هي القائمة y. في المسح الأول، يتم تطبيق الدالة الداخلية على x 08217s و y0. على المسح الثاني، فإنه يحصل تطبيقها على إخراج المسح الأول و Y1، وبالتالي، فإنه لا يزال مستمرا. الآن، باستخدام هذا لحساب وظيفة مسوم في س. q) y 1 6 21 56 q) 2 مسوم y 1 7 27 77 q) مجموع كل sw2y 1 7 27 77 يستخدم مسوم لحساب مجموع N-إيتم في القائمة y حيث N هي الوسيطة الأولى. في هذه الحالة، فمن 2. نقطة للتأمل. مديف هي وظيفة التي تحسب الانحراف المتحرك. ومع ذلك، فإنه لا يمكن تنفيذها باستخدام هذا انزلاق رمز النافذة مباشرة. فإنه يحتاج إلى بعض القرص. اتبع novieq13Time سلسلة في المالية: نهج قاعدة البيانات مجموعة د. دينيس شاشا كورانت معهد العلوم الرياضية قسم علوم الحاسب الآلي جامعة نيويورك shashacs. nyu. edu cs. nyu. educsfacultyshashaindex. html ما هي سلسلة زمنية كما تستخدم في الأعمال التجارية والمالية ماذا تفعل (فام، S-بلوس، ساس، كسل) القيام به لدعمها أنا تشمل الاستفسارات التحدي بالنسبة لك لمحاولة ضد سكل المفضلة لديك أو نظام إدارة قاعدة بيانات بديلة. ما هي نقاط القوة ذات الصلة في كل نظام هل هناك لغة زمنية مثالية فينتيمي، سلسلة زمنية قياسية cs. nyu. educsfacultyshashafintime. html أي البحوث في استخراج البيانات الزمنية قد تساعد في تمويل سلسلة زمنية ببليوغرافيا. مسرد موجز للمفاهيم الإحصائية. تكتشف المجموعة مدى الرغبة في تداول الأزواج. والهدف من ذلك هو تحديد أزواج (أو في مجموعات عامة) من الأسهم التي تتتبع أسعارها بعضها بعضا بعد تسجيل أرباح. يمكن للمرء أن يكسب المال (تم إجراء الكثير في 1980s)، لأنه، على سبيل المثال، إذا كنت تعرف أن اثنين من البنوك تشيس وسيتيبانك تتبع بعضها البعض (الفرق بينهما هو عملية ثابتة) وتشيس ترتفع ولكن سيتيبانك لا، ثم شراء سيتيبانك وبيع تشيس. ما لم يكن هناك سبب خارجي جيد للفرق، وهذا هو. (هذا هو التبسيط: واحد يحتاج إلى مزيج خطي من سلسلة السعر اثنين (مرة واحدة يتم احتساب عامل السوق (إزالتها) وشملت الأرباح) لتكون ثابتة، ولكن هذه هي الفكرة.) نموذجي الاستفسارات التحدي من هذا التطبيق: ربط وتاريخ الأسعار من اثنين من الأسهم أو بشكل عام بين العديد من الأسهم والخيارات. (بالنسبة لمعظم التجار، العوائد أكثر إثارة للاهتمام من الأسعار، لأن لديهم إحصاءات أفضل: الأسهم التي الاتجاهات على مر السنين لديها وسيلة غير مستقرة، ولكن ربما عودة ثابتة، لذلك واحد يقوم بعلاقات على العودة، والعودة في الوقت t (ل) السعر (t) السعر (t-1)). أداء الارتباط على فترات زمنية معينة لتقييم الاستقرارية. قد يكون الترجيح مرجحا: التاريخ الحديث يحسب أكثر من التاريخ البعيد لذا، ماذا يكون مشكلة قاعدة البيانات تأتي البيانات الخام في شكل القراد (الأسهم والكمية والسعر) ويمكن تخزينها في قاعدة بيانات علائقية دون مشكلة. الصعوبة الأساسية هي أن النموذج العلائقي لا يستفيد من ترتيب الصفوف. في حين يمكن للمرء أن يؤدي أمر عن طريق الاستعلام ومعالجة البيانات في بعض اللغات الأخرى، لا يمكن للمرء أن التلاعب أصلا البيانات المطلوبة باستخدام حدد، من، وأين. ويمكن القول إن هذا أمر جيد لاستقلالية البيانات، ولكنه سيئ لسلاسل الوقت. وإدراكا لذلك، يلجأ المتداولون كثيرا ويخبرون مبرمجيهم بالجمع بين بعضهم البعض. المبرمجين القيام بذلك وإنشاء قطعة من البرمجيات التي هي جزء جدول البيانات، جزء خاص قاعدة بيانات الغرض، مع الكثير من كود C. العمالة ترتفع. ملاحظة 1: يوضح جو سيلكو كيفية ثني سكل لمهمة محاكاة النظام في كتابه شعبية وممتازة كتاب لغز سكل. التي نشرها مورغان كوفمان. عادة، فإن الانحناء يؤدي إلى فقدان الكفاءة. كما أنه يعمل فقط لحالات خاصة. الملاحظة 2: تعالج الأنظمة الكائنية العلائقية هذه المشكلة من خلال توفير أنواع بيانات خاصة ووظائف معرفة من قبل المستخدم. هدفي هو إظهار نهج قاعدة البيانات مجموعة. وهما تتقارب، ولكن الناس مجموعة كانت في ذلك أطول ولديهم بعض الأفكار الجيدة. ما هو التسلسل الزمني تسلسل سلسلة زمنية من القيم عادة ما تسجل على فترات منتظمة منتظمة (سنويا، شهريا، أسبوعيا، ثانيا). الانتظام أمر بالغ الأهمية: فبدون الانتظام، فإن المتوسطات المتحركة، أوتوكورلاتيونس، والتقلب لن تكون منطقية (على سبيل المثال، إذا كان لدي سلسلة من عمليات إغلاق الأسعار اليومية ومن ثم 1000 قيمة خلال يوم واحد، فإن المتوسط المتحرك الذي يغطي السلسلة بأكملها لا معنى له). والسلاسل الزمنية غير العادية هي أيضا ذات أهمية (مثل تاريخ انقسامات الأسهم)، ولكن يمكننا أن نقول أقل عنها. سلسلة زمنية أيضا يحمل تاريخية. فإن الماضي مؤشر على المستقبل. لهذا السبب يمكن استخدام الانحدار الذاتي للتنبؤ بمستقبل المبيعات ولماذا قد تتنبأ التقلبات السابقة بالتذبذب في المستقبل. لاحظ أن المنطق الزمني، على سبيل المثال، يستخدم حقيقة أن قيمة i1st في تسلسل في وقت لاحق من قيمة إيث، ولكن لا يفترض انتظام ولا تاريخية. لغات الاستعلام الزمني هي ملحد بالتساوي حول هذا السؤال. دعم النظام لسلاسل الوقت نحن نريد أن نكون قادرين على خلق سلسلة زمنية، والتلاعب بها، والاحتفاظ بها في التخزين المستمر، وعرضها في التقارير. ولسلسلة الوقت ترددات، ولكن قد لا تكون لها قيم لكل مرة مثيل عند التردد المعلن، على سبيل المثال. يوم عمل لديه تردد من يوم ولكن ليس له قيم في الأعياد أو عطلة نهاية الأسبوع. ومن ناحية أخرى، فإن الترددات الزمنية ذات الثغرات يمكن أن تشكل مشاكل في الأسواق الدولية. على سبيل المثال، بعض أسواق الأسهم الآسيوية مفتوحة يوم السبت. الأسواق المختلفة لا تملك نفس العطلات بشكل عام. ويتمثل أحد الحلول في تخزين القيم دون ثغرات في كل مكان (أي كل يوم). ثم يصبح السؤال: كيفية ملء الثغرات الجواب له علاقة مع نوع من القيمة المخزنة. القيم المرتبطة بكل مرة من نوعين عامين (نحن نقترض هذا التمييز من نظام فام): قيم المستوى تبقى نفسها من فترة إلى أخرى في غياب النشاط. على سبيل المثال، المخزون هو قيمة مستوى، لأن المخزون يبقى نفسه إذا كنت لا شراء أو بيع. تدفق القيم صفر في غياب النشاط. على سبيل المثال، النفقات تذهب إلى الصفر إذا كنت تشتري شيئا. ويتضح أن هذا التمييز مهم عند استيفاء القيم المفقودة ولتحويل المقياس الزمني. العمليات على البيانات سلسلة الوقت إطار نموذجي هو أن من نظام فام، لأنه يجسد فهم ممتاز للخصائص الخاصة من السلاسل الزمنية. فام لتقف على التنبؤ وتحليل ونمذجة البيئة نظم المعلومات فام، آن أربور ميشيغان. (مثل التحوير والقياس الزمني) - منحنى تركيب الاستعلامات (على سبيل المثال المتوسطات المتحركة والمبالغ) - المجاميع مع مرور الوقت. التنبؤ (مثل الإحصاء الإحصائي أو الاستقراء القائم على استخراج البيانات) - الانحدار، والارتباط، وتحليل فورييه، ونمط الحقائق. إعداد البيانات في بعض الأحيان من الضروري ربط السلاسل الزمنية التي ليس لديها نفس الترددات الوقت، على سبيل المثال. الألغام هو أيام لك هو أسابيع. تحويل واحد إلى الآخر يعتمد على نوع من قيمة واحدة. على سبيل المثال، إذا كانت السلاسل الزمنية اليومية تشير إلى مستوى المخزون، فإن التحويل من يومي إلى أسبوعي يستتبع ببساطة أخذ مستوى المخزون في نهاية كل أسبوع. من ناحية أخرى، إذا كانت السلاسل الزمنية اليومية تشير إلى الإيرادات (نوع التدفق من القيمة)، ثم يجب على واحد تلخيص لهم للحصول على عائدات أسبوعية. تحويل الوقت يمكن أن يجبر الاستيفاء أيضا، وخصوصا عندما القيم البيانية. وعادة ما تستخدم الأنظمة تقنيات مختلفة للخلية مثل خليط مكعب لاستكمال القيم المفقودة. يمكن أن يكون الاستكمال الداخلي أكثر انخراطا من مجرد منحنى المناسب، ولكن كما هو الحال في الاستكمال الأسود-ديرمان-توي لمنحنى العائد. لذلك، يجب أن يكون المستخدمون قادرين على إضافة في وظائف الاستيفاء الخاصة بهم. أنواع طلب البحث - جرب هذه المعلومات في مجموعتك التراكمية لقاعدة البيانات، على سبيل المثال. من عام إلى آخر المبيعات. المتوسطات المتحركة، على سبيل المثال. 30 يوم متوسط أسعار الأسهم. نث بيست، e. g. 5 أفضل منطقة المبيعات. متوسط --- واحد في رتبة الوسطى - المنسق ترتيبي لكل قيمة على أساس ترتيب الفرز. ديسكريتيز --- e. g. وترتيب الإيرادات سواء كانت في الثلث العلوي، أو الثلث الأوسط، أو الثلث السفلي. وهذا يعني اكتشاف الحدود ثم استخدامها في استعلام تحديث. مقارنات من سنة إلى أخرى --- على سبيل المثال. الميزان التجاري لهذا العام مقابل الماضي. وظائف المحاسبة --- على سبيل المثال. ومعدل النمو المتوسط، والإطفاء، ومعدل العائد الداخلي وما إلى ذلك. الوظائف الإحصائية --- على سبيل المثال. الترابط الذاتي، والارتباط بين سلسلتين. التنبؤ قبل العشرينيات، كان التنبؤ يعني رسم خطوط من خلال السحب من قيم البيانات. اخترع يول تقنية الانحدار الذاتي في عام 1927، حتى انه يمكن التنبؤ العدد السنوي من البقع الشمسية. وكان هذا نموذجا خطيا وكان النهج الأساسي هو افتراض عملية خطي ة أساسية تم تعديلها بواسطة الضوضاء. وكثيرا ما يستخدم هذا النموذج في التسويق (على سبيل المثال، ما هي مبيعاتي من القمح في الشهر المقبل). يستخدم معدل الانحدار التلقائي مجموعا مرجحا للقيم السابقة للتنبؤ بالقيم المستقبلية. وهناك أيضا نماذج الانحدار الذاتي الموسمية. يتم تضمين هذه النماذج وغيرها في المنتجات سلسلة زمنية مثل فام، ساس و سبلوس. في خيارات التمويل، والنهج الأساسي هو افتراض أن سعر الأسهم يعتمد على المشي العشوائي (حركة براونية) حول المنحدر الأساسي. ويسمى حجم العشوائية التقلب. في نتيجة بسبب نوربرت ويينر (انه عمل لإسقاط القاذفات فوق لندن)، لهذا النموذج، والانحراف المعياري للفرق بين السعر الأولي والسعر في وقت معين ر ترتفع باعتبارها الجذر التربيعي للوقت t . الخطوات في جلسة فام النموذجية حدد التردد. قل شهريا، بدءا من 1 يناير 1996 وتنتهي في الوقت الحالي. قم بإنشاء سلاسل زمنية للمبيعات والنفقات باستيرادها من ملف أو كتابتها. حدد أن هذه سلاسل زمنية من نوع التدفق. إنشاء سلسلة زمنية جديدة: مبيعات أرباح الصيغة - النفقات. إنشاء سلسلة زمنية رابعة مع تردد أسبوعي على المخزون. حدد أن المخزون عبارة عن سلسلة زمنية من نوع المستوى. تحويل السلاسل الزمنية الثلاثة الأولى إلى تردد أسبوعي (عن طريق قسمة القيم الشهرية بمقدار 4.2 أو عن طريق إنشاء خط مكعب لجعل المبيعات والنفقات والأرباح منحنى تبدو على نحو سلس). ويعتمد هذا الاستيفاء على معرفة أن المبيعات والنفقات هي قيم من نوع التدفق. الآن، استخدام أوتورجرسيون للتنبؤ القيم سلسلة الوقت في المستقبل. S-بلوس هو بيئة تفسيرية لتحليل البيانات، وليس موجهة على وجه التحديد نحو السلاسل الزمنية، ولكن على أساس ناقلات. ماثسوفتسبلوس math. umbc. edu مشتق S-بلوس من لغة S وضعت في مختبرات أت بيل من قبل بيكر، غرف و ويلكنس، ولكن التنمية الآن ينتمي إلى ماثسوفت شركة S - بالإضافة إلى وظائف إحصائية والرياضية القياسية، بما في ذلك أنوفا، المويجات، بوتسترابينغ للتحقق من نموذج أوفيرفيتينغ، وهلم جرا. قدرات الرسومات للتصور (شهادات المستخدم يقول هذا هو نقطة قوية خاصة). (مثل الاستدلال على أشجار التصنيف والانحدار). وهي لغة موجهة نحو الكائن تسمح بالتغليف والإفراط في التحميل. على سبيل المثال، الكائنات من فئة معينة سيكون لها وظيفة مؤامرة خاصة. وتشمل التطبيقات في التمويل نماذج إحصائية لتداول العقود الآجلة، على سبيل المثال. الترابط بين السندات الأسترالية والأمريكية، وغيرها من الترابطات الأحادية أو متعددة التسلسل. S-بلوس، بعض التفاصيل تمت كتابة إشارة لطيفة إلى اللغة على شبكة الإنترنت من قبل كارلوس ألزولا وفرانك هاريل. وهو بعنوان مقدمة إلى S-بلوس ومكتبات هميسك والتصميم في جامعة فيرجينيا. (هميسك هو مجموعة من الوظائف الإضافية التي هي متنوعة حقا.) fharrell. biostat. virginia. edusindex. html نموذج البرمجة S-بلوس هو المنحى المنحى. وفيما يلي بعض البيانات النموذجية: سوم (ساس) (ساس) هي شركة رائدة في مجال قواعد البيانات الإحصائية (في الأصل، كانت تقف على نظام التحليل الإحصائي، ولكن الآن اختصار يقف على نفسه). ساس مبرمج يتفاعل مع النظام من قبل بارامتريزينغ فاريويوس وظائف كما يوضح المثال التالي: بروك توقعات داتاليادبرد AR1 عدد المعلمات الانحدار الذاتي لتقدير تردد الفاصل الزمني من المدخلات سلسلة الوقت الاتجاه 1 تناسب نموذج الاتجاه المستمر طريقة استخدام ستيبويز الانحدار الذاتي الأسلوب outleadout1 إنشاء مجموعة بيانات الانتاج للتنبؤات الرصاص 12 عدد فترات التنبؤ أوتليميتد فار ليادبرود معرف تاريخ تحديد متغير المدى بالإضافة إلى ذلك، ساس لديه لهجة متكاملة، متكاملة إلى حد ما، سكل يسمى بروك سكل. ساس لديها وحدات لاستخراج البيانات وتخزين البيانات أيضا. للحصول على الدعم لإدارة سلسلة الوقت في ساس، يمكنك شراء مكتبة تسمى إتس التي تمكنك من القيام الاستيفاء، والتنبؤ الاقتصاد القياسي (على سبيل المثال طريقة أقصى احتمال ) تحليل مالي (تحليل الرهون العقارية ذات المعدل الثابت، والرهون العقارية القابلة للتعديل، إلخ)، والتنبؤ بالسلاسل الزمنية (التمهيد الأسي، أريما، الانحدار الديناميكي). من خلال سمعة، ساس هو أصعب لتمديد من S-بلوس، ولكن ساس المبرمجين أصبحت ذكية مع اللغة على مر السنين. المكتبات غنية جدا. خلاصة القول: S - زائد هو أكثر مرونة للمشاكل ذات الأغراض الخاصة وسريع للمشاكل التي تناسب ذاكرة الوصول العشوائي. كما أن لديها رسومات كبيرة. الجمع بين اثنين يعمل بشكل جيد إذا كان التطبيق يختار مجموعة فرعية من البيانات ومن ثم يعمل على ذلك (مثل نظام الخبراء فضفاضة اقتران). كب هو نظام قاعدة بيانات يتم تنفيذها على أعلى بيئة اللغة K (التي تنتجها ككس أنظمة ككس)، لغة صفيف. هياكل البيانات (مثل الجداول) يمكن أن تكون متبادلة بين الاثنين ويمكن استدعاء وظائف في كلا الاتجاهين. نسخة تجريبية مجانية يمكن تحميلها. كب يدعم لهجة سكل يسمى كسل. كسل سهلة التعلم (لأي شخص يجيد في سكل) ويحمل على سرعة ووظائف K إلى التلاعب البيانات الكبيرة. كما يدعم كب معظم سكل القياسية. هيكل البيانات الأساسية في كسل هو أرابل (صفيف الجدول) وهو الجدول الذي يمكن استغلالها النظام. وبهذه الطريقة، فهي مشابهة جدا ل S-بلوس. أرابلز هي كائنات الشكل غير العادية الأولى: حقل سجل يمكن أن يكون صفيف. على سبيل المثال، يمكن تخزين سلسلة زمنية كاملة في حقل. مثل معظم سكل الحديثة، كسل يسمح بإدراج وظائف المعرفة من قبل المستخدم داخل بيانات قاعدة البيانات. خلافا لغيرها من سكلس كسل يسمح وظائف ليتم تعريفها على المصفوفات فضلا عن العددية. مثل سكل الكلاسيكية، كسل ديه المجاميع، والتجمع، والاختيار ومطابقة سلسلة، وهلم جرا. كسل يضيف العديد من الوظائف المفيدة ل سكل، مما يسمح التعبير الاقتصادي والأداء في كثير من الأحيان أفضل من خلال استغلال النظام. على سبيل المثال، العثور على خامس أعلى قيمة هي عملية الوقت الخطي في كسل ولكن يتطلب انضمام الذات في سكل، الذي هو في بعض الأحيان فقط الوقت الخطي. كب يمكن أن تعمل كخادم توزيع عالية الأداء مع الانتعاش الكامل والتوزيع الموزعة. (كب يضمن الاتساق باستخدام البث الذري أمر وتكرار تصميم آلة الدولة بدلا من اثنين من مرحلة ارتكاب.) بعض الملاحظات الأداء كب يمكن أن تفعل 40،000 المعاملات تبب في الثانية ضد 100 ميغابايت قاعدة البيانات على بنتيوم 2. نموذجي في العالم الحقيقي التطبيق (في ليمان براذرز): سلسلة زمنية: مرتبطا معرف الأداة، والتاريخ. البيانات: 11 مليون صف، بضع مئات من الأعمدة، الاستعلام نموذجي إرجاع 7500 صفوف مع 15 أعمدة. 10 غيغابايت. الاستعلام: هو العثور على جميع المعلومات التي لها علاقة مع مجموعة معينة من الصكوك في تاريخ معين. يؤدي هذا إلى إرجاع 7500 صف في أقل من ثانية. أساسيات كسل - مثال موسع إنشاء الجداول (أرابلز، حقا، ولكن تتفق بشكل جيد مع المصطلحات القياسية، على الرغم من أنها غير دقيقة قليلا) إما من خلال K أو داخل. t البرامج النصية. ونحن سوف تستخدم. t البرامج النصية في الوقت الراهن، وسوف إعداد قاعدة بيانات التجارة بسيطة ومن ثم تذهب من خلال ذلك سطرا سطرا (يمكنك نسخ هذا الملف وتشغيله، شريطة أيضا نسخ من newstat. k الذي سيعطى لاحقا). هنا هو ملف newstat. k. التعلیق علی جزء من التجارة. یقوم السطر بعمل مجموعة حسب الأسھم والشھر في الجدول التجاري. رياضيا، حسب الشرط تقسيم السجلات على أساس قيم مخزونات شهر متميزة، مثل مجموعة في سكل. ما هو مختلف هو أن كل قسم مضمون أن يؤمر بنفس الطريقة كما في الجدول (أرابل)، في هذه الحالة، من خلال ترتيب تصاعدي من التاريخ. ولكل قسم مناظرة للمخزون s و x-x، سيعود الجزء s، x، p حيث p هو سعر آخر سجل في القسم الموافق s و x. ونظرا لأن الجدول مرتب حسب التاريخ، فسيكون السجل الأخير هو التاريخ الأحدث. في العبارة المحددة (1) يعبر التعبير date. month في جملة بواسطة كل قيمة شهر / شهر مميزة في عمود التاريخ. هذا هو راحة كبيرة في تطبيقات سلسلة الوقت. مجموعات الشرط حسب قيم الشهر. وتستخدم الخطوط الدالة أفغس، التي تعطى ناقلا بنفس الطول، تحسب متوسطا متحركا، بالنظر إلى متجه (سعر كل سهم في هذه الحالة). 5 متوسطات تحسب المتوسط المتحرك لمدة خمسة أيام. يقوم الخط بتحميل دالة k أو أكثر من ملف newstat. k، وفي هذه الحالة يكون الحد الأقصى المتحرك الوحيد الذي يأخذ وسيطتين ورقم ومتجه. يستخدم الخط الدالة موفينغماكس المعرفة في ملف K newstat. k لحساب 5 أيام تتحرك الحد الأقصى للأسعار مجمعة حسب المخزون والشهر في الشهر. الدالة موفينغماكس يأخذ العددية والمتجه وهذا بالضبط ما يسلم به الشرط. اثنين من الاستعلامات التحدي لدينا باستخدام ناقلات دوت المنتج من الأسعار تعويض 10 أيام لكل سهم أعلى 10 أعلى سعر لكل سهم يجب أن تكون قادرة على القيام بقية على افتراض أنه يمكنك وضع في وظائف تعسفية. هل هناك لغة سلسلة الوقت المثالي القدرة على التعامل مع تسلسل ككائنات من الدرجة الأولى التي يمكن للمرء أن تفعل عمليات مفيدة داخل نظام قاعدة البيانات. فام، S-بلوس، ساس، و كسكل. القدرة على معالجة متواليات متعددة معا للارتباطات وأغراض أخرى. فام، S-بلوس، ساس، و كسكل. مجموعة أساسية من الوظائف، مثل المجاميع، المجاميع المتحركة، الإحصاءات، الترابط المتبادل، الاستيفاء، الخ. فام، S-بلوس، ساس، و كسكل. القدرة على دمج الوظائف المعرفة من قبل المستخدم في محرك الاستعلام. إيماني: وظائف المعرفة من قبل المستخدم ضرورية لسلسلة زمنية. ليس هناك اكتمال تماثلي إلى علائقي يرضي جميع (أو حتى أكثر) تطبيقات السلاسل الزمنية. تثبت لي خطأ إذا كنت تستطيع. كسكل و S - زائد فام و ساس إلى حد ما. وتشمل المرافق قاعدة البيانات مفيدة الرئيسية مفردات العلائقية الغنية والقدرة على العمل بكفاءة مع القرص وكذلك البيانات المقيمين رام. كسل، فام و ساس. علاج الوقت خصيصا، على سبيل المثال. تكون قادرة على مجموعة حسب التاريخ. الشهر أو التاريخ. سنة من كسكل. فام، ساس، S-بلوس مع المكتبات، و كسكل. تعامل مع القيم بشكل مناسب، على سبيل المثال مع مفاهيم مستوى وتدفق فام. فام، أصلا. والبعض الآخر يتطلب المكتبات. تقديم الدعم ل بيتمبوراليتي (نوقشت المقبل) على الأقل باعتباره امتدادا. لا يوجد نظام، أصلا. وقد بدأ بائعو قاعدة البيانات ذات العلاقة الكائنية في المنتجات الميدانية مع ملحقات السلاسل الزمنية. سيكون من المثير للاهتمام أن نرى جيدا كيف أنها تقيس. التحدي البيتيمبورالي حتى في التمويل، هناك أكثر للحياة من النظر في التدفقات والمستويات. في بعض الأحيان، يجب على المرء إجراء عمليات بحث تاريخية وفهم حالة المؤسسة في الماضي أو المستقبل. (نشرت سنودجراس، أهن، جنسن، وغيرها) (تم نشر ورقة استعراض لطيفة جدا في نظم المعلومات: علماء المعلومات المتغيرة الوقت كريستيان س. جنسن، ريتشارد T. سنودغراس نظم المعلومات، 21 (4): 311- 352 (1996)) مرتين هي صالحة الوقت (عندما يكون حقيقة واقعة) والوقت الصفقة (عندما أكد حقيقة). باستخدام هذا النموذج، يمكن للمرء أن يسأل: ما كان ركس ريكس في 1 أبريل 1998 افترض أن الجواب 1500 في الأسبوع، نظرا للمعلومات التي نعرفها الآن (أي وفقا لأحدث المعاملات). ولكن بطريقة ما أرسلنا ريك الاختيار لأكثر من ذلك بكثير. وهذا ما يثير سؤالا جديدا: ما الذي كنا نعتقد في 28 مارس 1998 (عندما كشفت الرواتب عن ريكس 100،000 دولار فحص أسبوعي) عن ركس الراتب ساري المفعول في 1 أبريل 1998 وهكذا، فإننا ننظر في المعاملات المتعلقة راتب ركس التي سبقت مارس 29، 1998، وانظر ما تم تأكيده حول راتب ريكس اعتبارا من 1 أبريل 1998. إذا كانت القيمة المطالب بها 100،000 دولار في الأسبوع، فإننا نعلم أن الدفع الخاطئ كان بسبب خطأ في قاعدة البيانات، وليس خطأ في تجهيز كشوف المرتبات. لذلك، قواعد البيانات بيتيمبورال مفيدة لتتبع سبب الفشل في العمليات. هذا المثال يظهر أيضا فائدتها العامة لتطبيقات الموارد البشرية، ما هو التاريخ الوظيفي لهذا المرشح داخل المنظمة أو أكثر تحديا: كيف تم تصحيح تاريخ العمل لهذا المرشح لتطبيقات التداول، يمكننا استخدام بيتيمبوراليتي لتتبع الارتباطات بين توقعات الأرباح والسعر، ما الذي كنا نعتقد أنه اعتبارا من يناير من هذا العام أن أرباح الربع الأول سيكون مثال أونيتيمبورال لأولئك الذين لديهم مهارة سكل: اقترح ريك سنودجراس المثال التالي لاختبار النظم الفطنة الزمنية. يتغير راتب الموظفين بمرور الوقت، وعادة ما يكون ذلك في اتجاه إيجابي. وبالتالي فإن كل راتب للموظف يكون له وقت يكون فيه صالحا، ويتسم بوقت البدء والنهاية، وهو أن يكون المرتب ساري المفعول عند بدء العمل، ويصبح صالحا عند انتهاء المدة. مهمتك هي حساب متوسط الراتب بمرور الوقت كمجموعة من الصفوف التي تحتوي على متوسط الراتب وكذلك أوقات البدء والانتهاء. وينبغي دمج فترتين متتاليتين بنفس متوسط المرتب. أرسل لي البريد إذا كنت تريد أن ترى نسخة كسكل. فينتيم قاعدة بيانات سلسلة الوقت المالية تصميم هذا المعيار هو العمل المشترك مع كيباليم يعقوب مورغان ستانلي (كاكوبمس) ووصفها الكامل يمكن العثور عليها في cs. nyu. educsfacultyshashafintime. html. هنا نقدم ملخصا لهذا المعيار. ويحاول معيار فينتيم نمذجة الاستخدامات العملية لقواعد بيانات السلاسل الزمنية في التطبيقات المالية. وتعكس النماذج المقترحة في فينتيم حالتين متكررتين في الصناعة المالية، وهما نظام بيانات السوق التاريخية وقاعدة بيانات الأسعار في الوقت الحقيقي. هذه النماذج هي مشابهة تماما لنموذجين مدروسة جيدا في العالم العلائقي، وهي نظم دعم القرار وأنظمة أولتب. كما تقترح فينتيم وتعرف المقاييس التي تستوعب ثلاثة أبعاد مفيدة لأي نظام سلاسل زمنية، أي الأداء في وضع المستخدم الواحد، والأداء في وضع متعدد المستخدمين، ونسبة السعر إلى الأداء. نماذج لمعيار سلسلة زمنية قبل اتخاذ قرار بشأن نموذج، علينا أن نفحص المعلمات المختلفة التي تحدد نموذجا لسلسلة زمنية النظام. أهم المعطيات التي تؤثر على نظام قاعدة بيانات السلاسل الزمنية هي: دورية البيانات (ريجولارينغولار) كثافة البيانات (دنسيسبارس) جدول التحديثات (الدورية والمستمرة) أنواع الاستعلامات (سيمبلكومبلكس) الفاصل الزمني بين الاستعلامات (أدوكباتش) عدد والمستخدمين المتزامنين (فيوماني) مزيج من هذه العوامل سيؤدي إلى 64 نماذج ممكنة ولكن للبساطة يمكننا أن نركز على الحالات التي تحدث عادة في الصناعة المالية نموذج 1: السوق التاريخية معلومات حجم الأسهم المتداولة يتم توفير معلومات السوق عادة كمجموعة من ملفات المدخلات من قبل بائع بيانات السوق في نهاية كل يوم تداول. تتوافق هذه الملفات مع الجداول المحددة أعلاه. في حين أن البيانات لجدول معلومات قاعدة، جدول تسوية سبليت وجدول توزيع الأرباح غير منتظم (أي حدث خارجي يؤدي إدخال هذه الجداول)، جدول معلومات السوق لديه إدخال لكل يوم تداول. ولأغراض هذا المعيار، يمكن للتنفيذ أن يختار مجموعة عوامل قياس عدد الأوراق المالية قيد النظر وعدد الأحداث لتلك الأوراق المالية. نقترح 3 عوامل مقياس، وهي 50،000 الأوراق المالية، 100،000 الأوراق المالية، و 1،000،000 الأوراق المالية، كل لمدة 4،000 يوم. وهي تقابل تقريبا جميع الأوراق المالية في الولايات المتحدة، وجميع الأوراق المالية في بلدان مجموعة السبعة وجميع الأوراق المالية في العالم. ويمكن العثور على برامج لتوليد البيانات على الصفحات المرجعية. خصائص الاستعلام. نموذج الاستعلامات: الانضمام إلى البيانات العلائقية ومعلومات السلاسل الزمنية الوصول إلى معلومات سلسلة زمنية طويلة العمق لعدد قليل من المفاتيح (استعلام التاريخ العميق) الوصول إلى سلسلة زمنية متعمقة قصيرة لعدد كبير من المفاتيح (الاستفسارات العرضية) الفرز التجميع والتجميع وفيما يلي الاستعلامات القياسية (نحن لا تتطلب أي لغة الاستعلام خاصة). وكثير منها يتضمن فكرة مجموعة محددة من الأوراق المالية أو فترة محددة. وتعرف هذه المفاهيم فيما يتعلق بنموذج عشوائي بسيط. الحصول على سعر إغلاق مجموعة من 10 أسهم لمدة 10 سنوات ومجموعة في المجاميع الأسبوعية والشهرية والسنوية. لكل فترة إجمالية تحدد قيمة الإغلاق المنخفضة والعالية والمتوسطة. يجب فرز الإخراج حسب المعرف وتاريخ التداول. ضبط جميع الأسعار والأحجام (تضاعف الأسعار في عامل الانقسام وتنقسم الأحجام على عامل الانقسام) لمجموعة من 1000 سهم لتعكس الأحداث الانقسام خلال فترة 300 يوم محددة، على افتراض أن الأحداث تحدث قبل التجارة الأولى من تاريخ الانقسام. وتسمى هذه الأسعار والأحجام المعدلة تقسيما. لكل سهم في قائمة محددة من 1000 سهم، والعثور على الاختلافات بين ارتفاع اليومي واليومي اليومي في يوم كل حدث انقسام خلال فترة محددة. احسب قيمة مؤشر SampP500 و راسل 2000 ليوم محدد باستخدام أسعار غير معدلة وتكوين مؤشر الفهرسين (يفترض أن يعطى) في اليوم المحدد العثور على متوسط السعر المتحرك لمدة 21 يوما و 5 أيام لمحدد قائمة 1000 سهم خلال فترة 6 أشهر. (استخدام الأسعار المعدلة المقسمة) (بناء على الاستعلام السابق) ابحث عن النقاط (أيام محددة) عندما يتقاطع المتوسط المتحرك لمدة 5 أشهر مع المتوسط المتحرك ل 21 يوما لهذه الأسهم. الإخراج هو أن يتم فرزها حسب الهوية والتاريخ. تحديد قيمة 100،000 الآن إذا كان قبل 1 سنة استثمرت بالتساوي في 10 أسهم محددة (أي تخصيص لكل سهم هو 10،000). استراتيجية التداول هي: عندما يعبر المتوسط المتحرك لمدة 20 يوما على المتوسط المتحرك لمدة 5 أشهر يتم استثمار المخصص الكامل لهذا المخزون وعندما يعبر المتوسط المتحرك ل 20 يوما عن المتوسط المتحرك لمدة 5 أشهر يتم بيع الصفقة بأكملها. يتم التداول على سعر إغلاق يوم التداول. العثور على معاملات الزوج الحكيم من الارتباط في مجموعة من 10 الأوراق المالية لمدة 2 سنة. فرز الأوراق المالية بمعامل الارتباط، مما يشير إلى زوج من الأوراق المالية المقابلة لهذا الصف. ملاحظة: معامل الارتباط المحدد في التذييل حدد توزيعات الأرباح السنوية والعائد السنوي (سعر إغلاق أرباح الأسهم) على مدى السنوات الثلاث الماضية لجميع الأسهم في مؤشر راسل 2000 الذي لم ينقسم خلال تلك الفترة. استخدام أسعار غير معدلة حيث لم يكن هناك انقسامات لضبط ل. وبما أن النموذج المرجعي يفترض أن مستوى التزامن صغير، ينبغي أن يكون عدد المستعملين 5. وينبغي أن تكون المنهجية المرجعية هي أن يقوم كل مستعمل من المستعملين الخمسة باختيار استعلام عشوائيا من المجموعة المذكورة أعلاه دون الاستعاضة عنه وتقديمه إلى قاعدة البيانات . وسيكون المستخدمون الخمسة نشطين في وقت واحد في أي وقت من الأوقات. يجب على كل مستخدم القيام بكل استعلام ثم إيقاف. النموذج 2: تحديد قواعد البيانات للأدوات المالية هذه النماذج القياسية الثانية الحالة التي من المتوقع أن قاعدة البيانات (تتألف من القراد) مواكبة معدل مرتفع جدا من التحديثات في حين تستجيب لعدة مستخدمين إصدار استعلامات بسيطة إلى حد ما. القراد هي أسعار األسعار أو التجارة) الصفقات (وما يرتبط بها من خصائص لألوراق المالية الفردية التي تحدث إما على أرضية البورصة أو في نظام التداول اإللكتروني، مثل نظام سوق ناسداك. وتشمل القراد نوعين أساسيين من البيانات (1) الصفقات هي المعاملات بين المشترين والبائعين بسعر ثابت وكمية (2) ونقلت هي عروض الأسعار التي يقدمها المشترين والبائعين. يمكن أن يكون ونقلت الاقتباس الاقتباس، وعرض الأسعار أو كليهما جنبا إلى جنب مع سمات شركائهم مثل الكمية المعروضة. فلنحدد الآن العناصر المختلفة لهذا المعيار. وهي: نموذج البيانات. نموذج البيانات لهذا المعيار هو بسيط. وهو يتألف من الجدولين التاليين: جدول معلومات قاعدة مؤشر إذا كان هذا هو اقتباس بيانات التجارة السكان، تردد التحديث وحجم. عادة ما يتم تعبئة قواعد بيانات القراد بواسطة المحولات التي تتلقى بيانات من خلاصات الوقت الفعلي. وتيرة التحديثات تتزايد باستمرار ولكن على المتوسط يمكننا أن نفترض أن كل القراد الأمن (كل المقابلة لسجل في قاعدة البيانات) حوالي 100 مرة خلال يوم التداول 8 ساعات. بالإضافة إلى ذلك، يمكننا أن نفترض أن مجموعة من الأوراق المالية يجري تعقب يتم تداولها في جميع أنحاء العالم، وبالتالي ليس هناك فترة هادئة. ولأغراض هذا المعيار، سنفترض أن النظام يراقب القراد على 000 1 أو 000 10 أو 000 100 ورقة مالية، حيث يمثل كل منها عاملا مختلفا. وهناك اعتبار مهم جدا في قواعد بيانات القراد هو القدرة على تطبيق بسرعة كوتانكليسكورتكوت. في بعض الأحيان يتم نشر اقتباس غير صحيح أو سجل تجاري. ثم يرسل البائع سجل تصحيح مع معرف الأمن ورقم تسلسله. وسیتم تصحیح السجل وفقا للنشر الجدید أو المحذوف ببساطة. خصائص الاستعلام. وعادة ما تكون أنواع الاستفسارات الصادرة ضد قواعد بيانات القراد عبر الإنترنت بسيطة ومحددة سلفا. ترد أدناه مجموعة الاستعلامات التي سيتم استخدامها في المعيار. الحصول على جميع القراد مجموعة محددة من 100 الأوراق المالية لفترة زمنية محددة ثلاث ساعات في تاريخ محدد للتجارة. تحديد حجم الوزن المرجح للأمن النظر فقط القراد في فترة محددة ثلاث ساعات تحديد أعلى 10 الخاسرين النسبة المئوية للتاريخ المحدد على التبادلات المحددة مرتبة حسب نسبة الخسارة. يتم احتساب الخسارة كنسبة مئوية من آخر سعر تداول لليوم السابق. تحديد أفضل 10 أسهم نشطة لتاريخ محدد مرتبة حسب حجم التداول التراكمي من خلال النظر في جميع الصفقات العثور على الأسهم الأكثر نشاطا في صناعة كوتكومبوتركوت (استخدام رمز سيك) العثور على 10 أسهم مع أعلى نسبة انتشار. الفرق هو الفرق بين آخر سعر الطلب وسعر العرض الأخير. ويحسب معدل الانتشار كنسبة مئوية من سعر نقطة الوسط (متوسط سعر الطلب وسعر العرض). المعلمات التشغيلية. وبما أن أنظمة القراد عادة لديها عدد كبير نسبيا من المستخدمين المتزامنين، فإننا نفترض أن هناك 50 مستخدما متزامنا للمعيار. هؤلاء المستخدمين اختيار عشوائيا الاستعلامات من القائمة أعلاه وتقديمها للتنفيذ. وسيقوم كل مستخدم بإرسال كل استعلام مرة واحدة فقط ويتم تشغيله من خلال القائمة الكاملة للاستعلامات. العثور على أنماط في البيانات الزمنية وقد فعلت التجار المالية استخراج البيانات لسنوات عديدة. ووصف أحد التجار عمله لي على النحو التالي: أعتقد أن خدعة المراجحة (تداول أزواج من هذا القبيل خدعة). برنامج لبضعة أشهر. محاولة خدعة وإما أنها تعمل أو أنها لا. إذا لم يفعل ذلك، أحاول شيئا جديدا. إذا كان يعمل، أنا أستمتع به حتى يختفي المراجحة. ما الذي يتعين على مجتمع البحث تقديمه لهؤلاء التجار أقدم بعض الأبحاث التي أعتقد أنها قد تكون أكثر صلة بالموضوع. وسوف يتم تحديث هذا مع مرور الوقت. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, editors Advances in Knowledge Discovery and Data mining AAAI Press The MIT Press, 1996. The article by Berndt and Clifford about finding patterns in time series is particularly relevant to finance. Temporal Databases -- Research and Practice Editors: Opher Etzion, Sushil Jajodia, Sury Sripada. (Springer-Verlag, 1998). There, you will find articles about finding unexpected patterns (e. g. fraud) and multi-granularity data mining. Christos Faloutsos Searching Multimedia Databases by Content Kluwer Academic Publishers. This book shows how to do signal processing analysis on time series to solve problems such as: Discovering whether two time series have similar shapes: the basic idea is to store the first few Fourier coefficients of a time sequence in a database and assert that two time sequences are similar if their Fourier coefficients are close. (Remarkably this works well because the energy spectrum for stock prices declines with the power 2 with increasing coefficients.) Joint work with Rakesh Agrawal and Arun Swami. The efficiency of this technique has been improved by Davood Rafiei and Alberto Mendelzon of the University of Toronto. Subsequence matching (is this sequence close to some subsequence of that sequence). Faloutsos uses a special data structure called Fastmap to make this performant. Other papers explore the question of similarity search when time scaling and inversion is possible: R. Agrawal, K-I Lin, H. S. Sawhney and K. Shim. Fast similarity search in the presence of noise, scaling and translation in time-series databases. Proc of the 21st VLDB Conference, 1995 D. Q. Goldin and P. C. Kanellakis. On similarity queries for time-series data: constraint specification and implementation. 1st International Conference on the Principles and Practice of Constraint Programming. pp. 137-153. Springer-Verlag, LNCS 976. September 1995. Davood Rafiei and Alberto Mendelzon. Similarity-based queries for time series data ACM Sigmod, pp. 13-24. May 1997 Yi, Efficient Retrieval of Similar Time Sequences Under Time Warping. Data Engineering, 1998. Excellent work has also been done on data structures by many researchers at Brown, Polytechnic, and the University of Maryland, but that falls outside the data mining purview. As an alternative to seeing whether two sequences or subsequences match, one might want to describe a desirable sequence (e. g. a head-and-shoulders movement of stock prices) and see whether it is present. Relevant papers about this include: H. V. Jagadish, A. O. Mendelzon and T. Milo. Similarity-based queries. PODS 1995. R. Agrawal, G. Psaila, E. L. Wimmers and M. Zait. Querying shapes of histories. Proceedings of the 21st VLDB Conference. pp. 502-514. 1995. P. Seshadri, M. Livny and R. Ramakrishnan. Sequence query processing. ACM SIGMOD, pp. 430-441, 1994 Data model and query language for sequences in general, with time series as a special case. Arie Shoshani, Kyoji Kawagoe: Temporal Data Management. VLDB 1986: 79-88 One of the first papers in the literature. Snodgrass, R. T. editor, The TSQL2 Temporal Query Language . Kluwer Academic Publishers, 1995, 674xxiv pages. The TSQL2 Language Design Committee consisted of Richard Snodgrass (chair), Ilsoo Ahn, Gad Ariav, Don Batory, James Clifford, Curtis E. Dyreson, Ramez Elmasri, Fabio Grandi, Christian S. Jensen, Wolfgang Kaefer, Nick Kline, Krishna Kulkarni, T. Y. Cliff Leung, Nikos Lorentzos, John F. Roddick, Arie Segev, Michael D. Soo and Suryanarayana M. Sripada. TSQL2 has time-varying aggregates, including moving window aggregates, aggregates over different time granularities, and weighted over time. Munir Cochinwala, John Bradley: A Multidatabase System for Tracking and Retrieval of Financial Data. VLDB 1994: 714-721 A paper discussing the implementation of a tick capture and query system --- for those brave enough to roll their own. Raghu Ramakrishnan, Donko Donjerkovic, Arvind Ranganathan, Keven S. Beyer, and Muralidhar Krishnaprasad: SRQL: sorted relational query language SSDBM 98 A paper discussing a model in which relations are tables that can be ordered. This allows one to do moving averages, find ten cheapest, preceding fifteen, etc. The strategy is to extend SQL with order and special operators. Leonid Libkin and colleagues: An optimizable array-oriented language based on comprehensions. The basic primitives are tabulation (analogous to selection), subscripting (remove elements from arrays), dimension reduction (like count of an array), and interaction between sets and arrays. Optimizations are analogous to pushing selects into expressions and techniques that reduce the complexity of expressions. Books on Time Series for Computer Scientists C. Chatfield, The Analysis of Time Series: Theory and Practice Chapman Hall fourth edition 1984. Good general introduction, especially for those completely new to time series. P. J. Brockwell and R. A. Davis, Time Series: Theory and Methods . Springer Series in Statistics (1986). B. D. Ripley and W. N. Venables, Modern Applied Statistics with S-Plus, Springer (1994) Chapter 14 has a good discussion of time series. stats. ox. ac. uk ripley has a lot of useful functions. FinTime, a time series benchmark for finance cs. nyu. educsfacultyshashafintime. html Appendix: Informal Review of Statistical Concepts Recall that the goal of probability theory is to determine the likelihood of a given event given a probability distribution (e. g. how likely is it to get 5,300 heads in 10,000 flips of a fair coin). The goal of statistics is to determine a probability distribution given a series of observations or at least to disprove a null hypothesis (e. g. is a fair coin a reasonable model if I get 8,000 heads in 10,000 flips). In parametric statistics, one knows the form of the target probability distribution but not the value of certain parameters, e. g. coin flips are binomial but the probability of a head may be unknown. In non-parametric statistics, one does not know the form of the target probability distribution. In finance, most models are parametric (autoregression, option pricing). When models arent, people use queries and eyeballs to figure out what to do. Stationary process . one whose statistics (mean and variance) do not vary with time. Stationarity is a fundamental assumption of pairs trading and options pricing. Correlation . a measure of the association between two series, e. g. the option open interest and the price of a security 5 days later. If cov(x, y) represents the covariance between x and y and sigma(x) is the standard deviation of x, then correlation(x, y) cov(x, y)(sigma(x)sigma(y)) so is entirely symmetric and lies always between -1 and 1. Partial correlation . suppose you are looking at the one day returns of Merck and Pfizer (two drug companies). You can look at them as raw data or you can subtract out the market influence via a least squares estimate and use the correlation of the residuals. التقلب . a measure of the standard deviation of the value of a variable over a specific time, e. g. the annualized standard deviation of the returns. The return at time t is ln(p(t)p(t-1)). This is a critical parameter in options pricing, because it determines the probability that a price will exceed a certain price range. Alpha, Beta, and Regression . suppose we estimate the relationship between the percentage change in price of some stock S vs. the percentage change in some market index M using a best fit (least squares) linear relationship: s a bm Then the parameter alpha (a) is the change in S independent of M and beta (b) is the slope of the best fit line. A riskless investment has a positive alpha and a zero beta, but most investments have a zero alpha and a positive beta. If beta is greater than 1, then for a given change in the market, you can expect a greater change in S. If beta is negative, then S moves in the opposite direction from the market. Note that beta is different from correlation (and can be arbitrarily large or small) because it is not symmetric: beta cov(S, M)(sigma(M)sigma(M)) ANOVA . analysis of variance in cases when there is no missing data. This is used to model situations in which several factors can play a role and one wants to tease out a probabilistic model that describes their interaction. For example, product, location and customer income may be factors that influence buying behavior. ANOVA helps to figure out how to weight each one. More significant variants of this include principal components analysis and factor analysis . In finance, one might use one of these to figure out what determines the price movement of a stock (perhaps half general market movement, one third interest rates, etc.). In psychology, one can ask a person 100 questions and then categorize the person according to a weighted sum of a few questions. Autoregression . a statistical model which predicts future values from one or more previous ones. This generalizes trend forecasting as used to predict sales. Financial traders use this sparingly since models that look at the recent past often just follow a short term trend. As one trader put it: they follow a trend and are always a day late and many dollars short. In general, regression of y on x is a determination of how y depends on x. Maximum likelihood method . suppose you are given a training set consisting of observations and the categories to which the observations belong. The maximum likelihood method selects the probability distribution that best explains the training set. For example, if you toss a coin 10,000 times and observe that heads comes up 8,000, you assign a probability to the heads that maximizes the probability of this event. This will make the probability of heads be greater than 12. In finance, the maximum likelihood method is often used for forecasting based on previously seen patterns. Regularization A technique for smoothing a function to make it have nice mathematical properties such as differentiability. Moving averages are an example of regularization. Bootstrapping (i) Divide the training set (set of (observation, category) pairs) into pieces. (ii) Infer the model from some pieces. (iii) Test it on the other pieces. Acknowledgments Lory Molesky, Judy Smith, David Rothman, and Rick Snodgrass made several suggestions that have contributed to this presentation. All errors are mine. This work was partly supported by grant 9531554 of the United States National Science Foundation. This support is greatly appreciated. شكرا على الاهتمام.
No comments:
Post a Comment