ค่าวิกฤตฉ ฟังก์ชัน Fisher ใน Excel และตัวอย่างการทำงาน ตัวชี้วัดคุณภาพสมการถดถอย
A) การวิเคราะห์เชิงกราฟิกของการถดถอยเชิงเส้นอย่างง่าย
สมการการถดถอยเชิงเส้นอย่างง่าย y=a+bx ถ้าระหว่าง ตัวแปรสุ่มมีความสัมพันธ์ระหว่าง y และ X ดังนั้นค่า y = ý +
โดยที่ ý คือค่าทางทฤษฎีของ y ที่ได้จากสมการ ý = f(x)
– ข้อผิดพลาดของการเบี่ยงเบนของสมการทฤษฎี ý จากข้อมูลจริง (ทดลอง)
สมการของการพึ่งพาค่าเฉลี่ย ý บน x ซึ่งก็คือ ý = f(x) เรียกว่าสมการการถดถอย การวิเคราะห์การถดถอยประกอบด้วยสี่ขั้นตอน:
1) กำหนดปัญหาและระบุเหตุผลในการเชื่อมต่อ
2) ข้อจำกัดของวัตถุวิจัย การรวบรวมข้อมูลทางสถิติ
3) การเลือกสมการคัปปลิ้งตามการวิเคราะห์และลักษณะของข้อมูลที่รวบรวม
4) การคำนวณค่าตัวเลขลักษณะของการเชื่อมต่อสหสัมพันธ์
หากตัวแปรสองตัวมีความสัมพันธ์กันในลักษณะที่การเปลี่ยนแปลงในตัวแปรหนึ่งสอดคล้องกับการเปลี่ยนแปลงอย่างเป็นระบบของตัวแปรอีกตัวหนึ่ง การวิเคราะห์การถดถอยจะถูกใช้เพื่อประมาณและเลือกสมการสำหรับความสัมพันธ์ระหว่างตัวแปรเหล่านั้นหากทราบตัวแปรเหล่านี้ การวิเคราะห์ความสัมพันธ์ใช้เพื่อวิเคราะห์ความใกล้ชิดของความสัมพันธ์ระหว่าง X และ Y ซึ่งแตกต่างจากการวิเคราะห์การถดถอย
ลองพิจารณาหาเส้นตรงในการวิเคราะห์การถดถอย:
สมการถดถอยเชิงทฤษฎี
คำว่า "การถดถอยอย่างง่าย" บ่งชี้ว่าค่าของตัวแปรหนึ่งถูกประมาณตามความรู้เกี่ยวกับตัวแปรอีกตัวหนึ่ง ต่างจากการถดถอยหลายตัวแปรอย่างง่าย มันถูกใช้ในการประมาณค่าตัวแปรโดยอาศัยความรู้ของตัวแปรตั้งแต่ 2, 3 ตัวแปรขึ้นไป ลองดูการวิเคราะห์เชิงกราฟิกของการถดถอยเชิงเส้นอย่างง่าย
สมมติว่ามีผลการตรวจคัดกรองก่อนการจ้างงานและผลิตภาพแรงงาน
ผลการคัดเลือก (100 คะแนน) x |
ผลผลิต (20 คะแนน) y |
|
โดยการวางแผนจุดบนกราฟ เราจะได้แผนภาพกระจาย (ฟิลด์) เราใช้มันเพื่อวิเคราะห์ผลการทดสอบการคัดเลือกและผลิตภาพแรงงาน
ใช้ Scatterplot มาวิเคราะห์เส้นถดถอยกัน ใน การวิเคราะห์การถดถอยมีการระบุตัวแปรอย่างน้อยสองตัวเสมอ การเปลี่ยนแปลงอย่างเป็นระบบในตัวแปรหนึ่งมีความเกี่ยวข้องกับการเปลี่ยนแปลงในอีกตัวแปรหนึ่ง เป้าหมายหลัก การวิเคราะห์การถดถอยประกอบด้วยการประมาณค่าของตัวแปรหนึ่งหากทราบค่าของตัวแปรอื่น สำหรับ ปัญหาที่สมบูรณ์การประเมินผลิตภาพแรงงานเป็นสิ่งสำคัญ
ตัวแปรอิสระในการวิเคราะห์การถดถอย ซึ่งเป็นปริมาณที่ใช้เป็นพื้นฐานในการวิเคราะห์ตัวแปรอื่น ในกรณีนี้คือผลลัพธ์ของการทดสอบการเลือก (ตามแกน X)
ตัวแปรขึ้นอยู่กับเรียกว่าค่าประมาณ (ตามแนวแกน Y) ในการวิเคราะห์การถดถอย สามารถมีตัวแปรตามได้เพียงตัวเดียวและตัวแปรอิสระมากกว่าหนึ่งตัว
สำหรับการวิเคราะห์การถดถอยอย่างง่าย การพึ่งพาสามารถแสดงได้ในระบบพิกัดคู่ (x และ y) โดยแกน X เป็นตัวแปรอิสระ และแกน Y เป็นตัวแปรตาม เราพล็อตจุดตัดกันเพื่อแสดงค่าคู่หนึ่งบนกราฟ กำหนดการเรียกว่า แผนภูมิกระจาย- โครงสร้างเป็นขั้นตอนที่สองของการวิเคราะห์การถดถอย เนื่องจากขั้นตอนแรกคือการเลือกค่าที่วิเคราะห์และการรวบรวมข้อมูลตัวอย่าง ดังนั้นการวิเคราะห์การถดถอยจึงถูกนำมาใช้ในการวิเคราะห์ทางสถิติ ความสัมพันธ์ระหว่างข้อมูลตัวอย่างในแผนภูมิเป็นแบบเส้นตรง
ในการประมาณค่าของตัวแปร y ตามตัวแปร x จำเป็นต้องกำหนดตำแหน่งของเส้นนั้น วิธีที่ดีที่สุดแสดงถึงความสัมพันธ์ระหว่าง x และ y โดยขึ้นอยู่กับตำแหน่งของจุดต่างๆ ในแผนภาพกระจาย ในตัวอย่างของเรา นี่คือการวิเคราะห์ประสิทธิภาพ เส้นที่ลากผ่านจุดกระเจิง – เส้นถดถอย- วิธีหนึ่งในการสร้างเส้นการถดถอยตามประสบการณ์การมองเห็นคือวิธีด้วยมือเปล่า เส้นการถดถอยของเราสามารถใช้เพื่อกำหนดผลิตภาพแรงงานได้ เมื่อหาสมการเส้นถดถอย
มักใช้การทดสอบกำลังสองน้อยที่สุด เส้นที่เหมาะสมที่สุดคือเส้นที่ผลรวมของการเบี่ยงเบนกำลังสองมีค่าน้อยที่สุด
สมการทางคณิตศาสตร์ของเส้นการเติบโตแสดงถึงกฎของการเติบโตในการก้าวหน้าทางคณิตศาสตร์:
ที่ = ก – ขเอ็กซ์.
ย = ก + ขเอ็กซ์– สมการที่กำหนดโดยมีพารามิเตอร์ตัวเดียวคือสมการการมีเพศสัมพันธ์ประเภทที่ง่ายที่สุด เป็นที่ยอมรับสำหรับค่าเฉลี่ย เพื่อแสดงความสัมพันธ์ระหว่างกันได้อย่างแม่นยำยิ่งขึ้น เอ็กซ์และ ที่จะมีการแนะนำสัมประสิทธิ์สัดส่วนเพิ่มเติม ขซึ่งบ่งบอกถึงความชันของเส้นถดถอย
B) การสร้างเส้นถดถอยทางทฤษฎี
กระบวนการค้นหาประกอบด้วยการเลือกและกำหนดประเภทของเส้นโค้งและการคำนวณพารามิเตอร์ ก, ข, กับฯลฯ กระบวนการก่อสร้างเรียกว่าการจัดตำแหน่ง และการจัดหาส่วนโค้งที่เสื่อเสนอ การวิเคราะห์ที่หลากหลาย บ่อยที่สุดใน งานทางเศรษฐกิจใช้ตระกูลเส้นโค้ง สมการที่แสดงเป็นพหุนามของกำลังจำนวนเต็มบวก
1)
– สมการของเส้นตรง
2)
– สมการไฮเปอร์โบลา
3)
– สมการของพาราโบลา
โดยที่ ý คือพิกัดของเส้นการถดถอยเชิงทฤษฎี
เมื่อเลือกประเภทของสมการแล้ว คุณจะต้องค้นหาพารามิเตอร์ที่สมการนี้ขึ้นอยู่กับ ตัวอย่างเช่น ธรรมชาติของตำแหน่งของจุดในสนามกระเจิงแสดงให้เห็นว่าเส้นถดถอยทางทฤษฎีเป็นเส้นตรง
แผนภูมิกระจายช่วยให้คุณแสดงประสิทธิภาพแรงงานโดยใช้การวิเคราะห์การถดถอย ในทางเศรษฐศาสตร์ การวิเคราะห์การถดถอยใช้ในการทำนายลักษณะต่างๆ มากมายที่ส่งผลต่อผลิตภัณฑ์ขั้นสุดท้าย (โดยคำนึงถึงการกำหนดราคาด้วย)
B) เกณฑ์ของเฟรมที่เล็กที่สุดสำหรับการค้นหาเส้นตรง
เกณฑ์หนึ่งที่เราอาจใช้สำหรับเส้นการถดถอยที่เหมาะสมในแผนภาพกระจายนั้นขึ้นอยู่กับการเลือกเส้นที่ผลรวมของข้อผิดพลาดกำลังสองมีค่าน้อยที่สุด
ความใกล้ชิดของจุดกระเจิงกับเส้นตรงวัดโดยพิกัดของส่วนต่างๆ การเบี่ยงเบนของจุดเหล่านี้อาจเป็นค่าบวกและลบ แต่ผลรวมของกำลังสองของการเบี่ยงเบนของเส้นทฤษฎีจากเส้นทดลองจะเป็นค่าบวกเสมอและควรมีค่าน้อยที่สุด ความจริงที่ว่าจุดกระเจิงทั้งหมดไม่ตรงกับตำแหน่งของเส้นถดถอย บ่งชี้ถึงความคลาดเคลื่อนระหว่างข้อมูลการทดลองและข้อมูลทางทฤษฎี ดังนั้น เราสามารถพูดได้ว่าไม่มีเส้นการถดถอยอื่นใด ยกเว้นเส้นที่พบ สามารถให้ค่าเบี่ยงเบนเล็กน้อยระหว่างข้อมูลการทดลองและข้อมูลการทดลองได้ จึงได้ค้นพบสมการทางทฤษฎีแล้ว ý และเส้นการถดถอย เราตอบสนองข้อกำหนดกำลังสองน้อยที่สุด
ทำได้โดยใช้สมการคัปปลิ้ง
การใช้สูตรเพื่อค้นหาพารามิเตอร์ กและ ข- รับค่าทางทฤษฎี
และการกำหนด ด้านซ้ายสมการผ่าน ฉเราได้รับฟังก์ชัน
จากพารามิเตอร์ที่ไม่รู้จัก กและ ข- ค่านิยม กและ ขจะตอบสนองฟังก์ชันขั้นต่ำ ฉและหาได้จากสมการเชิงอนุพันธ์ย่อย
และ
- นี้ สภาพที่จำเป็นอย่างไรก็ตาม สำหรับฟังก์ชันกำลังสองเชิงบวก นี่เป็นเงื่อนไขที่เพียงพอสำหรับการค้นหาเช่นกัน กและ ข.
ขอให้เราได้สูตรพารามิเตอร์จากสมการอนุพันธ์ย่อย กและ ข:
เราได้รับระบบสมการ:
ที่ไหน
– ข้อผิดพลาดค่าเฉลี่ยเลขคณิต
แทนที่ค่าตัวเลขเราจะพบพารามิเตอร์ กและ ข.
มีแนวคิดคือ
- นี่คือปัจจัยการประมาณ
ถ้า จ < 33%, то модель приемлема для дальнейшего анализа;
ถ้า จ> 33% จากนั้นเราจะหาไฮเปอร์โบลา พาราโบลา ฯลฯ ให้สิทธิ์ในการวิเคราะห์ในสถานการณ์ต่างๆ
สรุป: ตามเกณฑ์ค่าสัมประสิทธิ์การประมาณเส้นที่เหมาะสมที่สุดคือเส้นที่
และไม่มีเส้นการถดถอยอื่นสำหรับปัญหาของเราที่ให้ค่าเบี่ยงเบนขั้นต่ำ
D) ความคลาดเคลื่อนกำลังสองของการประมาณค่า กำลังตรวจสอบลักษณะทั่วไป
สัมพันธ์กับประชากรที่จำนวนพารามิเตอร์การวิจัยน้อยกว่า 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется ที-แบบทดสอบของนักเรียน วิธีนี้จะคำนวณมูลค่าที่แท้จริง ที-เกณฑ์:
จากที่นี่
ที่ไหน – ข้อผิดพลาดราก-ค่าเฉลี่ย-กำลังสองที่เหลือ ได้รับ ที กและ ที ขเมื่อเทียบกับที่สำคัญ ที เคจากตารางนักเรียนโดยคำนึงถึงระดับนัยสำคัญที่ยอมรับ ( = 0.01 = 99% หรือ = 0.05 = 95%) ป = ฉ = เค 1 = ม– จำนวนพารามิเตอร์ของสมการที่กำลังศึกษา (ระดับความอิสระ) ตัวอย่างเช่น ถ้า ย = ก + บีเอ็กซ์; ม = 2, เค 2 = ฉ 2 = พี 2 = n – (ม+1) ที่ไหน n– จำนวนลักษณะที่ศึกษา
ที ก < ที เค < ที ข .
บทสรุป: โดยใช้พารามิเตอร์ของสมการถดถอยที่ทดสอบความเป็นแบบฉบับ แบบจำลองทางคณิตศาสตร์ของการสื่อสารจึงถูกสร้างขึ้น
- ขณะเดียวกันก็มีพารามิเตอร์ที่ใช้ในการวิเคราะห์ด้วย ฟังก์ชันทางคณิตศาสตร์(เชิงเส้น ไฮเปอร์โบลา พาราโบลา) จะได้ค่าเชิงปริมาณที่สอดคล้องกัน เนื้อหาเชิงความหมายของแบบจำลองที่ได้รับในลักษณะนี้คือลักษณะค่าเฉลี่ยของลักษณะผลลัพธ์
จากเครื่องหมายปัจจัย เอ็กซ์.
D) การถดถอยแบบโค้ง
บ่อยครั้ง ความสัมพันธ์แบบเส้นโค้งเกิดขึ้นเมื่อความสัมพันธ์ที่เปลี่ยนแปลงเกิดขึ้นระหว่างตัวแปร ความเข้มของการเพิ่มขึ้น (ลดลง) ขึ้นอยู่กับระดับของ X การพึ่งพาเส้นโค้งมีหลายประเภท ตัวอย่างเช่น พิจารณาความสัมพันธ์ระหว่างผลผลิตพืชผลและการตกตะกอน ด้วยการเพิ่มขึ้นของปริมาณน้ำฝนภายใต้สภาพธรรมชาติที่เท่ากัน ผลผลิตจะเพิ่มขึ้นอย่างเข้มข้น แต่ถึงขีดจำกัดที่แน่นอน หลังจากผ่านจุดวิกฤติ พบว่ามีปริมาณน้ำฝนมากเกินไป และทำให้ผลผลิตลดลงอย่างหายนะ ตัวอย่างแสดงให้เห็นว่าในตอนแรกความสัมพันธ์เป็นไปในทางบวกและต่อมาเป็นลบ จุดวิกฤติคือระดับที่เหมาะสมที่สุดของคุณลักษณะ X ซึ่งสอดคล้องกับค่าสูงสุดหรือต่ำสุดของคุณลักษณะ Y
ในทางเศรษฐศาสตร์ ความสัมพันธ์ดังกล่าวสังเกตได้ระหว่างราคากับการบริโภค ผลผลิตและประสบการณ์
การพึ่งพาพาราโบลา
หากข้อมูลแสดงให้เห็นว่าการเพิ่มขึ้นของคุณลักษณะปัจจัยทำให้คุณลักษณะผลลัพธ์เพิ่มขึ้น สมการอันดับสอง (พาราโบลา) จะถูกนำมาใช้เป็นสมการถดถอย
- ค่าสัมประสิทธิ์ a,b,c พบได้จากสมการเชิงอนุพันธ์ย่อย:
เราได้รับระบบสมการ:
ประเภทของสมการเส้นโค้ง:
,
,
เรามีสิทธิ์ที่จะสรุปได้ว่ามีความสัมพันธ์แบบโค้งระหว่างประสิทธิภาพแรงงานและคะแนนการทดสอบการคัดเลือก ซึ่งหมายความว่าเมื่อระบบการให้คะแนนเพิ่มขึ้น ประสิทธิภาพจะเริ่มลดลงในระดับหนึ่ง ดังนั้นโมเดลแบบตรงจึงอาจกลายเป็นส่วนโค้งได้
โมเดลที่สามจะเป็นไฮเปอร์โบลา และในสมการทั้งหมด ตัวแปร x จะถูกแทนที่ด้วยนิพจน์
ลักษณะของการพึ่งพาเชิงสาเหตุ
ความสัมพันธ์ระหว่างเหตุและผล- นี่คือความเชื่อมโยงระหว่างปรากฏการณ์และกระบวนการเมื่อการเปลี่ยนแปลงในสิ่งหนึ่ง - สาเหตุ - นำไปสู่การเปลี่ยนแปลงในสิ่งอื่น - ผล
สัญญาณตามความสำคัญในการศึกษาความสัมพันธ์แบ่งออกเป็นสองประเภท
สัญญาณที่ทำให้เกิดการเปลี่ยนแปลงในคุณสมบัติที่เกี่ยวข้องอื่น ๆ เรียกว่า แฟกทอเรียล (หรือปัจจัย)
สัญญาณที่เปลี่ยนแปลงภายใต้อิทธิพลของสัญญาณปัจจัยคือ มีประสิทธิภาพ.
รูปแบบการสื่อสารต่อไปนี้มีความโดดเด่น: การทำงานและสุ่ม การทำงานคือความสัมพันธ์ซึ่งค่าหนึ่งของลักษณะเฉพาะของตัวประกอบสอดคล้องกับค่าหนึ่งของลักษณะเฉพาะที่เป็นผลลัพธ์เพียงค่าเดียวเท่านั้น ความเชื่อมโยงเชิงหน้าที่จะปรากฏในทุกกรณีของการสังเกตและสำหรับแต่ละหน่วยเฉพาะของประชากรที่กำลังศึกษา
ความสัมพันธ์เชิงฟังก์ชันสามารถแสดงได้ด้วยสมการต่อไปนี้:
ใช่ ฉัน =ฉ(x ฉัน)ที่อยู่: y i -
เครื่องหมายผลลัพธ์ ฉ(x ฉัน) -
ฟังก์ชั่นที่ทราบของการเชื่อมต่อระหว่างคุณลักษณะผลลัพธ์และตัวประกอบ x ฉัน -
เครื่องหมายปัจจัย
โดยธรรมชาติแล้วไม่มีการเชื่อมต่อที่ใช้งานได้จริง สิ่งเหล่านี้เป็นเพียงนามธรรม ซึ่งมีประโยชน์ในการวิเคราะห์ปรากฏการณ์ แต่ทำให้ความเป็นจริงง่ายขึ้น
Stochastic (ทางสถิติหรือแบบสุ่ม)การเชื่อมต่อแสดงถึงความสัมพันธ์ระหว่างปริมาณที่ปริมาณใดปริมาณหนึ่งตอบสนองต่อการเปลี่ยนแปลงของปริมาณอื่นหรือปริมาณอื่นโดยการเปลี่ยนแปลงกฎการกระจาย กล่าวอีกนัยหนึ่งด้วยความเชื่อมโยงนี้ ความหมายที่แตกต่างกันตัวแปรหนึ่งสอดคล้องกับการแจกแจงที่แตกต่างกันของตัวแปรอื่น นี่เป็นเพราะความจริงที่ว่าตัวแปรตาม นอกเหนือจากตัวแปรอิสระที่อยู่ระหว่างการพิจารณา ยังได้รับอิทธิพลจากปัจจัยสุ่มจำนวนหนึ่งที่ไม่สามารถนับหรือควบคุมได้ รวมถึงข้อผิดพลาดบางอย่างที่หลีกเลี่ยงไม่ได้ในการวัดตัวแปร เนื่องจากค่าของตัวแปรตามอาจมีการกระจายแบบสุ่ม จึงไม่สามารถคาดการณ์ได้อย่างแม่นยำเพียงพอ แต่สามารถระบุได้ด้วยความน่าจะเป็นที่แน่นอนเท่านั้น
เนื่องจากความคลุมเครือของการพึ่งพาสุ่มระหว่าง Y และ X โดยเฉพาะอย่างยิ่ง รูปแบบการพึ่งพาเฉลี่ยส่วน x จึงเป็นที่สนใจ กล่าวคือ รูปแบบการเปลี่ยนแปลงของค่าเฉลี่ย - ความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไข Mx(Y) (ความคาดหวังทางคณิตศาสตร์ของตัวแปรสุ่ม Y พบว่าตัวแปร X รับค่า x) ขึ้นอยู่กับ x
กรณีพิเศษของการสื่อสารแบบสุ่มคือการสื่อสารแบบสหสัมพันธ์ ความสัมพันธ์(ตั้งแต่ lat. ความสัมพันธ์- ความสัมพันธ์ความสัมพันธ์) คำจำกัดความโดยตรงของคำศัพท์ ความสัมพันธ์ - สุ่ม, น่าจะเป็น, เป็นไปได้ การเชื่อมต่อ ระหว่างตัวแปรสุ่มสองตัว (คู่) หรือหลายตัว (หลายตัว)
การพึ่งพาความสัมพันธ์ระหว่างตัวแปรสองตัวเรียกอีกอย่างว่าความสัมพันธ์ทางสถิติระหว่างตัวแปรเหล่านี้ ซึ่งแต่ละค่าของตัวแปรหนึ่งตัวจะสอดคล้องกับค่าเฉลี่ยที่แน่นอน กล่าวคือ ความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขจะแตกต่างออกไป การพึ่งพาสหสัมพันธ์เป็นกรณีพิเศษของการพึ่งพาสุ่มซึ่งการเปลี่ยนแปลงค่าของลักษณะปัจจัย (x 1 x 2 ..., x n) ทำให้เกิดการเปลี่ยนแปลงในค่าเฉลี่ยของลักษณะผลลัพธ์
เป็นธรรมเนียมที่จะต้องแยกแยะ ประเภทต่อไปนี้ความสัมพันธ์:
1. ความสัมพันธ์คู่ – การเชื่อมต่อระหว่างสองคุณลักษณะ (ผลลัพธ์และตัวประกอบหรือสองปัจจัย)
2. ความสัมพันธ์บางส่วน - การพึ่งพาระหว่างคุณลักษณะผลลัพธ์และปัจจัยหนึ่งที่มีค่าคงที่ของคุณลักษณะปัจจัยอื่นที่รวมอยู่ในการศึกษา
3. ความสัมพันธ์พหุคูณ - การพึ่งพาของผลลัพธ์และคุณลักษณะของปัจจัยสองรายการขึ้นไปที่รวมอยู่ในการศึกษา
วัตถุประสงค์ของการวิเคราะห์การถดถอย
รูปแบบการวิเคราะห์ที่แสดงความสัมพันธ์ระหว่างเหตุและผลคือแบบจำลองการถดถอย ความถูกต้องทางวิทยาศาสตร์และความนิยมของการวิเคราะห์การถดถอยทำให้การวิเคราะห์นี้เป็นหนึ่งในประเด็นหลัก เครื่องมือทางคณิตศาสตร์การสร้างแบบจำลองปรากฏการณ์ที่กำลังศึกษาอยู่ วิธีนี้ใช้เพื่อทำให้ข้อมูลการทดลองราบรื่นและได้รับ การประมาณการเชิงปริมาณอิทธิพลเปรียบเทียบของปัจจัยต่าง ๆ ต่อตัวแปรผลลัพธ์
การวิเคราะห์การถดถอยคือในคำจำกัดความของการแสดงออกเชิงวิเคราะห์ของความสัมพันธ์ซึ่งการเปลี่ยนแปลงในค่าหนึ่ง (ตัวแปรตามหรือลักษณะผลลัพธ์) เกิดจากอิทธิพลของค่าอิสระหนึ่งค่าขึ้นไป (ปัจจัยหรือตัวทำนาย) และชุดของปัจจัยอื่น ๆ ทั้งหมด ที่มีอิทธิพลต่อค่าที่ขึ้นต่อกันนั้นจะถูกนำมาเป็นค่าคงที่และค่าเฉลี่ย
เป้าหมายของการวิเคราะห์การถดถอย:
ระดับ การพึ่งพาการทำงานค่าเฉลี่ยแบบมีเงื่อนไขของคุณลักษณะผลลัพธ์ y จากปัจจัย (x 1, x 2, ..., x n)
การทำนายค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของตัวแปรตาม
การวิเคราะห์การถดถอยไม่สามารถใช้เพื่อระบุได้ว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีความสัมพันธ์ดังกล่าวเป็นข้อกำหนดเบื้องต้นสำหรับการนำการวิเคราะห์ไปใช้
ในการวิเคราะห์การถดถอย สันนิษฐานล่วงหน้าว่ามีความสัมพันธ์ระหว่างเหตุและผลระหว่างผลลัพธ์ (U) และคุณลักษณะของตัวประกอบ x 1, x 2 ..., x n
การทำงาน ,
ปฏิบัติการการพิจารณาการพึ่งพาของตัวบ่งชี้ในพารามิเตอร์เรียกว่าสมการการถดถอย (ฟังก์ชัน) 1. สมการถดถอยจะแสดงค่าที่คาดหวังของตัวแปรตามเมื่อใด ค่าบางอย่างตัวแปรอิสระ.
ขึ้นอยู่กับจำนวนปัจจัยที่รวมอยู่ในรุ่น เอ็กซ์แบบจำลองแบ่งออกเป็นปัจจัยเดียว (แบบจำลองการถดถอยคู่) และหลายปัจจัย (แบบจำลอง การถดถอยหลายครั้ง- โมเดลจะแบ่งออกเป็นเชิงเส้นและไม่เชิงเส้นทั้งนี้ขึ้นอยู่กับประเภทของฟังก์ชัน
โมเดลการถดถอยคู่
เนื่องจากอิทธิพลของปัจจัยสุ่มและสาเหตุ การสังเกตส่วนบุคคล y จะเบี่ยงเบนไปจากฟังก์ชันการถดถอย f(x) มากหรือน้อย ในกรณีนี้ สมการสำหรับความสัมพันธ์ระหว่างตัวแปรสองตัว (แบบจำลองการถดถอยคู่) สามารถนำเสนอได้ดังนี้:
Y=ฉ(X) + ɛ,
โดยที่ ɛ เป็นตัวแปรสุ่มที่แสดงลักษณะความเบี่ยงเบนจากฟังก์ชันการถดถอย ตัวแปรนี้เรียกว่าการรบกวนหรือการรบกวน (ตกค้างหรือข้อผิดพลาด) ดังนั้นในแบบจำลองการถดถอยตัวแปรตาม ยมีฟังก์ชั่นบางอย่าง ฉ(เอ็กซ์)จนถึงการรบกวนแบบสุ่ม ɛ.
ลองพิจารณาคลาสสิก โมเดลเชิงเส้นการถดถอยแบบคู่ (KLMPR) เธอดูเหมือน
y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n)(1)
ที่ไหน ใช่แล้ว– อธิบาย (ผลลัพธ์, ขึ้นอยู่กับ, ตัวแปรภายนอก); x ฉัน– ตัวแปรอธิบาย (ตัวทำนาย, ปัจจัย, ภายนอก) ตัวแปร β 0 , β 1– ค่าสัมประสิทธิ์เชิงตัวเลข ɛi– องค์ประกอบหรือข้อผิดพลาดแบบสุ่ม (สุ่ม)
เงื่อนไขพื้นฐาน (ข้อกำหนดเบื้องต้น สมมติฐาน) ของ KLMPR:
1) x ฉัน– ปริมาณที่กำหนด (ไม่สุ่ม) และสันนิษฐานว่าในบรรดาค่า x i - ไม่เหมือนกันทั้งหมด
2) ความคาดหวังทางคณิตศาสตร์ (ค่าเฉลี่ย) ของการรบกวน ɛiเท่ากับศูนย์:
М[ɛ i ]=0 (i=1,2, …, n)
3) การกระจายตัวของการรบกวนจะคงที่สำหรับค่าใด ๆ ของ i (เงื่อนไขความสม่ำเสมอของเนื้อเดียวกัน):
D[ɛ i ]=σ 2 (i=1,2, …, n)
4) การรบกวนสำหรับการสังเกตที่แตกต่างกันไม่มีความสัมพันธ์กัน:
cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 สำหรับ i≠j,
โดยที่ cov[ɛ i , ɛ j ] คือสัมประสิทธิ์ความแปรปรวนร่วม (โมเมนต์สหสัมพันธ์)
5) การรบกวนจะกระจายเป็นตัวแปรสุ่มตามปกติโดยมีค่าเฉลี่ยและความแปรปรวนเป็นศูนย์ σ 2:
ɛ ผม หยาบคาย N(0, σ 2)
เพื่อให้ได้สมการการถดถอย สี่หลักแรกก็เพียงพอแล้ว ข้อกำหนดในการปฏิบัติตามข้อกำหนดเบื้องต้นที่ห้านั้นจำเป็นต่อการประเมินความถูกต้องของสมการการถดถอยและพารามิเตอร์ของสมการ
ความคิดเห็น:การมุ่งเน้นที่ความสัมพันธ์เชิงเส้นอธิบายได้จากการแปรผันที่จำกัดของตัวแปร และความจริงที่ว่าในกรณีส่วนใหญ่ของความสัมพันธ์แบบไม่เชิงเส้นจะถูกแปลง (โดยลอการิทึมหรือการแทนที่ตัวแปร) ให้เป็นรูปแบบเชิงเส้นเพื่อทำการคำนวณ
วิธีการดั้งเดิมกำลังสองน้อยที่สุด (LS)
การประมาณแบบจำลองจากตัวอย่างคือสมการ
ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)
โดยที่ ŷ i – ค่าทางทฤษฎี (ประมาณ) ของตัวแปรตามที่ได้รับจากสมการการถดถอย 0 , 1 - สัมประสิทธิ์ (พารามิเตอร์) ของสมการการถดถอย (ตัวอย่างการประมาณค่าสัมประสิทธิ์β 0, β 1 ตามลำดับ)
ตามกำลังสองน้อยที่สุด พารามิเตอร์ที่ไม่รู้จัก 0 , 1 จะถูกเลือกเพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองของค่า ŷ ฉัน จากค่าเชิงประจักษ์ y ฉัน (ผลรวมที่เหลือของกำลังสอง) นั้นน้อยที่สุด:
Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → นาที, (3)
โดยที่ e i = y i - ŷ i – ค่าประมาณตัวอย่างของสัญญาณรบกวน ɛ i หรือค่าคงเหลือของการถดถอย
ปัญหาเกิดขึ้นที่การค้นหาค่าดังกล่าวของพารามิเตอร์ a 0 และ 1 ซึ่งฟังก์ชัน Q e รับค่าที่น้อยที่สุด โปรดทราบว่าฟังก์ชัน Q e = Q e (a 0 , a 1) เป็นฟังก์ชันของตัวแปรสองตัวคือ 0 และ 1 จนกระทั่งเราพบและแก้ไขค่า "ดีที่สุด" ของตัวแปรเหล่านั้น (ในแง่ของวิธีกำลังสองน้อยที่สุด) a x i y ฉันเป็นตัวเลขคงที่ที่พบในการทดลอง
เงื่อนไขที่จำเป็น extrema (3) พบได้โดยการเทียบอนุพันธ์ย่อยของฟังก์ชันนี้ของตัวแปรสองตัวให้เป็นศูนย์ เป็นผลให้เราได้ระบบสมการเชิงเส้นสองสมการซึ่งเรียกว่าระบบสมการปกติ:
(4)
สัมประสิทธิ์ a 1 คือสัมประสิทธิ์การถดถอยตัวอย่างของ y บน x ซึ่งแสดงจำนวนหน่วยโดยเฉลี่ยที่ตัวแปร y เปลี่ยนแปลงเมื่อตัวแปร x เปลี่ยนแปลงไปหนึ่งหน่วยของการวัด ซึ่งก็คือความแปรผันของ y ต่อหน่วยของการเปลี่ยนแปลงใน x เข้าสู่ระบบ 1บ่งบอกถึงทิศทางของการเปลี่ยนแปลงนี้ ค่าสัมประสิทธิ์ a 0 - การกระจัดตาม (2) เท่ากับค่าของ ŷ i ที่ x = 0 และอาจไม่มีการตีความที่มีความหมาย ด้วยเหตุนี้ บางครั้งตัวแปรตามจึงถูกเรียกว่าการตอบสนอง
คุณสมบัติทางสถิติของการประมาณค่าสัมประสิทธิ์การถดถอย:
ค่าสัมประสิทธิ์การประมาณค่า a 0 , a 1 มีความเป็นกลาง
ความแปรปรวนของการประมาณค่า a 0 ลดลง 1 (ความแม่นยำของการประมาณค่าเพิ่มขึ้น) เมื่อขนาดตัวอย่างเพิ่มขึ้น n;
ความแปรปรวนของการประมาณความชัน a 1 ลดลงเมื่อเพิ่มขึ้น ดังนั้นจึงแนะนำให้เลือก x i เพื่อให้ค่าแพร่กระจายรอบค่าเฉลี่ยมีขนาดใหญ่
สำหรับ x > 0 (ซึ่งเป็นที่สนใจมากที่สุด) มีความสัมพันธ์ทางสถิติเชิงลบระหว่าง 0 ถึง 1 (การเพิ่มขึ้นของ 1 ส่งผลให้ 0 ลดลง)
การวิเคราะห์การถดถอยเป็นหนึ่งในวิธีการวิจัยทางสถิติที่ได้รับความนิยมมากที่สุด สามารถใช้เพื่อสร้างระดับอิทธิพลของตัวแปรอิสระต่อตัวแปรตาม ในด้านการใช้งาน ไมโครซอฟต์ เอ็กเซลมีเครื่องมือที่ออกแบบมาเพื่อทำการวิเคราะห์ประเภทนี้ มาดูกันว่ามันคืออะไรและใช้งานอย่างไร
แต่หากต้องการใช้ฟังก์ชันที่ช่วยให้คุณสามารถวิเคราะห์การถดถอยได้ คุณต้องเปิดใช้งานแพ็คเกจการวิเคราะห์ก่อน จากนั้นเครื่องมือที่จำเป็นสำหรับขั้นตอนนี้จะปรากฏบน Ribbon ของ Excel
ตอนนี้เมื่อเราไปที่แท็บ "ข้อมูล"บน Ribbon ในกล่องเครื่องมือ "การวิเคราะห์"เราจะเห็น ปุ่มใหม่ – "การวิเคราะห์ข้อมูล".
ประเภทของการวิเคราะห์การถดถอย
การถดถอยมีหลายประเภท:
- พาราโบลา;
- สงบ;
- ลอการิทึม;
- เลขชี้กำลัง;
- สาธิต;
- ซึ่งเกินความจริง;
- การถดถอยเชิงเส้น
เกี่ยวกับการดำเนินการ ประเภทสุดท้ายเราจะพูดถึงการวิเคราะห์การถดถอยใน Excel โดยละเอียดในภายหลัง
การถดถอยเชิงเส้นใน Excel
ด้านล่างนี้เป็นตารางที่แสดงอุณหภูมิอากาศภายนอกเฉลี่ยรายวันและจำนวนลูกค้าร้านค้าสำหรับวันทำงานที่เกี่ยวข้อง เรามาดูกันว่าการใช้การวิเคราะห์การถดถอยอย่างแน่ชัดว่าสภาพอากาศในรูปของอุณหภูมิอากาศส่งผลต่อการเข้าร่วมงานของสถานประกอบการค้าปลีกอย่างไร
สมการการถดถอยเชิงเส้นทั่วไปมีดังนี้: Y = a0 + a1x1 +…+ akhk ในสูตรนี้ ยหมายถึง ตัวแปร อิทธิพลของปัจจัยที่เราพยายามศึกษา ในกรณีของเรา นี่คือจำนวนผู้ซื้อ ความหมาย xเป็นปัจจัยต่างๆ ที่มีอิทธิพลต่อตัวแปร ตัวเลือก กเป็นค่าสัมประสิทธิ์การถดถอย นั่นคือพวกเขาคือผู้กำหนดความสำคัญของปัจจัยเฉพาะ. ดัชนี เคหมายถึงจำนวนรวมของปัจจัยเดียวกันนี้
การวิเคราะห์ผลการวิเคราะห์
ผลลัพธ์ของการวิเคราะห์การถดถอยจะแสดงในรูปแบบของตารางในตำแหน่งที่ระบุในการตั้งค่า
หนึ่งในตัวชี้วัดหลักก็คือ R-สแควร์- มันบ่งบอกถึงคุณภาพของแบบจำลอง ในกรณีของเรา ค่าสัมประสิทธิ์นี้คือ 0.705 หรือประมาณ 70.5% ซึ่งเป็นระดับคุณภาพที่ยอมรับได้ การพึ่งพาน้อยกว่า 0.5 ถือว่าไม่ดี
อื่น ตัวบ่งชี้ที่สำคัญอยู่ในห้องขังบริเวณจุดตัดของเส้น "แยก Y"และคอลัมน์ "อัตราต่อรอง"- สิ่งนี้บ่งชี้ว่าค่า Y จะมีค่าเท่าใด และในกรณีของเรา นี่คือจำนวนผู้ซื้อ พร้อมด้วยปัจจัยอื่นๆ ทั้งหมด เท่ากับศูนย์- ในตารางนี้ มูลค่าที่กำหนดเท่ากับ 58.04
ค่าที่จุดตัดของกราฟ "ตัวแปร X1"และ "อัตราต่อรอง"แสดงระดับการพึ่งพา Y บน X ในกรณีของเรา นี่คือระดับการพึ่งพาจำนวนลูกค้าร้านค้าตามอุณหภูมิ ค่าสัมประสิทธิ์ 1.31 ถือเป็นตัวบ่งชี้อิทธิพลที่ค่อนข้างสูง
อย่างที่คุณเห็น การใช้ Microsoft Excel การสร้างตารางการวิเคราะห์การถดถอยนั้นค่อนข้างง่าย แต่มีเพียงผู้ที่ได้รับการฝึกอบรมเท่านั้นที่สามารถทำงานกับข้อมูลเอาต์พุตและเข้าใจสาระสำคัญของมันได้
วัตถุประสงค์ของการวิเคราะห์การถดถอยคือการวัดความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัว (การวิเคราะห์การถดถอยแบบคู่) หรือมากกว่า (หลายตัว) ตัวแปรอิสระเรียกอีกอย่างว่าตัวแปรตัวประกอบ ตัวแปรอธิบาย ดีเทอร์มิแนนต์ ตัวถดถอย และตัวทำนาย
ตัวแปรตามบางครั้งเรียกว่าตัวแปรที่กำหนด อธิบาย หรือ "ตอบสนอง" การใช้การวิเคราะห์การถดถอยอย่างแพร่หลายในการวิจัยเชิงประจักษ์ไม่เพียงเพราะเป็นเครื่องมือที่สะดวกสำหรับการทดสอบสมมติฐานเท่านั้น การถดถอย โดยเฉพาะการถดถอยพหุคูณคือ วิธีการที่มีประสิทธิภาพการสร้างแบบจำลองและการพยากรณ์
มาเริ่มอธิบายหลักการทำงานกับการวิเคราะห์การถดถอยด้วยวิธีที่ง่ายกว่า - วิธีคู่
การวิเคราะห์การถดถอยคู่
ขั้นตอนแรกเมื่อใช้การวิเคราะห์การถดถอยจะเกือบจะเหมือนกับขั้นตอนที่เราคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ เงื่อนไขหลักสามประการเพื่อประสิทธิผล การวิเคราะห์ความสัมพันธ์ตามวิธีเพียร์สัน - การแจกแจงตัวแปรแบบปกติ, การวัดช่วงของตัวแปร, การเชื่อมต่อเชิงเส้นระหว่างตัวแปร - ยังเกี่ยวข้องกับการถดถอยพหุคูณด้วย ดังนั้นในขั้นตอนแรก จะมีการสร้างแผนภาพกระจาย การวิเคราะห์ตัวแปรทางสถิติและเชิงพรรณนาจะดำเนินการ และคำนวณเส้นการถดถอย เช่นเดียวกับในกรอบการวิเคราะห์สหสัมพันธ์ เส้นการถดถอยถูกสร้างขึ้นโดยใช้วิธีกำลังสองน้อยที่สุด
เพื่อให้แสดงให้เห็นความแตกต่างระหว่างการวิเคราะห์ข้อมูลทั้งสองวิธีได้ชัดเจนยิ่งขึ้น ให้เรามาดูตัวอย่างที่กล่าวถึงแล้วกับตัวแปร “การสนับสนุน SPS” และ “ส่วนแบ่งของประชากรในชนบท” แหล่งข้อมูลเหมือนกัน ความแตกต่างในแผนภาพกระจายคือในการวิเคราะห์การถดถอย การพล็อตตัวแปรตามนั้นถูกต้อง - ในกรณีของเรา "การสนับสนุน SPS" บนแกน Y ในขณะที่การวิเคราะห์สหสัมพันธ์นั้นไม่สำคัญ หลังจากทำความสะอาดค่าผิดปกติแล้ว Scatterplot จะมีลักษณะดังนี้:
แนวคิดพื้นฐานของการวิเคราะห์การถดถอยคือ เมื่อมีแนวโน้มทั่วไปสำหรับตัวแปร - ในรูปแบบของเส้นการถดถอย - คุณสามารถทำนายค่าของตัวแปรตามได้ โดยพิจารณาจากค่าของตัวแปรอิสระ
ลองจินตนาการถึงฟังก์ชันเชิงเส้นทางคณิตศาสตร์ธรรมดา เส้นใดๆ ในปริภูมิแบบยุคลิดสามารถอธิบายได้ด้วยสูตร:
โดยที่ a คือค่าคงที่ที่ระบุการกระจัดตามแกนพิกัด b คือค่าสัมประสิทธิ์ที่กำหนดมุมเอียงของเส้น
เมื่อทราบความชันและค่าคงที่ คุณสามารถคำนวณ (ทำนาย) ค่า y สำหรับ x ใดๆ ได้
นี้ ฟังก์ชั่นที่ง่ายที่สุดและสร้างพื้นฐานของแบบจำลองการวิเคราะห์การถดถอยโดยมีข้อแม้ว่าเราจะไม่ทำนายค่า y อย่างแน่นอน แต่อยู่ภายในช่วงความเชื่อมั่นที่แน่นอน นั่นคือ ประมาณ.
ค่าคงที่คือจุดตัดกันของเส้นถดถอยและแกน y (จุดตัด F ซึ่งปกติจะแสดงเป็น "ตัวตัดกัน" ในแพ็คเกจทางสถิติ) ในตัวอย่างของเราที่มีการลงคะแนนให้ Union of Right Forces ค่าปัดเศษของมันจะเป็น 10.55 ค่าสัมประสิทธิ์เชิงมุม b จะอยู่ที่ประมาณ -0.1 (ในการวิเคราะห์ความสัมพันธ์ เครื่องหมายจะแสดงประเภทของการเชื่อมต่อ - โดยตรงหรือผกผัน) ดังนั้นโมเดลที่ได้จะมีรูปแบบ SP C = -0.1 x Sel เรา. +10.55.
เอทีพี = -0.10 x 47 + 10.55 = 5.63
ความแตกต่างระหว่างค่าดั้งเดิมและค่าที่ทำนายไว้เรียกว่าส่วนที่เหลือ (เราพบคำนี้ซึ่งเป็นพื้นฐานของสถิติแล้วเมื่อวิเคราะห์ตารางฉุกเฉิน) ดังนั้น ในกรณีของ “สาธารณรัฐอาดีเกอา” ส่วนที่เหลือจะเท่ากับ 3.92 - 5.63 = -1.71 ยิ่งค่าโมดูลาร์ของส่วนที่เหลือมากเท่าไร ค่าที่ทำนายได้สำเร็จก็จะยิ่งน้อยลงเท่านั้น
เราคำนวณค่าที่คาดการณ์และค่าคงเหลือสำหรับทุกกรณี:
|
การวิเคราะห์อัตราส่วนของค่าเริ่มต้นและค่าที่คาดการณ์ไว้ใช้เพื่อประเมินคุณภาพของแบบจำลองผลลัพธ์และความสามารถในการคาดการณ์ หนึ่งในตัวชี้วัดหลัก สถิติการถดถอยคือค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ R - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าดั้งเดิมและค่าที่ทำนายของตัวแปรตาม ในการวิเคราะห์การถดถอยแบบคู่ จะเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันปกติระหว่างตัวแปรตามและตัวแปรอิสระ ในกรณีของเรา - 0.63 หากต้องการตีความ R หลายตัวอย่างมีความหมาย จะต้องแปลงค่าดังกล่าวเป็นค่าสัมประสิทธิ์การกำหนด ทำได้ในลักษณะเดียวกับการวิเคราะห์สหสัมพันธ์ - โดยการยกกำลังสอง ค่าสัมประสิทธิ์การกำหนด R-squared (R 2) แสดงสัดส่วนของการแปรผันในตัวแปรตามซึ่งอธิบายโดยตัวแปรอิสระ
ในกรณีของเรา R 2 = 0.39 (0.63 2) ซึ่งหมายความว่าตัวแปร "ส่วนแบ่งของประชากรในชนบท" อธิบายประมาณ 40% ของการเปลี่ยนแปลงในตัวแปร "การสนับสนุน SPS" ยิ่งค่าสัมประสิทธิ์การตัดสินใจมากขึ้น คุณภาพของแบบจำลองก็จะยิ่งสูงขึ้น
ตัวบ่งชี้คุณภาพของแบบจำลองอีกประการหนึ่งคือข้อผิดพลาดมาตรฐานของการประมาณค่า นี่คือการวัดว่าจุดต่างๆ “กระจัดกระจาย” รอบเส้นถดถอยมีความกว้างเพียงใด การวัดค่าสเปรดสำหรับตัวแปรช่วงเวลาคือค่าเบี่ยงเบนมาตรฐาน ดังนั้นข้อผิดพลาดมาตรฐานของการประมาณการคือค่าเบี่ยงเบนมาตรฐานของการกระจายตัวของสารตกค้าง ยิ่งค่าสูง ค่ากระจายก็จะยิ่งมากขึ้น และโมเดลก็ยิ่งแย่ลง ในกรณีของเรา ข้อผิดพลาดมาตรฐานคือ 2.18 ด้วยจำนวนนี้เองที่แบบจำลองของเราจะ "ผิดพลาดโดยเฉลี่ย" เมื่อทำนายค่าของตัวแปร "รองรับ SPS"
สถิติการถดถอยยังรวมถึงการวิเคราะห์ความแปรปรวนด้วย ด้วยความช่วยเหลือนี้ เราจะพบว่า: 1) สัดส่วนของการแปรผัน (การกระจายตัว) ของตัวแปรตามที่ถูกอธิบายโดยตัวแปรอิสระ 2) สัดส่วนของความแปรปรวนของตัวแปรตามนั้นคิดเป็นสัดส่วนของส่วนที่เหลือ (ส่วนที่ไม่ได้อธิบาย) 3) อัตราส่วนของปริมาณทั้งสองนี้คืออะไร (/"-อัตราส่วน) สถิติการกระจายตัวมีความสำคัญเป็นพิเศษสำหรับการศึกษาตัวอย่าง โดยแสดงให้เห็นว่ามีโอกาสเป็นไปได้ที่มีความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามในประชากร อย่างไรก็ตาม สำหรับ การศึกษาต่อเนื่อง (ดังตัวอย่างของเรา) การศึกษาผลการวิเคราะห์ความแปรปรวนไม่มีประโยชน์ ในกรณีนี้ จะตรวจสอบว่ารูปแบบทางสถิติที่ระบุนั้นเกิดจากความบังเอิญของสถานการณ์สุ่มหรือไม่ มันเป็นลักษณะของชุดเงื่อนไขมากน้อยเพียงใด ซึ่งพบว่าประชากรที่ถูกตรวจสอบ กล่าวคือ เป็นที่ยอมรับว่าผลลัพธ์ที่ได้นั้นไม่เป็นความจริงสำหรับผลรวมทั่วไปในวงกว้างบางส่วน แต่เป็นระดับของความสม่ำเสมอ ความเป็นอิสระจากอิทธิพลแบบสุ่ม
ในกรณีของเรา สถิติ ANOVA มีดังนี้:
เอสเอส | df | นางสาว | เอฟ | ความหมาย | |
ถอยหลัง. | 258,77 | 1,00 | 258,77 | 54,29 | 0.000000001 |
ที่เหลือ | 395,59 | 83,00 | แอล,11 | ||
ทั้งหมด | 654,36 |
อัตราส่วน F 54.29 มีนัยสำคัญที่ระดับ 0.0000000001 ดังนั้นเราจึงสามารถปฏิเสธสมมติฐานว่างได้อย่างมั่นใจ (ความสัมพันธ์ที่เราค้นพบนั้นเกิดจากความบังเอิญ)
เกณฑ์ t ทำหน้าที่คล้ายกัน แต่สัมพันธ์กับ ค่าสัมประสิทธิ์การถดถอย(มุมและทางแยก F) เมื่อใช้ / เกณฑ์ เราทดสอบสมมติฐานว่าในประชากรทั่วไป ค่าสัมประสิทธิ์การถดถอยจะเท่ากับศูนย์ ในกรณีของเรา เราสามารถปฏิเสธสมมติฐานว่างได้อย่างมั่นใจอีกครั้ง
การวิเคราะห์การถดถอยพหุคูณ
แบบจำลองการถดถอยพหุคูณเกือบจะเหมือนกับแบบจำลองการถดถอยแบบคู่ ข้อแตกต่างเพียงอย่างเดียวคือตัวแปรอิสระหลายตัวถูกรวมไว้ในฟังก์ชันเชิงเส้นตามลำดับ:
Y = b1X1 + b2X2 + …+ bpXp + a
หากมีตัวแปรอิสระมากกว่าสองตัว เราจะไม่สามารถหาได้ การแสดงภาพเกี่ยวกับการเชื่อมโยงของพวกเขา ในเรื่องนี้ การถดถอยพหุคูณมี "การมองเห็น" น้อยกว่าแบบคู่ เมื่อคุณมีตัวแปรอิสระสองตัว การแสดงข้อมูลในรูปแบบกระจายแบบ 3 มิติจะมีประโยชน์ ในแพ็คเกจซอฟต์แวร์ทางสถิติระดับมืออาชีพ (เช่น Statistica) มีตัวเลือกในการหมุนแผนภูมิสามมิติ ซึ่งช่วยให้คุณสามารถแสดงโครงสร้างของข้อมูลได้เป็นอย่างดี
เมื่อทำงานกับการถดถอยหลายครั้ง จำเป็นต้องกำหนดอัลกอริทึมการวิเคราะห์ ซึ่งตรงข้ามกับการถดถอยแบบคู่ อัลกอริธึมมาตรฐานประกอบด้วยตัวทำนายที่มีอยู่ทั้งหมดในแบบจำลองการถดถอยขั้นสุดท้าย อัลกอริธึมทีละขั้นตอนเกี่ยวข้องกับการรวม (การแยก) ตามลำดับของตัวแปรอิสระตาม "น้ำหนัก" ที่อธิบายได้ วิธีการทีละขั้นตอนดีเมื่อมีตัวแปรอิสระหลายตัว มัน "ชำระล้าง" แบบจำลองของตัวทำนายที่อ่อนแออย่างตรงไปตรงมา ทำให้มีขนาดกะทัดรัดและกระชับยิ่งขึ้น
เงื่อนไขเพิ่มเติมสำหรับความถูกต้องของการถดถอยพหุคูณ (รวมถึงช่วงเวลา ความปกติ และความเป็นเชิงเส้น) คือการไม่มี multicollinearity - การมีความสัมพันธ์ที่แข็งแกร่งระหว่างตัวแปรอิสระ
การตีความสถิติการถดถอยพหุคูณรวมถึงองค์ประกอบทั้งหมดที่เราพิจารณาในกรณีของการถดถอยแบบคู่ นอกจากนี้ยังมีองค์ประกอบที่สำคัญอื่นๆ ในสถิติของการวิเคราะห์การถดถอยพหุคูณ
เราจะอธิบายงานที่มีการถดถอยพหุคูณโดยใช้ตัวอย่างการทดสอบสมมติฐานที่อธิบายความแตกต่างในระดับกิจกรรมการเลือกตั้งทั่วภูมิภาครัสเซีย การศึกษาเชิงประจักษ์เฉพาะเจาะจงได้ชี้ให้เห็นว่าระดับผู้มีสิทธิเลือกตั้งได้รับอิทธิพลจาก:
ปัจจัยระดับชาติ (ตัวแปร "ประชากรรัสเซีย" ดำเนินการตามส่วนแบ่งของประชากรรัสเซียในหน่วยงานที่เป็นส่วนประกอบของสหพันธรัฐรัสเซีย) สันนิษฐานว่าการเพิ่มขึ้นของส่วนแบ่งของประชากรรัสเซียทำให้ผู้มีสิทธิเลือกตั้งลดลง
ปัจจัยการขยายตัวของเมือง (ตัวแปร "ประชากรในเมือง" ดำเนินการตามส่วนแบ่งของประชากรในเมืองในหน่วยงานที่เป็นองค์ประกอบของสหพันธรัฐรัสเซีย เราได้ดำเนินการกับปัจจัยนี้แล้วโดยเป็นส่วนหนึ่งของการวิเคราะห์ความสัมพันธ์) สันนิษฐานว่าการเพิ่มส่วนแบ่งของประชากรในเมืองยังส่งผลให้ผู้มีสิทธิเลือกตั้งลดลงด้วย
ตัวแปรตาม - "ความเข้มข้นของกิจกรรมการเลือกตั้ง" ("ใช้งานอยู่") ดำเนินการผ่านข้อมูลผู้มีสิทธิเลือกตั้งโดยเฉลี่ยตามภูมิภาคในการเลือกตั้งระดับรัฐบาลกลางตั้งแต่ปี 1995 ถึง 2003 ตารางข้อมูลเริ่มต้นสำหรับตัวแปรอิสระสองตัวและตัวแปรตามหนึ่งตัวจะเป็นดังนี้:
กำลังเกิดขึ้น | ตัวแปร | ||
สินทรัพย์ | ก. เรา. | มาตุภูมิ เรา. | |
สาธารณรัฐอาดีเกอา | 64,92 | 53 | 68 |
สาธารณรัฐอัลไต | 68,60 | 24 | 60 |
สาธารณรัฐบูร์ยาเทีย | 60,75 | 59 | 70 |
สาธารณรัฐดาเกสถาน | 79,92 | 41 | 9 |
สาธารณรัฐอินกูเชเตีย | 75,05 | 41 | 23 |
สาธารณรัฐคัลมืยเกีย | 68,52 | 39 | 37 |
สาธารณรัฐคาราชัย-เชอร์เคส | 66,68 | 44 | 42 |
สาธารณรัฐคาเรเลีย | 61,70 | 73 | 73 |
สาธารณรัฐโคมิ | 59,60 | 74 | 57 |
สาธารณรัฐมารีเอล | 65,19 | 62 | 47 |
ฯลฯ (หลังจากกำจัดมลพิษแล้ว เหลือ 83 ราย จาก 88 ราย)
สถิติที่อธิบายคุณภาพของแบบจำลอง:
1. หลายค่า R = 0.62; L-สี่เหลี่ยม = 0.38 ด้วยเหตุนี้ ปัจจัยระดับชาติและปัจจัยการขยายตัวของเมืองจึงร่วมกันอธิบายความแปรผันของตัวแปร "กิจกรรมการเลือกตั้ง" ประมาณ 38%
2. ข้อผิดพลาดโดยเฉลี่ยคือ 3.38 นี่คือวิธีที่ "ผิดโดยเฉลี่ย" ของแบบจำลองที่สร้างขึ้นเมื่อคาดการณ์ระดับของผลิตภัณฑ์
3. /l-อัตราส่วนของการแปรผันที่อธิบายและไม่ได้อธิบายคือ 25.2 ที่ระดับ 0.000000003 สมมติฐานว่างเกี่ยวกับการสุ่มของความสัมพันธ์ที่ระบุถูกปฏิเสธ
4. เกณฑ์ / สำหรับค่าคงที่และการถดถอยของตัวแปร "ประชากรในเมือง" และ "ประชากรรัสเซีย" มีความสำคัญที่ระดับ 0.0000001 0.00005 และ 0.007 ตามลำดับ สมมติฐานว่างที่ว่าสัมประสิทธิ์เป็นแบบสุ่มถูกปฏิเสธ
เพิ่มเติม สถิติที่เป็นประโยชน์ในการวิเคราะห์ความสัมพันธ์ระหว่างค่าดั้งเดิมและค่าที่ทำนายของตัวแปรตาม - ระยะมหาลาโนบิส และระยะคุก ประการแรกคือการวัดเอกลักษณ์ของเคส (แสดงจำนวนค่าผสมของตัวแปรอิสระทั้งหมดสำหรับ กรณีนี้เบี่ยงเบนไปจากค่าเฉลี่ยของตัวแปรอิสระทั้งหมดพร้อมกัน) ประการที่สองคือการวัดอิทธิพลของคดี การสังเกตที่แตกต่างกันมีผลกระทบต่อความชันของเส้นถดถอยต่างกัน และสามารถใช้ระยะห่างของ Cook เพื่อเปรียบเทียบกับตัวบ่งชี้นี้ได้ สิ่งนี้มีประโยชน์เมื่อทำการล้างค่าผิดปกติ (ค่าผิดปกติถือได้ว่าเป็นกรณีที่มีอิทธิพลมากเกินไป)
ในตัวอย่างของเรา กรณีที่ไม่ซ้ำใครและมีอิทธิพล ได้แก่ ดาเกสถาน
กำลังเกิดขึ้น | ต้นฉบับ ค่านิยม | เปรสก้า ค่านิยม | ของเหลือ | ระยะทาง มหาลาโนบิส | ระยะทาง |
อะดีเกีย | 64,92 | 66,33 | -1,40 | 0,69 | 0,00 |
สาธารณรัฐอัลไต | 68,60 | 69.91 | -1,31 | 6,80 | 0,01 |
สาธารณรัฐบูร์ยาเทีย | 60,75 | 65,56 | -4,81 | 0,23 | 0,01 |
สาธารณรัฐดาเกสถาน | 79,92 | 71,01 | 8,91 | 10,57 | 0,44 |
สาธารณรัฐอินกูเชเตีย | 75,05 | 70,21 | 4,84 | 6,73 | 0,08 |
สาธารณรัฐคัลมืยเกีย | 68,52 | 69,59 | -1,07 | 4,20 | 0,00 |
ตัวแบบการถดถอยมีพารามิเตอร์ดังต่อไปนี้: จุดตัด Y (ค่าคงที่) = 75.99; ข (แนวนอน) = -0.1; คอมเมอร์ซานต์ (nas รัสเซีย) = -0.06 สูตรสุดท้าย.
การวิเคราะห์การถดถอยเป็นรากฐานของการสร้างเสียงข้างมาก แบบจำลองทางเศรษฐมิติซึ่งรวมถึงแบบจำลองการประมาณต้นทุน ในการสร้างแบบจำลองการประเมินมูลค่า สามารถใช้วิธีนี้หากจำนวนอะนาล็อก (ออบเจ็กต์ที่เปรียบเทียบได้) และจำนวนปัจจัยต้นทุน (องค์ประกอบการเปรียบเทียบ) มีความสัมพันธ์กันดังต่อไปนี้: ป> (5 -g-10) x ถึง,เหล่านั้น. ควรมีอะนาล็อกมากกว่าปัจจัยด้านต้นทุนประมาณ 5-10 เท่า ข้อกำหนดเดียวกันสำหรับอัตราส่วนของจำนวนข้อมูลและจำนวนปัจจัยใช้กับงานอื่น ๆ : การสร้างการเชื่อมต่อระหว่างต้นทุนและพารามิเตอร์ผู้บริโภคของออบเจ็กต์ เหตุผลของขั้นตอนการคำนวณดัชนีแก้ไข การระบุแนวโน้มราคา การสร้างความเชื่อมโยงระหว่างการสึกหรอและการเปลี่ยนแปลงของปัจจัยที่มีอิทธิพล การได้รับการพึ่งพาในการคำนวณมาตรฐานต้นทุน ฯลฯ ผลงาน ข้อกำหนดนี้จำเป็นเพื่อลดโอกาสในการทำงานกับตัวอย่างข้อมูลที่ไม่เป็นไปตามข้อกำหนดของการแจกแจงตัวแปรสุ่มแบบปกติ
ความสัมพันธ์แบบถดถอยสะท้อนถึงแนวโน้มเฉลี่ยของการเปลี่ยนแปลงในตัวแปรผลลัพธ์ เช่น ต้นทุน จากการเปลี่ยนแปลงในตัวแปรปัจจัยตั้งแต่หนึ่งรายการขึ้นไป เช่น ที่ตั้ง จำนวนห้อง พื้นที่ ชั้น เป็นต้น นี่คือความแตกต่างระหว่างความสัมพันธ์แบบถดถอยและความสัมพันธ์เชิงฟังก์ชัน ซึ่งค่าของตัวแปรผลลัพธ์ถูกกำหนดอย่างเคร่งครัดสำหรับค่าที่กำหนดของตัวแปรตัวประกอบ
การมีอยู่ของความสัมพันธ์แบบถดถอย / ระหว่างผลลัพธ์ ที่และตัวแปรแฟคเตอร์ เอ็กซ์พี ..., เอ็กซ์เค(ปัจจัย) บ่งชี้ว่าความสัมพันธ์นี้ถูกกำหนดไม่เพียงแต่โดยอิทธิพลของตัวแปรปัจจัยที่เลือกเท่านั้น แต่ยังรวมถึงอิทธิพลของตัวแปรด้วย ซึ่งโดยทั่วไปแล้วบางส่วนจะไม่ทราบ ส่วนอื่นๆ ไม่สามารถประเมินและนำมาพิจารณาได้:
อิทธิพลของตัวแปรที่ไม่ได้นับบัญชีจะแสดงด้วยเทอมที่สองของสมการนี้ ?, ซึ่งเรียกว่าข้อผิดพลาดในการประมาณ
แยกแยะ ประเภทต่อไปนี้การพึ่งพาการถดถอย:
- - การถดถอยคู่ - ความสัมพันธ์ระหว่างตัวแปรสองตัว (ผลลัพธ์และตัวประกอบ)
- - การถดถอยพหุคูณ - ความสัมพันธ์ระหว่างตัวแปรผลลัพธ์หนึ่งตัวแปรกับตัวแปรปัจจัยสองตัวขึ้นไปที่รวมอยู่ในการศึกษานี้
งานหลักของการวิเคราะห์การถดถอยคือการหาปริมาณความใกล้ชิดของความสัมพันธ์ระหว่างตัวแปร (ในการถดถอยคู่) และตัวแปรหลายตัว (ในการถดถอยพหุคูณ) ความใกล้ชิดของการเชื่อมต่อนั้นแสดงออกมาในเชิงปริมาณด้วยค่าสัมประสิทธิ์สหสัมพันธ์
การใช้การวิเคราะห์การถดถอยทำให้สามารถสร้างรูปแบบของอิทธิพลของปัจจัยหลัก (ลักษณะนิสัยแบบเฮโดนิก) ที่มีต่อตัวบ่งชี้ที่กำลังศึกษา ทั้งในภาพรวมและสำหรับแต่ละรายการแยกกัน ด้วยความช่วยเหลือของการวิเคราะห์การถดถอยซึ่งเป็นวิธีการทางสถิติทางคณิตศาสตร์ ประการแรกสามารถค้นหาและอธิบายรูปแบบของการพึ่งพาเชิงวิเคราะห์ของตัวแปรผลลัพธ์ (ที่ค้นหา) กับปัจจัยและประการที่สองเพื่อประเมินความใกล้ชิดของ การพึ่งพาอาศัยกันนี้
ต้องขอบคุณการแก้ปัญหาแรกทำให้ได้แบบจำลองการถดถอยทางคณิตศาสตร์ด้วยความช่วยเหลือในการคำนวณตัวบ่งชี้ที่ต้องการ ค่าที่กำหนดปัจจัย. การแก้ปัญหาที่สองทำให้เราสามารถสร้างความน่าเชื่อถือของผลลัพธ์ที่คำนวณได้
ดังนั้น การวิเคราะห์การถดถอยสามารถกำหนดเป็นชุดของขั้นตอนอย่างเป็นทางการ (ทางคณิตศาสตร์) ที่ออกแบบมาเพื่อวัดความใกล้ชิด ทิศทาง และการแสดงออกทางการวิเคราะห์ของรูปแบบของความสัมพันธ์ระหว่างตัวแปรผลลัพธ์และตัวแปรตัวประกอบ เช่น ผลลัพธ์ของการวิเคราะห์ดังกล่าวควรถูกกำหนดในเชิงโครงสร้างและเชิงปริมาณ แบบจำลองทางสถิติพิมพ์:
ที่ไหน ย -ค่าเฉลี่ยของตัวแปรผลลัพธ์ (ตัวบ่งชี้ที่ต้องการ เช่น ต้นทุน ค่าเช่า อัตราการใช้อักษรตัวพิมพ์ใหญ่) โดย ปข้อสังเกตของเธอ x - ค่าของตัวแปรปัจจัย (/th ปัจจัยต้นทุน); ถึง -จำนวนตัวแปรปัจจัย
การทำงาน f(x ลิตร ,...,x lc)การอธิบายการพึ่งพาตัวแปรผลลัพธ์กับปัจจัยปัจจัยเรียกว่าสมการการถดถอย (ฟังก์ชัน) คำว่า "การถดถอย" (การถดถอย (ละติน) - ถอยกลับไปสู่บางสิ่งบางอย่าง) มีความเกี่ยวข้องกับข้อมูลเฉพาะของหนึ่งในนั้น งานเฉพาะตัดสินใจในขั้นตอนของการสร้างวิธีการและปัจจุบันไม่ได้สะท้อนถึงสาระสำคัญทั้งหมดของวิธีการ แต่ยังคงใช้ต่อไป
การวิเคราะห์การถดถอยใน กรณีทั่วไปรวมถึงขั้นตอนต่อไปนี้:
- - สร้างตัวอย่างของวัตถุที่เป็นเนื้อเดียวกันและรวบรวมข้อมูลเบื้องต้นเกี่ยวกับวัตถุเหล่านี้
- - การเลือกปัจจัยหลักที่มีอิทธิพลต่อตัวแปรผลลัพธ์
- - ตรวจสอบตัวอย่างการใช้งานตามปกติ เอ็กซ์ 2 หรือการทดสอบทวินาม
- - การยอมรับสมมติฐานเกี่ยวกับรูปแบบการสื่อสาร
- - การประมวลผลข้อมูลทางคณิตศาสตร์
- - ได้รับแบบจำลองการถดถอย
- - การประเมินมัน ตัวชี้วัดทางสถิติ;
- - การคำนวณทวนสอบโดยใช้แบบจำลองการถดถอย
- - การวิเคราะห์ผลลัพธ์
ลำดับการดำเนินการที่ระบุเกิดขึ้นเมื่อศึกษาทั้งความสัมพันธ์คู่ระหว่างตัวแปรปัจจัยและตัวแปรผลลัพธ์ตัวเดียว และความสัมพันธ์พหุคูณระหว่างตัวแปรผลลัพธ์และตัวแปรแฟคทอเรียลหลายตัว
การใช้การวิเคราะห์การถดถอยกำหนดข้อกำหนดบางประการเกี่ยวกับข้อมูลเริ่มต้น:
- - ตัวอย่างทางสถิติของวัตถุจะต้องเป็นเนื้อเดียวกันในแง่การทำงานและโครงสร้างและเทคโนโลยี
- - ค่อนข้างมาก;
- - ตัวบ่งชี้ต้นทุนภายใต้การศึกษา - ตัวแปรผลลัพธ์ (ราคา, ต้นทุน, ค่าใช้จ่าย) - จะต้องนำมาสู่เงื่อนไขเดียวกันสำหรับการคำนวณสำหรับวัตถุทั้งหมดในตัวอย่าง
- - ตัวแปรปัจจัยจะต้องวัดได้อย่างแม่นยำเพียงพอ
- - ตัวแปรปัจจัยจะต้องเป็นอิสระหรือขึ้นอยู่กับน้อยที่สุด
ข้อกำหนดสำหรับความเป็นเนื้อเดียวกันและความสมบูรณ์ของตัวอย่างขัดแย้งกัน: ยิ่งการเลือกวัตถุที่เข้มงวดขึ้นอยู่กับความเป็นเนื้อเดียวกัน ตัวอย่างที่ได้รับก็จะยิ่งน้อยลง และในทางกลับกัน เพื่อขยายตัวอย่างจำเป็นต้องรวมวัตถุที่ไม่คล้ายกันมากด้วย กันและกัน.
หลังจากรวบรวมข้อมูลเกี่ยวกับกลุ่มของวัตถุที่เป็นเนื้อเดียวกันแล้ว วัตถุเหล่านั้นจะถูกวิเคราะห์เพื่อสร้างรูปแบบของการเชื่อมต่อระหว่างตัวแปรผลลัพธ์และตัวประกอบในรูปแบบของเส้นถดถอยทางทฤษฎี กระบวนการค้นหาเส้นการถดถอยเชิงทฤษฎีประกอบด้วยการเลือกเส้นโค้งโดยประมาณอย่างสมเหตุสมผลและการคำนวณค่าสัมประสิทธิ์ของสมการ เส้นการถดถอยเป็นเส้นโค้งเรียบ (ในบางกรณีคือเส้นตรง) ที่อธิบายแนวโน้มทั่วไปของความสัมพันธ์ภายใต้การศึกษาโดยใช้ฟังก์ชันทางคณิตศาสตร์ และทำให้การปล่อยก๊าซแบบสุ่มที่ผิดปกติจากอิทธิพลของปัจจัยด้านข้างราบรื่นขึ้น
ในการแสดงการพึ่งพาการถดถอยแบบคู่ในงานการประเมิน มักใช้บ่อยที่สุด ฟังก์ชั่นต่อไปนี้: เชิงเส้น - ใช่ - 0 + อาร์ส+เอสพลัง - y - aj&i + sบ่งชี้ - ย -เลขชี้กำลังเชิงเส้น - y - a 0 + ap* + cที่นี่ - จข้อผิดพลาดในการประมาณที่เกิดจากการกระทำของปัจจัยสุ่มที่ไม่สามารถนับได้
ในฟังก์ชันเหล่านี้ y คือตัวแปรผลลัพธ์ x - ตัวแปรปัจจัย (ปัจจัย); ก 0 , อา 2 -พารามิเตอร์แบบจำลองการถดถอย สัมประสิทธิ์การถดถอย
โมเดลเอ็กซ์โพเนนเชียลเชิงเส้นอยู่ในคลาสของโมเดลไฮบริดที่เรียกว่ารูปแบบ:
ที่ไหน
ที่ไหน x (ฉัน= 1, /) - ค่าของปัจจัย;
บี ที (i = 0, /) - สัมประสิทธิ์ของสมการถดถอย
ในสมการนี้ส่วนประกอบต่างๆ เอ, บีและ ซีสอดคล้องกับต้นทุนของส่วนประกอบแต่ละส่วนของสินทรัพย์ที่ประเมินมูลค่า เช่น ต้นทุนที่ดินและต้นทุนการปรับปรุง และพารามิเตอร์ ถามเป็นเรื่องธรรมดา ได้รับการออกแบบมาเพื่อปรับมูลค่าของส่วนประกอบทั้งหมดของสินทรัพย์ที่มีการประเมินมูลค่าสำหรับปัจจัยที่มีอิทธิพลร่วมกัน เช่น สถานที่ตั้ง
ค่าของปัจจัยที่อยู่ในกำลังของสัมประสิทธิ์ที่สอดคล้องกันคือตัวแปรไบนารี่ (0 หรือ 1) ปัจจัยที่ฐานของระดับนั้นเป็นตัวแปรที่ไม่ต่อเนื่องหรือต่อเนื่อง
ปัจจัยที่เกี่ยวข้องกับสัมประสิทธิ์การคูณก็มีความต่อเนื่องหรือไม่ต่อเนื่องเช่นกัน
ตามกฎแล้วข้อกำหนดจะดำเนินการโดยใช้แนวทางเชิงประจักษ์และประกอบด้วยสองขั้นตอน:
- - การพล็อตจุดสนามการถดถอยบนกราฟ
- - การวิเคราะห์แบบกราฟิก (ภาพ) ของประเภทของเส้นโค้งโดยประมาณที่เป็นไปได้
ไม่สามารถเลือกประเภทของเส้นโค้งการถดถอยได้ในทันที ในการพิจารณา ขั้นแรกให้พล็อตจุดของฟิลด์การถดถอยตามข้อมูลต้นฉบับ จากนั้นลากเส้นตามตำแหน่งของจุดด้วยสายตาพยายามค้นหารูปแบบเชิงคุณภาพของการเชื่อมต่อ: การเติบโตที่สม่ำเสมอหรือการลดลงที่สม่ำเสมอการเติบโต (ลดลง) โดยมีการเพิ่มขึ้น (ลดลง) ในอัตราของไดนามิกแนวทางที่ราบรื่นไปยังจุดใดจุดหนึ่ง ระดับ.
วิธีการเชิงประจักษ์นี้ได้รับการเสริม การวิเคราะห์เชิงตรรกะเริ่มจากแนวคิดที่ทราบอยู่แล้วเกี่ยวกับลักษณะทางเศรษฐกิจและกายภาพของปัจจัยที่กำลังศึกษาและอิทธิพลร่วมกัน
ตัวอย่างเช่นเป็นที่ทราบกันว่าการพึ่งพาตัวแปรผลลัพธ์ - ตัวชี้วัดทางเศรษฐกิจ (ราคาค่าเช่า) กับตัวแปรปัจจัยหลายประการ - ปัจจัยการกำหนดราคา (ระยะทางจากศูนย์กลางของการตั้งถิ่นฐานพื้นที่ ฯลฯ ) ไม่เป็นเชิงเส้น ในธรรมชาติ และสามารถอธิบายได้ค่อนข้างเคร่งครัดว่าเป็นกำลัง เลขชี้กำลัง หรือ ฟังก์ชันกำลังสอง- แต่สำหรับการเปลี่ยนแปลงปัจจัยในช่วงเล็กๆ สามารถใช้ผลลัพธ์ที่ยอมรับได้ ฟังก์ชันเชิงเส้น.
อย่างไรก็ตาม หากยังคงเป็นไปไม่ได้ที่จะตัดสินใจเลือกฟังก์ชันใดฟังก์ชันหนึ่งได้อย่างมั่นใจในทันที จะมีการเลือกฟังก์ชันสองหรือสามฟังก์ชัน พารามิเตอร์ของฟังก์ชันเหล่านั้นจะถูกคำนวณ จากนั้นเมื่อใช้เกณฑ์ที่เหมาะสมสำหรับความใกล้ชิดของการเชื่อมต่อ ในที่สุดฟังก์ชันก็จะถูกเลือก เลือกแล้ว
ตามทฤษฎีแล้ว กระบวนการถดถอยในการค้นหารูปร่างของเส้นโค้งเรียกว่า ข้อกำหนดแบบจำลองและค่าสัมประสิทธิ์ของมัน - การสอบเทียบโมเดล
หากพบว่าตัวแปรผลลัพธ์ y ขึ้นอยู่กับตัวแปรปัจจัยหลายตัว (ปัจจัย) x ( , x 2 , ..., เอ็กซ์เคจากนั้นพวกเขาก็หันไปสร้างแบบจำลองการถดถอยพหุคูณ โดยปกติแล้ว การสื่อสารหลายรูปแบบจะใช้สามรูปแบบ: เชิงเส้น - y - 0 + a x x x + ก^ x 2 + ... + ก x เคบ่งชี้ - คุณ - ก 0 ก*ฉัน axt- axb,พลัง - y - 0 x x ix 2 a 2. .x^หรือการรวมกัน
ฟังก์ชันเอ็กซ์โพเนนเชียลและกำลังเป็นสากลมากกว่า เนื่องจากฟังก์ชันเหล่านี้ประมาณความสัมพันธ์แบบไม่เชิงเส้น ซึ่งเป็นฟังก์ชันส่วนใหญ่ที่ศึกษาในการประเมินการขึ้นต่อกัน นอกจากนี้ยังสามารถนำมาใช้ในการประเมินวัตถุและวิธีการสร้างแบบจำลองทางสถิติสำหรับการประเมินมวล และในวิธีการ การเปรียบเทียบโดยตรงในการประเมินรายบุคคลเมื่อสร้างปัจจัยแก้ไข
ในขั้นตอนการสอบเทียบ พารามิเตอร์ของแบบจำลองการถดถอยจะถูกคำนวณโดยใช้วิธีกำลังสองน้อยที่สุด สาระสำคัญคือผลรวมของการเบี่ยงเบนกำลังสองของค่าที่คำนวณได้ของตัวแปรผลลัพธ์ ที่., เช่น. คำนวณตามสมการคัปปลิ้งที่เลือก จากค่าจริงควรน้อยที่สุด:
ค่า j) (. และ ยู.เป็นที่ทราบกันดีอยู่แล้ว ถามเป็นฟังก์ชันของสัมประสิทธิ์ของสมการเท่านั้น เพื่อหาค่าขั้นต่ำ สคุณต้องหาอนุพันธ์บางส่วน ถามโดยค่าสัมประสิทธิ์ของสมการและจัดให้เป็นศูนย์:
เป็นผลให้เราได้รับระบบสมการปกติจำนวนซึ่งเท่ากับจำนวนสัมประสิทธิ์ที่กำหนดของสมการการถดถอยที่ต้องการ
สมมติว่าเราต้องค้นหาสัมประสิทธิ์ สมการเชิงเส้น y - a 0 + arsผลรวมของการเบี่ยงเบนกำลังสองมีรูปแบบ:
/=1
สร้างความแตกต่างให้กับฟังก์ชัน ถามโดยสัมประสิทธิ์ที่ไม่รู้จัก 0และและถือเอาอนุพันธ์ย่อยให้เป็นศูนย์:
หลังจากการเปลี่ยนแปลงเราได้รับ:
ที่ไหน พี -จำนวนค่าจริงดั้งเดิม ที่พวกเขา (จำนวนแอนะล็อก)
ขั้นตอนที่กำหนดในการคำนวณค่าสัมประสิทธิ์ของสมการถดถอยก็ใช้ได้กับเช่นกัน การพึ่งพาแบบไม่เชิงเส้นหากการขึ้นต่อกันเหล่านี้สามารถทำให้เป็นเส้นตรงได้ เช่น นำไปสู่ รูปแบบเชิงเส้นโดยการเปลี่ยนตัวแปร ฟังก์ชันยกกำลังและเลขชี้กำลังหลังลอการิทึมและการเปลี่ยนแปลงตัวแปรที่เหมาะสมจะได้รูปแบบเชิงเส้น ตัวอย่างเช่น ฟังก์ชันกำลังหลังลอการิทึมจะอยู่ในรูปแบบ: ใน y = 1p 0 +เอเอ็กซ์ 1ชม. หลังจากเปลี่ยนตัวแปรแล้ว ย-ใน ใช่ L 0 -ใน และหมายเลข X-ใน x เราได้ฟังก์ชันเชิงเส้น
Y=A 0 + cijX,ค่าสัมประสิทธิ์ที่พบในลักษณะที่อธิบายไว้ข้างต้น
วิธีกำลังสองน้อยที่สุดยังใช้ในการคำนวณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยพหุคูณด้วย ดังนั้นระบบสมการปกติสำหรับการคำนวณฟังก์ชันเชิงเส้นที่มีตัวแปรสองตัว เอ็กซ์จและ x2หลังจากการเปลี่ยนแปลงหลายครั้งจะมีลักษณะดังนี้:
โดยปกติ ระบบนี้สมการแก้ได้โดยวิธีพีชคณิตเชิงเส้น พหูพจน์ ฟังก์ชั่นพลังงานทำให้เกิดรูปแบบเชิงเส้นโดยการใช้ลอการิทึมและการเปลี่ยนแปลงตัวแปรในลักษณะเดียวกับฟังก์ชันกำลังคู่
เมื่อใช้แบบจำลองไฮบริด จะพบค่าสัมประสิทธิ์การถดถอยพหุคูณโดยใช้ขั้นตอนตัวเลขของวิธีการประมาณค่าต่อเนื่องกัน
ทำ ทางเลือกสุดท้ายในสมการการถดถอยหลายๆ สมการ จำเป็นต้องตรวจสอบแต่ละสมการเพื่อดูความใกล้ชิดของความสัมพันธ์ ซึ่งวัดจากค่าสัมประสิทธิ์สหสัมพันธ์ การกระจายตัว และสัมประสิทธิ์ของการแปรผัน สามารถใช้แบบทดสอบของนักเรียนและฟิชเชอร์เพื่อประเมินผลได้ ยิ่งความใกล้ชิดของการเชื่อมต่อที่เส้นโค้งแสดงออกมามากเท่าไร ก็ยิ่งดีกว่าเท่านั้น สิ่งอื่นๆ ทั้งหมดจะเท่าเทียมกัน
หากปัญหาของคลาสนี้ได้รับการแก้ไข เมื่อจำเป็นต้องสร้างการพึ่งพาตัวบ่งชี้ต้นทุนตามปัจจัยต้นทุน ความปรารถนาที่จะคำนึงถึงปัจจัยที่มีอิทธิพลมากที่สุดเท่าที่จะเป็นไปได้และด้วยเหตุนี้จึงสร้างแบบจำลองการถดถอยพหุคูณที่แม่นยำยิ่งขึ้นจึงเป็นที่เข้าใจได้ . อย่างไรก็ตาม การขยายจำนวนปัจจัยถูกขัดขวางโดยข้อจำกัดด้านวัตถุประสงค์สองประการ ประการแรก ในการสร้างแบบจำลองการถดถอยพหุคูณ จำเป็นต้องมีตัวอย่างวัตถุที่มีขนาดใหญ่กว่าการสร้างแบบจำลองที่จับคู่กันมาก เป็นที่ยอมรับกันโดยทั่วไปว่าจำนวนวัตถุในกลุ่มตัวอย่างควรเกินจำนวนนั้น ปปัจจัยตาม อย่างน้อย, 5-10 ครั้ง. ตามมาด้วยว่าในการสร้างแบบจำลองที่มีปัจจัยที่มีอิทธิพลสามประการ จำเป็นต้องรวบรวมตัวอย่างวัตถุประมาณ 20 ชิ้นที่มีค่าปัจจัยที่แตกต่างกัน ประการที่สอง ปัจจัยที่เลือกสำหรับแบบจำลองที่มีอิทธิพลต่อตัวบ่งชี้ต้นทุนจะต้องเป็นอิสระจากกันอย่างเพียงพอ การตรวจสอบนี้ไม่ใช่เรื่องง่าย เนื่องจากตัวอย่างมักจะรวมวัตถุที่อยู่ในตระกูลเดียวกัน ซึ่งมีการเปลี่ยนแปลงตามธรรมชาติในหลายปัจจัยจากวัตถุหนึ่งไปอีกวัตถุหนึ่ง
คุณภาพ แบบจำลองการถดถอยตามกฎแล้ว จะถูกตรวจสอบโดยใช้ตัวบ่งชี้ทางสถิติต่อไปนี้
ค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดสมการถดถอย (ข้อผิดพลาดในการประมาณค่า):
ที่ไหน พี -ขนาดตัวอย่าง (จำนวนแอนะล็อก)
ถึง -จำนวนปัจจัย (ปัจจัยต้นทุน)
ข้อผิดพลาดที่ไม่ได้อธิบายไว้ในสมการถดถอย (รูปที่ 3.2)
ยู. -ค่าที่แท้จริงของตัวแปรผลลัพธ์ (เช่น ต้นทุน) ใช่ ค่าที่คำนวณได้ตัวแปรผลลัพธ์
ตัวบ่งชี้นี้เรียกอีกอย่างว่า มาตรฐานบกพร่องการประมาณการ (ข้อผิดพลาด RMS- ในรูปมีจุดบ่งบอก ค่าเฉพาะตัวอย่าง สัญลักษณ์แสดงถึงเส้นค่าเฉลี่ยตัวอย่าง เส้นประประที่ลาดเอียงคือเส้นถดถอย
ข้าว. 3.2.
ค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดในการประมาณค่าจะวัดจำนวนค่าเบี่ยงเบนของค่าจริงของ y จากค่าที่คำนวณได้ที่สอดคล้องกัน ที่( ได้รับโดยใช้แบบจำลองการถดถอย หากตัวอย่างที่สร้างแบบจำลองนั้นอยู่ภายใต้กฎการกระจายแบบปกติก็สามารถโต้แย้งได้ว่า 68% คุณค่าที่แท้จริง ที่อยู่ในช่วง ที่ ± &eจากเส้นถดถอย และ 95% อยู่ในช่วง ที่ ± 2d อี- ตัวบ่งชี้นี้สะดวกเนื่องจากมีหน่วยวัด เอสจี?ตรงกับหน่วยการวัด ที่- ทั้งนี้สามารถใช้เพื่อระบุความถูกต้องของผลลัพธ์ที่ได้รับในกระบวนการประเมินได้ ตัวอย่างเช่น ในใบรับรองมูลค่า คุณสามารถระบุมูลค่าตลาดที่ได้รับโดยใช้แบบจำลองการถดถอย วีโดยมีความน่าจะเป็น 95% ที่จะอยู่ในช่วงตั้งแต่ (วี -2ด,.)ก่อน (ย + 2d วิ)
ค่าสัมประสิทธิ์การเปลี่ยนแปลงของตัวแปรผลลัพธ์:
ที่ไหน ย -ค่าเฉลี่ยของตัวแปรผลลัพธ์ (รูปที่ 3.2)
ในการวิเคราะห์การถดถอย ค่าสัมประสิทธิ์ของการแปรผัน var คือค่าเบี่ยงเบนมาตรฐานของผลลัพธ์ ซึ่งแสดงเป็นเปอร์เซ็นต์ของค่าเฉลี่ยของตัวแปรผลลัพธ์ ค่าสัมประสิทธิ์ของการแปรผันสามารถใช้เป็นเกณฑ์สำหรับคุณสมบัติการทำนายของแบบจำลองการถดถอยที่ได้: ยิ่งค่ามีค่าน้อยลง varยิ่งคุณสมบัติการทำนายของแบบจำลองยิ่งสูงเท่านั้น การใช้ค่าสัมประสิทธิ์ของการแปรผันจะดีกว่าตัวบ่งชี้ &e เนื่องจากเป็นตัวบ่งชี้ที่สัมพันธ์กัน ที่ การใช้งานจริงสำหรับตัวบ่งชี้นี้ ขอแนะนำว่าอย่าใช้แบบจำลองที่มีค่าสัมประสิทธิ์การเปลี่ยนแปลงเกิน 33% เนื่องจากในกรณีนี้ ไม่สามารถพูดได้ว่าข้อมูลตัวอย่างอยู่ภายใต้กฎหมายการแจกแจงแบบปกติ
ค่าสัมประสิทธิ์การตัดสินใจ (สัมประสิทธิ์สหสัมพันธ์พหุคูณกำลังสอง):
ตัวบ่งชี้นี้ใช้ในการวิเคราะห์คุณภาพโดยรวมของแบบจำลองการถดถอยที่เกิดขึ้น โดยระบุเปอร์เซ็นต์ของการแปรผันในตัวแปรผลลัพธ์ที่อธิบายโดยอิทธิพลของตัวแปรปัจจัยทั้งหมดที่รวมอยู่ในแบบจำลอง ค่าสัมประสิทธิ์การตัดสินใจจะอยู่ในช่วงตั้งแต่ศูนย์ถึงหนึ่งเสมอ ยิ่งค่าสัมประสิทธิ์ความมุ่งมั่นเข้าใกล้ความสามัคคีมากเท่าไร รุ่นที่ดีกว่าอธิบายชุดข้อมูลต้นฉบับ ค่าสัมประสิทธิ์การตัดสินใจสามารถแสดงได้แตกต่างกัน:
นี่คือข้อผิดพลาดที่อธิบายโดยแบบจำลองการถดถอย
ก - ข้อผิดพลาดไม่ได้อธิบาย
แบบจำลองการถดถอย จากมุมมองทางเศรษฐกิจ เกณฑ์นี้ช่วยให้เราสามารถตัดสินได้ว่าสมการถดถอยจะอธิบายเปอร์เซ็นต์ของความแปรผันของราคาได้เท่าใด
ขีดจำกัดที่แน่นอนของการยอมรับตัวบ่งชี้ ร 2ไม่สามารถระบุได้ทุกกรณี ต้องคำนึงถึงทั้งขนาดตัวอย่างและการตีความสมการที่มีความหมายด้วย ตามกฎแล้วเมื่อศึกษาข้อมูลเกี่ยวกับวัตถุประเภทเดียวกันซึ่งได้มา ณ จุดเวลาเดียวกันโดยประมาณค่า ร 2ไม่เกินระดับ 0.6-0.7 หากข้อผิดพลาดในการคาดการณ์ทั้งหมดเป็นศูนย์ เช่น เมื่อความสัมพันธ์ระหว่างตัวแปรผลลัพธ์และปัจจัยทำงานได้ ร 2 =1.
ปรับค่าสัมประสิทธิ์การตัดสินใจ:
ความจำเป็นในการแนะนำค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วนั้นอธิบายได้จากข้อเท็จจริงที่ว่าด้วยจำนวนปัจจัยที่เพิ่มขึ้น ถึงค่าสัมประสิทธิ์การตัดสินใจตามปกติจะเพิ่มขึ้นเกือบทุกครั้ง แต่จำนวนระดับความอิสระจะลดลง (ป - เค- 1) การปรับที่ป้อนจะลดค่าลงเสมอ R2,เพราะว่า (ป - 1) > (ป-เค- 1). ส่งผลให้เกิดความคุ้มค่า R 2 ซีเคออฟ)อาจจะกลายเป็นลบก็ได้ ซึ่งหมายความว่ามีค่า ร 2มีค่าใกล้เคียงศูนย์ก่อนการปรับปรุง และสัดส่วนความแปรปรวนของตัวแปรที่อธิบายโดยใช้สมการถดถอย ที่ขนาดเล็กมาก.
จากสองตัวเลือกสำหรับแบบจำลองการถดถอยที่มีค่าสัมประสิทธิ์การกำหนดที่ปรับแล้วแตกต่างกัน แต่มีเกณฑ์คุณภาพอื่นๆ ที่ดีพอๆ กัน ควรใช้ตัวเลือกที่มีค่าสัมประสิทธิ์การกำหนดที่ปรับแล้วมากกว่า ค่าสัมประสิทธิ์การตัดสินใจจะไม่ถูกปรับหาก (p - k): k> 20.
สัมประสิทธิ์ฟิชเชอร์:
เกณฑ์นี้ใช้เพื่อประเมินความสำคัญของค่าสัมประสิทธิ์การตัดสินใจ ผลรวมที่เหลือของกำลังสอง แสดงถึงการวัดข้อผิดพลาดในการทำนายโดยการถดถอยของมูลค่าต้นทุนที่ทราบ ย..การเปรียบเทียบกับผลรวมการถดถอยของกำลังสองแสดงให้เห็นว่าการพึ่งพาการถดถอยทำนายผลลัพธ์ได้ดีกว่าค่าเฉลี่ยกี่ครั้ง ที่- มีตารางค่าวิกฤต เอฟ อาร์ค่าสัมประสิทธิ์ฟิชเชอร์ ขึ้นอยู่กับจำนวนองศาอิสระของตัวเศษ - ถึง, ตัวส่วน v 2 = พี - เค- 1 และระดับนัยสำคัญ a หากคำนวณค่าจากการทดสอบฟิชเชอร์ เอฟ อาร์มากกว่า ค่าตารางจากนั้นสมมติฐานเกี่ยวกับความไม่สำคัญของสัมประสิทธิ์การกำหนดคือ เกี่ยวกับความแตกต่างระหว่างการเชื่อมต่อที่ฝังอยู่ในสมการการถดถอยกับการเชื่อมต่อที่มีอยู่จริง โดยความน่าจะเป็น p = 1 - a จะถูกปฏิเสธ
ข้อผิดพลาดในการประมาณค่าเฉลี่ย(ส่วนเบี่ยงเบนเปอร์เซ็นต์เฉลี่ย) คำนวณเป็นผลต่างสัมพัทธ์เฉลี่ยซึ่งแสดงเป็นเปอร์เซ็นต์ระหว่างค่าจริงและค่าที่คำนวณได้ของตัวแปรผลลัพธ์:
ยังไง มูลค่าน้อยลงของตัวบ่งชี้นี้ คุณภาพการทำนายของแบบจำลองก็จะยิ่งดีขึ้นเท่านั้น เมื่อค่าของตัวบ่งชี้นี้ไม่สูงกว่า 7% ที่เราพูดถึง ความแม่นยำสูงโมเดล ถ้า 8 > 15% บ่งชี้ถึงความแม่นยำที่ไม่น่าพอใจของแบบจำลอง
ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอย:
โดยที่ (/I) -1 .- องค์ประกอบในแนวทแยงของเมทริกซ์ (X G X)~ 1 ก. -จำนวนปัจจัย
เอ็กซ์-เมทริกซ์ของค่าตัวแปรปัจจัย:
เอ็กซ์ 7 -เมทริกซ์ทรานสโพสของค่าตัวแปรตัวประกอบ
(จฮล) _| - เมทริกซ์ผกผันของเมทริกซ์
ยิ่งตัวบ่งชี้เหล่านี้มีขนาดเล็กลงสำหรับค่าสัมประสิทธิ์การถดถอยแต่ละรายการ การประมาณค่าสัมประสิทธิ์การถดถอยที่สอดคล้องกันก็จะยิ่งมีความน่าเชื่อถือมากขึ้นเท่านั้น
การทดสอบของนักเรียน (สถิติ t):
เกณฑ์นี้ช่วยให้คุณสามารถวัดระดับความน่าเชื่อถือ (ความสำคัญ) ของความสัมพันธ์ที่กำหนดโดยสัมประสิทธิ์การถดถอยที่กำหนด หากคำนวณค่าแล้ว ที- มากกว่าค่าตาราง
ทีโดยที่ วี - พี - เค - 1 คือจำนวนระดับความเป็นอิสระ ดังนั้นสมมติฐานที่ว่าสัมประสิทธิ์นี้ไม่มีนัยสำคัญทางสถิติจะถูกปฏิเสธด้วยความน่าจะเป็น (100 - a)% มีตารางพิเศษของ /-การแจกแจง ที่ให้ค่าวิกฤตของเกณฑ์ถูกกำหนดตามระดับนัยสำคัญ a และจำนวนระดับความเป็นอิสระ v ค่าที่ใช้บ่อยที่สุดสำหรับ a คือ 5%
ความเป็นหลายเส้นตรง, เช่น. ผลกระทบของความสัมพันธ์ร่วมกันระหว่างตัวแปรปัจจัยนำไปสู่ความต้องการที่จะพอใจกับจำนวนตัวแปรที่จำกัด หากไม่นำมาพิจารณา คุณจะจบลงด้วยแบบจำลองการถดถอยที่ไร้เหตุผล เพื่อหลีกเลี่ยงผลกระทบด้านลบของความเป็นหลายเส้นตรง จะมีการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ก่อนที่จะสร้างแบบจำลองการถดถอยพหุคูณ ร xjxjระหว่างตัวแปรที่เลือก เอ็กซ์และ เอ็กซ์
ที่นี่ เอ็กซ์เจเอ็กซ์; -ค่าเฉลี่ยผลคูณของตัวแปรตัวประกอบสองตัว
XjXj-ผลคูณของค่าเฉลี่ยของตัวแปรสองตัว
การประมาณค่าความแปรปรวนของตัวแปรตัวประกอบ x..
ตัวแปรสองตัวถูกพิจารณาว่าเกี่ยวข้องกับการถดถอย (เช่น คอลลิเนียร์) ถ้าสัมประสิทธิ์สหสัมพันธ์แบบคู่คือ ค่าสัมบูรณ์อย่างเคร่งครัดมากกว่า 0.8 ในกรณีนี้ ตัวแปรใดๆ เหล่านี้จะต้องถูกแยกออกจากการพิจารณา
เพื่อเป็นการขยายโอกาส การวิเคราะห์ทางเศรษฐกิจโมเดลการถดถอยที่ได้จะใช้ค่าเฉลี่ย ค่าสัมประสิทธิ์ความยืดหยุ่นกำหนดโดยสูตร:
ที่ไหน Xj-ค่าเฉลี่ยของตัวแปรตัวประกอบที่เกี่ยวข้อง
ย -ค่าเฉลี่ยของตัวแปรผลลัพธ์ ฉัน -ค่าสัมประสิทธิ์การถดถอยสำหรับตัวแปรปัจจัยที่สอดคล้องกัน
ค่าสัมประสิทธิ์ความยืดหยุ่นแสดงเปอร์เซ็นต์โดยเฉลี่ยที่ค่าของตัวแปรผลลัพธ์จะเปลี่ยนแปลงเมื่อตัวแปรปัจจัยเปลี่ยนแปลง 1% เช่น วิธีที่ตัวแปรผลลัพธ์ตอบสนองต่อการเปลี่ยนแปลงของตัวแปรตัวประกอบ เช่นราคาตร.ม.มีปฏิกิริยาอย่างไร? พื้นที่อพาร์ตเมนต์ขนาด 1 เมตร ซึ่งอยู่ห่างจากใจกลางเมือง
จากมุมมองของการวิเคราะห์ความสำคัญของสัมประสิทธิ์การถดถอยโดยเฉพาะ การประมาณค่าจะเป็นประโยชน์ ค่าสัมประสิทธิ์การตัดสินใจบางส่วน:
นี่คือค่าประมาณของความแปรปรวนของผลลัพธ์
ตัวแปร. สัมประสิทธิ์นี้แสดงเปอร์เซ็นต์ความแปรผันของตัวแปรผลลัพธ์ที่อธิบายได้จากการแปรผันของตัวแปรตัวประกอบ i-th ที่รวมอยู่ในสมการการถดถอย
- ลักษณะ Hedonic เป็นที่เข้าใจกันว่าเป็นลักษณะของวัตถุที่สะท้อนถึงคุณสมบัติที่เป็นประโยชน์ (มีคุณค่า) จากมุมมองของผู้ซื้อและผู้ขาย