เนื้อหาเดียวกันในหน้าต่างๆ เนื้อหาที่ซ้ำกันคือข้อผิดพลาดในการเพิ่มประสิทธิภาพภายในที่พบบ่อยที่สุด โปรแกรมและบริการออนไลน์สำหรับค้นหาเนื้อหาที่ซ้ำกันภายในและภายนอกด้วยส่วนข้อความ
เจ้าของไซต์จำนวนมากมุ่งเน้นที่การสร้างเนื้อหาที่ไม่เหมือนใครเป็นหลักเมื่อเทียบกับไซต์อื่นๆ อย่างไรก็ตาม อย่าละเลยการมีอยู่ของเนื้อหาที่ซ้ำกันในไซต์เดียวกัน สิ่งนี้มีผลกระทบอย่างมากต่อการจัดอันดับ
เนื้อหาที่ซ้ำกันคืออะไร
เนื้อหาที่ซ้ำหรือซ้ำกันคือบล็อกปริมาตรของข้อความที่ตรงกันภายในไซต์บน หน้าที่แตกต่างกัน. สิ่งนี้ไม่จำเป็นต้องทำด้วยเจตนาร้าย - บ่อยครั้งเกิดขึ้นเนื่องจาก เหตุผลทางเทคนิครายละเอียดด้านล่าง.
อันตรายอยู่ที่ความจริงที่ว่าเนื้อหาที่ซ้ำกันมักไม่สามารถมองเห็นได้ด้วยตาเปล่า แต่เครื่องมือค้นหามองเห็นได้อย่างสมบูรณ์และตอบสนองตามนั้น
เนื้อหาที่ซ้ำกันมาจากไหนและพบบ่อยที่สุดที่ใด
สาเหตุหลักของปรากฏการณ์นี้:
- การเปลี่ยนโครงสร้างของไซต์
- การใช้งานโดยเจตนาใน วัตถุประสงค์เฉพาะ(พูดรุ่นที่พิมพ์ได้);
- การกระทำที่ผิดพลาดของโปรแกรมเมอร์และเว็บมาสเตอร์
- ปัญหาเกี่ยวกับ CMS
ตัวอย่างเช่น สถานการณ์ทั่วไปคือ replytocom (ตอบกลับความคิดเห็น) ใน WordPress สร้างหน้าใหม่โดยอัตโนมัติด้วย URL ที่แตกต่างกัน แต่ไม่มีเนื้อหา
โดยปกติแล้วจะสังเกตเห็นเนื้อหาที่ซ้ำกันเมื่อสร้างประกาศบทความในหน้าอื่น ๆ ของเว็บไซต์ โพสต์บทวิจารณ์ ตลอดจนคำอธิบายผลิตภัณฑ์ หมวดหมู่ หัวเรื่องเดียวกัน
เหตุใดเนื้อหาที่ซ้ำกันจึงไม่ดี
เนื้อหาซ้ำมีคู่ในด้านเศรษฐศาสตร์ - เงินเบิกเกินบัญชีธนาคาร ใช้งบประมาณการรวบรวมข้อมูลที่เรียกว่าที่นี่เท่านั้น นี่คือจำนวนหน้าทรัพยากรที่เครื่องมือค้นหาสามารถรวบรวมข้อมูลในช่วงเวลาที่กำหนด ทรัพยากรมีค่ามากและควรใช้กับหน้าที่สำคัญและเกี่ยวข้องจริงๆ มากกว่าใช้กับข้อความที่เหมือนกันซ้ำกันหลายสิบหน้า
เนื้อหาที่ซ้ำกันจึงแย่ลง การส่งเสริมการค้นหา. นอกจากนี้ ลิงก์ธรรมชาติจะสูญหายและน้ำหนักลิงก์กระจายอย่างไม่ถูกต้องภายในไซต์ นอกจากนี้ยังแทนที่หน้าที่เกี่ยวข้องจริงๆ
วิธีค้นหาเนื้อหาที่ซ้ำกันบนเว็บไซต์ (ด้วยตนเอง โปรแกรมและบริการ)
มีอยู่ โปรแกรมพิเศษเพื่อการวิเคราะห์ทรัพยากร ในจำนวนนี้ ผู้ใช้เน้น Netpeak Spider โดยเฉพาะ เธอกำลังค้นหา สำเนาเต็มหน้า จับคู่ตามชื่อเรื่องหรือคำอธิบาย หัวเรื่อง อีกทางเลือกหนึ่งคือ Screaming Frog ซึ่งมีฟังก์ชันการทำงานที่คล้ายกันและต่างกันที่อินเทอร์เฟซเท่านั้น นอกจากนี้ยังมีแอปพลิเคชัน Link Sleuth ของ Xenu ซึ่งทำงานในลักษณะเดียวกับเครื่องมือค้นหาและสามารถรวมเว็บไซต์เพื่อหารายการที่ซ้ำกันได้ค่อนข้างดี
น่าเสียดายที่ไม่มีเครื่องมือใดที่สามารถติดตามข้อความที่ซ้ำกันได้ทั้งหมด ดังนั้นจึงมีแนวโน้มว่าคุณจะต้อง ตรวจสอบด้วยตนเอง. นี่คือรายการปัจจัยที่เป็นไปได้ที่ทำให้เกิดปัญหา:
หาวิธีค้นหาเนื้อหาที่ซ้ำกัน ก ตัวช่วยที่ดีที่สุดในการต่อสู้กับการเปลี่ยนเส้นทาง 301, แท็ก Canonical URL, คำแนะนำใน robots.txt และพารามิเตอร์ Nofollow และ Noindex ซึ่งเป็นส่วนหนึ่งของเมตาแท็ก "robots"
หนึ่งในวิธีการ อย่างเร่งรีบตรวจสอบว่าไซต์มีเนื้อหาที่ซ้ำกันหรือไม่ เป็นการค้นหาขั้นสูงใน Yandex หรือ Google คุณต้องป้อนที่อยู่ไซต์และข้อความจากหน้าที่คุณต้องการตรวจสอบ คุณยังสามารถใช้โปรแกรมมากมายเพื่อตรวจสอบความเป็นเอกลักษณ์ของข้อความ:
- Text.ru;
- eTXT การต่อต้านการคัดลอกผลงาน;
- Advego Plagiatus;
- ดูเนื้อหา
วิธีจัดการและล้างเนื้อหาที่ซ้ำกัน
เหมือนกันทั้งหมด ระบบอ้างอิง Google ให้คำแนะนำหลายประการเพื่อป้องกันไม่ให้ปัญหานี้เกิดขึ้น
- 301 เมื่อทำการเปลี่ยนแปลงโครงสร้างทรัพยากร คุณต้องระบุการเปลี่ยนเส้นทาง 301 ในไฟล์ htaccess
- ใช้มาตรฐานการเชื่อมโยงเดียว
- เนื้อหาสำหรับภูมิภาคใดภูมิภาคหนึ่งจะดีที่สุดในโดเมน ระดับสูงมากกว่าในโดเมนย่อยหรือไดเร็กทอรีย่อย
- กำหนดวิธีการจัดทำดัชนีที่ต้องการโดยใช้ Search Console
- อย่าใช้เทมเพลต แทนที่จะวางข้อความลิขสิทธิ์ไว้ในแต่ละหน้า จะเป็นการดีกว่าหากสร้างลิงก์ที่จะนำไปยังหน้าอื่นด้วยข้อความนี้
- เมื่อพัฒนาหน้าใหม่ ตรวจสอบให้แน่ใจว่าหน้าเหล่านั้นถูกปิดจากการจัดทำดัชนีจนกว่าจะพร้อม
- ทำความเข้าใจว่าเนื้อหาของคุณแสดงอย่างไร - การแสดงผลในบล็อกและฟอรัมอาจมีความแตกต่างกัน
- หากมีบทความที่คล้ายกันหลายบทความในไซต์ จะเป็นการดีกว่าที่จะรวมเนื้อหาทั้งหมดเป็นบทความเดียวหรือไม่ซ้ำกันในแต่ละบทความ
เสิร์ชเอ็นจิ้นไม่ได้ให้การลงโทษใดๆ กับไซต์ที่มีเนื้อหาซ้ำกันด้วยเหตุผลทางเทคนิค (ตรงข้ามกับผู้ที่จงใจทำเพื่อบิดเบือนผลการค้นหาหรือทำให้ผู้เข้าชมเข้าใจผิด)
หลังจากนำรายการที่ซ้ำกันออกแล้ว จะยังคงต้องลบออกจากผลการค้นหา ยานเดกซ์ทำสิ่งนี้ด้วยตัวเอง โดยมีเงื่อนไขว่าไฟล์ robots.txt ได้รับการตั้งค่าอย่างถูกต้อง สำหรับ Google: คุณต้องเขียนกฎด้วยตนเองใน Webmaster บนแท็บ "พารามิเตอร์ URL"
บทสรุป
ต่อสู้กับเนื้อหาที่ซ้ำกันบนเว็บไซต์ - ด้านที่สำคัญกิจกรรมของเจ้าของไซต์ใด ๆ มีเหตุผลสองสามประการในการเกิดขึ้น และวิธีกำจัดมันก็มีมากมายพอๆ กัน
อย่างไรก็ตาม กฎหลักยังคงอยู่: โพสต์เนื้อหาต้นฉบับเท่านั้น โดยไม่คำนึงถึงประเภทของไซต์ แม้ว่าจะเป็นร้านค้าออนไลน์ขนาดใหญ่ที่มีหลายพันหน้าก็ตาม
รับประกาศของโพสต์ที่คล้ายกันในอีเมลของคุณ
สมัครสมาชิกและรับไม่เกินสัปดาห์ละครั้งสิ่งที่น่าสนใจจากโลกของการตลาดทางอินเทอร์เน็ต, SEO, การโปรโมตเว็บไซต์, ร้านค้าออนไลน์, การสร้างรายได้บนเว็บไซต์
1. บทนำสู่ปัญหา
ปัจจุบันปัญหาข้อมูลซ้ำซ้อนบนอินเทอร์เน็ตทวีความรุนแรงมากขึ้นเรื่อยๆ บ่อยครั้งที่การทำซ้ำดังกล่าวกระทำโดยเจตนาโดยละเมิดลิขสิทธิ์ ผู้โจมตีใช้เนื้อหาที่มีลิขสิทธิ์เพื่อเติมเต็มไซต์ของตนเองเพื่อผลประโยชน์ของตนเอง
การทำซ้ำของข้อมูลดังกล่าวทำให้การออกเสิร์ชเอ็นจิ้นแย่ลงซึ่งเป็นผลมาจากการที่สิ่งหลังกำลังต่อสู้กับปรากฏการณ์นี้อย่างแข็งขัน หากผู้ใช้ได้รับ 10 ตามคำขอ เอกสารเหมือนกัน(“ความเหมือนกัน” ถูกกำหนดโดยผู้ใช้โดย ) สิ่งนี้แทบจะไม่เพิ่มความนิยมให้กับเครื่องมือค้นหา ไม่กี่ปีที่ผ่านมาสถานการณ์นี้ถูกพบใน Rambler อันเป็นผลมาจากการที่เครื่องมือค้นหาสูญเสียคะแนนส่วนหนึ่งไป อย่างไรก็ตาม ตอนนี้ Rambler จะกรองและซ่อนรายการที่ซ้ำกัน
ควรสังเกตว่าการทำซ้ำของเนื้อหาอุดตันดัชนีเครื่องมือค้นหาทำให้ยากขึ้นที่จะให้คำตอบอย่างรวดเร็วแก่ผู้ใช้ ในขณะเดียวกัน เอกสารทั้งหมดจำเป็นต้องได้รับการจัดทำดัชนีอย่างสม่ำเสมอ และการปรากฏของเอกสารใหม่ที่มีเนื้อหาที่ไม่ใช่ต้นฉบับจะส่งผลเสียต่อความเร็วในการจัดทำดัชนีอย่างชัดเจน
2. ทฤษฎีสำหรับคำจำกัดความของ "ซ้ำซ้อนเลือน"
ก. "ฟัซซี่ดับเบิล" คืออะไร
ก่อนอื่นคุณต้องตัดสินใจเกี่ยวกับคำศัพท์ ยังไม่มีมติเป็นเอกฉันท์ในเรื่องนี้ ดังนั้นคำศัพท์นี้จึงถูกปัดทิ้งจากสามัญสำนึก
ทำซ้ำ (ซ้ำ) ของเอกสารเว็บ – สำเนาถูกต้องเอกสารเว็บ "สำเนาเลือน" ของเอกสารบนเว็บ– เอกสารเว็บที่ได้รับการแก้ไขบางส่วนในแง่ของเนื้อหาและ/หรือการจัดรูปแบบ (ใช้ other แท็ก htmlสำหรับการจัดหน้า)
เราจะตีความ "เอกสารเว็บที่ซ้ำกัน" จากมุมมองของเครื่องมือค้นหาเท่านั้น ไม่ใช่ผู้ใช้ ดังนั้นเราจะไม่พิจารณาปรากฏการณ์เช่น "การเขียนคำโฆษณา" เช่น เขียนข้อความใหม่โดยเฉพาะสำหรับเครื่องมือค้นหาโดยใช้คำอื่น แต่คงไว้ การใช้ความคิดเบื้องต้น. ข้อความดังกล่าวสำหรับเครื่องมือค้นหาจะเป็นต้นฉบับเสมอเพราะ คอมพิวเตอร์ยังไม่สามารถแยกแยะความหมายของข้อความได้
มีวิธีการพื้นฐานหลายวิธีในการพิจารณารายการที่ซ้ำกัน
ข. วิธีการของ "คำอธิบาย"
วิธีนี้ทำงานตามหลักการดังต่อไปนี้
ขั้นแรกให้สร้างตัวอย่างขนาดเล็ก (ประมาณ 2,000-3,000 คำ) ตัวอย่างต้องเป็นไปตาม เงื่อนไขดังต่อไปนี้:
ด้วยความช่วยเหลือคุณสามารถอธิบายเอกสารเกือบทั้งหมดในเครือข่ายได้อย่างสมบูรณ์
- รายละเอียดของเอกสารไม่ควรซ้ำซ้อน
ดังนั้น ในการสร้างตัวอย่าง จึงจำเป็นต้องละทิ้งคำที่พบบ่อยที่สุดและน้อยที่สุด เช่น ไม่คำนึงถึงคำหยุดและคำศัพท์ใจความแคบต่างๆ นอกจากนี้ คำคุณศัพท์ไม่ตกอยู่ในกลุ่มตัวอย่าง เนื่องจากไม่มีภาระทางความหมายในภาษารัสเซีย
จากนั้นเอกสารแต่ละฉบับจะถูกเปรียบเทียบกับตัวอย่างและคำนวณเวกเตอร์ซึ่งมีขนาดเท่ากับจำนวนคำในตัวอย่าง ส่วนประกอบเวกเตอร์สามารถรับได้สองค่า - 0 หรือ 1 0 - หากคำจากตัวอย่างไม่อยู่ในเอกสาร 1 - หากพบคำในเอกสาร จากนั้น เอกสารจะถูกตรวจสอบสำหรับการทำซ้ำโดยการจับคู่เวกเตอร์
เมื่อใช้อัลกอริทึมนี้ Yandex จะพิจารณารายการที่ซ้ำกันแบบคลุมเครือ
ค. วิธีงูสวัด
วิธีการมุงหลังคามีดังนี้ สำหรับสตริงย่อยทั้งหมดของข้อความที่วิเคราะห์ จะมีการคำนวณ "ผลรวมตรวจสอบ" เช็คซัม (หรือ "ลายเซ็น") เป็นตัวเลขเฉพาะที่กำหนดให้กับข้อความและ/หรือฟังก์ชันในการคำนวณ ฟังก์ชันการคำนวณ เช็คซัมสามารถบรรลุเป้าหมายหลายประการ: ตัวอย่างเช่น "ความสามารถในการถอดรหัส" (ลดโอกาสที่คุณจะรับค่าตรวจสอบได้ ข้อความต้นฉบับ) หรือ "ไม่สามารถทำซ้ำได้" (ลดความน่าจะเป็นที่สองครั้ง ข้อความที่แตกต่างกันอาจมีหนึ่งการตรวจสอบ) - วารสารอิเล็กทรอนิกส์"สแปมทดสอบ" ไม่ใช่ 27.
ใช้กันทั่วไป อัลกอริทึมต่อไปนี้การคำนวณเช็คซัม: fnv, md5, crc หลังจากคำนวณเช็คซัมแล้ว จะมีการสร้างตัวอย่างแบบสุ่มจากชุดผลลัพธ์ จากตัวอย่างนี้ สามารถเปรียบเทียบเอกสารกับเอกสารอื่นๆ ที่มีการคำนวณตัวอย่างไว้ล่วงหน้าได้เช่นกัน
วิธีการคำนวณนี้ค่อนข้างใช้ทรัพยากรมากและสามารถข้ามได้โดยการเปลี่ยนข้อความเล็กน้อย เนื่องจากประการแรก โรคงูสวัดจะขึ้นอยู่กับระยะห่างระหว่างคำ
ตอนนี้วิธีการมุงหลังคาได้พัฒนาเป็นอัลกอริทึม "supershingles" ซึ่งมีค่าใช้จ่าย ชุดจำกัดเช็คซัม การทดลองที่ ROMIP นำไปสู่ผลลัพธ์ต่อไปนี้ - งูสวัด 84 ตัว, งูสวัด 6 ตัวเหนืองูสวัด 14 ตัว ข้อความจะถือว่าตรงกันหากมี supershingle อย่างน้อย 2 ใน 6 รายการที่ตรงกัน
เจ้าหน้าที่ได้กล่าวซ้ำ ๆ ว่ายานเดกซ์ไม่ใช่ผู้ตรวจสอบและจะไม่ต่อสู้ ปัญหาการขโมยเนื้อหาออนไลน์.
นี่คือคำตอบอย่างเป็นทางการของ A. Sadovsky:
... การค้นหายานเดกซ์พยายามระบุเอกสารต้นฉบับเมื่อตรวจพบเอกสารที่ซ้ำกัน อัลกอริทึมที่มีอยู่แน่นอนว่าไม่สมบูรณ์และเรากำลังดำเนินการปรับปรุง ในแง่ของข้อบังคับทางกฎหมาย เครื่องมือค้นหายังไม่สามารถระบุผู้เขียนข้อความได้ ในกรณีที่เนื้อหาที่ปลอมแปลงถูกลบออกจากเครือข่าย (เช่น อันเป็นผลมาจากการกระทำของเจ้าของลิขสิทธิ์) ยานเดกซ์จะลบเนื้อหานั้นออกจากฐานข้อมูลด้วยเมื่อโรบ็อตข้ามผ่าน กระบวนการนี้สามารถเร่งความเร็วได้โดยใช้แบบฟอร์ม http://webmaster.yandex.ru/delurl.xml
ลองพิจารณาดูว่า "เอกสารซ้ำ" สำหรับยานเดกซ์คืออะไร ผู้เขียนเสนอการตีความดังต่อไปนี้ (หากข้อความด้านล่างดูคุ้นๆ สำหรับคุณ ก็อย่าเพิ่งคิดไปเอง ไม่นานมานี้ ผู้เขียนได้พยายามพูดคุยอย่างแข็งขัน ปัญหานี้บนฟอรัม
การทำซ้ำมีสองประเภท: "การทำซ้ำแบบคลุมเครือ" และ "การทำซ้ำแบบเต็ม"
"Fuzzy Duplicates" ขึ้นอยู่กับตัวอย่าง เช่น กำหนดโดยคำขอจริงของผู้ใช้ มันเกิดขึ้นด้วยวิธีต่อไปนี้
1. ผู้ใช้ตั้งคำขอ
2. Yandex คำนวณความเกี่ยวข้องของไซต์กับข้อความค้นหาและจัดอันดับไซต์ แต่ยังไม่แสดงให้ผู้ใช้เห็น
3. ถัดไป ยานเดกซ์จะเปรียบเทียบตัวอย่างข้อมูลของเอกสารที่เลือกเพื่อระบุรายการที่ซ้ำกัน (อาจเปรียบเทียบตัวอย่างข้อมูลโดยใช้วิธีงูสวัด)
4. สุดท้าย สร้างเอาต์พุตที่กรองแล้ว ลบสำเนาบางส่วนออก (ไม่ชัดเจนว่าเอกสารบางรายการเหลืออยู่บนพื้นฐานใด บางทีอาจเลือกเอกสารที่เกี่ยวข้องมากที่สุด และเอกสารที่คล้ายกันน้อยที่สุดจะเข้าสู่เอาต์พุตด้วย บางทีอาจเท่านั้น การอ้างอิงมีบทบาท) สภาพแวดล้อมของไซต์)
การมีอยู่ของตัวกรองประเภทนี้ได้รับการพิสูจน์ทางอ้อมโดยคำพูดของ Sadovsky (โพสต์ # 9) และข้อเท็จจริงที่ว่าการออก การตั้งค่าต่างๆการค้นหา (โดยเฉพาะอย่างยิ่ง จำนวนของส่วนย่อยที่แสดงด้วยคำค้นหา) จะแตกต่างกัน
ด้วยการตั้งค่า "แสดงไม่เกิน 5 ส่วน" มีไซต์ในผลการค้นหามากกว่าการตั้งค่า "แสดงไม่เกิน 1 ส่วน" ลองใช้ข้อความค้นหา "ใน & บทที่สอง & ของบทคัดย่อ & อุทิศให้กับ & การปฏิบัติ & การตลาด & กิจกรรม & องค์กร & บน & ตัวอย่าง & เซิร์ฟเวอร์ & dux" (ระบุข้อความค้นหาโดยไม่มีเครื่องหมายอัญประกาศ!) - ในกรณีแรก (แสดง 1 ส่วนย่อยในตัวอย่าง) ในไซต์เอาต์พุต 21 ในไซต์ที่สอง (5 ส่วน) - 27 ไซต์
ทุกอย่างที่นี่มีเหตุผล - เมื่อแสดงหนึ่งข้อความในตัวอย่าง ตัวอย่างจะคล้ายกันมากกว่าเมื่อแสดง 5 ข้อความในตัวอย่าง ตัวอย่างเช่น ในกรณีที่สอง ข้อมูลโค้ดของไซต์ที่สองแตกต่างจากข้อมูลโค้ดของไซต์แรกและไซต์ที่สาม
ตอนนี้มาจัดการกับ "รายการที่ซ้ำกันทั้งหมด" ผู้เขียนเชื่อว่ารายการที่ซ้ำกันนั้นถูกกำหนด ณ เวลาที่จัดทำดัชนีหน้า สะดวกเนื่องจากช่วยให้คุณสามารถตัดขยะได้ทันทีและไม่เพิ่มข้อมูลที่ซ้ำกันในฐานข้อมูลของเครื่องมือค้นหา
วิธีการตรวจหาคำซ้ำคือ "วิธีการอธิบาย" (ซึ่งได้กล่าวถึงข้างต้น)
หน้าที่ระบุว่าซ้ำกันทั้งหมดจะถูกละทิ้งจากฐานข้อมูล สิ่งนี้มักจะเกิดขึ้นกับหน้าของไซต์หนึ่ง (เช่น แค็ตตาล็อกผลิตภัณฑ์ เมื่อ ข้อมูลที่มีความหมายน้อยกว่าคำในส่วนนำทางมาก) หลักการใดที่ยานเดกซ์โยนสิ่งที่ซ้ำกันเหล่านี้ไม่เป็นที่รู้จัก เป็นไปได้มากว่าเกิดจากการรวมกันของสัญญาณต่างๆ เช่น ปัจจัยชั่วคราว "การให้คะแนนทรัพยากร" ความไว้วางใจในทรัพยากร และอื่น ๆ
ยานเดกซ์ระบุแหล่งที่มาดั้งเดิมอย่างไรในกรณีที่ตรวจพบ "รายการซ้ำแบบคลุมเครือ" และระบุแหล่งที่มาได้อย่างไร ลองคิดดูสิ ...
อันดับแรก เราเน้นปัจจัยที่อาจบ่งบอกถึงแหล่งที่มาดั้งเดิมของเนื้อหา ...
วันที่สร้างเอกสาร
- ความเกี่ยวข้องของเอกสารกับแบบสอบถาม
- "ไว้วางใจในทรัพยากร" (ตัวอย่างเช่น คุณสามารถไว้วางใจทรัพยากรส่วนใหญ่ที่มีตำแหน่งที่ดีใน Yandex Catalog และปริมาณการใช้งานสูง)
- การเชื่อมโยงระหว่างสำเนา (เช่น หากสำเนาทั้งหมดอ้างถึงเอกสารเดียวกัน แสดงว่าเป็นต้นฉบับ)
มาลองทดลองกันสักหน่อย มาดูหน้า href=http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 และวลี "การออกแบบของ Lumix FZ50 นั้นคล้ายคลึงกับ FZ30 รุ่นก่อนที่มีความละเอียด 8 ล้านพิกเซล" เห็นได้ชัดว่านี่คือต้นฉบับ ทีนี้มาดูกันว่าใครใช้ข้อความของบทความบ้าง: เรามาตั้งค่าการสืบค้นโดยใช้พารามิเตอร์ rd=0 หากไม่มี rd ในปัญหา จะมีเพียงไซต์หมายเลข 1 และหมายเลข 5 เท่านั้น
ลักษณะของเว็บไซต์มีดังนี้ (โปรดทราบว่าลิงก์ไปยังหน้าแรกเท่านั้น ส่วนที่เหลือไม่มีลิงก์ย้อนกลับ):
หมู่บ้าน | ทีซีไอ | หมวดหมู่แคตตาล็อก | ประชาสัมพันธ์ | เพจประชาสัมพันธ์ |
zoom.cnews.ru/ru/publication/index.php?art_id80=1523 | 3800 | ใช่ | 6 | 4 |
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50 | 170 | ใช่ | 5 | 0 |
www.apitcomp.ru/analytic/genre3/page637 | 700 | ใช่ | 4 | 0 |
www.toplist.ru/card/35859 | 110 | เลขที่ | 3 | 0 |
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316 | 0 | เลขที่ | 1 | 0 |
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323 | 0 | เลขที่ | 0 | 0 |
www.media.nrd.ru/index.php?showtopic=3323&st=100 | 40 | เลขที่ | 0 | 0 |
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523 | 0 | เลขที่ | 0 | 0 |
โปรดทราบว่าข้อมูลโค้ดสำหรับทุกไซต์จะเหมือนกัน
เมื่อมองแวบแรก มันไม่ชัดเจนเลยว่าทำไมยานเดกซ์จึงกรองไซต์ทั้งหมดออก ยกเว้นไซต์ที่ห้า ไซต์นี้ไม่น่าเชื่อถือในสายตาของยานเดกซ์ การออกจากหน้าจากไซต์ www.apitcomp.ru ในผลการค้นหาจะมีเหตุผลมากกว่า - ไซต์นี้มีสิทธิ์มากกว่าหรือออกจากหน้าฟอรัม (ตำแหน่ง 6 และ 7)
ในทำนองเดียวกัน เราจะตรวจสอบหน้า http://www.3dnews.ru/digital/lumix_fz50/ และวลี "ในยุคของเรา เมื่อผู้ซื้อที่กระหายน้ำ ประสิทธิภาพที่ดี". ตัวหนาคือไซต์ที่แสดงโดยไม่มี rd=0 สีแดงคือแหล่งที่มาดั้งเดิมซึ่งยังไงก็ตามถูกกรอง!
หน้าหนังสือ | ทีซีไอ | ยาคา | ลส | หจก | ประชาสัมพันธ์ | เพจPR |
ดาวเสาร์-plus.ru/ | 70 | ใช่ | 54 | 20349 | 3 | 3 |
saturn.24online.ru/ | 0 | เลขที่ | 1 | 1 | 0 | 0 |
www.3dnews.ru/digital/lumix_fz50/print | 11000 | ใช่ | 0 | 0 | 6 | 2 |
www.fotomag.com.ua/handbook14.html | 400 | ใช่ | 0 | 0 | 4 | 0 |
deshevshe.net.ua/ua/review-73/4.html | 80 | เลขที่ | 0 | 0 | 4 | 0 |
ephotolink.ru/?mod=articles&act=show&sort=date&page=9 | 1400 | ใช่ | 0 | 0 | 4 | 1 |
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html | 0 | เลขที่ | 0 | 0 | 0 | 0 |
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&... | 4300 | ใช่ | 0 | 0 | 6 | 0 |
www.velc.ru/podderjka/stati/lumix_fz50/ | 120 | ใช่ | 0 | 0 | 3 | 0 |
ephotolink.tkat.ru/?mod=articles&id_article=21007 | 10 | เลขที่ | 0 | 0 | 3 | 0 |
www.ru-coding.com/rss.php?p=501 | 130 | ใช่ | 0 | 0 | 3 | 0 |
www.toprunet.com/article.php?id=6388 | 200 | เลขที่ | 0 | 0 | 3 | 0 |
www.dphotographer.com.ua/camera/from/2/ | 90 | เลขที่ | 0 | 0 | 4 | 0 |
www.asmedia.ru/news/id8242.html | 400 | เลขที่ | 0 | 0 | 3 | 0 |
www.mega-bit.ru/obzor/read/?id=70 | 40 | เลขที่ | 0 | 0 | 3 | 0 |
www.audiovideophoto.ru/panasonic1.html | 0 | เลขที่ | 0 | 0 | 0 | 0 |
www.foto-piter.ru/news/2006/12/01/127/ | 10 | เลขที่ | 0 | 0 | 2 | 0 |
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html | 20 | เลขที่ | 0 | 0 | 1 | 0 |
www.novoe.nnov.ru/articles/?parent_id=33 | 0 | เลขที่ | 0 | 0 | 0 | 0 |
iwy.com.ua/top.php?p=326 | 0 | เลขที่ | 0 | 0 | 0 | 0 |
www.5-uglov.ru/articles_view.php?id_news=1222 | 90 | ใช่ | 0 | 0 | 3 | 0 |
www.techhome.ru/catalog/photo/article_17112.html | 950 | ใช่ | 0 | 0 | 5 | 3 |
www.panasonic-spb.ru/articles_view.php?id_news=1222 | 0 | เลขที่ | 0 | 0 | 1 | 0 |
new-articles.ru/page_215.html | 40 | เลขที่ | 0 | 0 | 3 | 0 |
www.ekvator-hifi.ru/articles_view.php?id_news=1222 | 10 | เลขที่ | 0 | 0 | 1 | 0 |
shop.key.ru/shop/goods/36608/ | 230 | เลขที่ | 3 | 18 | 4 | 0 |
www.pc-shop.kz/index.php?g_id=1711 | เลขที่ | 0 | 0 | 3 | 0 | |
Portalink.ru/portal/camera/infoat_15269.htm | 110 | เลขที่ | 0 | 0 | 3 | 3 |
www.rusdoc.ru/articles/13085/ | 1100 | ใช่ | 3 | 13 | 5 | 1 |
www.docs.com.ru/articles.php?p=509 | 220 | เลขที่ | 0 | 0 | 4 | 0 |
e-libed.ru/a31/ | 0 | เลขที่ | 1 | 17 | 0 | 0 |
dvdlink.ru/portal/Ecamera/infoat_15269.htm | 140 | เลขที่ | 0 | 0 | 3 | 0 |
www.articlesearch.ru/a3b856d85.html | 0 | เลขที่ | 0 | 0 | 0 | 0 |
www.bestarticles.ru/a31/ | 0 | เลขที่ | 1 | 5 | 2 | 0 |
www.temu.ru/a31/ | 0 | เลขที่ | 0 | 0 | 2 | 0 |
LP - หน้าอ้างอิง, LS - เว็บไซต์อ้างอิง, หน้า PR - หน้า PR, PR - PR ของหน้าหลักของเว็บไซต์
รูปภาพที่คล้ายกัน - เกณฑ์สำหรับการกรองไม่ชัดเจนอย่างสมบูรณ์ อย่างไรก็ตาม หากเราดูตัวอย่างข้อมูล เราจะเห็นว่าหน้าต่างๆ ของเว็บไซต์ uaport.net, www.megastoke.ru, portalink.ru มีตัวอย่างข้อมูลที่ค่อนข้างแตกต่างจากตัวอย่างข้อมูลของไซต์อื่น ดังนั้นไซต์แรกและไซต์ที่สามจึงเป็น ไม่ถูกกรอง
จะพูดอะไรในตอนท้าย? ก่อนอื่น แน่นอน คุณยังต้องทดลองและวิเคราะห์อีกมาก แต่เป็นที่แน่ชัดแล้วว่าการตัดสินใจกรอง "รายการที่ซ้ำกันแบบคลุมเครือ" นั้นขึ้นอยู่กับการวิเคราะห์ปัจจัยหลายอย่าง ซึ่งปัจจัยหลักคือความคิดริเริ่มของตัวอย่างข้อมูล .
4. Google และเนื้อหาที่ซ้ำกัน
Google พยายามที่จะออกไซต์ตามคำขอของผู้ใช้ด้วยเนื้อหาที่สดใหม่และไม่ซ้ำใครเท่านั้น
Google คิดว่าผู้ใช้ไม่ต้องการเห็นรายการที่ซ้ำกันในผลการค้นหา ดังนั้นเอกสารเหล่านี้จึงถูกซ่อนอยู่ในผลลัพธ์คำแนะนำ หากผู้ใช้ยังคงต้องการดูข้อมูลที่ซ้ำกัน (เช่น ผู้ดูแลเว็บรายนี้ต้องการทราบว่าใครขโมยเนื้อหาจากไซต์ของตน) ผู้ใช้ควรเพิ่มพารามิเตอร์ "&filter=0" ต่อท้าย URL
Google เชื่อว่าการระบุผู้เขียนเนื้อหาจะช่วยปรับปรุงการค้นหา อย่างไรก็ตาม เขาตั้งข้อสังเกตว่าวิธีการดังกล่าวในการกำหนดแหล่งที่มาเป็นการกำหนดวันที่สร้างเอกสารหรือลงทะเบียนเนื้อหาโดยผู้เขียนใน บริการพิเศษไม่ได้ผล จนถึงตอนนี้ Google มุ่งเน้นที่อำนาจของทรัพยากรและจำนวนลิงก์ขาเข้าเป็นส่วนใหญ่ ดังนั้น สถานการณ์จึงค่อนข้างเป็นไปได้เมื่อแหล่งข้อมูลที่รู้จักกันดีบางแห่งยืมบทความ เช่น จากแหล่งข้อมูลเฉพาะ จากนั้นคนส่วนใหญ่ก็เรียนรู้เกี่ยวกับบทความจากแหล่งข้อมูลที่มีชื่อเสียงและใส่ลิงก์ไปยังบทความนั้น ในที่สุด Google จะระบุไซต์ที่รู้จักเป็นแหล่งต้นฉบับ ...
ในกรณีที่มีเนื้อหาซ้ำกันในไซต์เดียวกัน (เช่น หน้าเดิมและหน้าพิมพ์) Google แนะนำให้ผู้ดูแลเว็บใช้ robots.txt อย่างจริงจัง ขอแนะนำให้หยุดใช้ตัวระบุเซสชัน เนื่องจากอาจทำให้เนื้อหาซ้ำกันได้ เหล่านั้น. เครื่องมือค้นหาสามารถจัดทำดัชนีหน้าเดียวกัน แต่ใช้ URL อื่น โดยมีค่าพารามิเตอร์ sessid ต่างกัน
5. คุณสามารถทดลองอะไรได้บ้างและจะทำอย่างไรให้ดีที่สุด
ดังนั้นเราจึงพบประเด็นหลักเกี่ยวกับปัญหาการทำซ้ำเนื้อหา หลักการของตัวกรอง (โดยเฉพาะยานเดกซ์) นั้นค่อนข้างง่าย แต่เป็นการยากที่จะระบุว่าจะพิจารณาปัจจัยต่างๆ อย่างไร
โดยรวมแล้ว สิ่งที่ต้องตรวจสอบในการทดลอง:
รายการที่ซ้ำกันจะถูกกรอง ณ เวลาที่ออกอย่างไร ด้วยหลักการอะไร?
- วิธี "คำอธิบาย" - ตัวอย่างของคำเกิดขึ้นได้อย่างไรและเวกเตอร์เปรียบเทียบอย่างไร
- โดยหลักการใดที่ "สำเนาทั้งหมด" ถูกโยนออกไป?
คุณสามารถแนะนำสิ่งต่อไปนี้:
เราสร้างไซต์เดียวที่มีเนื้อหาต้นฉบับ เราส่งสแปมเล็กน้อยเพื่อให้ได้รับการจัดทำดัชนี ต่อไปเราจะสร้างโคลนจำนวนหนึ่ง (ซ้ำกัน) การโคลนสามารถทำได้หลายวิธี: ผสมคำของต้นฉบับ, เขียนใหม่, แยกย่อหน้า สามารถวางโคลนได้ทั้งบนไซต์ที่แยกจากกัน (บนปกติและ โฮสติ้งปกติ) และบน หน้าภายในเว็บไซต์ คุณสามารถโคลนสแปมได้บางส่วน จากนั้นเราจะประเมินผลลัพธ์โดยคาดเดาและสรุปผล
- คุณสามารถกำหนดหลักการในการกรอง "รายการที่ซ้ำกันแบบคลุมเครือ" โดยใช้วิธีการที่อธิบายไว้ข้างต้น เช่น ง่ายๆ โดยการวิเคราะห์ไซต์ที่ผ่านการกรอง
6. การอ่านเพิ่มเติม
» ฉันได้สัมผัสกับหัวข้อของหน้าที่ซ้ำกันและวันนี้เราจะพูดถึงรายละเอียดเพิ่มเติม
เกิดอะไรขึ้น หน้าซ้ำ? หน้าเหล่านี้คือหน้าที่คล้ายกันหรือ ข้อความเดียวกันใช้ได้หลากหลาย ที่อยู่ URLม. ตัวอย่างเช่น ซ้ำกันมากของหน้าหลักของทรัพยากร
ด้านล่างนี้เราจะพิจารณาตัวเลือกทั่วไปบางประการสำหรับการทำสำเนาเนื้อหา แต่ตอนนี้เรามาพูดถึงวิธีการกัน หน้าคล้ายกันสำหรับการโปรโมทเว็บไซต์
เสิร์ชเอ็นจิ้นได้เรียนรู้มานานแล้วในการพิจารณาความเป็นเอกลักษณ์ของข้อความโดยลำดับของอักขระ นั่นคือ ประโยคที่แต่งขึ้นเหมือนกัน ซึ่งลำดับของตัวอักษรและช่องว่างมาจาก หากเนื้อหาไม่ซ้ำใคร (ถูกขโมย) หุ่นยนต์ก็จะสามารถเข้าใจได้ง่าย และเมื่อไม่ใช่ ข้อความที่ไม่ซ้ำใครเกิดขึ้นบ่อยครั้งโอกาสของทรัพยากรดังกล่าวตกอยู่ภายใต้ ตัวกรองเอจีเอสค่อนข้างสูง
ลองนึกภาพงาน หุ่นยนต์ค้นหา. เมื่อเขาเข้าสู่ไซต์ ก่อนอื่นเขาจะดูที่ไฟล์ โรบ็อต.txtและได้รับคำแนะนำจากมัน: สิ่งที่ต้องทำดัชนีและสิ่งที่ปิดสำหรับการจัดทำดัชนี การดำเนินการต่อไปคือการเข้าถึงไฟล์ sitemap.xml ซึ่งจะแสดงให้หุ่นยนต์เห็นแผนผังเว็บไซต์พร้อมเส้นทางที่อนุญาตทั้งหมด อ่านบทความ - "ไฟล์ Sitemap.xml สำหรับเครื่องมือค้นหา Google และ Yandex" ได้รับทั้งหมดแล้ว ข้อมูลที่จำเป็นหุ่นยนต์จะถูกส่งไปทำหน้าที่ตามปกติ
กำลังจะ หน้าเฉพาะเขา "ดูดซับ" เนื้อหาของมันและเปรียบเทียบกับข้อมูลที่มีอยู่แล้วในสมองอิเล็กทรอนิกส์ของเขา ซึ่งรวบรวมมาจากอินเทอร์เน็ตอันกว้างใหญ่ไพศาล เมื่อจับข้อความที่ไม่ซ้ำกัน เครื่องมือค้นหาจะไม่จัดทำดัชนี หน้านี้และจดบันทึกในของคุณ สมุดบันทึกซึ่งเขาป้อนที่อยู่ URL ที่ "มีความผิด" อย่างที่คุณเดาได้ เขาจะไม่กลับมาที่หน้านี้อีกต่อไป เพื่อไม่ให้เสียเวลาอันมีค่าของเขา
สมมติว่าหน้ามีความเป็นเอกลักษณ์สูงและโรบ็อตได้จัดทำดัชนีไว้ แต่หลังจากติดตาม URL ถัดไปของทรัพยากรเดียวกัน โรบ็อตจะไปยังหน้าที่มีข้อความคล้ายกันทั้งหมดหรือบางส่วน เครื่องมือค้นหาจะดำเนินการอย่างไรในสถานการณ์เช่นนี้ แน่นอนมันจะไม่จัดทำดัชนีเช่นกัน การทดสอบที่คล้ายกันแม้ว่าต้นฉบับจะอยู่บนไซต์เดียวกันแต่ใช้ URL อื่น หุ่นยนต์จะยังคงไม่พอใจกับเวลาที่เสียไปอย่างแน่นอน และจะจดบันทึกลงในสมุดบันทึกของเขาอย่างแน่นอน อีกครั้ง หากเหตุการณ์ดังกล่าวเกิดขึ้นซ้ำๆ ทรัพยากรอาจไม่ได้รับความนิยม เครื่องมือค้นหา.
สรุป #1. หน้าที่คล้ายกันซึ่งอยู่ที่ URL ต่างๆ จะใช้เวลาที่หุ่นยนต์จัดทำดัชนีเว็บไซต์ มันจะไม่จัดทำดัชนีหน้าที่ซ้ำกัน แต่จะใช้เวลาส่วนหนึ่งในการทำความรู้จักกับพวกเขา และอาจไม่มีเวลาเข้าถึงเนื้อหาที่ไม่ซ้ำใครอย่างแท้จริง
สรุปหมายเลข 2เนื้อหาที่ซ้ำกันจะส่งผลเสียต่อการส่งเสริมเว็บไซต์ในเครื่องมือค้นหา เครื่องมือค้นหาไม่ชอบข้อความที่ไม่ซ้ำกัน!
สรุปหมายเลข 3จำเป็นต้องตรวจสอบโปรเจ็กต์ของคุณเพื่อหาเพจที่ซ้ำกันเพื่อหลีกเลี่ยงปัญหาตามรายการด้านบน
หลายคนไม่สนใจเกี่ยวกับ "ความบริสุทธิ์" ของเนื้อหาเลย ด้วยความอยากรู้อยากเห็น ฉันตรวจสอบเว็บไซต์หลายแห่งและค่อนข้างประหลาดใจกับสถานะของหน้าที่ซ้ำกัน ในบล็อกของผู้หญิงคนหนึ่ง ฉันไม่พบไฟล์ robots.txt เลย
มีความจำเป็นต้องจัดการกับเนื้อหาที่ซ้ำกันอย่างจริงจังและจำเป็นต้องเริ่มต้นด้วยการระบุตัวตน
ตัวอย่างเนื้อหาที่ซ้ำกันทั่วไปและวิธีแก้ไขปัญหา
หน้าแรกซ้ำ ตัวอย่าง:
- http://site.com
- http://site.com/index.php.
ในกรณีนี้ ปัญหานี้ได้รับการแก้ไขโดยใช้การเปลี่ยนเส้นทาง 301 ซึ่งเป็น "คำสั่ง" สำหรับเซิร์ฟเวอร์ผ่านไฟล์ .htaccess
อีกตัวอย่างหนึ่งของโฮมเพจที่ซ้ำกัน:
- http://site.com
- http://www.site.com
เพื่อหลีกเลี่ยงการทำซ้ำดังกล่าว คุณสามารถลงทะเบียนมิเรอร์ของไซต์หลักในไฟล์ โรบ็อต.txtในคำสั่ง - เจ้าภาพสำหรับยานเดกซ์:
- โฮสต์: site.com
และยังใช้ 301 เปลี่ยนเส้นทางและชี้เครื่องมือค้นหา Yandex และ Google ไปที่มิเรอร์ของเว็บไซต์หลักโดยใช้เครื่องมือของผู้ดูแลเว็บ
ตัวอย่างของหน้าหลักที่ซ้ำกันซึ่งเกือบจะทำให้ฉันผิดหวังเมื่อมองหาวิธีแก้ไขมีลักษณะดังนี้:
- http://site.com
- http://site.com/
ฉันอ่านที่ไหนสักแห่งที่เครื่องหมายทับที่ส่วนท้ายของลิงก์ไปยังหน้าหลักสร้างลิงก์ที่ซ้ำกันและเครื่องมือค้นหารับรู้ลิงก์ที่มีและไม่มีเครื่องหมายทับเป็น URL ที่แตกต่างกันนำไปสู่หน้าที่มีข้อความเดียวกัน มันไม่ได้แม้แต่ความเป็นไปได้ของการทำซ้ำที่รบกวนฉัน แต่การสูญเสียน้ำหนักของหน้าหลักในสถานการณ์เช่นนี้
ฉันเริ่มขุด เมื่อร้องขอไปยังเซิร์ฟเวอร์ที่ URL ด้านบน ฉันได้รับรหัสตอบกลับ 200 รหัส 200 หมายถึง - "คำขอของผู้ใช้ได้รับการประมวลผลสำเร็จและการตอบสนอง เซิร์ฟเวอร์มีข้อมูลที่ร้องขอ จากนี้เป็นไปตามที่ใบหน้าเหมือนกันทั้งหมด
ฉันยังพยายามเปลี่ยนเส้นทาง 301 (เปลี่ยนเส้นทาง) แต่คำสั่งไม่ทำงาน และฉันไม่ได้รับรหัสตอบกลับ 301 ที่ต้องการ วิธีแก้ปัญหาคือการไม่มีตัวปัญหาเอง สำนวนออกมาเป็นเช่นนี้ ปรากฎว่า เบราว์เซอร์สมัยใหม่พวกเขาแทนที่อักขระ "/" ที่ส่วนท้ายของบรรทัดทำให้มองไม่เห็นซึ่งทำให้เป็นไปไม่ได้โดยอัตโนมัติ แบบนี้!
อีกตัวอย่างหนึ่งของหน้าหลักที่ซ้ำกัน:
- http://site.com
- https://site.com
มีหลายครั้งที่โดยความผิดพลาดของผู้ดูแลเว็บหรือข้อผิดพลาดในเครื่องมือค้นหา หรือภายใต้สถานการณ์อื่นๆ ลิงก์ภายใต้ลิงก์ที่ได้รับการป้องกันจะเข้าสู่ดัชนี https โปรโตคอล//. จะทำอย่างไรในกรณีเช่นนี้และจะหลีกเลี่ยงได้อย่างไรในอนาคต? แน่นอน คุณต้องลบลิงก์ที่มีโปรโตคอล https:// ออกจากการค้นหา แต่คุณจะต้องดำเนินการดังกล่าว คู่มือหมายถึงเครื่องมือสำหรับเว็บมาสเตอร์:
ในเครื่องมือค้นหา Yandex เว็บมาสเตอร์ - เว็บไซต์ของฉัน - ลบ URL:
สำคัญ !คำสั่งที่เขียนในไฟล์ robots.txt ป้องกันไม่ให้โรบ็อตค้นหารวบรวมข้อมูลข้อความ ซึ่งจะช่วยประหยัดไซต์ไม่ให้ซ้ำกัน แต่คำสั่งเดียวกันนี้ไม่ได้ห้ามการจัดทำดัชนี URL ของหน้า
อ่านเพิ่มเติมในบทความ:
มีอีกสวยครับ วิธีที่มีประสิทธิภาพคำจำกัดความของ "โคลน" โดยใช้เครื่องมือค้นหาเอง ใน Yandex ในช่องค้นหา คุณต้องขับรถ: link.site.com "ส่วนของการทดสอบ"ตัวอย่าง:
ยานเดกซ์พบ 2 รายการที่ตรงกันเนื่องจากฉันไม่ได้ปิดหมวดหมู่จากการจัดทำดัชนี ดังนั้นจึงมีรายการที่ตรงกับการประกาศ หน้าแรก. แต่ถ้าสำหรับ บล็อกการทำอาหารการมีส่วนร่วมของหัวข้อในการค้นหานั้นถูกต้องแล้วสำหรับหัวข้ออื่น ๆ เช่น SEO นั้นไม่จำเป็นและเป็นการดีกว่าที่จะปิดหมวดหมู่จากการจัดทำดัชนี
โดยใช้ ค้นหา Googleคุณสามารถตรวจสอบได้ดังนี้: site:site.com "ส่วนข้อความ".ตัวอย่าง:
โปรแกรมและบริการออนไลน์สำหรับค้นหาเนื้อหาที่ซ้ำกันภายในและภายนอกด้วยส่วนข้อความ
ฉันจะไม่ทำในบทความนี้ ภาพรวมโดยละเอียดโปรแกรมและบริการยอดนิยมฉันจะเน้นเฉพาะโปรแกรมที่ฉันใช้เป็นประจำเท่านั้น
หากต้องการค้นหารายการที่ซ้ำกันภายในและภายนอกฉันแนะนำให้คุณใช้บริการออนไลน์ www.miratools.ru นอกจากการตรวจสอบข้อความแล้ว บริการนี้ยังมีฟีเจอร์ที่น่าสนใจต่างๆ อีกด้วย
โปรแกรมสำหรับค้นหารายการซ้ำคือ Advego Plagiatus มาก โปรแกรมยอดนิยมส่วนตัวผมใช้มาตลอด การทำงานของโปรแกรมนั้นเรียบง่าย ในการตรวจสอบข้อความ เพียงคัดลอกและวางลงในหน้าต่างโปรแกรมแล้วคลิกเริ่ม
หลังจากการตรวจสอบแล้ว รายงานจะแสดงข้อความที่ไม่ซ้ำกันซึ่งตรวจสอบเป็นเปอร์เซ็นต์พร้อมลิงก์ไปยังแหล่งที่มาของการจับคู่:
นอกจากนี้ยังจะเน้น พื้นหลังสีเหลืองส่วนของข้อความเฉพาะที่โปรแกรมพบว่าตรงกัน:
มาก โปรแกรมที่ดีใช้และอย่าลืมสมัครรับข้อมูลอัปเดตบล็อก
พบกันใหม่!
ขอแสดงความนับถือ, คิริลลอฟ วิทาลี
เนื้อหาที่ซ้ำกัน หรือเรียกง่ายๆ ว่าซ้ำกัน คือหน้าต่างๆ บนไซต์ของคุณที่เหมือนกันทั้งหมด (ล้างข้อมูลซ้ำ) หรือบางส่วน (ทำซ้ำแบบคลุมเครือ) แต่แต่ละหน้ามี URL ต่างกัน หนึ่งหน้าสามารถมีหนึ่งหรือหลายรายการที่ซ้ำกัน
เนื้อหาที่ซ้ำกันปรากฏบนเว็บไซต์อย่างไร?
สำหรับทั้งความคมชัดและเลือนมีหลายสาเหตุ การล้างข้อมูลซ้ำอาจเกิดขึ้นได้จากสาเหตุต่อไปนี้
- ปรากฏขึ้นเนื่องจาก CMS ของไซต์ ตัวอย่างเช่น การใช้ replytocom ใน WordPress เมื่อเพิ่มความคิดเห็นใหม่ ระบบจะสร้างหน้าใหม่ที่ต่างกันเฉพาะใน URL โดยอัตโนมัติ
- อันเป็นผลมาจากข้อผิดพลาดของผู้ดูแลเว็บ
- เนื่องจากมีการเปลี่ยนแปลงโครงสร้างเว็บไซต์ ตัวอย่างเช่น เมื่อใช้เทมเพลตที่อัปเดตด้วย URL ใหม่
- สร้างโดยเจ้าของเว็บไซต์ ฟังก์ชั่นบางอย่าง. ตัวอย่างเช่น หน้าที่มีเวอร์ชันข้อความที่พิมพ์ได้
รายการซ้ำที่ไม่ชัดเจนบนไซต์ของคุณอาจปรากฏขึ้นเนื่องจากสาเหตุต่อไปนี้:
เหตุใดเนื้อหาที่ซ้ำกันจึงเป็นอันตรายต่อไซต์
- ส่งผลเสียต่อการโปรโมตในผลการค้นหาหุ่นยนต์ค้นหามีทัศนคติเชิงลบต่อเนื้อหาที่ซ้ำกัน และสามารถลดตำแหน่งใน SERP ได้เนื่องจากขาดความเป็นเอกลักษณ์ ดังนั้นจึงเป็นประโยชน์สำหรับลูกค้า มันไม่สมเหตุสมผลเลยที่จะอ่านสิ่งเดียวกันบนหน้าต่างๆ ของเว็บไซต์
- สามารถแทนที่หน้าที่เกี่ยวข้องอย่างแท้จริงโรบ็อตสามารถเลือกที่จะออกหน้าซ้ำได้หากเห็นว่าเนื้อหานั้นเกี่ยวข้องกับข้อความค้นหามากกว่า ในเวลาเดียวกันกฎสองเท่ามีตัวบ่งชี้ ปัจจัยด้านพฤติกรรมและ/หรือ เชื่อมโยงมวลต่ำกว่าหน้าเว็บที่คุณตั้งใจโปรโมต และนั่นหมายความว่าคู่จะแสดงในตำแหน่งที่แย่ที่สุด
- นำไปสู่การสูญเสียการเชื่อมโยงตามธรรมชาติเมื่อผู้ใช้สร้างลิงก์ที่ไม่ใช่ต้นแบบ แต่ลิงก์ไปยังลิงก์ที่ซ้ำกัน
- มีส่วนทำให้การกระจายน้ำหนักของลิงค์ภายในไม่ถูกต้องรายการที่ซ้ำกันจะแย่งน้ำหนักบางส่วนจากหน้าที่โปรโมต ซึ่งขัดขวางการโปรโมตในเครื่องมือค้นหาด้วย
จะตรวจสอบได้อย่างไรว่าคุณมีสำเนาซ้ำหรือไม่?
มีหลายวิธีในการตรวจสอบว่าหน้าไซต์ซ้ำกันหรือไม่
คุณพบรายการที่ซ้ำกันหรือไม่ เราอ่านวิธีทำให้เป็นกลาง:
- 301 เปลี่ยนเส้นทางวิธีนี้ถือว่าน่าเชื่อถือที่สุดเมื่อกำจัดสิ่งซ้ำที่ไม่จำเป็นในไซต์ของคุณ สาระสำคัญของวิธีการคือเปลี่ยนเส้นทางหุ่นยนต์ค้นหาจากหน้าที่ซ้ำไปยังหน้าหลัก ดังนั้น หุ่นยนต์จะข้ามการดับเบิ้ลและทำงานด้วยเท่านั้น หน้าที่ต้องการเว็บไซต์. เมื่อเวลาผ่านไป หลังจากตั้งค่าการเปลี่ยนเส้นทาง 301 แล้ว หน้าที่ซ้ำกันจะติดกันและหลุดออกจากดัชนี
- แท็ก . ที่นี่เราบอกเครื่องมือค้นหาว่าหน้าใดที่เรามีหน้าหลักสำหรับการจัดทำดัชนี ในการทำเช่นนี้คุณต้องป้อนแต่ละครั้ง รหัสพิเศษสำหรับหุ่นยนต์ค้นหา ซึ่งจะมีที่อยู่ของหน้าหลัก ที่จะไม่ทำ ผลงานที่คล้ายกันด้วยตนเอง มีปลั๊กอินพิเศษ
- ไม่อนุญาตใน robots.txt. ไฟล์ robots.txt เป็นคำสั่งชนิดหนึ่งสำหรับโรบ็อตการค้นหา ซึ่งระบุว่าหน้าใดควรทำดัชนีและหน้าใดไม่ควร หากต้องการปิดใช้งานการจัดทำดัชนีและต่อสู้กับรายการที่ซ้ำกัน ให้ใช้คำสั่ง Disallow ที่นี่ เช่นเดียวกับเมื่อตั้งค่าการเปลี่ยนเส้นทาง 301 สิ่งสำคัญคือต้องเขียนการแบนให้ถูกต้อง
จะลบรายการที่ซ้ำออกจากดัชนีเครื่องมือค้นหาได้อย่างไร
สำหรับยานเดกซ์นั้นจะลบรายการที่ซ้ำกันออกจากดัชนีโดยอิสระเมื่อ การตั้งค่าที่ถูกต้องไฟล์ robots.txt แต่สำหรับ Google คุณต้องกำหนดกฎในแท็บ "พารามิเตอร์ URL" ผ่าน Google Webmaster
หากคุณมีปัญหาในการตรวจสอบและกำจัดเนื้อหาที่ซ้ำกัน คุณสามารถติดต่อผู้เชี่ยวชาญของเราได้ตลอดเวลา เราจะพบองค์ประกอบที่น่าสงสัยทั้งหมด ตั้งค่าการเปลี่ยนเส้นทาง 301, robots.txt, rel="canonical" ทำการตั้งค่าใน Google โดยทั่วไป เราจะดำเนินการทั้งหมดเพื่อให้ไซต์ของคุณทำงานได้อย่างมีประสิทธิภาพ
เนื้อหาที่ซ้ำกันสามารถแบ่งออกเป็น สามประเภทใหญ่: ซ้ำกันโดยที่ URL สองรายการมีเนื้อหาเหมือนกันทุกประการ เนื้อหาที่มีความแตกต่างเล็กน้อย(ลำดับประโยค รูปต่างกันเล็กน้อย เป็นต้น) และ การทำซ้ำข้ามโดเมนซึ่งมีสำเนาที่ถูกต้องหรือมีการแก้ไขเล็กน้อยในหลายๆ โดเมน
มีสองแนวคิดที่เกี่ยวข้องกันซึ่งไม่นับรวม ธีมของ Googleเหมือนกับเนื้อหาที่ซ้ำกัน แต่มักจะสร้างความสับสนให้กับผู้เผยแพร่และ SEO ที่ไม่มีประสบการณ์:
- เนื้อหาบาง -ตามที่ระบุไว้ก่อนหน้านี้ หน้าเหล่านี้เป็นหน้าที่มีเนื้อหาน้อยมาก ตัวอย่างจะเป็นชุดของเพจที่สร้างขึ้นจากรายการที่อยู่ธุรกิจที่มีที่อยู่ 5,000 รายการ แต่แต่ละเพจมีที่อยู่เพียงรายการเดียว เพียงไม่กี่บรรทัด
- ตัดเนื้อหาหมวดหมู่นี้มีหน้าที่แตกต่างกันเล็กน้อย ลองนึกภาพไซต์ขายรองเท้า Nike Air Max ที่มีไซส์ 37, 37.5, 38, 38.5, 39, ... 46 หากไซต์มี หน้าแยกต่างหากสำหรับรองเท้าแต่ละขนาด ความแตกต่างระหว่างหน้าเหล่านี้ทั้งหมดจะไม่มีนัยสำคัญ ชอบ เอฟเฟกต์ของ Googleและโทร ตัดบาง
Google ไม่ชอบเนื้อหาที่บางหรือมีการตัดทอน เอฟเฟ็กต์เหล่านี้สามารถตรวจจับได้ด้วยอัลกอริทึม Panda . วิธีที่ Bing แยกความแตกต่างระหว่างการทำซ้ำเนื้อหา เนื้อหาบาง และการแบ่งส่วนเนื้อหานั้นไม่ชัดเจน แต่เป็นที่ชัดเจนว่าผู้เผยแพร่ควรหลีกเลี่ยงการสร้างหน้าประเภทนี้
เนื้อหาที่ซ้ำกันอาจเกิดขึ้นได้จากหลายสาเหตุ รวมถึงการขออนุญาตใช้เนื้อหาของไซต์ของคุณ ความบกพร่องของสถาปัตยกรรมไซต์เนื่องจากระบบจัดการเนื้อหาที่ไม่ได้ปรับให้เหมาะกับเครื่องมือค้นหา หรือการคัดลอกผลงาน ในช่วงห้าปีที่ผ่านมา นักส่งสแปมที่คลั่งไคล้เนื้อหาได้เริ่มที่จะคัดลอกเนื้อหาจากแหล่งที่ถูกต้อง จัดเรียงคำใหม่ผ่านกระบวนการที่ซับซ้อนต่างๆ และวางข้อความผลลัพธ์บนหน้าเว็บเพื่อดึงดูดการค้นหาแบบหางยาวและแสดงโฆษณาตามบริบท และสำหรับ วัตถุประสงค์อื่น ๆ ที่น่าอับอาย
ทุกวันนี้เราอยู่ในโลกของ "ปัญหาเนื้อหาซ้ำ" และ "บทลงโทษเนื้อหาซ้ำ" ต่อไปนี้เป็นคำจำกัดความที่จะเป็นประโยชน์สำหรับการสนทนาของเรา
- เนื้อหาที่ไม่ซ้ำใคร-เขียนขึ้นโดยมนุษย์ ซึ่งแตกต่างจากการรวมตัวอักษร สัญลักษณ์ และคำอื่นๆ อย่างสิ้นเชิง เวิลด์ไวด์เว็บไม่ได้รับผลกระทบจากอัลกอริทึมการประมวลผลคำของคอมพิวเตอร์ (เช่น เครื่องมือของผู้ส่งสแปมที่ใช้ Markov chains)
- ชิ้นส่วน -เนื้อหาเหล่านี้เป็นส่วนเล็กๆ (เช่น คำพูด) ที่คัดลอกและใช้ซ้ำแล้วซ้ำอีก แทบไม่เป็นปัญหาสำหรับเครื่องมือค้นหา โดยเฉพาะอย่างยิ่งเมื่อรวมอยู่ในเอกสารขนาดใหญ่ที่มีเนื้อหาเฉพาะจำนวนมาก
- โรคงูสวัด - เครื่องมือค้นหามองหากลุ่มวลีที่ค่อนข้างเล็ก (ห้าถึงหกคำ) ในหน้าอื่นๆ บนเวิลด์ไวด์เว็บ หากเอกสารสองฉบับใช้งูสวัดมากเกินไป เครื่องมือค้นหาอาจตีความเอกสารเหล่านี้ว่าเป็นเนื้อหาที่ซ้ำกัน
- ปัญหาเนื้อหาซ้ำ -วลีนี้มักจะใช้เพื่อระบุเนื้อหาที่ซ้ำกันซึ่งไซต์สามารถถูกลงโทษได้ เนื้อหาดังกล่าวเป็นเพียงสำเนาของหน้าที่มีอยู่ บังคับให้เครื่องมือค้นหาเลือกเวอร์ชันที่จะแสดงในดัชนี (นี่คือสิ่งที่เรียกว่า ตัวกรองเนื้อหาที่ซ้ำกัน)
- ตัวกรองเนื้อหาซ้ำ -สถานการณ์ที่เครื่องมือค้นหาลบเนื้อหาที่คล้ายกันออกจากผลการค้นหาเพื่อให้บริการ คะแนนสูงสุดผู้ใช้
- บทลงโทษเนื้อหาซ้ำ -มีการใช้ค่าปรับ (บทลงโทษ) น้อยมากและเฉพาะในสถานการณ์ที่ชัดเจนเท่านั้น เสิร์ชเอ็นจิ้นอาจลดอันดับหรือแบนหน้าที่เหลือของเว็บไซต์ และอาจแบนทั้งเว็บไซต์ด้วย
ผลที่ตามมาของเนื้อหาที่ซ้ำกัน
สมมติว่าเนื้อหาที่ซ้ำกันของคุณเป็นผลมาจากการกำกับดูแลที่ไม่เป็นอันตรายของนักพัฒนาซอฟต์แวร์ของคุณ เครื่องมือค้นหามักจะกรองหน้าที่ซ้ำออกทั้งหมดยกเว้นหน้าใดหน้าที่หนึ่ง เนื่องจากต้องการแสดงเนื้อหาที่ซ้ำกันเพียงเวอร์ชันเดียวในหน้าผลการค้นหา ในบางกรณี เครื่องมือค้นหาอาจกรองผลลัพธ์ก่อนที่จะรวมไว้ในดัชนี และในกรณีอื่นๆ อาจอนุญาตให้จัดทำดัชนีและกรองหน้าเมื่อเตรียมผลการค้นหาสำหรับข้อความค้นหาหนึ่งๆ ในกรณีหลังนี้ หน้าอาจถูกกรองเพื่อตอบสนองต่อบางคน คำขอบางอย่างและไม่ถูกกรองเพื่อผู้อื่น
ผู้ใช้ต้องการเห็นผลลัพธ์ที่หลากหลาย (ไม่ใช่ผลลัพธ์เดิมซ้ำแล้วซ้ำอีก) ดังนั้น เครื่องมือค้นหาจึงพยายามกรองเนื้อหาที่ซ้ำกันออก ซึ่งมีผลตามมาดังต่อไปนี้:
- หุ่นยนต์เสิร์ชเอ็นจิ้นมาที่ไซต์ด้วยงบประมาณการดูเฉพาะ ซึ่งแสดงเป็นจำนวนหน้าที่วางแผนจะดูในแต่ละเซสชัน ทุกครั้งที่พบหน้าซ้ำซึ่งจำเป็นต้องกรองออกจากผลการค้นหา คุณกำลังปล่อยให้โรบ็อตเสียงบประมาณในการท่องเว็บไปบางส่วน ซึ่งหมายความว่าจะมีการดูหน้าเว็บที่ "ดี" น้อยลง และส่งผลให้หน้าเว็บของคุณรวมอยู่ในดัชนีเครื่องมือค้นหาน้อยลง
- แม้ว่าเครื่องมือค้นหาจะพยายามกรองเนื้อหาที่ซ้ำกันออก ลิงก์ไปยังหน้าเนื้อหาที่ซ้ำกันยังคงส่งน้ำผลไม้ลิงก์ไปยังพวกเขา ดังนั้นเพจที่ซ้ำกันจะได้รับเพจแรงก์หรือลิงก์น้ำผลไม้ และเนื่องจากนั่นไม่ได้ช่วยจัดอันดับ ทรัพยากรนั้นจึงสูญเปล่า
- ไม่มีเครื่องมือค้นหาใดที่ให้คำอธิบายอย่างชัดเจนว่าอัลกอริทึมของพวกเขาเลือกหน้าเว็บเวอร์ชันใดที่จะแสดง กล่าวอีกนัยหนึ่ง หากพบสำเนาของเนื้อหาเดียวกันสามชุด สำเนาสองชุดจะกรองออกหรือไม่ อันไหนจะแสดง? ขึ้นอยู่กับ การค้นหา? ด้วยเหตุนี้ เครื่องมือค้นหาอาจแสดงเวอร์ชันที่ไม่ถูกต้องที่คุณต้องการ
แม้ว่าผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพบางคนอาจโต้แย้งกับบางประเด็นที่นำเสนอที่นี่ โครงสร้างทั่วไปแทบไม่มีใครคัดค้าน อย่างไรก็ตาม มีปัญหาหลายประการตามขอบเขตของโมเดลนี้
ตัวอย่างเช่น ไซต์ของคุณมีกลุ่มของหน้าผลิตภัณฑ์ รวมทั้งหน้าเหล่านั้นในเวอร์ชันที่พิมพ์ได้ เครื่องมือค้นหาอาจเลือกที่จะแสดงเวอร์ชันที่พิมพ์ได้ในผลลัพธ์ สิ่งนี้อาจเกิดขึ้นได้ในบางครั้ง และอาจเกิดขึ้นได้แม้ว่าหน้าที่พิมพ์ได้จะมีลิงก์น้ำผลไม้น้อยและอันดับต่ำกว่าหน้าผลิตภัณฑ์หลัก
หากต้องการแก้ไขปัญหานี้ ให้ใช้แอตทริบิวต์ลิงก์ rel="canonical" กับหน้าเว็บเวอร์ชันที่ซ้ำกันทั้งหมดเพื่อระบุเวอร์ชันหลัก
ตัวเลือกที่สองอาจปรากฏขึ้นเมื่อคุณรวบรวมเนื้อหาของคุณ (อนุญาตให้พิมพ์เนื้อหาของคุณซ้ำได้) บุคคลที่สาม. ปัญหาคือเครื่องมือค้นหาอาจละเว้นต้นฉบับของคุณจากผลการค้นหาและชอบเวอร์ชันที่ใช้โดยผู้ที่พิมพ์บทความของคุณซ้ำ มีวิธีแก้ปัญหาที่เป็นไปได้สามวิธีสำหรับปัญหานี้:
- ให้ผู้ที่เผยแพร่บทความของคุณซ้ำติดตั้ง ลิงก์ย้อนกลับไปยังบทความต้นฉบับบนไซต์ของคุณด้วยแอตทริบิวต์ rel=”canonical” สิ่งนี้จะแสดงให้เครื่องมือค้นหาทราบว่าสำเนาของเพจของคุณเป็นต้นฉบับ และลิงก์ใดๆ ที่ชี้ไปยังเพจที่รวบรวมไว้จะเครดิตไปที่ของคุณ หน้าเดิม;
- ให้พันธมิตรการเผยแพร่ของคุณครอบคลุมสำเนาของพวกเขาด้วยแอตทริบิวต์ noindex ในกรณีนี้ เนื้อหาที่ซ้ำกันจะไม่ได้รับการจัดทำดัชนี เครื่องมือค้นหา. นอกจากนี้ ลิงก์ใดๆ ในเนื้อหานี้ที่ไปยังไซต์ของคุณจะยังคงโอนสิทธิ์ให้กับคุณ
- ให้พันธมิตรของคุณเชื่อมโยงกลับไปที่หน้าเดิมบนไซต์ของคุณ เครื่องมือค้นหามักจะตีความสิ่งนี้อย่างถูกต้องและเน้นเนื้อหาเวอร์ชันของคุณ อย่างไรก็ตาม ควรสังเกตว่ามีบางกรณีที่ Google ระบุแหล่งที่มาของเนื้อหาอย่างผิดพลาดและมอบหมายผู้แต่งให้กับไซต์ที่เผยแพร่ซ้ำ โดยเฉพาะอย่างยิ่งหากไซต์นั้นมีอำนาจและความน่าเชื่อถือมากกว่าแหล่งที่มาดั้งเดิมที่แท้จริงของเนื้อหา
เครื่องมือค้นหารู้จักเนื้อหาที่ซ้ำกันได้อย่างไร
เราจะแสดงขั้นตอนการค้นหาเนื้อหาที่ซ้ำกันบนเวิลด์ไวด์เว็บสำหรับเครื่องมือ Google พร้อมตัวอย่าง ในตัวอย่างที่แสดงในรูป 1-4 ตั้งสมมติฐานสามข้อ:
- หน้าที่มีข้อความคือหน้าที่มีเนื้อหาที่ซ้ำกัน (ไม่ใช่เพียงส่วนย่อยของมัน ดังแสดงในรูป)
- ทุกหน้าที่มีเนื้อหาซ้ำกัน โดเมนที่แตกต่างกัน;
- ขั้นตอนที่แสดงด้านล่างได้รับการทำให้ง่ายขึ้นเพื่อให้กระบวนการง่ายและตรงไปตรงมาที่สุด นี่ไม่ใช่อย่างแน่นอน คำอธิบายที่ถูกต้อง การทำงานของกูเกิลแต่สื่อความหมาย
ข้าว. 1
ข้าว. 2
ข้าว. 3
ข้าว. 4
มีข้อเท็จจริงบางประการเกี่ยวกับเนื้อหาที่ซ้ำกันซึ่งสมควรได้รับการกล่าวถึงเป็นพิเศษ เนื่องจากอาจทำให้ผู้ดูแลเว็บที่ยังใหม่กับปัญหาเนื้อหาซ้ำเกิดความสับสนได้ ลองพิจารณาปัจจัยเหล่านี้
- ตำแหน่งของเนื้อหาที่ซ้ำกัน -หากเนื้อหาทั้งหมดนี้อยู่ในเว็บไซต์ของฉัน เนื้อหานั้นซ้ำกันหรือไม่ ได้ เนื่องจากเนื้อหาที่ซ้ำกันสามารถเกิดขึ้นได้ทั้งภายในไซต์เดียวกันและในไซต์ที่ต่างกัน
- เปอร์เซ็นต์ของเนื้อหาที่ซ้ำกัน -เปอร์เซ็นต์ของเพจต้องทำซ้ำเพื่อให้มีคุณสมบัติสำหรับการกรองเนื้อหาที่ซ้ำกัน ขออภัย เครื่องมือค้นหาไม่เคยเปิดเผยข้อมูลนี้เนื่องจากอาจส่งผลเสียต่อความสามารถในการป้องกันปัญหา
- เกือบจะแน่นอนว่าเปอร์เซ็นต์นี้เปลี่ยนแปลงตลอดเวลาสำหรับเครื่องยนต์ทั้งหมด และเมื่อตรวจพบเนื้อหาที่ซ้ำกัน ไม่เพียงแต่จะทำการเปรียบเทียบโดยตรงเท่านั้น บรรทัดล่างคือหน้าไม่จำเป็นต้องเหมือนกันจึงจะถือว่าซ้ำกัน
- ความสัมพันธ์ระหว่างรหัสและข้อความ -จะเกิดอะไรขึ้นหากโค้ดของเรามีขนาดใหญ่มาก แต่มีองค์ประกอบ HTML ที่ไม่ซ้ำใครบนหน้าเว็บ Google จะไม่คิดว่าทุกหน้าซ้ำกันหรือ? เลขที่ เครื่องมือค้นหาไม่สนใจรหัสของคุณ พวกเขาสนใจเนื้อหาของหน้าเว็บของคุณ ขนาดรหัสจะกลายเป็นปัญหาก็ต่อเมื่อมันมากเกินไป
- อัตราส่วนขององค์ประกอบการนำทางและเนื้อหาที่ไม่ซ้ำใคร -ทุกหน้าในไซต์ของฉันมีแถบนำทางขนาดใหญ่ มีส่วนหัวและส่วนท้ายจำนวนมาก แต่มีเนื้อหาน้อยมาก Google จะไม่ถือว่าหน้าทั้งหมดเหล่านี้ซ้ำกันหรือ เลขที่ Google (รวมถึง Yahoo! และ Bing) คำนึงถึงองค์ประกอบการนำทางก่อนที่จะประเมินหน้าเว็บสำหรับรายการที่ซ้ำกัน พวกเขาคุ้นเคยกับเค้าโครงของเว็บไซต์เป็นอย่างดี และเข้าใจว่าการมีโครงสร้างที่สอดคล้องกันในทุกหน้า (หรือหลายๆ หน้า) เป็นเรื่องปกติ พวกเขาให้ความสนใจกับส่วนที่ไม่ซ้ำกันของหน้าและไม่สนใจส่วนอื่น ๆ เกือบทั้งหมด
- เนื้อหาที่ได้รับอนุญาต -จะทำอย่างไรหากฉันต้องการหลีกเลี่ยงปัญหาเนื้อหาที่ซ้ำกัน แต่ฉันมีเนื้อหาจากแหล่งเว็บอื่นที่ฉันได้รับอนุญาตให้แสดงต่อผู้เยี่ยมชม ใช้โค้ด meta name = "robots" content="noindex, follow" ใส่เข้าไป หัวข้อหน้าของคุณและเครื่องมือค้นหาจะรู้ว่าเนื้อหานี้ไม่เหมาะสำหรับพวกเขา นี่เป็นแนวทางปฏิบัติที่ดีที่สุด เนื่องจากผู้คนจะยังสามารถเยี่ยมชมและเชื่อมโยงไปยังหน้านี้ได้ และลิงก์ในหน้านี้จะคงคุณค่าของพวกเขาไว้
อีกทางเลือกหนึ่งคือการได้รับสิทธิพิเศษในการเป็นเจ้าของเนื้อหานี้และเผยแพร่
การระบุและการกำจัดการละเมิดลิขสิทธิ์
หนึ่งใน วิธีที่ดีกว่าการติดตามรายการซ้ำบนไซต์ของคุณคือการใช้ CopyScape (copyscape.com) ซึ่งช่วยให้คุณเห็นหน้าเว็บเหล่านั้นบนเวิลด์ไวด์เว็บที่ใช้เนื้อหาของคุณได้ทันที ไม่ต้องกังวลหากหน้าของไซต์เหล่านี้อยู่ในดัชนีย่อยหรือมีอันดับต่ำกว่าของคุณอย่างมาก หากโดเมนขนาดใหญ่ที่เชื่อถือได้และมีเนื้อหาจำนวนมากพยายามที่จะต่อสู้กับสำเนาเนื้อหาทั้งหมดบนเวิลด์ไวด์เว็บ ต้องการ โดย อย่างน้อยสองคนให้เต็มที่ สัปดาห์การทำงาน. โชคดีที่เสิร์ชเอ็นจิ้นเชื่อถือไซต์ดังกล่าว ดังนั้นจึงถือว่าไซต์เหล่านั้นเป็นแหล่งดั้งเดิม
ในทางกลับกัน หากคุณมีไซต์ที่ค่อนข้างใหม่ หรือไซต์ที่มีลิงก์เข้ามาน้อย และผู้ลอกเลียนแบบมักจะอยู่ในอันดับที่สูงกว่าคุณ (หรือไซต์ที่ทรงพลังบางไซต์ขโมยงานของคุณ) มีหลายสิ่งที่คุณสามารถทำได้ ทางเลือกหนึ่งคือการส่งคำขอไปยังผู้จัดพิมพ์เพื่อขอให้ลบเนื้อหาที่ละเมิด ในบางกรณี ผู้เผยแพร่ก็ไม่ทราบเกี่ยวกับการละเมิดลิขสิทธิ์ อีกทางเลือกหนึ่งคือเขียนถึงผู้ให้บริการโฮสต์ บริษัทโฮสติ้งอาจต้องรับผิดชอบในการจัดระเบียบเนื้อหาที่ซ้ำกัน ดังนั้นพวกเขาจึงมักตอบสนองต่อคำขอดังกล่าวอย่างรวดเร็ว เพียงให้แน่ใจว่าคุณยินดีให้เอกสารมากที่สุดเท่าที่จะเป็นไปได้เพื่อพิสูจน์ความเป็นผู้เขียนของเนื้อหา
ตัวเลือกถัดไปคือการส่งการเรียกร้องการละเมิดลิขสิทธิ์ (DMCA) ไปยัง Google, Yahoo! และบิง คุณควรส่งคำขอเดียวกันนี้ไปยังบริษัทที่โฮสต์เว็บไซต์ของผู้กระทำความผิด
ตัวเลือกที่สองคือดำเนินการทางกฎหมายกับไซต์ที่ละเมิดหรือขู่ว่าจะทำเช่นนั้น หากไซต์ที่เผยแพร่ผลงานของคุณเป็นเจ้าของในประเทศของคุณ นี่อาจเป็นขั้นตอนแรกที่ฉลาดที่สุด คุณสามารถเริ่มด้วยการสื่อสารที่ไม่เป็นทางการมากขึ้นและขอให้ลบเนื้อหาออกก่อนที่จะส่งจดหมายอย่างเป็นทางการจากทนายความ เนื่องจากอาจใช้เวลาหลายเดือนก่อนที่มาตรการ DMCA จะมีผลบังคับใช้ แต่ถ้าคุณไม่ได้รับการตอบกลับ คุณก็ไม่มีเหตุผลที่จะต้องเลื่อนการดำเนินการที่ร้ายแรงกว่านี้ออกไป
มีประสิทธิภาพมากและ ตัวเลือกที่ไม่แพงสำหรับกระบวนการนี้คือทรัพยากร DCMA.com
สถานการณ์ที่มีจุดโทษจริง
ตัวอย่างก่อนหน้านี้แสดงวิธีการทำงานของตัวกรองเนื้อหาที่ซ้ำกัน แต่ไม่ใช่บทลงโทษ แม้ว่าในทางปฏิบัติแล้ว ผลกระทบจะเหมือนกับบทลงโทษ นั่นคือการลดอันดับของหน้าเว็บของคุณ อย่างไรก็ตาม มีบางสถานการณ์ที่สามารถมีค่าปรับจริงได้ ตัวอย่างเช่น ไซต์รวบรวมเนื้อหามีความเสี่ยง โดยเฉพาะอย่างยิ่งหากไซต์นั้นเพิ่มเนื้อหาที่ไม่ซ้ำใครเพียงเล็กน้อย ในสถานการณ์นี้ ไซต์สามารถถูกลงโทษได้จริงๆ
วิธีเดียวที่จะแก้ไขปัญหานี้คือการลดจำนวนหน้าที่ซ้ำกันในสไปเดอร์ของเครื่องมือค้นหา สิ่งนี้ทำได้โดยการลบออกโดยเพิ่มแอตทริบิวต์ตามรูปแบบบัญญัติให้กับรายการที่ซ้ำกัน โดยการเพิ่มแอตทริบิวต์ noindex ให้กับหน้าเอง หรือโดยการเพิ่มเนื้อหาที่ไม่ซ้ำจำนวนมาก
ตัวอย่างของเนื้อหาที่สามารถกรองได้บ่อยๆ ได้แก่ ไซต์พันธมิตร "บาง"มักเรียกว่าไซต์ที่ส่งเสริมการขายผลิตภัณฑ์ของผู้อื่นเพื่อรับค่าคอมมิชชั่น แต่ไม่ได้ให้ ข้อมูลใหม่. ไซต์ดังกล่าวสามารถรับคำอธิบายจากผู้ผลิตผลิตภัณฑ์และเพียงแค่สร้างคำอธิบายเหล่านั้นซ้ำพร้อมกับลิงก์ไปยังพันธมิตรเพื่อรับเงินจาก "การคลิก" หรือการซื้อ
ปัญหาเกิดขึ้นเมื่อผู้ขายมีพันธมิตรหลายพันรายที่ใช้เนื้อหาเดียวกัน - และวิศวกรเครื่องมือค้นหาได้รับคำติชมจากผู้ใช้ว่า (จากมุมมองของพวกเขา) ไซต์ดังกล่าวไม่ได้เพิ่มคุณค่าใดๆ ให้กับดัชนีของพวกเขา ดังนั้น เครื่องมือค้นหาจึงพยายามกรองไซต์ดังกล่าวออก หรือแม้แต่แยกออกจากดัชนี ไซต์จำนวนมากใช้โมเดล Affiliate แต่ยังมีเนื้อหาใหม่ที่สมบูรณ์ ดังนั้นพวกเขาจึงไม่มีปัญหา เครื่องมือค้นหาจะดำเนินการก็ต่อเมื่อมีทั้งเนื้อหาที่ซ้ำกันและไม่มีค่าที่ไม่ซ้ำกันในเวลาเดียวกัน
จะหลีกเลี่ยงเนื้อหาที่ซ้ำกันบนเว็บไซต์ได้อย่างไร?
ดังที่เราได้กล่าวไว้ก่อนหน้านี้ เนื้อหาที่ซ้ำกันสามารถสร้างได้หลายวิธี การทำสำเนาเนื้อหาภายในจำเป็นต้องใช้กลวิธีเฉพาะเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดในแง่ของการปรับให้เหมาะสมที่สุด ในหลายกรณี เพจที่ซ้ำกันคือเพจที่ไม่มีคุณค่าต่อผู้ใช้หรือเครื่องมือค้นหา หากเป็นกรณีนี้ ให้พยายามขจัดปัญหานี้ให้หมดไป ปรับแต่งการใช้งานเพื่อให้มีเพียงหนึ่ง URL ที่เชื่อมโยงไปยังแต่ละหน้า ทำการเปลี่ยนเส้นทาง 301 สำหรับ URL เก่าไปยัง URL ที่เหลือ , เพื่อช่วยให้เครื่องมือค้นหาเห็นการเปลี่ยนแปลงที่คุณทำโดยเร็วที่สุด และเก็บ "น้ำเชื่อม" ของหน้าที่ถูกลบไว้
หากเป็นไปไม่ได้แสดงว่ามีตัวเลือกอื่นมากมาย . ต่อไปนี้เป็นบทสรุปของแนวทางส่วนใหญ่ วิธีแก้ปัญหาง่ายๆสำหรับสถานการณ์ที่หลากหลาย:
- ใช้ไฟล์ robots.txt เพื่อบล็อกสไปเดอร์ของเครื่องมือค้นหาไม่ให้รวบรวมข้อมูลผ่านหน้าเว็บเวอร์ชันที่ซ้ำกันของไซต์ของคุณ
- ใช้องค์ประกอบ rel="canonical" - นี่เป็นวิธีแก้ปัญหาที่สอง (ที่ดีที่สุด) เพื่อกำจัดหน้าที่ซ้ำกัน
- ใช้ รหัส เพื่อให้ข้อบ่งชี้ เครื่องมือค้นหาเอ็นจิ้นไม่ทำดัชนีหน้าที่ซ้ำกัน
อย่างไรก็ตาม โปรดทราบว่าหากคุณใช้ไฟล์ robots.txt เพื่อป้องกันการดูหน้าเว็บ การใช้แอตทริบิวต์ noindex หรือ nofollow บนหน้าเว็บนั้นไม่สมเหตุสมผล เนื่องจากสไปเดอร์ไม่สามารถอ่านหน้านี้ได้ มันจะไม่เห็นแอตทริบิวต์ noindex หรือ nofollow เมื่อคำนึงถึงเครื่องมือเหล่านี้แล้ว มาดูสถานการณ์เนื้อหาที่ซ้ำกันที่เฉพาะเจาะจง
- ระบบจัดการเนื้อหาที่สร้างเนื้อหาซ้ำ -บางครั้งไซต์มีหน้าเว็บที่เหมือนกันหลายเวอร์ชัน นี่เป็นเพราะข้อจำกัดในระบบจัดการเนื้อหาบางระบบที่ระบุเนื้อหาเดียวกันด้วย URL มากกว่าหนึ่งรายการ โดยปกติแล้วนี่เป็นการทำซ้ำที่ไม่จำเป็นโดยสิ้นเชิงซึ่งไม่มีค่าสำหรับผู้ใช้ และวิธีแก้ไขที่ดีที่สุดคือลบหน้าที่ซ้ำกันออกและเปลี่ยนเส้นทาง 301 สำหรับ หน้าที่ถูกลบไปยังหน้าที่เหลือ หากไม่ได้ผล ให้ลองใช้วิธีอื่น (ระบุไว้ในตอนต้นของบทความนี้)
- หน้าที่พิมพ์ได้หรือตัวเลือกการเรียงลำดับมากมาย -ไซต์หลายแห่งเสนอหน้าที่พิมพ์ได้ซึ่งให้เนื้อหาเดียวกันแก่ผู้ใช้ในรูปแบบที่เป็นมิตรกับเครื่องพิมพ์ ไซต์อีคอมเมิร์ซบางแห่งเสนอรายการสินค้าของตนด้วยประเภทต่างๆ ที่เป็นไปได้ (ตามขนาด สี ยี่ห้อ และราคา) หน้าเหล่านี้มีค่าสำหรับผู้ใช้ แต่ไม่มีค่าสำหรับเครื่องมือค้นหา ดังนั้นจะปรากฏแก่พวกเขาว่าเป็นเนื้อหาที่ซ้ำกัน ในสถานการณ์เช่นนี้ คุณต้องใช้หนึ่งในตัวเลือกที่แสดงก่อนหน้านี้ในบล็อกนี้ หรือกำหนดค่า ตาราง CSSสำหรับการพิมพ์ (ตามที่อธิบายไว้ใน yoast.com/added-print-css-style-sheet/ โพสต์บนไซต์ Yoast)
- เนื้อหาที่ซ้ำกันในบล็อกและระบบการเก็บถาวร-บล็อกเป็นรูปแบบที่น่าสนใจสำหรับปัญหาเนื้อหาที่ซ้ำกัน โพสต์บล็อกสามารถปรากฏในหน้าต่างๆ ได้หลายหน้า: หน้าแรกบล็อก ในหน้าลิงก์ถาวรของโพสต์นี้ ในหน้าเก็บถาวร และในหน้าหมวดหมู่ แต่ละอินสแตนซ์ของโพสต์ซ้ำกับอินสแตนซ์อื่นๆ ผู้เผยแพร่โฆษณาไม่ค่อยพยายามจัดการกับปัญหาการมีอยู่ของโพสต์เป็น หน้าแรกบล็อกและในหน้าลิงก์ถาวร และเห็นได้ชัดว่าเครื่องมือค้นหาสามารถจัดการกับปัญหานี้ได้ค่อนข้างดี อย่างไรก็ตาม การแสดงเฉพาะส่วนของโพสต์ในหมวดหมู่และหน้าเก็บถาวรอาจเหมาะสม
- เนื้อหาซ้ำที่ผู้ใช้สร้างขึ้น (โพสต์ซ้ำ ฯลฯ) -ไซต์หลายแห่งใช้โครงสร้างเพื่อรับเนื้อหาที่ผู้ใช้สร้างขึ้น เช่น บล็อก ฟอรัม หรือกระดานข้อความ สิ่งเหล่านี้อาจเป็นวิธีที่ดีในการพัฒนา จำนวนมากเนื้อหาในราคาที่ต่ำมาก ปัญหาคือผู้ใช้สามารถโพสต์เนื้อหาเดียวกันบนไซต์ของคุณและไซต์อื่น ๆ ได้หลายไซต์พร้อมกัน ส่งผลให้เกิดเนื้อหาที่ซ้ำกัน เป็นการยากที่จะควบคุมสิ่งนี้ แต่สามารถพิจารณาสิ่งต่อไปนี้เพื่อลดปัญหา:
- คุณต้องมีนโยบายที่ชัดเจนซึ่งแจ้งให้ผู้ใช้ทราบว่าเนื้อหาที่พวกเขาส่งไปยังไซต์ของคุณต้องไม่ซ้ำกันและไม่สามารถโฮสต์บนไซต์อื่นได้ แน่นอนว่าเป็นเรื่องยากที่จะบรรลุผลสำเร็จ แต่จะช่วยให้เข้าใจความคาดหวังของคุณ
- ใช้ฟอรัมของคุณในแบบเฉพาะที่ต้องการเนื้อหาที่แตกต่างกัน นอกจากช่องป้อนข้อมูลมาตรฐานแล้ว ให้เพิ่มช่องเฉพาะบางช่อง (แตกต่างจากเว็บไซต์อื่นๆ) ซึ่งจะเป็นประโยชน์สำหรับผู้เยี่ยมชมเว็บไซต์ของคุณ
หน้า HTTPS -ถ้าคุณใช้ โปรโตคอล SSL(การแลกเปลี่ยนที่เข้ารหัสระหว่างเบราว์เซอร์และเว็บเซิร์ฟเวอร์ ซึ่งมักจะใช้ อีคอมเมิร์ซ) เว็บไซต์ของคุณจะมีหน้าที่ขึ้นต้นด้วย HTTPS: (แทน http :). ปัญหาเกิดขึ้นเมื่อลิงก์ในหน้า HTTPS ของคุณชี้ไปยังหน้าอื่นๆ บนเว็บไซต์โดยใช้ความสัมพันธ์แทน การเชื่อมโยงที่สมบูรณ์(ตัวอย่างเช่น ลิงก์ไปยังหน้าแรกของคุณจะกลายเป็น https://www.YourDomain.com แทนที่จะเป็น http://www.YourDomain.com)
หากไซต์ของคุณมีปัญหาดังกล่าว คุณสามารถใช้องค์ประกอบ rel="canonical" หรือการเปลี่ยนเส้นทาง 301 เพื่อแก้ไขได้ อีกวิธีหนึ่งคือเปลี่ยนลิงก์เป็นลิงก์สัมบูรณ์: http://www.YourDomain.com/content.html แทน /contenthtml) ซึ่งในขณะเดียวกันก็ทำให้ชีวิตยากขึ้นเล็กน้อยสำหรับผู้ที่ขโมยเนื้อหาของคุณ