Thứ Bảy, 30 tháng 10, 2021

thumbnail

Xếp hạng trang web

 

Mô tả sửa ]

Phim hoạt hình minh họa nguyên tắc cơ bản của Xếp hạng trang. Kích thước của mỗi khuôn mặt tỷ lệ với tổng kích thước của các khuôn mặt khác đang trỏ vào nó.

PageRanks là một thuật toán phân tích liên kết và nó chỉ định trọng số bằng số cho từng phần tử của một tập hợp tài liệu được siêu liên kết , chẳng hạn như World Wide Web , với mục đích "đo lường" tầm quan trọng tương đối của nó trong tập hợp đó. Các thuật toán có thể được áp dụng cho bất kỳ bộ sưu tập của các đối tượng với đối ứng trích dẫn và tham khảo. Trọng số mà nó gán cho bất kỳ phần tử E nhất định nào được gọi là Xếp hạng trang của E và được ký hiệu là

Xếp hạng Trang là kết quả từ một thuật toán toán học dựa trên trang web , được tạo bởi tất cả các trang World Wide Web dưới dạng các nút và siêu liên kết dưới dạng các cạnh, có tính đến các trung tâm quyền hạn như cnn.com hoặc mayoclinic.org . Giá trị xếp hạng cho biết tầm quan trọng của một trang cụ thể. Một siêu liên kết đến một trang được coi là một phiếu ủng hộ. Xếp hạng trang của một trang được xác định đệ quy và phụ thuộc vào số lượng và chỉ số Xếp hạng trang của tất cả các trang liên kết đến trang đó (" liên kết đến "). Một trang được liên kết với nhiều trang có Xếp hạng trang cao sẽ tự nhận được thứ hạng cao.

Nhiều bài báo học thuật liên quan đến PageRank đã được xuất bản kể từ bài báo gốc của Page và Brin. [5] Trong thực tế, khái niệm Xếp hạng trang có thể dễ bị thao túng. Nghiên cứu đã được thực hiện để xác định thứ hạng PageRank bị ảnh hưởng sai. Mục đích là tìm ra một phương tiện hiệu quả để bỏ qua các liên kết từ các tài liệu có Xếp hạng trang bị ảnh hưởng sai. [6]

Các thuật toán xếp hạng dựa trên liên kết khác cho các trang Web bao gồm thuật toán HITS được phát minh bởi Jon Kleinberg (được Teoma sử dụng và bây giờ là Ask.com ), dự án CLEVER của IBM thuật toán TrustRank và thuật toán Hummingbird . [7]

Lịch sử sửa ]

Các eigenvalue vấn đề đã được đề xuất vào năm 1976 bởi Gabriel Pinski và Francis Narin, người đã làm việc trên scientometrics xếp hạng tạp chí khoa học, [8] vào năm 1977 bởi Thomas Saaty trong khái niệm của ông Analytic Hierarchy Process mà lựa chọn thay thế có trọng số, [9] và vào năm 1995 bởi Bradley Love và Steven Sloman như một mô hình nhận thức cho các khái niệm, thuật toán trọng tâm. [10] [11]

Một công cụ tìm kiếm có tên " RankDex " từ Dịch vụ Thông tin IDD, được thiết kế bởi Robin Li vào năm 1996, đã phát triển một chiến lược cho điểm trang và xếp hạng trang. [12] Li gọi cơ chế tìm kiếm của mình là "phân tích liên kết", liên quan đến việc xếp hạng mức độ phổ biến của một trang web dựa trên số lượng các trang khác đã liên kết với nó. [13] RankDex, công cụ tìm kiếm đầu tiên với các thuật toán xếp hạng trang và điểm trang, được ra mắt vào năm 1996. [14] Li đã được cấp bằng sáng chế cho công nghệ này trong RankDex, với bằng sáng chế của anh ấy được nộp vào năm 1997 và được cấp vào năm 1999. [15] Sau đó, anh ấy đã sử dụng nó khi ông thành lập Baidu ở Trung Quốc vào năm 2000. [16] [17] Người sáng lập Google, Larry Pageđã đề cập đến công việc của Li như một trích dẫn trong một số bằng sáng chế tại Hoa Kỳ của anh ấy cho PageRank. [18] [14] [19]

Larry Page và Sergey Brin đã phát triển PageRank tại Đại học Stanford vào năm 1996 như một phần của dự án nghiên cứu về một loại công cụ tìm kiếm mới. Một cuộc phỏng vấn với Héctor García-Molina : Giáo sư Khoa học Máy tính Stanford và Cố vấn cho Sergey [20] cung cấp nền tảng về sự phát triển của thuật toán xếp hạng trang. [21] Sergey Brin có ý tưởng rằng thông tin trên web có thể được sắp xếp theo thứ bậc theo "mức độ phổ biến của liên kết": một trang xếp hạng cao hơn vì có nhiều liên kết hơn đến nó. [22] Hệ thống được phát triển với sự giúp đỡ của Scott Hassan và Alan Steremberg, cả hai đều được Page và Brin cho là rất quan trọng đối với sự phát triển của Google. [5] Rajeev Motwani và Terry Winograd đồng tác giả với Page và Brin bài báo đầu tiên về dự án, mô tả PageRank và nguyên mẫu ban đầu của công cụ tìm kiếm Google , được xuất bản vào năm 1998. [5] Ngay sau đó, Page và Brin thành lập Google Inc. , công ty đứng sau công cụ tìm kiếm Google. Mặc dù chỉ là một trong nhiều yếu tố quyết định xếp hạng kết quả tìm kiếm của Google, PageRank tiếp tục cung cấp cơ sở cho tất cả các công cụ tìm kiếm trên web của Google. [23]

Tên "Xếp hạng trang" đóng theo tên của nhà phát triển Larry Page, cũng như khái niệm về trang web . [24] [25] Từ này là thương hiệu của Google và quy trình Xếp hạng trang đã được cấp bằng sáng chế ( Bằng sáng chế Hoa Kỳ 6.285.999 ). Tuy nhiên, bằng sáng chế được giao cho Đại học Stanford chứ không phải cho Google. Google có quyền cấp phép độc quyền đối với bằng sáng chế của Đại học Stanford. Trường đại học đã nhận 1,8 triệu cổ phiếu của Google để đổi lấy việc sử dụng bằng sáng chế; nó đã bán cổ phiếu vào năm 2005 với giá 336 triệu đô la. [26] [27]

PageRank bị ảnh hưởng bởi phân tích trích dẫn , được phát triển sớm bởi Eugene Garfield vào những năm 1950 tại Đại học Pennsylvania, và bởi Hyper Search , được phát triển bởi Massimo Marchiori tại Đại học Padua . Trong cùng năm PageRank được giới thiệu (1998), Jon Kleinberg đã xuất bản công trình của mình trên HITS . Những người sáng lập Google đã trích dẫn Garfield, Marchiori và Kleinberg trong các bài báo gốc của họ. [5] [28]

Thuật toán sửa ]

Thuật toán Xếp hạng trang đưa ra một phân phối xác suất được sử dụng để biểu thị khả năng một người nhấp ngẫu nhiên vào các liên kết sẽ đến bất kỳ trang cụ thể nào. Xếp hạng trang có thể được tính toán cho các bộ sưu tập tài liệu ở bất kỳ kích thước nào. Trong một số tài liệu nghiên cứu, giả định rằng sự phân bố được chia đều cho tất cả các tài liệu trong bộ sưu tập khi bắt đầu quá trình tính toán. Việc tính toán Xếp hạng trang yêu cầu một số lần vượt qua, được gọi là "lần lặp", thông qua bộ sưu tập để điều chỉnh các giá trị Xếp hạng trang gần đúng để phản ánh chặt chẽ hơn giá trị thực trên lý thuyết.

Xác suất được biểu thị bằng giá trị số từ 0 đến 1. Xác suất 0,5 thường được biểu thị là "50% cơ hội" xảy ra điều gì đó. Do đó, một tài liệu có Xếp hạng trang là 0,5 có nghĩa là có 50% khả năng một người nhấp vào một liên kết ngẫu nhiên sẽ được chuyển đến tài liệu đó.

Thuật toán đơn giản hóa sửa ]

Giả sử một vũ trụ nhỏ của bốn trang web: Một , B , C , và D . Các liên kết từ một trang đến chính nó bị bỏ qua. Nhiều liên kết ra ngoài từ một trang này đến một trang khác được coi là một liên kết duy nhất. Xếp hạng trang được khởi tạo thành cùng một giá trị cho tất cả các trang. Ở dạng ban đầu của Xếp hạng trang, tổng Xếp hạng trang trên tất cả các trang là tổng số trang trên web tại thời điểm đó, vì vậy mỗi trang trong ví dụ này sẽ có giá trị ban đầu là 1. Tuy nhiên, các phiên bản sau của Xếp hạng trang và phần còn lại của phần này, giả sử phân phối xác suất từ 0 đến 1. Do đó giá trị ban đầu cho mỗi trang trong ví dụ này là 0,25.

PageRank được chuyển từ một trang nhất định đến các mục tiêu của các liên kết ra ngoài của nó trong lần lặp tiếp theo được chia đều cho tất cả các liên kết ra ngoài.

Nếu các liên kết duy nhất trong hệ thống là từ các trang B , C và D đến A , thì mỗi liên kết sẽ chuyển 0,25 PageRank đến A trong lần lặp tiếp theo, tổng cộng là 0,75.

Thay vào đó, giả sử rằng trang B có liên kết đến trang C và A , trang C có liên kết đến trang A và trang D có liên kết đến cả ba trang. Do đó, khi phiên đầu tiên, trang B sẽ chuyển một nửa giá trị hiện tại của nó, hoặc 0,125, trang Một và một nửa còn lại, hoặc 0,125, trang C . Trang C sẽ chuyển tất cả các giá trị hiện tại của nó, 0,25, để trang chỉ nó liên kết tới, Một . Vì D có ba liên kết ra ngoài, nó sẽ chuyển một phần ba giá trị hiện có của nó, hoặc khoảng 0,083, cho AKhi hoàn thành lần lặp này, trang A sẽ có Xếp hạng trang khoảng 0,458.

Nói cách khác, Xếp hạng Trang do một liên kết ra ngoài quy định bằng điểm Xếp hạng Trang của chính tài liệu chia cho số liên kết ngoài L () .

Trong trường hợp chung, giá trị Xếp hạng trang cho bất kỳ trang nào u có thể được biểu thị như sau:

,

tức là giá trị Xếp hạng trang cho một trang u phụ thuộc vào các giá trị Xếp hạng trang cho mỗi trang v chứa trong tập hợp u (tập hợp chứa tất cả các trang liên kết đến trang u ), chia cho số L ( v ) của các liên kết từ trang v .

Hệ số giảm chấn sửa ]

Lý thuyết Xếp hạng trang cho rằng một người lướt web tưởng tượng đang nhấp ngẫu nhiên vào các liên kết cuối cùng sẽ ngừng nhấp. Xác suất để người đó đi tiếp ở một bước bất kỳ là hệ số tắt dần d . Nhiều nghiên cứu khác nhau đã thử nghiệm các hệ số giảm chấn khác nhau, nhưng thường giả định rằng hệ số giảm chấn sẽ được đặt trong khoảng 0,85. [5]

Hệ số tắt dần được trừ đi 1 (và trong một số biến thể của thuật toán, kết quả được chia cho số tài liệu ( N ) trong bộ sưu tập) và số hạng này sau đó được cộng vào tích của hệ số tắt dần và tổng của điểm Xếp hạng Trang mới đến. Đó là,

Vì vậy, Xếp hạng Trang của bất kỳ trang nào cũng được bắt nguồn phần lớn từ Xếp hạng Trang của các trang khác. Hệ số tắt dần điều chỉnh giá trị bắt nguồn xuống dưới. Tuy nhiên, bài báo ban đầu đã đưa ra công thức sau đây, điều này đã dẫn đến một số nhầm lẫn:

Sự khác biệt giữa chúng là các giá trị PageRank trong tổng công thức đầu tiên một, trong khi trong công thức thứ hai mỗi PageRank được nhân với N và tổng trở nên N . Một tuyên bố trong bài báo của Page và Brin rằng "tổng của tất cả các PageRanks là một" [5] và tuyên bố của các nhân viên khác của Google [29] ủng hộ biến thể đầu tiên của công thức ở trên.

Page và Brin đã nhầm lẫn hai công thức trong bài báo phổ biến nhất của họ "Giải phẫu công cụ tìm kiếm web siêu văn bản quy mô lớn", nơi họ tuyên bố nhầm rằng công thức thứ hai tạo thành phân bố xác suất trên các trang web. [5]

Google tính toán lại điểm Xếp hạng Trang mỗi khi thu thập thông tin trên Web và xây dựng lại chỉ mục của nó. Khi Google tăng số lượng tài liệu trong bộ sưu tập của mình, thứ hạng đầu tiên của PageRank sẽ giảm đối với tất cả các tài liệu.

Công thức sử dụng mô hình của một người lướt ngẫu nhiên đến trang web mục tiêu của họ sau một vài lần nhấp, sau đó chuyển sang một trang ngẫu nhiên. Giá trị Xếp hạng trang của một trang phản ánh cơ hội mà người lướt ngẫu nhiên sẽ đến trang đó bằng cách nhấp vào một liên kết. Nó có thể được hiểu là một chuỗi Markov trong đó các trạng thái là các trang và các chuyển tiếp là các liên kết giữa các trang - tất cả đều có khả năng xảy ra như nhau.

Nếu một trang không có liên kết đến các trang khác, nó sẽ trở thành phần chìm và do đó chấm dứt quá trình lướt web ngẫu nhiên. Nếu người lướt ngẫu nhiên đến một trang chìm, nó sẽ chọn một URL khác một cách ngẫu nhiên và tiếp tục lướt lại.

Khi tính Xếp hạng Trang, các trang không có liên kết ra ngoài được giả định sẽ liên kết đến tất cả các trang khác trong bộ sưu tập. Do đó, điểm Xếp hạng Trang của họ được chia đều cho tất cả các trang khác. Nói cách khác, công bằng với các trang không bị chìm, những chuyển đổi ngẫu nhiên này được thêm vào tất cả các nút trong Web. Xác suất dư này, d , thường được đặt thành 0,85, được ước tính từ tần suất một người lướt sóng trung bình sử dụng tính năng đánh dấu của trình duyệt của họ. Vì vậy, phương trình như sau:

ở đâu  là các trang đang được xem xét,  là tập hợp các trang liên kết đến  là số lượng liên kết ngoài trên trang , và  là tổng số trang.

Các giá trị PageRank là các mục của chi phối ngay eigenvector của biến đổi ma trận kề rescaled để mỗi cột cho biết thêm lên đến một. Điều này làm cho PageRank trở thành một số liệu đặc biệt thanh lịch: eigenvector là

trong đó R là nghiệm của phương trình

nơi hàm kề là tỷ lệ giữa số liên kết đi từ trang j đến trang i với tổng số liên kết đi của trang j. Hàm kề là 0 nếu trang không liên kết với và chuẩn hóa như vậy, cho mỗi j

,

tức là các phần tử của mỗi cột tổng cộng bằng 1, do đó ma trận là ma trận ngẫu nhiên (để biết thêm chi tiết xem phần tính toán bên dưới). Vì vậy, đây là một biến thể của thước đo tính trung tâm của eigenvector được sử dụng phổ biến trong phân tích mạng .

Do eigengap lớn của ma trận kề đã sửa đổi ở trên, [30] các giá trị của định vị PageRank có thể được tính gần đúng với mức độ chính xác cao chỉ trong một vài lần lặp.

Những người sáng lập Google, trong bài báo gốc của họ, [28] đã báo cáo rằng thuật toán Xếp hạng trang cho một mạng bao gồm 322 triệu liên kết (trong và ngoài rìa) hội tụ trong một giới hạn có thể chấp nhận được trong 52 lần lặp. Sự hội tụ trong một mạng có kích thước bằng một nửa ở trên mất khoảng 45 lần lặp lại. Thông qua dữ liệu này, họ kết luận rằng thuật toán có thể được chia tỷ lệ rất tốt và hệ số tỷ lệ cho các mạng cực lớn sẽ gần như tuyến tính trong, với n là kích thước của mạng.

Theo kết quả của lý thuyết Markov , có thể chỉ ra rằng Xếp hạng trang của một trang là xác suất để đến trang đó sau một số lượng lớn nhấp chuột. Điều này xảy ra bằng ở đâu là kỳ vọng về số lượng nhấp chuột (hoặc số lần nhảy ngẫu nhiên) cần thiết để chuyển từ trang trở lại chính nó.

Một nhược điểm chính của PageRank là nó ưu tiên các trang cũ hơn. Một trang mới, thậm chí là một trang rất tốt, sẽ không có nhiều liên kết trừ khi nó là một phần của trang hiện có (một trang là một tập hợp các trang được kết nối dày đặc, chẳng hạn như Wikipedia ).

Một số chiến lược đã được đề xuất để đẩy nhanh việc tính toán Xếp hạng trang. [31]

Nhiều chiến lược khác nhau để thao túng Xếp hạng trang đã được sử dụng trong những nỗ lực phối hợp nhằm cải thiện thứ hạng kết quả tìm kiếm và kiếm tiền từ các liên kết quảng cáo. Những chiến lược này đã ảnh hưởng nghiêm trọng đến độ tin cậy của khái niệm Xếp hạng trang, cần dẫn nguồn ] nhằm xác định tài liệu nào thực sự được cộng đồng Web đánh giá cao.

Kể từ tháng 12 năm 2007, khi bắt đầu tích cực trừng phạt các trang web bán liên kết văn bản trả phí, Google đã chống lại các trang trại liên kết và các kế hoạch khác được thiết kế để tăng PageRank một cách giả tạo. Cách Google xác định các trang trại liên kết và các công cụ thao túng PageRank khác nằm trong số các bí mật thương mại của Google .

Tính toán sửa ]

Xếp hạng trang có thể được tính toán lặp lại hoặc theo đại số. Phương pháp lặp có thể được xem như phương pháp lặp lũy thừa [32] [33] hoặc phương pháp lũy thừa. Các phép toán cơ bản được thực hiện là giống hệt nhau.

Lặp lại sửa ]

Tại , một phân phối xác suất ban đầu được giả định, thường là

.

trong đó N là tổng số trang và  là trang tôi tại thời điểm 0.

Tại mỗi bước thời gian, tính toán, như được trình bày chi tiết ở trên, mang lại

trong đó d là hệ số tắt dần,

hoặc trong ký hiệu ma trận

,

 

 

 

 

1 )

ở đâu  và  là vectơ chiều dài của cột  chỉ chứa những cái.

Ma trận  được định nghĩa là

I E,

,

ở đâu biểu thị ma trận kề của đồ thị và là ma trận đường chéo với các độ lớn trong đường chéo.

Phép tính xác suất được thực hiện cho mỗi trang tại một thời điểm, sau đó lặp lại cho thời điểm tiếp theo. Việc tính toán kết thúc khi đối với một số

,

tức là, khi hội tụ được giả định.

Phương pháp lũy thừa sửa ]

Nếu ma trận  là một xác suất chuyển đổi, tức là cột ngẫu nhiên và  là một phân phối xác suất (tức là,  ở đâu là ma trận của tất cả các ma trận), khi đó phương trình ( 2 ) tương đương với

.

 

 

 

 

3 )

Do đó Xếp hạng Trang  là người điều hành chính của Một cách nhanh chóng và dễ dàng để tính toán điều này là sử dụng phương pháp lũy thừa : bắt đầu bằng một vectơ tùy ý, nhà điều hành  được áp dụng liên tiếp, tức là

,

cho đến khi

.

Lưu ý rằng trong phương trình ( 3 ), ma trận ở phía bên phải trong dấu ngoặc đơn có thể được hiểu là

,

ở đâu là một phân phối xác suất ban đầu. n trường hợp hiện tại

.

Cuối cùng, nếu  có các cột chỉ có giá trị 0, chúng phải được thay thế bằng vectơ xác suất ban đầu Nói cách khác,

,

ma trận ở đâu  được định nghĩa là

,

với

Trong trường hợp này, hai phép tính trên sử dụng  chỉ đưa ra cùng một Xếp hạng trang nếu kết quả của chúng được chuẩn hóa:

.

Thực hiện sửa ]

Scala / Apache Spark sửa ]

Một ví dụ điển hình là sử dụng lập trình chức năng của Scala với Apache Spark RDDs để tính toán Xếp hạng Trang một cách lặp đi lặp lại. [34] [35]

đối tượng  SparkPageRank  { 
  def  main ( args :  Array [ String ])  { 
    val  spark  =  SparkSession 
      . thợ xây dựng 
      . appName ( "SparkPageRank" ) 
      . getOrCreate ()

    val  iters  =  if  ( args . length  >  1 )  args ( 1 ). toInt  else  10 
    dòng val  = tia lửa . đọc . textFile ( args ( 0 )). rdd val links = lines . bản đồ { s => val part = s . split ( "\\ s +" ) ( phần ( 0 ),  
         
         
       phần ( 1 )) 
    }. khác biệt (). groupByKey (). bộ nhớ đệm ()
    
    var  rank  =  liên kết . mapValues ( v  =>  1.0 )

    cho  ( i  <-  1  để  iters )  { 
      val  đóng góp Của  =  liên kết . tham gia ( hàng ngũ ). các giá trị . flatMap {  case  ( urls ,  rank )  => 
        val  size  =  urls . kích thước 
        url . map ( url  =>  ( url ,  rank  /  size )) 
      } 
      rank  =  contribs . giảm bớt( _  +  _ ). mapValues ( 0,15  +  0,85  *  _ ) 
    }

     sản lượng  val =  cấp bậc . thu () 
    đầu ra . foreach ( tup  =>  println ( tup . _1  +  "có rank:"  +  tup . _2  +  "." ))

    tia lửa . dừng () 
  } 
}

MATLAB / Octave sửa ]

% Tham số M ma trận kề trong đó M_i, j đại diện cho liên kết từ 'j' đến 'i', sao cho tất cả 'j'
% sum (i, M_i, j) = 1
% Tham số d hệ số giảm chấn
% Tham số v_quadratic_error lỗi bậc hai cho v
% Return v, một vectơ xếp hạng sao cho v_i là xếp hạng thứ i từ [0, 1]

function  [v] = rank2 ( M, d, v_quadratic_error )  

N = kích thước ( M , 2 ); % N bằng một trong hai thứ nguyên của M và số lượng tài liệu    
v = rand ( N , 1 );   
v = v ./ quy chuẩn ( v , 1 ); % Đây bây giờ là L1, không phải L2        
last_v = ones ( N , 1 ) * inf ;     
M_hat = ( d . * M ) + ((( 1 - d ) / N ) . * Cái ( N , N ));             

trong khi ( định mức ( v - last_v , 2 ) > v_quadratic_error )      
	last_v = v ;  
	v = M_hat * v ;    
        % đã loại bỏ định mức L2 của PR lặp lại
kết thúc

hàm end % 

Ví dụ về mã gọi hàm xếp hạng được xác định ở trên:

M = [ 0 0 0 0 1 ; 0,5 0 0 0 0 ; 0,5 0 0 0 0 ; 0 1 0,5 0 0 ; 0 0 0,5 1 0] ;                              
rank2 ( M , 0,80 , 0,001 )  

Python sửa ]

Thuật toán "" "Xếp hạng trang với số lần lặp lại rõ ràng.

Trả về 
------- 
xếp hạng của các nút (trang) trong ma trận kề

"" "

nhập  numpy  dưới dạng  np

def  pagerank ( M ,  num_iterations :  int  =  100 ,  d :  float  =  0.85 ): 
    "" "PageRank: Thuật toán nghìn tỷ đô la.

    Tham số 
    ---------- 
    M: 
        ma trận kề 
mảng numpy trong đó M_i, j đại diện cho liên kết từ 'j' đến 'i', sao cho mọi 'j'         sum (i, M_i, j) = 1 
    num_iterations: int, 
        số lần lặp 
tùy chọn , theo mặc định 100     d: float, 
        hệ số giảm chấn tùy chọn , theo mặc định là 0,85

    Trả về 
    ------- 
    mảng numpy 
        một vectơ xếp hạng sao cho v_i là hạng thứ i từ [0, 1], 
        v tổng là 1

    """ 
    N  =  M . Hình dạng [ 1 ] 
    v  =  np . Ngẫu nhiên . Rand ( N ,  1 ) 
    v  =  v  /  np . Linalg . Định mức ( v ,  1 ) 
    M_hat  =  ( d  *  M  +  ( 1  -  d )  /  N ) 
    cho  tôi  trong  phạm vi ( num_iterations ):
        v  =  M_hat  @  v 
    return  v

M  =  np . mảng ([[ 0 ,  0 ,  0 ,  0 ,  1 ], 
              [ 0,5 ,  0 ,  0 ,  0 ,  0 ], 
              [ 0,5 ,  0 ,  0 ,  0 ,  0 ], 
              [ 0 ,  1 ,  0,5 ,  0 ,  0 ] , 
              [ 0 ,  0 ,  0,5 ,  1 ,  0]]) 
v  =  pagerank ( M ,  100 ,  0,85 )

Ví dụ này cần ≈13 lần lặp để hội tụ.

Các biến thể sửa ]

Xếp hạng trang của biểu đồ vô hướng sửa ]

Xếp hạng Trang của một biểu đồ vô hướng  gần về mặt thống kê với phân phối mức độ của biểu đồ [36] nhưng chúng thường không giống nhau: Nếu là vectơ Xếp hạng trang được định nghĩa ở trên và  là vectơ phân bố mức độ

ở đâu  biểu thị mức độ của đỉnh , và  là tập hợp các cạnh của biểu đồ, sau đó, với [37] cho thấy rằng:

nghĩa là, Xếp hạng trang của một đồ thị vô hướng bằng vectơ phân phối độ nếu và chỉ khi đồ thị là đều, tức là mọi đỉnh đều có cùng một mức độ.

Tổng quát về PageRank và tính trung tâm của eigenvector để xếp hạng các đối tượng thuộc hai loại sửa ]

Tổng quát về Xếp hạng trang cho trường hợp xếp hạng hai nhóm đối tượng tương tác đã được mô tả bởi Daugulis. [38] Trong các ứng dụng, có thể cần thiết phải mô hình hóa các hệ thống có các đối tượng thuộc hai loại trong đó quan hệ có trọng số được xác định trên các cặp đối tượng. Điều này dẫn đến việc xem xét đồ thị lưỡng phân . Đối với các đồ thị như vậy, hai ma trận bất khả quy dương hoặc không âm có liên quan có thể được xác định tương ứng với các tập phân vùng đỉnh. Người ta có thể tính toán thứ hạng của các đối tượng trong cả hai nhóm như là các giá trị riêng tương ứng với các giá trị riêng dương cực đại của các ma trận này. Các eigenvectors định mức tồn tại và là duy nhất theo định lý Perron hoặc Perron – Frobenius. Ví dụ: người tiêu dùng và sản phẩm. Quyền số quan hệ là tỷ lệ tiêu thụ sản phẩm.

Thuật toán phân tán cho tính toán Xếp hạng trang sửa ]

Sarma và cộng sự. mô tả hai thuật toán phân tán dựa trên bước đi ngẫu nhiên để tính Xếp hạng trang của các nút trong mạng. [39] Một thuật toán mất làm tròn với xác suất cao trên bất kỳ đồ thị nào (có hướng hoặc vô hướng), trong đó n là kích thước mạng và  là xác suất đặt lại (, được gọi là hệ số giảm xóc) được sử dụng trong tính toán Xếp hạng trang. Họ cũng trình bày một thuật toán nhanh hơn giúpvòng trong đồ thị vô hướng. Trong cả hai thuật toán, mỗi nút xử lý và gửi một số bit mỗi vòng có dạng đa thức tính bằng n, kích thước mạng.

Thanh công cụ của Google sửa ]

Các thanh công cụ Google từ lâu đã có một tính năng PageRank mà hiển thị PageRank một trang được truy cập như là một số nguyên từ 0 (phổ biến nhất) và 10 (phổ biến nhất). Google đã không tiết lộ phương pháp cụ thể để xác định giá trị Xếp hạng Trang trên Thanh công cụ, phương pháp này chỉ được coi là một dấu hiệu sơ bộ về giá trị của một trang web. "Thứ hạng trang của Thanh công cụ" đã có sẵn cho những người bảo trì trang web đã được xác minh thông qua giao diện Công cụ Quản trị Trang web của Google. Tuy nhiên, vào ngày 15 tháng 10 năm 2009, một nhân viên của Google xác nhận rằng công ty đã xóa PageRank khỏi phần Công cụ quản trị trang web của mình , nói rằng "Chúng tôi đã nói với mọi người từ lâu rằng họ không nên tập trung vào PageRank quá nhiều. chủ sở hữu dường như nghĩ rằng đó là chỉ số quan trọng nhấtđể họ theo dõi, điều này đơn giản là không đúng. " [40]

"Thứ hạng trang của Thanh công cụ" được cập nhật rất thường xuyên. Nó được cập nhật lần cuối vào tháng 11 năm 2013. Vào tháng 10 năm 2014 Matt Cutts thông báo rằng một bản cập nhật pagerank hiển thị khác sẽ không đến. [41] Vào tháng 3 năm 2016, Google thông báo sẽ không hỗ trợ tính năng này nữa và API cơ bản sẽ sớm ngừng hoạt động. [42] Vào ngày 15 tháng 4 năm 2016, Google đã chính thức tắt hiển thị Dữ liệu Xếp hạng Trang trong Thanh công cụ của Google. [43] Google sẽ vẫn sử dụng điểm Xếp hạng trang khi xác định cách xếp hạng nội dung trong kết quả tìm kiếm. [44]

Xếp hạng SERP sửa ]

Các trang kết quả công cụ tìm kiếm (SERP) là kết quả thực tế trả về bởi một công cụ tìm kiếm để đáp ứng với một truy vấn từ khóa. SERP bao gồm một danh sách các liên kết đến các trang web với các đoạn văn bản được liên kết. Xếp hạng SERP của một trang web đề cập đến vị trí của liên kết tương ứng trên SERP, nơi vị trí cao hơn có nghĩa là xếp hạng SERP cao hơn. Xếp hạng SERP của một trang web là một chức năng không chỉ của Xếp hạng Trang của nó, mà còn của một tập hợp các yếu tố tương đối lớn và được điều chỉnh liên tục (hơn 200). [45] Tối ưu hóa công cụ tìm kiếm (SEO) nhằm mục đích ảnh hưởng đến xếp hạng SERP cho một trang web hoặc một tập hợp các trang web.

Vị trí của một trang web trên Google SERPs cho một từ khóa phụ thuộc vào mức độ liên quan và danh tiếng, còn được gọi là thẩm quyền và mức độ phổ biến. Xếp hạng trang là dấu hiệu của Google về đánh giá danh tiếng của một trang web: Nó không phải là từ khóa cụ thể. Google sử dụng kết hợp trang web và cơ quan quản lý trang web để xác định thẩm quyền tổng thể của một trang web cạnh tranh cho một từ khóa. [46] Xếp hạng Trang của Trang chủ của một trang web là dấu hiệu tốt nhất mà Google cung cấp cho cơ quan quản lý trang web. [47]

Sau khi đưa Google Địa điểm vào SERP không phải trả tiền chính thống, nhiều yếu tố khác ngoài Xếp hạng Trang ảnh hưởng đến việc xếp hạng một doanh nghiệp trong Kết quả Kinh doanh Địa phương. [48] Khi Google giải thích chi tiết về lý do ngừng sử dụng PageRank tại Q&A #March 2016, họ đã công bố Liên kết và Nội dung là các yếu tố xếp hạng hàng đầu. Trước đó, RankBrain đã được công bố là Nhân tố xếp hạng số 3 vào tháng 10 năm 2015, vì vậy, các Nhân tố hàng đầu đã được xác nhận chính thức bởi Google. [49]

Xếp hạng trang của thư mục Google sửa ]

Các Danh bạ của Google PageRank là một đo lường 8 đơn vị. Không giống như Thanh công cụ của Google, hiển thị giá trị Xếp hạng trang bằng số khi di chuột qua thanh màu xanh lục, Danh bạ Google chỉ hiển thị thanh chứ không bao giờ hiển thị các giá trị số. Google Directory đã bị đóng vào ngày 20 tháng 7 năm 2011. [50]

Xếp hạng trang sai hoặc giả mạo sửa ]

Trước đây, Xếp hạng trang hiển thị trong Thanh công cụ rất dễ bị thao túng. Việc chuyển hướng từ trang này sang trang khác, thông qua phản hồi HTTP 302 hoặc thẻ meta "Làm mới" , khiến trang nguồn nhận được Xếp hạng trang của trang đích. Do đó, một trang mới có PR 0 và không có liên kết nào có thể có được PR 10 bằng cách chuyển hướng đến trang chủ của Google. Đây giả mạo kỹ thuật là một lỗ hổng được biết đến. Giả mạo thường có thể được phát hiện bằng cách thực hiện tìm kiếm trên Google cho một URL nguồn; nếu URL của một trang web hoàn toàn khác được hiển thị trong kết quả, thì URL thứ hai có thể đại diện cho đích của chuyển hướng.

Thao tác Xếp hạng Trang sửa ]

Vì mục đích tối ưu hóa công cụ tìm kiếm , một số công ty cung cấp bán các liên kết PageRank cao cho quản trị viên web. [51] Vì các liên kết từ các trang có PR cao hơn được cho là có giá trị hơn, chúng có xu hướng đắt hơn. Đây có thể là một chiến lược tiếp thị hiệu quả và khả thi để mua quảng cáo liên kết trên các trang nội dung có chất lượng và các trang có liên quan để thúc đẩy lưu lượng truy cập và tăng mức độ phổ biến liên kết của quản trị viên web. Tuy nhiên, Google đã cảnh báo công khai cho các quản trị viên web rằng nếu họ bị hoặc bị phát hiện bán các liên kết nhằm mục đích tạo ra PageRank và danh tiếng, các liên kết của họ sẽ bị giảm giá trị (bị bỏ qua trong cách tính PageRanks của các trang khác). Thực hành mua và bán [52] đang được tranh luận gay gắt trên cộng đồng Quản trị trang web. Google khuyên các quản trị viên web sử dụng giá trị thuộc tính nofollow HTML trên các liên kết được tài trợ. Theo Matt Cutts , Google lo ngại về việc các quản trị viên web cố gắng đánh lừa hệ thống , và do đó làm giảm chất lượng và mức độ liên quan của các kết quả tìm kiếm của Google. [51] Mặc dù Xếp hạng trang đã trở nên ít quan trọng hơn cho mục đích SEO, nhưng sự tồn tại của các liên kết ngược từ các trang web phổ biến hơn vẫn tiếp tục đẩy trang web lên cao hơn trong bảng xếp hạng tìm kiếm. [53]

Mô hình người lướt sóng được hướng dẫn sửa ]

Một người lướt sóng thông minh hơn có thể nhảy từ trang này sang trang khác tùy thuộc vào nội dung của các trang và cụm từ truy vấn mà người lướt sóng đang tìm kiếm. Mô hình này dựa trên điểm Xếp hạng trang phụ thuộc vào truy vấn của một trang mà như tên cho thấy cũng là một chức năng của truy vấn. Khi được cung cấp một truy vấn nhiều thuật ngữ,, người lướt sóng chọn một  theo một số phân phối xác suất, và sử dụng thuật ngữ đó để hướng dẫn hành vi của nó cho một số lượng lớn các bước. Sau đó, nó chọn một thuật ngữ khác theo sự phân phối để xác định hành vi của nó, v.v. Phân phối kết quả trên các trang web đã truy cập là QD-PageRank. [54]

Các thành phần xã hội sửa ]

Katja Mayer xem PageRank như một mạng xã hội vì nó kết nối các quan điểm và suy nghĩ khác nhau ở một nơi duy nhất. [55] Mọi người truy cập PageRank để tìm thông tin và tràn ngập các trích dẫn của các tác giả khác, những người cũng có ý kiến ​​về chủ đề này. Điều này tạo ra một khía cạnh xã hội, nơi mọi thứ có thể được thảo luận và thu thập để kích thích tư duy. Có một mối quan hệ xã hội tồn tại giữa PageRank và những người sử dụng nó vì nó liên tục thích nghi và thay đổi theo những thay đổi trong xã hội hiện đại. Xem mối quan hệ giữa Xếp hạng trang và cá nhân thông qua tính toán xã hội học cho phép nhìn sâu vào mối liên hệ tạo ra kết quả.

[56] Matteo Pasquinelli cho rằng cơ sở cho niềm tin rằng PageRank có một thành phần xã hội nằm trong ý tưởng về nền kinh tế chú ýVới nền kinh tế chú ý, giá trị được đặt vào các sản phẩm nhận được nhiều sự chú ý của con người hơn và kết quả ở đầu Xếp hạng trang thu hút được lượng tập trung lớn hơn so với các sản phẩm ở các trang tiếp theo. Do đó, kết quả với PageRank cao hơn sẽ đi vào ý thức con người ở một mức độ lớn hơn. Những ý tưởng này có thể ảnh hưởng đến việc ra quyết định và hành động của người xem có liên quan trực tiếp đến Xếp hạng trang. Họ có tiềm năng cao hơn để thu hút sự chú ý của người dùng vì vị trí của họ làm tăng nền kinh tế sự chú ý gắn liền với trang web. Với vị trí này, họ có thể nhận được nhiều lưu lượng truy cập hơn và thị trường trực tuyến của họ sẽ có nhiều lượt mua hơn. Xếp hạng Trang của các trang web này cho phép họ đáng tin cậy và họ có thể đưa sự tin tưởng này vào việc tăng cường kinh doanh.

Các mục đích sử dụng khác sửa ]

Toán học của Xếp hạng trang hoàn toàn chung chung và áp dụng cho bất kỳ đồ thị hoặc mạng nào trong bất kỳ miền nào. Do đó, PageRank hiện thường xuyên được sử dụng trong sinh trắc học, phân tích mạng xã hội và thông tin, cũng như dự đoán và đề xuất liên kết. Nó thậm chí còn được sử dụng để phân tích hệ thống mạng lưới đường, cũng như sinh học, hóa học, khoa học thần kinh và vật lý. [57]

Nghiên cứu khoa học và học thuật sửa ]

PageRank gần đây đã được sử dụng để định lượng tác động khoa học của các nhà nghiên cứu. Các mạng cộng tác và trích dẫn cơ bản được sử dụng cùng với thuật toán pagerank để đưa ra một hệ thống xếp hạng cho các ấn phẩm riêng lẻ truyền bá cho các tác giả riêng lẻ. Chỉ số mới được gọi là pagerank-index (Pi) được chứng minh là công bằng hơn so với chỉ số h trong bối cảnh chỉ số h có nhiều nhược điểm. [58]

Để phân tích mạng lưới protein trong sinh học, PageRank cũng là một công cụ hữu ích. [59] [60]

Trong bất kỳ hệ sinh thái nào, một phiên bản sửa đổi của Xếp hạng trang có thể được sử dụng để xác định các loài cần thiết cho sự lành mạnh liên tục của môi trường. [61]

Một cách sử dụng mới tương tự của PageRank là xếp hạng các chương trình học tiến sĩ dựa trên hồ sơ của họ về việc xếp sinh viên tốt nghiệp vào các vị trí giảng viên. Theo thuật ngữ của PageRank, các khoa học thuật liên kết với nhau bằng cách thuê giảng viên của họ từ nhau (và từ chính họ). [62]

Một phiên bản của PageRank gần đây đã được đề xuất thay thế cho yếu tố tác động truyền thống của Viện Thông tin Khoa học (ISI) [63] và được triển khai tại Eigenfactor cũng như tại SCImago . Thay vì chỉ đếm tổng số trích dẫn cho một tạp chí, "tầm quan trọng" của mỗi trích dẫn được xác định theo kiểu PageRank.

Trong khoa học thần kinh , Xếp hạng trang của một tế bào thần kinh trong mạng thần kinh đã được tìm thấy có mối tương quan với tốc độ kích hoạt tương đối của nó. [64]

Sử dụng Internet sửa ]

Xếp hạng Trang được Cá nhân hóa được Twitter sử dụng để giới thiệu cho người dùng các tài khoản khác mà họ có thể muốn theo dõi. [65]

Sản phẩm tìm kiếm trang web của Swiftype xây dựng "Xếp hạng trang cụ thể cho các trang web riêng lẻ" bằng cách xem xét các tín hiệu về tầm quan trọng của từng trang web và ưu tiên nội dung dựa trên các yếu tố như số lượng liên kết từ trang chủ. [66]

Một Web thu thập có thể sử dụng PageRank là một trong một số các số liệu quan trọng nó sử dụng để xác định URL để truy cập trong thu thập dữ liệu của trang web. Một trong những tài liệu làm việc ban đầu [67] đã được sử dụng để tạo ra Google là Thu thập thông tin hiệu quả thông qua việc sắp xếp URL , [68] thảo luận về việc sử dụng một số chỉ số quan trọng khác nhau để xác định mức độ sâu sắc và mức độ của một trang web Google sẽ bò. PageRank được trình bày là một trong số các chỉ số quan trọng này, mặc dù có những số liệu khác được liệt kê như số lượng liên kết đến và đi cho một URL và khoảng cách từ thư mục gốc trên một trang web đến URL.

PageRank cũng có thể được sử dụng như một phương pháp để đo lường tác động rõ ràng của một cộng đồng như Blogosphere trên chính trang Web tổng thể. Do đó, cách tiếp cận này sử dụng Xếp hạng trang để đo lường sự phân bổ của sự chú ý theo mô hình mạng không quy mô. cần dẫn nguồn ]

Các ứng dụng khác sửa ]

Năm 2005, trong một nghiên cứu thử nghiệm ở Pakistan, Nền dân chủ sâu sắc có cấu trúc, SD2 [69] [70] đã được sử dụng để lựa chọn lãnh đạo trong một nhóm nông nghiệp bền vững có tên là Liên lạc với Thanh niên. SD2 sử dụng Xếp hạng Trang để xử lý các phiếu bầu ủy nhiệm bắc cầu, với các ràng buộc bổ sung là ủy quyền ít nhất hai ủy quyền ban đầu cho mỗi cử tri và tất cả cử tri đều là ứng cử viên ủy nhiệm. Các biến thể phức tạp hơn có thể được xây dựng dựa trên SD2, chẳng hạn như thêm proxy chuyên gia và phiếu bầu trực tiếp cho các vấn đề cụ thể, nhưng SD2 với tư cách là hệ thống ô cơ bản, bắt buộc phải luôn sử dụng proxy chung.

Trong thể thao, thuật toán Xếp hạng trang đã được sử dụng để xếp hạng hiệu suất của: các đội trong Liên đoàn Bóng bầu dục Quốc gia (NFL) ở Hoa Kỳ; [71] cầu thủ bóng đá cá nhân; [72] và các vận động viên trong Diamond League. [73]

Xếp hạng trang đã được sử dụng để xếp hạng các không gian hoặc đường phố để dự đoán có bao nhiêu người (người đi bộ hoặc xe cộ) đến các không gian hoặc đường phố riêng lẻ. [74] [75] Trong ngữ nghĩa từ vựng nó đã được sử dụng để thực hiện nhập nhằng , [76] Semantic giống nhau , [77] và cũng để tự động cấp bậc WordNet synsets theo cách mạnh mẽ mà họ sở hữu một tài sản ngữ nghĩa nhất định, chẳng hạn như độ tích cực hay sự tiêu cực. [78]

nofollow sửa ]

Vào đầu năm 2005, Google đã triển khai một giá trị mới, " nofollow ", [79] cho thuộc tính rel của liên kết HTML và các phần tử liên kết, để các nhà phát triển trang web và người viết blog có thể tạo các liên kết mà Google sẽ không xem xét cho các mục đích của PageRank — chúng là các liên kết không còn tạo thành "phiếu bầu" trong hệ thống Xếp hạng Trang. Mối quan hệ nofollow đã được thêm vào trong một nỗ lực để giúp chống lại spamdexing .

Ví dụ: trước đây mọi người có thể tạo nhiều bài đăng trên bảng tin với các liên kết đến trang web của họ để tăng Xếp hạng Trang của họ một cách giả tạo. Với giá trị nofollow, quản trị viên bảng tin có thể sửa đổi mã của họ để tự động chèn "rel = 'nofollow'" vào tất cả các siêu liên kết trong bài đăng, do đó ngăn PageRank bị ảnh hưởng bởi các bài đăng cụ thể đó. Tuy nhiên, phương pháp tránh này cũng có nhiều nhược điểm khác nhau, chẳng hạn như làm giảm giá trị liên kết của các bình luận hợp pháp. (Xem: Spam trong blog # nofollow )

Trong nỗ lực kiểm soát luồng PageRank theo cách thủ công giữa các trang trong một trang web, nhiều quản trị viên web thực hành cái được gọi là PageRank Sculpting [80] —đó là hành động đặt thuộc tính nofollow một cách chiến lược trên các liên kết nội bộ nhất định của trang web để tạo kênh Xếp hạng trang đối với những trang mà quản trị viên web cho là quan trọng nhất. Chiến thuật này đã được sử dụng kể từ khi có thuộc tính nofollow, nhưng có thể không còn hiệu quả nữa kể từ khi Google thông báo rằng việc chặn chuyển PageRank bằng nofollow không chuyển hướng PageRank đó đến các liên kết khác. [81]

Xem thêm sửa ]

Tài liệu tham khảo sửa ]

Trích dẫn sửa ]

  1. "Sự thật về Google và sự cạnh tranh" . Bản gốc lưu trữ ngày 4 tháng 11 năm 2011 Truy cập ngày 12 tháng 7 năm 2014 .
  2. ^ Sullivan, Danny (2007-04-26). "Xếp hạng Trang của Google là gì? Hướng dẫn dành cho Người tìm kiếm & Quản trị viên web" . Vùng đất Công cụ Tìm kiếm . Bản gốc lưu trữ vào ngày 17 tháng 7 năm 2016.
  3. ^ Cutts, Matt. "Các thuật toán Xếp hạng các Kết quả Có Liên quan Cao hơn" . Bản gốc lưu trữ ngày 2 tháng 7 năm 2013 Truy cập ngày 19 tháng 10 năm 2015 .
  4. "US7058628B1 - Phương pháp xếp hạng nút trong cơ sở dữ liệu được liên kết - Bằng sáng chế của Google" . Bằng sáng chế của Google . Bản gốc lưu trữ ngày 16 tháng 1 năm 2020 Truy cập ngày 14 tháng 9 năm 2019 .
  5. Chuyển đến:g Brin, S.; Trang, L.(1998). "Giải phẫu công cụ tìm kiếm Web siêu văn bản quy mô lớn"(PDF)Mạng Máy tính và Hệ thống ISDN30(1–7): 107–117. CiteSeerX 10.1.1.115.5930 . doi:10.1016 / S0169-7552 (98) 00110-XISSN0169-7552Đã lưu trữ(PDF)từ bản gốc vào ngày 27 tháng 9 năm 2015.  
  6. ^ Gyöngyi, Zoltán; Berkhin, Pavel; Garcia-Molina, Hector; Pedersen, Jan (2006), "Phát hiện spam liên kết dựa trên ước tính khối lượng", Kỷ yếu của Hội nghị Quốc tế lần thứ 32 về Cơ sở Dữ liệu Rất lớn (VLDB '06, Seoul, Hàn Quốc) (PDF) , trang 439–450, lưu trữ (PDF ) từ bản gốc vào ngày 12 tháng 12 năm 2014 .
  7. "Câu hỏi thường gặp: Tất cả về Thuật toán" Hummingbird "mới của Google . Vùng đất Công cụ Tìm kiếm . Ngày 26 tháng 9 năm 2013. Bản gốc lưu trữ ngày 23 tháng 12 năm 2018 Truy cập ngày 18 tháng 12 năm 2018 .
  8. ^ Gabriel Pinski & Francis Narin (1976). "Ảnh hưởng của trích dẫn đối với các tạp chí tổng hợp các ấn phẩm khoa học: Lý thuyết, với ứng dụng vào tài liệu vật lý". Xử lý & Quản lý Thông tin12 (5): 297–312. doi : 10.1016 / 0306-4573 (76) 90048-0 .
  9. ^ Thomas Saaty (1977). "Một phương pháp chia tỷ lệ cho các mức độ ưu tiên trong cấu trúc phân cấp". Tạp chí Tâm lý học Toán học . 15 (3): 234–281. doi : 10.1016 / 0022-2496 (77) 90033-5 . hdl : 10338.dmlcz / 101787 .
  10. ^ Bradley C. Love & Steven A. Sloman. "Tính đột biến và các yếu tố quyết định khả năng biến đổi của khái niệm" (PDF) . Kỷ yếu Hội nghị thường niên lần thứ mười bảy của Hiệp hội Khoa học Nhận thức . trang 654–659. Bản gốc đã lưu trữ (PDF) vào ngày 23 tháng 12 năm 2017 Truy cập ngày 23 tháng 12 năm 2017 .
  11. "Làm thế nào một sinh viên chưa tốt nghiệp của CogSci đã phát minh ra PageRank trước Google ba năm" . bradlove.org. Bảngốc lưu trữ ngày 12 tháng 11 năm 2017 Truy cập ngày 23tháng 12 năm 2017 .
  12. ^ Li, Yanhong (ngày 6 tháng 8 năm 2002). "Hướng tới công cụ tìm kiếm định tính". Máy tính Internet IEEE . 2 (4): 24–29. doi : 10.1109 / 4236.707687 .
  13. "Sự trỗi dậy của Baidu (Đó là tiếng Trung của Google)" . Thời báo New York . Ngày 17 tháng 9 năm 2006. Bản gốc lưu trữngày 27 tháng 6 năm 2019 Truy cập ngày 16 tháng 6 năm 2019.
  14. Chuyển đến:b "Giới thiệu: RankDex" Được lưu trữ2015-05-25 tạiWayback Machine,RankDextruy cập ngày 3 tháng 5 năm 2014.
  15. ^ USPTO, "Hệ thống và phương pháp truy xuất tài liệu siêu văn bản" được lưu trữ ngày 5 tháng 12 năm2011 tại Wayback Machine , Số bằng sáng chế Hoa Kỳ: 5920859, Nhà phát minh: Yanhong Li, Ngày nộp hồ sơ: 5 tháng 2 năm 1997, Ngày cấp: 6 tháng 7 năm 1999
  16. ^ Greenberg, Andy, "The Man Who's Beating Google" Lưu trữ 2013-03-08 tại Wayback Machine , tạp chí Forbes , ngày 05 tháng 10 năm 2009
  17. ^ "Giới thiệu: RankDex" Được lưu trữ 2012-02-02 tạiWebCite , rankdex.com
  18. "Phương pháp xếp hạng nút trong cơ sở dữ liệu được liên kết" . Bằng sáng chế của Google. Bản gốc lưu trữ ngày 15 tháng 10 năm 2015 Truy cập ngày 19 tháng 10 năm 2015 .
  19. ^ Altucher, James (ngày 18 tháng 3 năm 2011). "10 điều bất thường về Google" . Forbes . Bản gốc lưu trữ ngày 16 tháng 6 năm 2019 Truy cập ngày 16 tháng 6 năm 2019 .
  20. ^ Greg Wientjes. "Hector Garcia-Molina: Giáo sư Khoa học Máy tính Stanford và Cố vấn cho Sergey" . trang phút 25,45-32,50, 34,00–38,20 Truy cập ngày 12 tháng 12 năm 2019 .
  21. ^ Page, Larry, "Xếp hạng trang: Đưa thứ tự lên web" . Bản gốc lưu trữ ngày 6 tháng 5 năm 2002 Truy cập ngày 9 tháng 11 năm 2016 ., Dự án Thư viện Kỹ thuật số Stanford, nói chuyện. 18 tháng 8 năm 1997 (lưu trữ năm 2002)
  22. ^ Nghiên cứu dài 187 trang từ Đại học Graz, Áo được lưu trữ 2014-01-16 tại Wayback Machine , bao gồm lưu ý rằng não người cũng được sử dụng khi xác định thứ hạng trang trong Google.
  23. "Sản phẩm và dịch vụ của chúng tôi" . Bản gốc lưu trữngày 26 tháng 6 năm 2008 Truy cập ngày 27 tháng 5 năm 2011.
  24. ^ David Vise & Mark Malseed (2005). Câu chuyện của Google . P. 37 . ISBN 978-0-553-80457-7.
  25. "Google Press Center: Fun Facts" . Bản gốc lưu trữ vào ngày 2001-07-15.
  26. ^ Lisa M. Krieger (ngày 1 tháng 12 năm 2005). "Stanford kiếm được 336 triệu đô la từ cổ phiếu Google" . San Jose Mercury News . Bản gốc lưu trữ ngày 8 tháng 4 năm 2009 Lấy 2009/02/25 - qua trích dẫn bởi redOrbit.
  27. ^ Richard Brandt. "Khởi động. Cách Google tìm hiểu" . Tạp chí Stanford. Bản gốc lưu trữ ngày 3 tháng 3 năm 2009 Lấy 2009/02/25 .
  28. Chuyển đến:b Trang, LawrenceBrin, SergeyMotwani, RajeevWinograd, Terry(1999). Xếp hạng trích dẫn PageRank: Đưa thứ tự lên Web(Báo cáo). Bảngốclưu trữngày 4 tháng 4 năm 2006., được xuất bản dưới dạng báo cáo kỹ thuật vào ngày 29 tháng 1 năm 1998 PDF Lưu trữ 2011/08/18 tại Wayback Machine
  29. ^ Blog của Matt Cutts : Trực tiếp từ Google: Những điều bạn cần biết Đã lưu trữ 2010-02-07 tại Wayback Machine , xem trang 15 trong các trang trình bày của anh ấy.
  30. ^ Taher Haveliwala & Sepandar Kamvar (tháng 3 năm 2003). "Giá trị thứ hai của Ma trận Google" (PDF) . Báo cáo kỹ thuật của Đại học Stanford : 7056. arXiv : math / 0307056 . Mã bib : 2003math ...... 7056N . Bản gốc đã lưu trữ (PDF) vào ngày 17 tháng 12 năm 2008.
  31. ^ Gianna M. Del Corso; Antonio Gullí; Francesco Romani (2005). Tính toán xếp hạng trang nhanh qua hệ thống tuyến tính thưa thớt . Toán học Internet . Ghi chú Bài giảng Khoa học Máy tính. 2 . trang 118–130. CiteSeerX 10.1.1.58.9060 . doi : 10.1007 / 978-3-540-30216-2_10 . ISBN  978-3-540-23427-2Bản gốc lưu trữ ngày 02 tháng 02 năm 2014.
  32. ^ Arasu, A. và Novak, J. và Tomkins, A. và Tomlin, J. (2002). "Tính toán Xếp hạng trang và cấu trúc của web: Thử nghiệm và thuật toán". Kỷ yếu của Hội nghị Web Toàn cầu Quốc tế lần thứ 11, Theo dõi Áp phích . Thành phố ven sông Brisbane, là thủ phủ của Qeensland, miền đông nước Úc. trang 107–117. CiteSeerX 10.1.1.18.5264 . 
  33. ^ Massimo Franceschet (2010). "PageRank: Đứng trên vai người khổng lồ". arXiv : 1002.2858 [ cs.IR ].
  34. "Triển khai Xếp hạng Trang Spark | Github" . Bản gốc lưu trữ ngày 8 tháng 8 năm 2020 Truy cập ngày 21 tháng 3 năm 2020 .
  35. "Hiểu thuật toán Xếp hạng trang & triển khai Spark | Bằng ví dụ" . Ngày 10 tháng 9 năm 2021.
  36. ^ Nicola Perra và Santo Fortunato; Fortunato (tháng 9 năm 2008). "Các phép đo độ trung tâm của phổ trong mạng phức tạp". Thể chất. Rev. E . 78 (3): 36107. arXiv : 0805.3322 . Mã Bib : 2008PhRvE..78c6107P . doi : 10.1103 / PhysRevE.78.036107 . PMID 18851105 . S2CID 1755112.  
  37. ^ Vince Grolmusz (2015). "Lưu ý về Xếp hạng trang của đồ thị không có hướng". Thư Xử lý Thông tin . 115 (6–8): 633–634. arXiv : 1205.1960 . doi : 10.1016 / j.ipl.2015.02.015 . S2CID 9855132 . 
  38. ^ Peteris Daugulis; Daugulis (2012). "Lưu ý về tổng quát hóa tính trung tâm của eigenvector cho các ứng dụng và đồ thị lưỡng phân". Mạng . 59 (2): 261–264. arXiv : 1610.01544 . doi : 10.1002 / net.20442 . S2CID 1436859 . 
  39. ^ Atish Das Sarma; Anisur Rahaman Molla; Gopal Pandurangan; Eli Upfal (2015). "Tính toán xếp hạng trang được phân phối nhanh". Khoa học máy tính lý thuyết . 561 : 113–121. arXiv : 1208.3071 . doi : 10.1016 / j.tcs.2014.04.003 . S2CID 10284718 . 
  40. ^ Susan Moskwa. "Phân phối thứ hạng trang đã bị xóa khỏi WMT" . Bản gốc lưu trữ ngày 17 tháng 10 năm 2009 Truy cập ngày 16 tháng 10 năm 2009 .
  41. ^ Bartleman, Wil (2014-10-12). "Cập nhật Xếp hạng Trang của Google không đến" . Quản trị viên được quản lý. Bản gốc lưu trữ ngày 4 tháng 4 năm 2015 Truy cập ngày 10 tháng 10 năm 2014 .
  42. Schwartz, Barry (ngày 8 tháng 3 năm 2016). "Google đã xác nhận rằng họ đang xóa Xếp hạng Trang của Thanh công cụ" . Vùng đất Công cụ Tìm kiếm . Bản gốc lưu trữ ngày 10 tháng 3 năm 2016.
  43. ^ Schwartz, Barry (ngày 18 tháng 4 năm 2016). "Xếp hạng Trang trên Thanh công cụ của Google chính thức ngừng hoạt động" . Vùng đất Công cụ Tìm kiếm . Bản gốc lưu trữ ngày 4 tháng 4 năm 2016.
  44. ^ Southern, Matt (2016-04-19). "Google PageRank chính thức đóng cửa cho công chúng" . Tạp chí Công cụ Tìm kiếm . Bảngốc lưu trữ ngày 4 tháng 4 năm 2017.
  45. Da cá, Rand ; Jeff Pollard (ngày 2 tháng 4 năm 2007). "Các yếu tố xếp hạng công cụ tìm kiếm - Phiên bản 2" . seomoz.org. Bản gốc lưu trữ ngày 7 tháng 5 năm 2009 Truy cập ngày 11 tháng 5 năm 2009 .nguồn không đáng tin cậy? ]
  46. ^ Dover, D. Bí mật tối ưu hóa công cụ tìm kiếm Indianapolis. Wiley. 2011.
  47. ^ Viniker, D. Tầm quan trọng của việc sàng lọc độ khó của từ khóa đối với SEO . Ed. Schwartz, M. Sách hướng dẫn kỹ thuật số Tập 5. News Press. tr 160–164.
  48. "Xếp hạng danh sách: Xếp hạng - Trợ giúp của Google Địa điểm" . Bản gốc lưu trữ ngày 5 tháng 5 năm 2012 Truy cập ngày 27 tháng 5 năm 2011 .
  49. ^ Clark, Jack. "Google chuyển Tìm kiếm Web hấp dẫn của mình sang Máy AI" . Bloomberg. Bản gốc lưu trữ ngày 25 tháng 3 năm 2016 Truy cập ngày 26 tháng 3 năm 2016 .
  50. ^ Google Directory # Google Directory
  51. Chuyển đến:b "Cách báo cáo các liên kết trả phí"mattcutts.com/blog. Ngày 14 tháng 4 năm 2007.Bảngốclưu trữngày 28 tháng 5 năm 2007Truy cập ngày 28 tháng 5 năm 2007 .
  52. ^ "Google Link Schemes" Được lưu trữ 2020-05-21 tạiliên kết Wayback Machine
  53. "Vì vậy, bạn nghĩ rằng SEO đã thay đổi" . Ngày 19 tháng 3 năm 2014. Bản gốc lưu trữ ngày 31 tháng 3 năm 2014.
  54. ^ Matthew Richardson & Pedro Domingos, A. (2001). The Intelligent Surfer: Sự kết hợp xác suất của Thông tin liên kết và nội dung trong Xếp hạng trang (PDF) . trang 1441–1448. Đã lưu trữ (PDF) từ bản gốc vào ngày 3 tháng 3 năm 2016.
  55. ^ Mayer, Katja (2009). Tìm kiếm sâu: Chính trị của Tìm kiếm ngoài Google, Về Xã hội học của Công cụ Tìm kiếm . Studien Verlag.
  56. ^ Pasquinelli, Matteo (2009). Tìm kiếm sâu: Tính chính trị của Tìm kiếm ngoài Google, Sơ đồ về Chủ nghĩa Tư bản Nhận thức và Người thuộc về Trí thức Thông thường . Studien Verlag.
  57. ^ Gleich, David F. (tháng 1 năm 2015). "Xếp hạng Trang Ngoài Web". Đánh giá SIAM . 57 (3): 321–363. arXiv : 1407.5107 . doi10.1137 / 140976649 . S2CID 8375649 . 
  58. ^ Senanayake, Upul; Piraveenan, Mahendra; Zomaya, Albert (2015). "Chỉ số Pagerank: Vượt xa số lượng trích dẫn trong việc định lượng tác động khoa học của các nhà nghiên cứu" . PLOS MỘT . 10 (8): e0134794. Mã bib : 2015PLoSO..1034794S . doi : 10.1371 / journal.pone.0134794 . ISSN 1932-6203 . PMC 4545754 . PMID 26288312 .   
  59. ^ G. Ivan & V. Grolmusz (2011). "Khi Web gặp ô: sử dụng Xếp hạng Trang được cá nhân hóa để phân tích mạng tương tác protein" . Tin sinh học . 27 (3): 405–7. doi : 10.1093 / bioinformatics / btq680 . PMID 21149343 . 
  60. ^ D. Banky và G. Ivan và V. Grolmusz (2013). "Cơ hội bình đẳng cho các nút mạng mức độ thấp: một phương pháp dựa trên Xếp hạng trang để xác định mục tiêu protein trong đồ thị trao đổi chất" . PLOS MỘT . 8 (1): 405–7. Mã bib : 2013PLoSO ... 854204B . doi : 10.1371 / journal.pone.0054204 . PMC 3558500 . PMID 23382878 .  
  61. ^ Burns, Judith (2009-09-04). "Google lừa theo dõi sự tuyệt chủng" . Tin tức BBC . Bản gốc lưu trữ ngày 5 tháng 5 năm 2011 Truy cập ngày 27 tháng 5 năm 2011 .
  62. ^ Benjamin M. Schmidt & Matthew M. Chingos (2007). "Xếp hạng các Chương trình Tiến sĩ theo Vị trí: Một Phương pháp Mới"(PDF) . Tái bút: Khoa học Chính trị và Chính trị . 40 (tháng 7): 523–529. CiteSeerX 10.1.1.582.9402 . doi : 10.1017 / s1049096507070771 . S2CID 6012229 . Đã lưu trữ (PDF)từ bản gốc vào ngày 13 tháng 2 năm 2015.   
  63. ^ Johan Bollen, Marko A. Rodriguez và Herbert Van de Sompel .; Rodriguez; Van De Sompel (tháng 12 năm 2006). Trạng thái Tạp chí . Khoa học học . 69 . trang 669–687. arXiv : cs.GL/0601030Mã bib : 2006cs ........ 1030B . doi : 10.1145 / 1255175.1255273 . ISBN 9781595936448S2CID  3115544 .
  64. ^ Fletcher, Jack McKay và Wennekers, Thomas (2017). "Từ cấu trúc đến hoạt động: Sử dụng các biện pháp trung tâm để dự đoán hoạt động của thần kinh". Tạp chí Quốc tế về Hệ thống Thần kinh28 (2): 1750013. doi : 10.1142 / S0129065717500137 . PMID 28076982 . 
  65. ^ Gupta, Pankaj; Goel, Ashish; Lin, Jimmy; Sharma, Aneesh; Wang, Dong; Zadeh, Reza (2013). "WTF: Dịch vụ Theo dõi Ai tại Twitter" . Kỷ yếu Hội nghị Quốc tế 22Nd về World Wide Web . ACM. trang 505–514. doi : 10.1145 / 2488388.2488433 . ISBN 9781450320351S2CID  207205045 Truy cập ngày 11 tháng 12 năm 2018 .
  66. ^ Ha, Anthony (2012-05-08). "Y Combinator-Backed Swiftype Xây dựng Tìm kiếm Trang web Không Hút" . TechCrunch . Bảngốc lưu trữ vào ngày 27 tháng 7 năm 2014 Truy cập ngày 28tháng 7 năm 2014 .
  67. "Các tài liệu làm việc liên quan đến việc tạo ra Google" . Google . Bản gốc lưu trữ ngày 28 tháng 11 năm 2006 Truy cập ngày 29 tháng 11 năm 2006 .
  68. ^ Cho, J., Garcia-Molina, H., và Page, L. (1998). "Thu thập thông tin hiệu quả thông qua sắp xếp URL" . Kỷ yếu của Hội nghị lần thứ bảy về World Wide Web . Thành phố ven sông Brisbane, là thủ phủ của Qeensland, miền đông nước Úc. Bản gốc lưu trữngày 06-06-2008.
  69. "Yahoo! Groups" . Groups.yahoo.com. Bản gốc lưu trữngày 10 tháng 4 năm 2013 Truy cập ngày 10 tháng 10 năm 2013.
  70. ^ "CiteSeerX - Hệ thống thông tin tự tạo trong các tổ chức hiện đại". CiteSeerX 10.1.1.148.9274 . 
  71. ^ Zack, Laurie; Cừu, Ron; Ball, Sarah (2012-12-31). "Một ứng dụng của Xếp hạng Trang của Google cho bảng xếp hạng NFL"Involve, Tạp chí Toán học . 5 (4): 463–471. doi : 10.2140 / lien quan.2012.5.463 . ISSN 1944-4184 . 
  72. ^ Peña, Javier López; Touchette, Hugo (2012-06-28). "Một phân tích lý thuyết mạng về chiến lược bóng đá". arXiv : 1206.6904 [ math.CO ].
  73. ^ Beggs, Clive B.; Shepherd, Simon J.; Emmonds, Stacey; Jones, Ben (2017-06-02). Zhou, Wei-Xing (biên tập). "Một ứng dụng mới của Xếp hạng trang và các thuật toán ưu tiên người dùng để đánh giá hiệu suất tương đối của các vận động viên điền kinh trong cuộc thi" . PLOS MỘT . 12 (6): e0178458. Mã bib : 2017PLoSO..1278458B . doi : 10.1371 / journal.pone.0178458 . ISSN 1932-6203 . PMC 5456068 . PMID 28575009 .   
  74. ^ B. Jiang (2006). "Xếp hạng các không gian để dự đoán chuyển động của con người trong môi trường đô thị". Tạp chí Khoa học Thông tin Địa lý Quốc tế . 23 (7): 823–837. arXiv : vật lý / 0612011 . Mã bib : 2006physics..12011J . doi : 10.1080 / 13658810802022822 . S2CID 26880621 . 
  75. ^ Jiang B. .; Zhao S. & Yin J. (2008). "Đường tự nhiên tự tổ chức để dự đoán lưu lượng giao thông: một nghiên cứu về độ nhạy". Tạp chí Cơ học Thống kê: Lý thuyết và Thực nghiệm . P07008 (7): 008. arXiv : 0804.1630 . Mã bib : 2008JSMTE..07..008J . doi : 10.1088 / 1742-5468 / 2008/07 / P07008 . S2CID 118605727 . 
  76. ^ Roberto Navigli, Mirella Lapata. "Một nghiên cứu thử nghiệm về khả năng kết nối đồ thị đối với sự phân biệt cảm giác từ không được giám sát" Đã lưu trữ ngày 12 tháng 12 năm 2010 tạiWayback Machine . Giao dịch IEEE trên Phân tích mẫu và Trí tuệ máy (TPAMI), 32 (4), IEEE Press, 2010, trang 678–692.
  77. ^ MT Pilehvar, D. Jurgens và R. Navigli. Căn chỉnh, Phân biệt và Đi bộ: Một Phương pháp Tiếp cận Thống nhất để Đo lường Sự Tương đồng Ngữ nghĩa. Lưu trữ 2013-10-01 tại Wayback Machine . Proc. của Hội nghị thường niên lần thứ 51 của Hiệp hội Ngôn ngữ học Tính toán (ACL 2013), Sofia, Bulgaria, ngày 4-9 tháng 8 năm 2013, trang 1341-1351.
  78. ^ Andrea Esuli & Fabrizio Sebastiani. "Hệ thống mạng từ vựng trang: Ứng dụng cho các thuộc tính liên quan đến ý kiến"(PDF) . Trong Kỷ yếu Cuộc họp lần thứ 35 của Hiệp hội Ngôn ngữ Tính toán, Praha, CZ, 2007, trang 424–431 . Bản gốc lưu trữ(PDF) ngày 28 tháng 6 năm 2007 Truy cập ngày 30 tháng 6 năm 2007 .
  79. "Ngăn chặn thư rác bình luận" . Google . Bản gốc lưu trữngày 12 tháng 6 năm 2005 Truy cập ngày 1 tháng 1 năm 2005.
  80. "PageRank Sculpting: Parsing the Value and Potential Benefits of Sculpting PR with Nofollow" . SEOmoz. Bản gốc lưu trữngày 5 tháng 5 năm 2011 Truy cập ngày 27 tháng 5 năm 2011.
  81. "Tạo xếp hạng trang" . Mattcutts.com. Ngày 6 tháng 6 năm 2009. Bản gốc lưu trữ ngày 5 tháng 5 năm 2011 Truy cập ngày 27 tháng 5 năm 2011 .

Nguồn sửa ]

Bằng sáng chế có liên quan sửa ]

Liên kết bên ngoài sửa ]

(Google sử dụng thang đo logarit.)

Được tạo bởi Blogger.

Bài đăng tiêu biểu