Googlebotになりすましてペイウォールの背後にある記事を読む

インターネットは転換期にあります。 adblockingの継続的な増加により、Webサイトとビジネスの運営を広告費のみに依存する収益モデルに終止符が打たれました。

特にニュースサイトでは、収入源を多様化する方法や、ウォールストリートジャーナル、フィナンシャルタイムズ、ニューヨークタイムズなどのサイトが注目するオプションの1つを試し始めています。 タイムズ 、またはワシントンポストは、ペイウォールシステムを実装またはテストしています。

ペイウォールにはさまざまな種類がありますが、コンテンツへのアクセスをブロックするという共通点があります。これは、最初の記事を開いたとき、サイトで一定数の記事を読んだ後、または最初の段落を読者に表示し、その下に残りのサインアップ情報を表示する抜粋システムとして直接発生する可能性があります。

Paywallsは、ユーザーがアクセスのためにお金を支払うことを常に要求するわけではありません。一部のサイトでは、ユーザーがサイトを使用するためにサインアップを要求する場合がありますが、ユーザーがサインアップすると、ユーザーを充電しません。

news site paywall

これはビジネスの観点からは理にかなっている可能性があり、アドブロッカーを実行しているユーザーと戦うよりも有利な場合がありますが、ペイウォールサイトとブロックされたユーザーの両方に欠点があります。

ペイウォールシステムを実装すると、サイトの訪問者の高い割合が失われます。割合が実際どのくらい高いかは不明であり、サイトごとに異なる可能性がありますが、目的の記事を読むためにサブスクライブする選択肢が表示された後にサイトにサブスクライブした訪問者のパーセンテージよりもはるかに高い可能性があります。

ユーザーにとって、リソースがロードされたら、興味深いサウンドの記事へのリンクをたどって、それを読むことがブロックされるだけで、本当にイライラすることがあります。特にサインアップまたはサブスクライブする前にコンテンツが提供されていない場合は、多くの人にとって時間の無駄です。

ブラウザを偽装

ニュースサイトがニュースアグリゲーターや検索エンジンへのアクセスを許可していることは秘密ではありません。たとえば、Googleニュースや検索をチェックすると、ペイウォールがリストされているサイトの記事が見つかります。

過去には、ニュースサイトはReddit、Digg、Slashdotなどの主要なニュースアグリゲーターからの訪問者へのアクセスを許可していましたが、その慣行は現在、死んでいるのと同じくらい良いようです。一部はまだそれを許可するかもしれませんが、それは試行錯誤であり、回避策はいつでもシャットダウンされるかもしれません。

もう1つのトリックは、記事のタイトルを検索エンジンに貼り付けて、そこにキャッシュされたストーリーを直接読み取ることですが、正常に機能していないようで、ペイウォールのあるサイトの記事は通常キャッシュされていません。

ヒント:ペイウォールをバイパスするために使用できる次のアドオンを確認してください。

ユーザーエージェントとリファラー

サイトがサイトのコンテンツへのアクセスをどのようにブロックまたは許可するのか疑問に思われるでしょう。メソッドは年々改良されてきており、ブラウザのリファラーをhttps://www.google.com/に変更するだけでは、サイトのコンテンツに完全にアクセスするだけでは不十分です。

代わりに、サイトはユーザーエージェント、リファラー、Cookieを含むさまざまなチェックを使用し、場合によってはそれ以上にチェックして、アクセスの正当性を判断します。

一般情報

おそらく、ブラウザーを偽装する最良の方法は、ブラウザーをGooglebotのように見せることです。

  • リファラー:https://www.google.com/
  • ユーザーエージェント:Mozilla / 5.0(互換; Googlebot / 2.1; + http://www.google.com/bot.html

このオプションは、一部のサイトでは機能しなくなります。 Twitterや他のソーシャルメディアサイトから来たように見せかけた方がよい場合があります。

Firefox

referrer

Firefoxユーザーはそのために2つのブラウザアドオンが必要です。1つ目はRefControl、ニュースサイトにアクセスしたときにリファラー値を変更すること、2つ目は ユーザーエージェントスイッチャー 、ブラウザのユーザーエージェントを変更します。

更新 :RefControlは使用できなくなりました。してもいいです これを試して 代わりに。 終わり

  1. Firefox Webブラウザーで両方の拡張機能をダウンロードしてインストールします。
  2. Altキーをタップし、[ツール]> [RefControlオプション]を選択します。
  3. [サイトを追加]をクリックし、サイトの下にドメイン名を入力して、カスタムアクションを選択し、参照元としてhttps://www.google.com/を入力します。
  4. アクセスするすべてのニュースサイトについて、これを繰り返します(変更しても一部のニュースサイトが機能しない場合があるので、注意してください)。
  5. 完了したら、構成ウィンドウを閉じます。
  6. もう一度Altキーをタップし、メニューから[ツール]> [デフォルトのユーザーエージェント]> [ユーザーエージェントの編集]を選択します。
  7. [新規]> [ユーザーエージェント]を選択し、[ユーザーエージェント]フィールドの文字列をMozilla / 5.0(互換; Googlebot / 2.1; + http://www.google.com/bot.html)に置き換えます。 Googlebotという名前を付けます。
  8. メニューを終了します。
  9. これらのサイトにアクセスする前に、Altをタップして、[デフォルトのユーザーエージェント]> [Googlebot]を選択します。

これですべてです。訪問したサイトに基づいてユーザーエージェントを自動的に変更するFirefoxの拡張機能がないことは少し残念です。

グーグルクローム

Google Chromeユーザーは次のような拡張機能をインストールできます ユーザーエージェントスイッチャー そして リファラー制御 ブラウザが同じことを行うために利用できるものです。

ただし、別の可能性もあります。それは、ブラウザーでのプロセスを自動化するカスタム拡張機能を作成することです。

指示は上に提供されています エライヌ 。基本的に、ローカルコンピュータに新しいディレクトリを作成し、その中にbackground.jsとmanifest.jsonという2つのファイルを作成し、サイトにあるコードをコピーしてファイルに貼り付けるだけです。

chrome:// extensions /で「開発者モード」を有効にする必要があります。次に、「アンパックされた拡張機能の読み込み」を選択して、2つのファイルを作成したフォルダーを選択し、Chromeに拡張機能を読み込みます。

サポートするサイトのリストを変更して、新しいサイトを追加できます。