クイック回答
ほとんどの読者は、パターンを一度名付けられて見れば、1つの段落でChatGPTを認識できるようになります。このガイドは12の具体的な特徴、なぜ現れるのか、ClaudeとGeminiがどう比較されるか、そして特徴が誤誘導する場所を示します。教師が使うのと同じシグナルに対して段落をテストするには、当社の AI検出ツール に貼り付けてください。
なぜChatGPTには文体の特徴があるのか
ChatGPTがそのように書くのには理由があります。OpenAIはインターネットと書籍テキストの広いスライスでモデルを訓練し、それから人間のフィードバックによる強化学習(RLHF)で微調整しました。人間の評価者は一貫して、丁寧で、バランスが取れ、構造化され、ヘッジングされた応答を好みました。モデルはデフォルトでそのように書くことを学びました。
親切で無害な出力に対する同じRLHFの選好が、安全な語彙、慎重な対称性、丁寧なレジスターを使うようモデルを訓練しました。結果は、有能だが予測可能に読めるテキストです。この指紋はGPT-3.5、GPT-4、GPT-4oにわたって現れ、新しいバージョンごとにわずかに明白でなくなりますが、決して見えなくはなりません。
12のChatGPTの特徴
1. ダッシュ中毒
ChatGPTはダッシュ文字を好みます。GPT-4出力の独立サンプルは500単語あたり平均2〜4個のダッシュです。典型的な学部生の文章は1個未満です。コンマやピリオドで済むところで、ダッシュで区切られた挿入句を探してください。例:プロジェクトは遅延した、ダッシュで囲んで チームの最善の努力にもかかわらず、8月下旬まで。
2. 「Certainly!」や「I'm Here to Help」で始める
ChatGPTは丁寧であることをやめられません。タスクを与えられると、しばしば「Certainly!」「Of course!」「Absolutely!」「I'm here to help」で始まります。プロンプトがチャットの返信ではなく下書きを求めていても、アシスタントレジスターの残留が滑り込みます。1行の肯定で始まる形式的なエッセイは、ほぼ常にChatGPTからの貼り付けです。
3. Delve Into
動詞delveはカジュアルな英語ではまれです。2024年までに、ChatGPT出力で非常に過剰に現れたため、研究者はその頻度だけを弱いAIシグナルとして使いました。500単語の文章がdelve intoを一度使えば、偶然かもしれません。二度なら疑わしいです。三度なら指紋です。
4. Tapestry Of
delveの近い親戚です。ChatGPTは複雑または相互に関連する何かを描写するためにtapestryに手を伸ばします。a tapestry of experiences、a tapestry of cultures、a rich tapestry of voices。比喩は機能的ですが、モデルは人間の書き手よりはるかに強く頼ります。
5. Navigating the Complexities
navigating the complexities(またはnavigating the challenges、navigating the nuances)というフレーズは、社会的トピックに関するおよそ20本に1本のChatGPTエッセイに現れます。特定の主張に踏み込まずに深さを示すヘッジです。ネイティブの人間の書き手は通常、代わりに具体的な動詞を選びます。
6. In Today's Digital Age
技術、社会、文化に関するほぼあらゆるプロンプトが、書き出しとしてin today's digital ageを引き起こします。バリエーションにはin our increasingly connected worldやin the modern eraが含まれます。このフレーズには情報がありません。モデルを最初の段落に和らげるために存在します。
7. ヘッジング表現
ChatGPTは絶えずヘッジングします。it could be argued that、one might say、some experts believe、this could be seen as。ヘッジングはRLHFの残留です。人間の評価者は強い主張に踏み込まない回答を好みました。結果は、慎重に聞こえるが立場をめったに取らない文章です。
8. 均一な段落長
ChatGPTの段落はそれぞれ3〜5文の周辺に集まります。5段落の応答を開いて測定してください。ほとんどの段落は互いに1文以内に収まります。人間の書き手は、強調に応じて1行の段落から10行の段落まで揺れます。ChatGPTのメトロノームのリズムは、語彙以外で最も大きい特徴の1つです。
9. リスト構造
疑わしいとき、ChatGPTは箇条書きにします。文章の応答でさえ、番号付きまたは箇条書きのリストに中断され、時には1つの文として読んだ方が良い3項目のためにも。Geminiはこの次元でより悪いですが、ChatGPTも依然として人間のベースラインをはるかに上回ります。
10. 対称的な議論
すべての主張に反論が付きます。on one hand、on the other hand、while X is true、Y must also be considered。対称性が非常に一貫しているため、研究者は議論のバランスをモデルの指紋として使ってきました。人間の書き手はより頻繁に立場を選びます。
11. In Conclusionで締める
実際の人間のエッセイは、in conclusionという文字通りのフレーズをめったに使いません。ChatGPTはこれをデフォルトの締めの接続語として使います。バリエーションにはto sum up、in summary、ultimatelyが含まれます。締めの段落はその後、新しい洞察を加えるのではなく導入を言い直します。
12. すべてのレジスターでの過度に丁寧なトーン
プロンプトが皮肉なツイート、形式的なカバーレター、カジュアルなブログ記事を求めても、ChatGPTは丁寧で中立的でプロフェッショナルなレジスターにデフォルトで戻ります。本物の皮肉、鋭い意見、ヘッジングされていない不満は、デフォルト出力ではまれです。平坦さが手がかりです。実際の書き手には気分があります。ChatGPTには1つの気分があります。
ChatGPT 対 Claude 対 Gemini:スタイルの違い
主要3つのフロンティアモデルは低いバースト性のベースラインと語彙の繰り返しを共有しますが、それぞれに独自の指紋があります。
- ChatGPT: 冗長、ダッシュが多い、ヘッジングしがち、丁寧な書き出し、delveとtapestry、in conclusionの締めくくり。
- Claude: 思慮深いペース配分、少ない定型の決まり文句、より多くの自己訂正(例:actually、on reflection)、依然として均一な段落長、ダッシュよりコンマを好む。
- Gemini: 列挙、表が多い、リスト主導、しばしば1行の直接的な回答で始まり、それから箇条書き、強い構造的指紋。
- 3つすべてが共有: 低いバースト性、500単語以内での語彙の繰り返し、対称的な議論、ありきたりな例。
GPT-4 対 GPT-3.5の検出
GPT-3.5は特徴を露わにしています。5段落のエッセイ構造、2つのdelve、4つのダッシュ、in conclusionの締めくくりが、典型的な500単語の下書きに現れます。GPT-4はより難しいです。ダッシュの使用がわずかに減り、ヘッジングがより微妙になり、決まり文句がより頻度低く現れます。GPT-4oは丁寧な書き出しをさらに和らげます。
しかし深い統計的シグナルは残ります。バースト性は低いままです。段落長は均一なままです。ダッシュの使用は高いままです。「Certainly!」は依然として滑り込みます。GPT-4oでベンチマーク検出を実行した研究者(Mitchellらと2024年のフォローアップ研究)は、最も強い検出ツールが依然としてGPT-4oテキストを人間のベースラインをはるかに上回ってフラグを立てることを発見しました。特徴は移動しましたが、消えませんでした。
ライブデモ:このテキストを当社の検出ツールに通す
以下は「リモートワークについて短い段落を書いて」というプロンプトからGPT-4が書いた110単語のサンプルです。
今日のデジタル時代において、リモートワークはプロフェッショナルがキャリアの複雑さをナビゲートする方法を根本的に変革しました。柔軟性の向上やより健康的なワークライフバランスを掘り下げる能力を含む利点のタペストリーを提供する一方、孤立感や個人と職業の生活を分離する難しさといった課題も提示します。企業は分散したチームを支援するために堅牢なフレームワークを採用し、コミュニケーションツールを活用し、信頼の文化を育まなければなりません。最終的に、仕事の未来は絶えず進化しており、この変化を受け入れつつその複雑さに対処する組織は、ますます相互接続された世界で繁栄するでしょう。結論として、リモートワークは定着しています。
その段落を当社の AI検出ツールに貼り付けると、判定は1秒未満で「ほぼ確実にAI」と返ってきます。検出ツールは6つの決まり文句(in today's digital age、navigating the complexities、tapestry of、delve into、robust framework、leveraging、ever-evolving、in conclusion)、低いバースト性(文は18〜28単語の間に集まる)、構造的対称性(導入、利点の列挙、課題の列挙、結論)にフラグを立てます。それぞれが上記リストの特徴です。
これらの特徴が誤誘導するとき
12の特徴は、3つの注目すべきジャンルで誤検出を生じます。
- 学術的な要旨。 学術誌の要旨は形式的で、ヘッジングされ、対称的で、安全な語彙が詰まっています。同じ制約(簡潔さ、バランス、中立性)に向けて書かれているため、ChatGPTのように見えます。
- 技術文書と法律文書。 仕様書、政策ブリーフ、法律メモは、意図的にヘッジングと対称性を重んじます。契約での高いAIスコアは通常誤検出です。
- 非ネイティブの英語の書き手。 Liangら(スタンフォード2023)は、GPT検出ツールが非ネイティブの英語話者によるTOEFLエッセイの61%をAI生成としてフラグを立てたことを発見しました。形式的な語彙、慎重な対称性、ヘッジングは第二言語の学術英語の特徴です。
12の特徴は、生徒のエッセイ、ブログの下書き、SNS投稿、マーケティングコピー、個人的な通信で最も信頼できます。それ単独の証拠としてではなく、調査するシグナルとして使ってください。教師や編集者なら、結論を出す前に複数の特徴を組み合わせてください。誤検出を心配する書き手なら、表面的な語だけでなく根底のシグナルを修正するテクニックについて、姉妹ガイドの AI文章を人間らしくする方法 を読んでください。
30秒チェック
ChatGPTが何かを書いたと疑うとき、これを順番に実行してください。
- 最初の200単語のダッシュ文字を数えます。
- delve、tapestry、navigating、in today's digital ageを探します。
- 段落長の分散を測定します。3〜5文の周辺の密な集まりはシグナルです。
- 対称的な議論とin conclusionというフレーズを探します。
- テキストを当社の 無料のAI検出ツール に貼り付けて、同じシグナルを自動的に採点します。
30秒で2つか3つの一致があれば、ChatGPT出力を確実に識別するのに十分です。検出ツールの高いスコアを加えると、ケースは本質的に決着します。
出典
- Mitchell, E., Lee, K., Khazatsky, A., Manning, C.D., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. Stanford University.
- Gehrmann, S., Strobelt, H., & Rush, A.M. (2019). GLTR: Statistical Detection and Visualization of Generated Text. Harvard NLP / MIT-IBM Watson AI Lab.
- OpenAI (2024). GPT-4 System Card and GPT-4o Technical Report.
- Anthropic (2024). Claude 3 Model Family Documentation and Constitutional AI Principles.