Gemini Omniが発表されましたが、まだ触っていないので何も書けないので、Flash 3.5について。
うちではいただいた名刺(名刺交換)したとき、まずやることがスキャナーで読み取ってWantedlyへ投げる。
実際、ここは現在無料プランなので(有料にしたいと思わない)使い勝手が悪いのは確かです。
え?なぜEIGHTじゃないの?って・・・
使えなかったというよりも登録できなかったのよ・・・
これは提供しれいるSANSAN社とやり取りをしたことがあるの。
なぜだか私のメルアドが拒否られていた(自分で設定した記憶はないのだが)。
実際、私のメルアドはEIGHTで登録できる。
ちなみにSANSANは大企業向けだから100名とか200名規模からだったかな。
そうでない人たちはEIGHTをご利用くださいって。
話を戻そう
このPDF(画像)を解析し、名刺を割り出すのに非常に困ったことがあった。
どんどん劣化する問題・・・
Claudeくんに聞いてみた
①PDFの品質問題
名刺スキャンのPDFは「画像PDF」であることがほとんど。Geminiが光学文字認識(OCR)を内部でやっているが、斜め・低解像度・光の反射・異なるフォントが混在すると、10枚束の中のどれかが処理の「詰まり」を起こします。
②「10枚まとめて1リクエスト」の構造的限界
1つのプロンプトに複数ページのPDFを渡すと、Geminiは全ページを並列ではなく逐次的に処理しています。後半のページになるほど注意(アテンション)が分散します。これはGEMでも通常チャットでも同じ。
③出力フォーマット指示の崩壊
Spreadsheet形式で出力させようとしていますが、ファイル生成はGeminiの最も不安定な機能の一つです。Google AI Studioも同様に不安定なのはここが理由。
結論から言うと
GEMか通常プロンプトかは本質的な差ではありません。
問題は:
- 複数枚をまとめて処理させていること
- ファイル生成をGeminiに任せていること
この2点です。
現実的な解決策(APIなしで)
名刺1枚ずつ、テキスト出力のみに徹する運用が最も安定します。
【プロンプト例】この名刺画像から以下の項目をCSV形式のテキストで出力してください。ファイル保存は不要。テキストのみ。氏名,会社名,役職,住所,電話,メール,URL不明な項目は空欄にしてください。
出てきたテキストをExcelかGoogleスプレッドシートに手動で貼り付ける。
これが現状で最も精神的消耗が少ない方法です。
根本解決したいなら
Claude(私)にPDF or 画像を直接投げる運用の方が、名刺OCR→CSV出力は安定しています。ファイル生成もbash経由で確実にできます。
これを踏まえた上で今度はGeminiに Flash 3.5 とか新しいモデルの違いを聞いてみた
Gemini モデル3種 比較表
| 項目 | Gemini 3.1 Flash-Lite | Gemini 3.5 Flash | Gemini 3.1 Pro |
| 位置づけ | 超高速・低コストモデル | 最新の標準・高速モデル | 高性能・フラッグシップモデル |
| 主な特徴 | 応答の速さと圧倒的な低コストを最優先したモデル。日常的なチャットや高頻度の単純タスク向け。 | 3.1 Proを上回る知能(推論・コーディング)を持ちながら、他社フラッグシップ比で約4倍の超高速出力を実現。 | 複雑な問題解決や、高度なマルチモーダル理解(画像・音声・動画の解析)に強みを持つ、これまでの最高峰モデル。 |
| 処理スピード | 非常に速い(低レイテンシ) | 爆速(3.1 Proの約2.1倍、他社比4倍) | 普通(じっくり深く考える) |
| 得意なタスク | ・シンプルな対話 ・大量のテキストの要約 ・リアルタイムの応答 | ・複雑なコーディング・試作 ・自律型AIエージェントの駆動 ・マルチステップの計画作成 | ・高度な論理推論 ・複雑なデータ分析 ・高精度なマルチモーダル処理 |
| コスト(API) | 最も安価 | 極めて高いコスパ(高性能なのに安価) | やや高め |
率直な名刺文字の抽出性能の検査・・・
プロンプトとして:
#目標
名刺を抽出
#作業
PDFを読み取ってください。
これは2列x5行、合計10枚の名刺のデータです。
そこからデータを抽出してください。
複数ページがある場合、続けてください。
#データ出力形式
-名前
-会社名
-役職(存在しなければ空欄)
-郵便番号(記述なければ空欄)
-住所(都道府県、区市町村、番地、その他)
-電話番号1(固定電話、記述がなければ空白)
-電話番号2(モバイル、記述がなければ空白)
-ホームページURL(記述がなければ空白)
#出力形態
必ずGoogle Spreadsheetに保存可能な表にしてください。
mdにしないこと
#お願い
-名刺を一枚ずつ判別すること
-1ページに最大10枚ある
-10当分する
-白いところもある
-10枚に満たさないところもある
-表にすること
結果:
メチャクチャ優れている!
結論: 普段遣いで活用できる。
しかし、まだ文字とか思考については検証していないのであしからず。
こっちに関しては当面、Claudeのほうが有利かもと勝手に思っている。