5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

Linux対応のスキャナとOCR

1 :揖保次郎:2006/08/23(水) 14:41:00 ID:hvIq0cZe
語ってください。

2 :login:Penguin:2006/08/23(水) 15:20:06 ID:yQ0uk8S8
Linuxで使えるプリンタ/スキャナ
http://pc8.2ch.net/test/read.cgi/printer/1133548494/
プリンタの設定ができずに困っている人々
http://pc8.2ch.net/test/read.cgi/linux/1029898072/

3 :login:Penguin:2006/08/23(水) 17:09:23 ID:bY5+tAvL
日本語OCR 激しく欲する

4 :login:Penguin:2006/08/24(木) 00:28:06 ID:7+bi93gK
日本語OCR 無いの?

5 :login:Penguin:2006/08/24(木) 04:56:28 ID:A5+loJM+
オープンソースのOCRは、まだアルファベットの精度も厳しい状態らしいもんなぁ。
こういう分野こそIPAにしてほしいよ。

6 :login:Penguin:2006/08/25(金) 10:40:46 ID:DWIi4Hyn
オープンソースじゃなくてもいいから
PDFファイルに日本語OCRをして透明テキスト追加ができれば 
多少値段が張っても買う

7 :login:Penguin:2006/08/25(金) 10:50:22 ID:C36iItf5
ソースネクストにお願いして発売してもらおう。

8 :login:Penguin:2006/08/25(金) 11:10:29 ID:U0qISCE5
パクリ元が無いからソースネクストじゃ無理だろw

9 :login:Penguin:2006/08/26(土) 01:27:15 ID:miR2y+yn
ocrの認識エンジンってやっぱり複雑なの?
フリーソフトの域じゃ無理かねぇ。

10 :login:Penguin:2006/08/26(土) 08:27:19 ID:ZmML8ibz
>7
ttp://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rls=GGLG,GGLG:2005-39,GGLG:ja&q=SmartOCR

複雑さつーか、ノウハウそのものがやたら知られてる訳じゃないような。
関連特許も多そうだし。
ttp://www.hino.meisei-u.ac.jp/ee/shima/index.files/shima_Patent.html


11 :login:Penguin:2006/08/26(土) 20:33:30 ID:dwfRadz0
OCRATが良さそうですな。

12 :login:Penguin:2006/08/27(日) 01:07:34 ID:XnlG/nuS
日本語OCRを誰かさっさと作りやがれ!!

13 :login:Penguin:2006/08/27(日) 22:04:54 ID:WSpPhjmG
よーし、パパがんばっちゃおうかな!!


・・・無理っす。

14 :login:Penguin:2006/08/28(月) 04:41:34 ID:/rIGCUJQ
今までの方式を再現するより、CPUとメモリを贅沢に使うことを前提に
愚直なアルゴリズムを実装したほうがうまくいくような気がする。

15 :login:Penguin:2006/08/28(月) 13:57:48 ID:Cii6mITO
>>14
kwsk

16 :login:Penguin:2006/08/28(月) 14:07:22 ID:wgvNCbYv
>>15
それが人にものを頼む態度か。

17 :login:Penguin:2006/08/28(月) 18:30:02 ID:pZ8sjrgd
>>14
くわしく

18 :login:Penguin:2006/08/30(水) 22:45:40 ID:X4WHCARr
ocrホシスorz

19 :login:Penguin:2006/09/06(水) 21:49:26 ID:jkmQpdl3
HPが開発した“お蔵入り”OCRエンジンをGoogleがオープンソースで公開
ttp://opentechpress.jp/article.pl?sid=06/09/06/0958244

20 :login:Penguin:2006/09/08(金) 18:16:07 ID:5bJPLsfP
移植よろ

21 :login:Penguin:2006/09/11(月) 10:22:46 ID:xHe91vNj
OCR無いんじゃ、メインマシンとして使えんがな。

22 :login:Penguin:2006/09/16(土) 16:58:12 ID:eUS5Q2ff
漏れはOCR使いたいから、Winとデュアルブートにしてる。

23 :login:Penguin:2006/09/18(月) 18:43:40 ID:7ToA0imS
奈良先端大の図書室にはスキャナーがあるようですね
今月のUNIXマガにでてましたけど
OCRはWinっぽいです

PDF化してDBに突っ込むのかな?
ぱっと見なんで読んでないですw

Epsonは作ってくれないのかねぇ〜(ソフトは別会社か)

24 :login:Penguin:2006/09/27(水) 17:58:45 ID:Zq3CHTMG
さっさと移植しろよ、ゴルァ

25 :login:Penguin:2006/10/01(日) 11:00:12 ID:kLQrO3Nn
スレッド保守カキコ。

所有スキャナ
GT-9700F

26 :login:Penguin:2006/10/01(日) 11:51:26 ID:30sZhVt8
>>19
CentOS4.4に入れてみた。見事にハングする。
BTSにFC3で死ぬって書いてあるから同じなんだろうな。



27 :login:Penguin:2006/10/09(月) 11:30:01 ID:EQ4tTA39
昔gocrとかあったなぁ・・・

・文章領域推定
・背景分離
・文字認識

がOCRの基本3技術だと思うけど、それぞれどんな感じなの?
いま問題になっているのはどこ?


28 :login:Penguin:2006/10/10(火) 00:55:22 ID:/MdRGZUp
日本語の文字認識って、特に難しいんだと思う。
一とーとか、二とニとか、しとレとか、Winでもできの悪いOCRだとボロボロになる。

29 :login:Penguin:2006/10/10(火) 08:43:46 ID:6vSOB/G9
wineでエミュできるまともな日本語OCRってあったら教えてたもれ。

30 :login:Penguin:2006/10/11(水) 00:06:24 ID:GUwJsB4T
Windows使えよ

31 :login:Penguin:2006/10/11(水) 22:45:22 ID:eHaLTgt8
>>30
てめーが使ってろ

32 :login:Penguin:2006/10/11(水) 23:24:23 ID:XMU6af3T
OMRONがOmCRでも移植してくれればなぁ。

33 :login:Penguin:2006/10/13(金) 23:14:26 ID:IxIqTAt3
オ、オムロンって血圧計の・・・・?

34 :login:Penguin:2006/10/13(金) 23:58:40 ID:yGdobEUM
それ以外にオムロンってある?

35 :login:Penguin:2006/10/14(土) 00:05:57 ID:kwHyu9D6
>>33
自動改札だってオムロンだろう。

学生で企業の産業分野BUは見えないにしてもプロジェクトX位見てるだろう?

36 :login:Penguin:2006/10/17(火) 08:39:43 ID:cjTANUii
自動改札みたいな組み込み出さなくても、
オムロンソフトウェアは翻訳魂とかLinux用の
パッケージソフトをいくつか出してたんだが。

うちでは今でも現役だぞ。> 翻訳魂


37 :login:Penguin:2006/10/18(水) 01:27:36 ID:KSkySP//
電動工具のリョービがなんでフォント売ってんだよっていう疑問もある。

38 :login:Penguin:2006/10/18(水) 01:46:10 ID:4XMd0OBj
釣具も売ってるよ!

39 :login:Penguin:2006/10/18(水) 02:42:49 ID:yMNr6nz8
俺にとってオムロンはモデムだった

40 :login:Penguin:2006/10/18(水) 10:56:53 ID:B+acluru
>>38
釣具部門はもう売られただろ、確か。

41 :login:Penguin:2006/10/18(水) 15:23:26 ID:KSkySP//
釣具はやっぱりシマノ

42 :login:Penguin:2006/10/19(木) 02:09:15 ID:Ew7MVMXK
オムロンは音声合成もやっとるよ〜

43 :login:Penguin:2006/10/19(木) 16:12:04 ID:iGPaBe3g
こんな自信のあるやつみたことない、、、、
  ↓↓↓↓↓↓↓↓↓↓↓↓↓↓
http://heisasimasita.blog.shinobi.jp/

44 :login:Penguin:2006/10/19(木) 17:05:06 ID:yx3VVHaw
閉鎖ってなってるよ

45 :login:Penguin:2006/10/25(水) 15:22:56 ID:song7LzM
そろそろ有志による開発が始まろうとしている

46 :login:Penguin:2006/11/01(水) 00:56:06 ID:TnbB/mJb
mac対応ソフトはあるのに

47 :login:Penguin:2006/11/08(水) 20:00:46 ID:kIH4bHzY
ocrってなんの略?

48 :login:Penguin:2006/11/08(水) 20:03:26 ID:wl557VXU
>>47
http://linux2ch.is.land.to/index.php?OnlineDictionaries

49 :login:Penguin:2006/11/08(水) 20:10:08 ID:3+jIV1tj
OぷてぃCaRu

50 :login:Penguin:2006/11/09(木) 23:54:13 ID:MOxl8Jmh
OnlineChineseRelationship

51 :login:Penguin:2006/11/17(金) 00:30:52 ID:Kke65Bue
i am chicken.

52 :login:Penguin:2006/11/29(水) 21:58:11 ID:HNwoVyRZ
O・C・R!
O・C・R!

53 :login:Penguin:2006/12/12(火) 21:57:49 ID:YIMQLrAk
読んでココ!

54 :login:Penguin:2006/12/13(水) 23:38:11 ID:BhCrulAE
だが断る

55 :login:Penguin:2006/12/21(木) 19:28:28 ID:nxUBfYGz
なあに、かえって免疫力がつく。

56 :login:Penguin:2007/07/31(火) 11:55:25 ID:65rFl0Pu
誰か開発しろって言ってるだろ、ボケがぁ!!

57 :login:Penguin:2007/07/31(火) 14:00:48 ID:+viK+L6G
欧米語用だけど、ocradはほぼ100%の認識で便利に使えた
最適なdpiを探るのにちょっと時間がかかったけど

日本語用のOCRを激しく希望


58 :login:Penguin:2007/08/20(月) 17:30:54 ID:sNtfpeym
Wineで使えるか試してみよう。そうしよう。

59 :login:Penguin:2007/08/22(水) 03:23:21 ID:aaNrdmsM
ウチのスキャナはxsaneが対応してないす・・・

60 :login:Penguin:2007/08/22(水) 07:43:03 ID:GUTMrRDo
>>59
それはMSの陰謀だからxsaneが悪いわけじゃないし、普及すれば良くなるよ。

61 :!(ФyФ+){ 私は孔酔 }:2007/08/22(水) 10:30:29 ID:pnn4/ZUJ
>>56『追加』/debian-base.で個人使用、OS.の開発を考えて居るピョぞ¿...コチラオンシンフツウデス…

62 :!(ФyФ+){ 私は孔酔 }:2007/08/22(水) 10:33:04 ID:pnn4/ZUJ
        ,..♪
 ヾi、ヽ.i
 (,.ф ¢ф)  зξι  ピョピョっと
 ミ,.V.ノ
/ ̄″ ̄  ・・・>>61『追加』/嗚呼¿...コノスレニカンケイナカッタカ+コチラオンシンフツウデス

63 :login:Penguin:2007/09/06(木) 11:20:11 ID:Fb0o2EnQ
期待してきたスレなのに過疎ってるなぁ。

tesseract使ってみた。(HP起源ののGoogle系)
俺の場合はocradより精度よかった。
ただ、数字しか用事ないんだけど3を5と勘違いする確率が高い。
トレーニングすることで精度上がるみたいだけど、
だれかやったことある人いたら教えて。
TrainingTesseract - tesseract-ocr - Google Code
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

64 :login:Penguin:2007/10/08(月) 12:00:45 ID:HruXyoxa
にぽんごがつかえないとイミないヨ

65 :login:Penguin:2007/10/08(月) 12:59:47 ID:tb1zM/Lh
日本語ocr
orz


66 :login:Penguin:2008/01/12(土) 21:00:06 ID:USJU18tI


orz




67 :login:Penguin:2008/01/20(日) 00:17:49 ID:EQfjQT28
VMWareでゲイツOS動かして(ry

68 :login:Penguin:2008/03/05(水) 17:32:20 ID:m5WO5cfN
ド素人が
SCSI接続のスキャナーを
にんしきさせるのは
むずかしいですか?


69 :login:Penguin:2008/03/09(日) 19:24:23 ID:WzCSxsqB
DVD番KNOPPIXで起動してgimp起動してみる。
運よければ認識する。

70 :login:Penguin:2008/03/10(月) 10:37:37 ID:NCtKpYso
>>68
昔はUSB接続のスキャナよりもSCSI接続の方が遙かに簡単だったけど。

71 :login:Penguin:2008/03/10(月) 17:23:48 ID:I068eTmS
saneでサポートされている機種ならなんにもしなくて認識すると思う。
サポートされてない機種は難しい。
USBでもSCSIで同じだと思う。

72 :login:Penguin:2008/07/05(土) 10:00:21 ID:p3OIquvj
まだあったのか、このスレ・・・

73 :login:Penguin:2008/07/06(日) 18:27:56 ID:4bK5eKwt
fedora core 8 に入っているデバイスドライバで対応しているスキャナの一覧知りたい

74 :login:Penguin:2008/07/06(日) 18:40:14 ID:yDT04Lsw
エプソンの古いスキャナはエプソンコーワがドライバを出してたので
相性が良さそうに思う。
それ以外はお金払ってVueScanを使うとよいと思う。
こいつのおかげで拾ってきたフィルムスキャナが使えて大喜び。

75 :login:Penguin:2008/07/08(火) 22:48:57 ID:h8Fjavx+
>>73
http://www.sane-project.org/sane-mfgs.html
おおよそこれ
FC8には入ってなくて上の一覧にあったら自前でコンパイル
FC8ならまだアップデート来るだろうけど

76 :login:Penguin:2008/07/27(日) 17:31:45 ID:rGVms7pG
       http:// ; ?????????
     http:// ;  ????????????
http://?;??????????? ?       ??
http://?;??????????  ?      ??
http://?;?■??■?  ?        ?  ?
            ▲??      ? ???
           ?? ?????  ???? ??
             ?▲ ? ?? ???
               ????? ???▲?
         ???? ???  ?? ????????
http:// ;????????? ?   ???????     ??
http://?;?????? ???      ?          ???
http:// ??? ??????     ???    ??? ???
http://?;???????? ????  ? ???  ? ??▼
http://?;???????    ?     ???    ?  ??

77 :login:Penguin:2008/08/07(木) 22:26:27 ID:G7yV4hjq
とりあえずこれだけは言える。
俺の人生にはいいことはなかったし、これからもない。

78 :login:Penguin:2008/11/28(金) 20:30:26 ID:U80ZIjo0
Linuxは普及しないと思いました。

79 :login:Penguin:2009/05/18(月) 13:30:25 ID:32LxwiHT
http://sourceforge.jp/forum/forum.php?forum_id=18640

NHocrのソースコードを初公開 (ver 0.16(beta))
投稿者: hgot
日付: 2009-05-15 18:56
日本語文字認識プログラムNHocrのソースコードを初公開しました (ver 0.16(beta))。
Solaris SPARC/x86, Linux (x86_64)上で動作確認済みです。OCRopusからの呼び出し
が可能です。文字行認識部がライブラリ化されており、自作プログラムからの利用も
容易です。

80 :login:Penguin:2009/05/18(月) 19:38:05 ID:nm2XA63v
OCRって使わないほうがいいのかなと最近思う。
認識ミスはかならず起こるから、結局人間の目で検査することになるよね。
ところが似たような形ゆえに誤認識してるわけだから間違い探しが大変。

81 :login:Penguin:2009/05/19(火) 15:20:55 ID:hQEejHMo
スキャン→OCR→青空文庫テキスト化のノウハウをまとめた文章があってそれによれば
誤認識しやすい文字はエディタで文字色を変えて検査するとかの方法があるらしい

誤認識しやすい文字は
ttp://www.siesta.co.jp/aozora/archives/002740.html

82 :login:Penguin:2009/05/19(火) 22:47:05 ID:VdrLajQJ
>>79
これいいですね。
試しに使ってみましたが、Windowsで認識率No.1を誇る本格読取の約200倍の
認識精度でした。
取り扱いも容易だし、このためだけにLinuxを導入する場合も出てくるのでは
ないでしょうか?
キラーアプリと言って差し支えないと思います。

83 :login:Penguin:2009/05/28(木) 21:09:32 ID:1fSWwA3J
>>82
つまり、本当は、使い物にならないレベルってこと?

84 :login:Penguin:2009/06/25(木) 09:41:47 ID:hXpPfq+7
市販品には勝てんな。

85 :login:Penguin:2009/07/05(日) 07:38:52 ID:p3XE0Qtt
>>81
市販のに追いつくのは無理だと思う。

86 :login:Penguin:2009/07/05(日) 09:47:22 ID:J147l0Qp
自分で作るしかないな。

87 :login:Penguin:2009/07/08(水) 08:29:23 ID:MYN3KcvK
>>85
学習が進むと市販製品より3桁精度が上がるぞ。

88 :login:Penguin:2011/05/24(火) 21:23:27.29 ID:YUPTZaFr
自炊を前提にした一括スキャン・PDF化はLinuxじゃできないのか…
本1冊くらいなら根性で何とかなりそうだが、
本棚まるまる自炊は現実的じゃなさそうだな

89 :login:Penguin:2011/05/25(水) 18:39:39.14 ID:n6vorquV
読取革命のOCRはWineで動いたよ。
スキャナからの直接読み取りはできないし、メニューも文字化けしたけど。
Linux側のスキャンソフトでスキャンしたあと、読取革命にシェルスクリプトで
渡せそうな気もするが、そこまで試してはいないけどね。

90 :login:Penguin:2011/05/27(金) 20:06:04.78 ID:U9X/yOF+
Googleが開発してるやつが日本語対応してるよ。

91 :login:Penguin:2011/06/03(金) 20:26:04.94 ID:vne5pZaw
DR-150のドライバの更新まだー

92 :login:Penguin:2011/06/06(月) 10:04:34.57 ID:f+eQwx5N
>>91
昔saneの作者宛てに実機送れ(寄贈)ばドライバ書いてくれるって見たことがある。
送ってみれば?

93 :login:Penguin:2011/06/12(日) 11:46:55.78 ID:DcUUeU9g
>>92
いっぱい送られてきたら作者は邪魔じゃないのか
着払いで送り返してもらった方が、お互い幸せなんじゃないか

94 :login:Penguin:2011/10/08(土) 06:08:04.09 ID:fjbb6eBR
gscan2pdfのOCR機能をtesseract-ocrで日本語認識できるようにしてみた

以下いい加減なパッチ

*** gscan2pdf 2011-10-08 05:36:43.218863368 +0900
--- /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
***************
*** 153,159 ****
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
- use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
--- 153,158 ----
***************
*** 223,229 ****

# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "ja_JP.UTF-8" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";


95 :login:Penguin:2011/10/08(土) 06:09:10.41 ID:fjbb6eBR
逆だった

*** /home/pcadmin/デスクトップ/gscan2pdf 2010-08-11 17:39:58.000000000 +0900
--- gscan2pdf 2011-10-08 05:36:43.218863368 +0900
***************
*** 153,158 ****
--- 153,159 ----
use Archive::Tar; # For session files
use Sane;
use PDF::API2;
+ use PDF::API2::Resource::CIDFont::CJKFont;
use Getopt::Long;
use
Set::IntSpan 1.10; # For page numbering issues. 1.10 required for size method
***************
*** 222,228 ****

# Set LC_NUMERIC to C to prevent decimal commas (or anything else) confusing
# scanimage
! setlocale( LC_NUMERIC, "C" );
if ($debug) {
print "Using ", setlocale(LC_CTYPE), " locale\n";
print "Startup LC_NUMERIC ", setlocale(LC_NUMERIC), "\n";


96 :login:Penguin:2011/10/08(土) 06:13:28.92 ID:fjbb6eBR
***************
*** 2730,2735 ****
--- 2731,2737 ----
send( $parent, '0' . $d->get('Setting up PDF'), 0 );
my $pdf = PDF::API2->new( -file => $filename );
$pdf->info( get_PDF_options() );
+ $pdf->cjkfont('KozMin');

foreach (@pagelist) {
++$page;
***************
*** 2854,2860 ****
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! my $font = $pdf->corefont('Times-Roman');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;



97 :login:Penguin:2011/10/08(土) 06:15:54.11 ID:fjbb6eBR
--- 2856,2863 ----
# Add OCR as text behind the scan
if ( defined( $slist->{data}[$_][3] ) ) {
print "Embedding OCR output behind image\n" if $debug;
! # my $font = $pdf->corefont('Times-Roman');
! my $font = $pdf->cjkfont('KozMin');
my $text = $page->text;
my $canvas = $slist->{data}[$_][3];
my $root = $canvas->get_root_item;
***************
*** 11073,11079 ****
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt$post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {



98 :login:Penguin:2011/10/08(土) 06:30:52.63 ID:fjbb6eBR
--- 11076,11082 ----
$cmd = "$pre tesseract $tif $txt -l $SETTING{'ocr language'}$post";
}
else {
! $cmd = "$pre tesseract $tif $txt -l jpn $post";
}
}
elsif ( $SETTING{'ocr engine'} eq 'ocropus' ) {
***************
*** 11278,11283 ****
--- 11281,11287 ----
deu => $d->get('German'),
'deu-f' => $d->get('German (Fraktur)'),
eng => $d->get('English'),
+ jpn => $d->get('Japanese'),
fra => $d->get('French'),
ita => $d->get('Italian'),
nld => $d->get('Dutch'),


99 :login:Penguin:2011/10/08(土) 06:34:32.56 ID:fjbb6eBR
***************
*** 11318,11324 ****
}

# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('English') ] if ( !@tesslang );

my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );
--- 11322,11328 ----
}

# If there are no language files, then we have tesseract-1.0, i.e. English
! push @tesslang, [ undef, $d->get('Japanese') ] if ( !@tesslang );

my $combobox = combobox_from_array(@tesslang);
combobox_set_active( $combobox, $SETTING{'ocr language'}, @tesslang );


100 :login:Penguin:2011/10/08(土) 06:36:49.66 ID:fjbb6eBR
***************
*** 11343,11348 ****
--- 11347,11353 ----
fra => $d->get('French'),
rus => $d->get('Russian'),
swe => $d->get('Swedish'),
+ jpn => $d->get('Japanese'),
spa => $d->get('Spanish'),
ita => $d->get('Italian'),
ruseng => $d->get('Russian+English'),


以上。・・・ただし、OCRが使いものになると思ってはいけない・・・。

101 :login:Penguin:2011/10/08(土) 06:40:59.20 ID:fjbb6eBR
いちおう上げとく

102 :login:Penguin:2011/10/08(土) 21:34:22.49 ID:40C2TRhz
バイナリ欲しい

21 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)