科学网

 找回密码
  注册
科学网 标签 图像处理 相关日志

tag 标签: 图像处理

相关日志

【当期目录】IEEE/CAA JAS第7卷第4期
IEEEJAS 2020-7-13 09:12
IEEE/CAA JAS第7卷第4期发表了 关于智能控制、稳定性分析、机器人、图像处理、智能车辆、机器学习、多智能体系统等方向论文。欢迎阅览。 01 Qinglai Wei, Hongyang Li and Fei-Yue Wang, Parallel Control for Continuous-Time Linear Systems: A Case Study , IEEE/CAA J. Autom. Sinica , vo l. 7, no. 4, pp. 919-928, July 2020. Highlights: ❖ A new parallel control structure for continuous-time linear systems is proposed. ❖ The parallel controller is proposed based on parallel control theory. ❖ The parallel controller considers both system state and control as input. ❖ The parallel controller can avoid the disadvantages of state feedback control. 02 Pierluigi Di Franco, Giordano Scarciotti and Alessandro Astolfi, Stability of Nonlinear Differential-Algebraic Systems Via Additive Identity, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 929-941, July 2020. Highlights: ❖ Representation of DAE systems as feedback interconnection. ❖ Stability analysis forDAE systems via Lyapunov Method and Small Gain-like arguments. ❖Stability analysis for nonlinear mechanical systems with holonomic constraints. ❖Stability analysis of Lipschitz DAE systems. 03 Jacob H. White and Randal W. Beard, An Iterative Pose Estimation Algorithm Based on Epipolar Geometry With Application to Multi-Target Tracking , IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 942-953, July 2020. Highlights: ❖ This paper introduces a new algorithm for estimating the relative pose of a moving camera. ❖ A novel optimization algorithm solves for the relative pose using the epipolar constraint. ❖ Applications include multi-target tracking, visual odometry, and 3D scene reconstruction. ❖ If IMU information is available, it is used to seed the pose estimation algorithm. ❖ Real-time execution of the algorithm is demonstrated on an embedded flight platform. 04 Haowei Lin, Bo Zhao, Derong Liu and Cesare Alippi, Data-based Fault Tolerant Control for Affine Nonlinear Systems Through Particle Swarm Optimized Neural Networks, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 954-964, July 2020. Highlights: ❖ A data-based fault tolerant control scheme is investigated. ❖ The unknown system dynamics is approximated by PSO-NN identifier. ❖ The HJB equation is solved with a high successful rate by the PSOCNN. ❖ The online fault tolerant control is shown to be optimal. 05 Xiaodong Zhao, Yaran Chen, Jin Guo and Dongbin Zhao, A Spatial-Temporal Attention Model forHuman Trajectory Prediction, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 965-974, July 2020. Highlights: ❖ Study the trajectory prediction jointly with temporal and spatial affinities. ❖ A LSTM model that uses attention mechanism to improve the accuracy of trajectory prediction . ❖ An experimental error analysis using data based on both world plane and image plane. 06 Ali Forootani, Raffaele Iervolino, Massimo Tipaldi and Joshua Neilson, Approximate Dynamic Programming for Stochastic Resource Allocation Problems, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 975-990, July 2020. Highlights: ❖ MDP based resource allocation problem is proposed. ❖ MPC is considered in the framework of the MDP. ❖ Algorithms suitable for computer implementation are proposed. ❖ Compressive sampling is considered for ADP. ❖ Linear architecture is considered for ADP. 07 Liang Yang, Bing Li, Wei Li, Howard Brand, Biao Jiang and Jizhong Xiao, Concrete Defects Inspection and 3D Mapping Using CityFlyer Quadrotor Robot, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 991-1002, July 2020. Highlights: ❖ A high-quality labeled dataset for crack and spalling detection, which is the first publicly available dataset for visual inspection of concrete structures. ❖ A robotic inspection system with visual-inertial fusion to obtain pose estimation using an RGB-D camera and an IMU. ❖ A depth in-painting model that allows depth hole in-painting in an end-to-end approach with real-time performance. ❖ A multi-resolution model that adapts to image resolution changes and allows accurate defect detection in the field. 08 Giancarlo Fortino, Antonio Liotta, Fabrizio Messina, Domenico Rosaci and Giuseppe M. L. Sarnè, Evaluating Group Formation in Virtual Communities, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1003-1015, July 2020. Highlights: ❖ The problem of forming effective groups in virtual communities is addressed. ❖The proposed solution exploits trust information without significant overhead by adopting local reputation instead of global reputation. ❖An index to measure the effectiveness of group formation is introduced, as well as an algorithm to drive group formation as proof of concept. ❖Experimental trials performed on two data sets extracted from social networks have shown that the adoption of the proposed solution offer significant advantages. 09 Chinthaka Premachandra, Dang Ngoc Hoang Thanh, Tomotaka Kimura and Hiroharu Kawanaka, A Study on Hovering Control of Small Aerial Robot by Sensing Existing Floor Features, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1016-1025, July 2020. Highlights: ❖ Hovering control of small aerial robot. ❖Image processing using small-type and low-weight microcontrollers. ❖Specific image feature point detection by weak directional pattern analysis. ❖On-board camera image processing based autonomous flight control of UAV. ❖Simple and low-cost image noise removal process. 10 Mohammadhossein Ghahramani, Yan Qiao, MengChu Zhou, Adrian O’Hagan and James Sweeney, AI-Based Modeling and Data-Driven Evaluation for Smart Manufacturing Processes, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1026-1037, July 2020. Highlights: ❖ To address this concern, a dynamic feature selection model based on an integrated algorithm including a meta-heuristic method (GA) and an artificial neural network is proposed. ❖The implemented algorithm considers two major conflicting objectives: minimizing the number of features and maximizing the classification performance. ❖The proposed AI-based multi-objective feature selection method together with an efficient classification algorithm can enables decision makers to scrutinize manufacturing processes. 11 Yaojie Zhang, Bing Xu and Tiejun Zhao, Convolutional Multi-Head Self-Attention on Memory for Aspect Sentiment Classification, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1038-1044, July 2020. Highlights: ❖ Using convolution and self-attention to capture semantic information of n-gram and sequence itself. ❖The aspect-sequence modeling ability and network parallelism of memory network are preserved. ❖Can complete ACSA and ATSA tasks and win in baseline. 12 Chaoyue Zu, Chao Yang, Jian Wang, Wenbin Gao, Dongpu Cao and Fei-Yue Wang, Simulation and Field Testing of Multiple Vehicles Collision Avoidance Algorithms, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1045-1063, July 2020. Highlights: ❖ A distributed real-time MVCA algorithm is proposed by extending the reciprocal n-body collision avoidance method and enables the intelligent vehicles to choose their destinations and control inputs independently. ❖The effects of latency and packet loss on MVCA are also statistically investigated through theoretically formulating broadcasting process based on one-dimensional Markov chain and the results uncover that the tolerant delay should not exceed the half of deciding cycle of trajectory planning, and shortening the sending interval could alleviate the negative effects caused by the packet loss to an extent. ❖The MVCA was tested by a real intelligent vehicle, the information on obstacles and the latitude and longitude of the vehicle were input into the algorithm, 13 Kritika Bansal and Pankaj Mukhija, Aperiodic Sampled-Data Control of Distributed Networked Control Systems Under Stochastic Cyber-Attacks, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1064-1073, July 2020. Highlights: ❖ A hybrid aperiodic sampled-data mechanism for distributed networked control systems under stochastic deception attacks is introduced to alleviate the problem of computational load, energy consumption and communication load. ❖A more general attack scenario on distributed networked control systems is considered whereby stochastic deception attacks of different intensity on different subsystems may occur. ❖The implementation of self-triggering strategy alone for distributed networked control systems under attack is also presented. ❖The analysis of the proposed strategy for an isolated system is presented as a special case. Also, minimum inter-event time is obtained for an isolated system under deception attack. 14 Chao Han and Yuzhen Shen, Three-Dimensional Scene Encryption Algorithm Based on Phase Iteration Algorithm of the Angular-Spectral Domain, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1074-1080, July 2020. Highlights: ❖ An accurate angular spectrum diffraction is used to reduce the loss of information transmission. ❖The combination of the angular spectrum diffraction and the three - phase iterative algorithm improves the security of the encrypted information. ❖The algorithm proposed can achieve the encryption and decryption of 3D scenes and increase the capacity of the encrypted information. 15 Xiaoyuan Wang, Chenxi Jin, Xiaotao Min, Dongsheng Yu and Herbert Ho Ching Iu, An Exponential Chaotic Oscillator Design and Its Dynamic Analysis, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1081-1086, July 2020. Highlights: ❖ Exponential nonlinear term This exponentially nonlinear term may make the new chaotic system have better performance. And the effectiveness of this exponential chaotic system has been proved by various theoretical analyses. ❖NIST test The exponential chaotic system passed all fifteen tests, but the Lü system passed only fourteen of them. Also the exponential chaotic system has 9 tests with P-values greater than the Lü system in all 15 tests. ❖Circuit This paper has designed a circuit corresponding to the exponential chaotic system. And the simulation results of Multisim are consistent with the theoretical analysis. 16 Mohammad Javad Morshed, A Nonlinear Coordinated Approach to Enhance the Transient Stability of Wind Energy-Based Power Systems, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1087-1097, July 2020. Highlights: ❖ Introduce a new nonlinear coordination method based on MIMO zero dynamics approach. ❖Coordinate controllers of DFIG and synchronous generators (SGs) in multi-machine power systems. ❖Propose a coordinated framework for large scale power systems with n-DFIG and m-SG. ❖Enhance transient and voltage stability of inter-connected power systems. ❖The proposed approach is implemented to the IEEE 39-bus power systems. 17 Chao Deng, Weinan Gao and Weiwei Che, Distributed Adaptive Fault-Tolerant Output Regulation of Heterogeneous Multi-Agent Systems With Coupling Uncertainties and Actuator Faults, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1098-1106, July 2020. Highlights: ❖ A novel distributed adaptive fault-tolerant control method is proposed to solve the fault-tolerant output regulation problem for heterogeneous MASs with matched system uncertainties and mismatched coupling uncertainties among subsystems. ❖Different from the existing distributed fault-tolerant control result, a more general directed network topology is considered in this paper. ❖ A novel sufficient condition with cyclic-small-gain condition is proposed by using the linear matrix inequality technique. 18 Jing Huang, Yimin Chen, Xiaoyan Peng, Lin Hu and Dongpu Cao, Study on the Driving Style Adaptive Vehicle Longitudinal Control Strategy, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1107-1115, July 2020. Highlights: ❖ A driver-adaptive fusion control strategy of Adaptive Cruise Control and Collision Avoidance was proposed. ❖Different styles of divers’ driving behavioural data were collected via driving simulator experiments, corresponding driving behaviour characteristics were extracted and used in the driver-adaptive control. ❖Real-time recognition of driving style was achieved based on fuzzy reasoning rule. ❖The effect of the fusion control strategy was validated by virtual experiments. 19 Qi Wu, Li Yu, Yao-Wei Wang and Wen-An Zhang, LESO-based Position Synchronization Control for Networked Multi-Axis Servo Systems With Time-Varying Delay, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1116-1123, July 2020. Highlights: ❖ It is demonstrated that the proposed approach can deal with the effects of system uncertainty, external disturbance, and short time-varying for the NMASS. ❖It is rigorously proved that the closed-loop control system under the proposed controller is bounded-input-bounded-output (BIBO) stable. ❖It is verified that the proposed method has better tracking and synchronization performance than the improve PID-based method by testing on a four-axis NMASS experimental platform. ❖The bandwidth-parameterization tuning method is applied in both controller design and observer design, so that the number of parameters that need to be adjusted is greatly reduced. 20 Longwei Fang, Zuowei Wang, Zhiqiang Chen, Fengzeng Jian, Shuo Li and Huiguang He, 3D Shape Reconstruction of Lumbar Vertebra From Two X-ray Images and a CT Model, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1124-1133, July 2020. Highlights: ❖ This paper introduces a novel method that use prior model and two x-ray images to reconstruct 3D vertebra. ❖We use the CT data of a vertebra specimen to provide both the shape mesh and the intensity model, and only one prior model used in our method. ❖We combine the elastic-mesh-based and statistical-intensity-model-based methods, which can provide efficient and robust 3D vertebra reconstruction. 21 Jiahai Wang, Yuyan Sun, Zizhen Zhang and Shangce Gao, Solving Multitrip Pickup and Delivery Problem With Time Windows and Manpower Planning Using Multiobjective Algorithms, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1134-1153, July 2020. Highlights: ❖ A multiobjective pickup and delivery problem with time windows and manpower planning is introduced. ❖A multiobjective iterated local search algorithm with adaptive neighborhood is proposed. ❖The nature of objective functions and the properties of the problem are analyzed. ❖The benefits of multiobjective optimization are discussed. 22 Jin Xu, Wei Wu, Keyou Wang and Guojie Li, C-Vine Pair Copula Based Wind Power Correlation Modelling in Probabilistic Small Signal Stability Analysis, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1154-1160, July 2020. Highlights: ❖ In this paper, the C-vine pair copula theory is introduced to describe the complicated dependence of multidimensional wind power injection, and samples obeying this dependence structure are generated. ❖The probabilistic stability of power system integrated with six wind farms is investigated by performing the Monte Carlo simulations under different correlation models and different operating conditions scenarios. ❖In the case study of a modified New England test system, the simplified pair copula construction (sPCC) with C-vine structure proves to have a better reflection of the actual dependence than the linear correlation coefficient (LCC) model and multivariate normal copula model. 23 Shengwen Xiang, Hongqi Fan and Qiang Fu, Distribution of Miss Distance for Pursuit-Evasion Problem, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1161-1168, July 2020. Highlights: ❖ An analytic method for solving the distribution of miss distance is proposed by integrating the error model of zero-effort miss distance. ❖Four different types of Bang-Bang disturbances are considered specifically. ❖Results provide a powerful tool for the design, analysis and performance evaluation of pursuit-evasion problems. 24 Teng Liu, Hong Wang, Bin Tian, Yunfeng Ai and Long Chen, Parallel Distance: A New Paradigm of Measurement for Parallel Driving, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1169-1178, July 2020. Highlights: ❖ Parallel driving 3.0 system as potential autonomous driving system is essentially discussed. ❖Parallel distance framework is presented to measure real and artificial world. ❖Techniques related to multiple distance calculation are quantified and compared. ❖Practical applications of parallel distance framework is introduced and outlined. 25 Lan Jiang, Hongyun Huang and Zuohua Ding, Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1179-1189, July 2020. Highlights: ❖ Fast convergence and Better strategy ❖Deep Q-learning ❖Experience replay ❖Heuristic knowledge 26 Luping Wang and Hui Wei, Avoiding Non-Manhattan Obstacles Based on Projection of Spatial Corners in Indoor Environment, IEEE/CAA J. Autom. Sinica , vol. 7, no. 4, pp. 1190-1200, July 2020. Highlights: ❖ A method is presented to avoid non-Manhattan obstacles in an indoor environment from a monocular camera. ❖The method can cope with the non-Manhattan obstacle without prior training, making it practical and efficient for a navigating robot. ❖The approach is robust against changes in illumination and color in 3D scenes, without the knowledge of camera’s intrinsic parameters, nor of the relation between the camera and world.
1629 次阅读|0 个评论
用ImageJ快速分析和处理图像
Enago 2020-5-15 20:09
ImageJ是一款由美国国立卫生研究院(NIH)开发的软件,原名NIH Image,适用于McIntosh、Windows和Linux等系统。ImageJ旨在对图像进行更好的分析和处理,可以下载或在线使用,运行需Java 1.4或更高版本。 产品特点 ImageJ是一款通用软件,用户可使用它运行程序,编写和修改代码,并向他人分享。该软件可以创建并修改图形,支持多种文件格式的处理,与其他图像程序完美兼容,有可下载的使用教程。 ImageJ的主要特点: 交互性:编辑和分析用于打印的图像。 支持格式:包括TIFF, PNG, GIF, JPEG, BMP, DICOM, FITS等。 并行处理:支持图像栈功能,即在一个窗口里以多线程的形式层叠多个图像。 计算:根据用户定义的参数创建统计信息。 测量:根据图像确定长度、面积和其他数值。 输出:创建多种图表的直方图。 缩放:放大、缩小或旋转图像 图片编辑:去除缺陷、锐化或应用滤镜,创建几何形状并可以粘贴到其他图像上。 插件:编写个人插件来自定义程序。 宏指令:可以创建和调试宏指令。 小程序:开发个人的迷你程序。 颜色:灰度和索引颜色可提高图像处理速度,其他颜色选项可用于创建附加效果。 人性化功能 ImageJ用Java编写,兼容多个操作系统,可以在任何一台电脑上运行;用户来自世界各地,可以联网操作,可以直接收发邮件;处理速度达到每秒4000万像素,被认为是处理图像最快的Java程序。 使用方便 ImageJ提供了菜单栏、工具栏、状态栏和进度条,允许一次显示多个图像,也可以将结果显示在多个窗口中;可以添加邮件列表 更多精彩文章,请 点击 订阅 英论阁学术院 或关注英论阁微信公众号EnagoChina §博客内容皆由 英论阁 资深学术专家团队撰写提供§ *本文转载英论阁学术院: https://www.enago.cn/academy/yong-imagej-kuai-su-fen-xi-he-chu-li-tu-xiang/
个人分类: 期刊发表|2974 次阅读|0 个评论
图像识别在锂离子电池检测中的应用
热度 1 bshen 2019-9-10 12:02
硕士学位毕业论文 硕士研究生: 徐文浩 指导教师:沈斌 教授 答辩时间:2018.06 徐文浩_图像识别在锂离子电池检测中的应用.pdf
个人分类: 硕士研究生毕业论文|2410 次阅读|1 个评论
[转载]瓦片地图
yanghang 2019-2-24 10:28
一、定义 瓦片地图金字塔模型是一种多分辨率层次模型,从瓦片金字塔的底层到顶层,分辨率越来越低,但表示的地理范围不变。首先确定地图服务平台所要提供的缩放级别的数量N,把缩放级别最高、地图比例尺最大的地图图片作为金字塔的底层,即第0层,并对其进行分块,从地图图片的左上角开始,从左至右、从上到下进行切割,分割成相同大小(比如256x256像素)的正方形地图瓦片,形成第0层瓦片矩阵;在第0层地图图片的基础上,按每2x2像素合成为一个像素的方法生成第1层地图图片,并对其进行分块,分割成与下一层相同大小的正方形地图瓦片,形成第1层瓦片矩阵;采用同样的方法生成第2层瓦片矩阵;…;如此下去,直到第N一1层,构成整个瓦片金字塔。 二、原理 1. 经纬度: 地球是一个椭球,Datum是一组用于描述这个椭球的数据集合。最常用的一个Datum是WGS84(World Geodetic System 1984),它的主要参数有: 坐标系的原点是地球质心(center of mass); 子午线(meridian),即零度经线,位于格林威治子午线Royal Observatory所在纬度往东102.5米所对应的的经线圈; 椭球截面长轴为a=6378137米; 椭圆截面短轴为b=6356752.3142米,可选参数; 扁平比例(flattening)f=(a−b)/a=1/298.257223563; geoid,海平面,用于定义高度,本文从略。 通过以上参数设定,我们才能对地球上的任意一个位置用经度、纬度、高度三个变量进行描述。所以当我们获取一组经纬度信息时,首先要弄明白这组信息对应的Datum。 2.投影 地图是显示在平面上的,因此需要将球面坐标转换为平面坐标,这个转换过程称为投影。最常见的投影是墨卡托(Mercator)投影,它具有等角性质,即球体上的两点之间的角度方位与平面上的两点之间的角度方位保持不变,因此特别适合用于导航。 Web墨卡托投影(又称球体墨卡托投影)是墨卡托投影的变种,它接收的输入是Datum为WGS84的经纬度,但在投影时不再把地球当做椭球而当做半径为6378137米的标准球体,以简化计算。 Web墨卡托投影有两个相关的投影标准,经常搞混: EPSG4326:Web墨卡托投影后的平面地图,但仍然使用WGS84的经度、纬度表示坐标; EPSG3857:Web墨卡托投影后的平面地图,坐标单位为米。 3.瓦片 经过Web墨卡托投影后,地图就变为平面的一张地图。考虑到有时候我们需要看宏观的地图信息(如世界地图里每个国家的国界),有时候又要看很微观的地图信息(如导航时道路的路况信息)。为此,我们对这张地图进行等级切分。在最高级(zoom=0),需要的信息最少,只需保留最重要的宏观信息,因此用一张256x256像素的图片表示即可;在下一级(zoom=1),信息量变多,用一张512x512像素的图片表示;以此类推,级别越低的像素越高,下一级的像素是当前级的4倍。这样从最高层级往下到最低层级就形成了一个金字塔坐标体系。 对每张图片,我们将其切分为256x256的图片,称为 瓦片 (Tile)。这样,在最高级(zoom=0)时,只有一个瓦片;在下一级(zoom=1)时有4个瓦片;在下一级(zoom=2)时有16个瓦片,以此类推。 4.瓦片编号 瓦片生成后,就是一堆图片。怎么对这堆图片进行编号,是目前主流互联网地图商分歧最大的地方。总结起来分为四个流派: 谷歌XYZ:Z表示缩放层级,Z=zoom;XY的原点在左上角,X从左向右,Y从上向下。 TMS:开源产品的标准,Z的定义与谷歌相同;XY的原点在左下角,X从左向右,Y从下向上。 QuadTree:微软Bing地图使用的编码规范,Z的定义与谷歌相同,同一层级的瓦片不用XY两个维度表示,而只用一个整数表示,该整数服从四叉树编码规则 百度XYZ:Z从1开始,在最高级就把地图分为四块瓦片;XY的原点在经度为0纬度位0的位置,X从左向右,Y从下向上。 下表总结了中国主要地图商的瓦片编号流派,点击每个链接就可以获得一个对应编号的瓦片地图: 地图商 瓦片编码 图层 链接 高德地图 谷歌XYZ 道路 http://webrd02.is.autonavi.com/appmaptile?lang=zh_cnsize=1scale=1style=8x=105y=48z=7 高德地图 谷歌XYZ 卫星 http://webst04.is.autonavi.com/appmaptile?style=6x=843y=388z=10 谷歌地图 谷歌XYZ 道路 http://mt2.google.cn/vt/lyrs=mhl=zh-CNgl=cnx=105y=48z=7 谷歌地图 谷歌XYZ 卫星 http://mt2.google.cn/vt/lyrs=shl=zh-CNgl=cnx=105y=48z=7 谷歌地图 谷歌XYZ 地形 http://mt0.google.cn/vt/lyrs=thl=zh-CNgl=cnx=420y=193z=9 OpenStreetMap 谷歌XYZ 道路 http://a.tile.openstreetmap.org/7/105/48.png 腾讯地图 TMS 道路 http://rt1.map.gtimg.com/realtimerender?z=7x=105y=79type=vectorstyle=0 Bing地图 QuadTree 道路 http://r1.tiles.ditu.live.com/tiles/r1321001.png?g=100mkt=zh-cn 百度地图 百度XYZ 道路 http://online4.map.bdimg.com/tile/?qt=tilex=98y=36z=9;styles=plscaler=1udt=20170406 百度地图 百度XYZ 交通 http://its.map.baidu.com:8002/traffic/TrafficTileService?level=19x=99052y=20189time=1373790856265label=web2D;v=017 三、瓦片矢量数据格式 地图经过切割后形成了瓦片,每一个编号对于一个瓦片,瓦片可以是栅格数据也可以是矢量数据,栅格数据就是一张正方形图片,渲染时只需要将这张图片作为纹理贴到指定位置就行可以,栅格瓦片的缺点就是数据量大,缩放时失真,不能自由配置显示样式。这些缺点在矢量瓦片中都得以解决,矢量瓦片中使用矢量数据描述地图元素,通过渲染这些矢量数据形成地图,数据量很小,缩放的时候不会失真,可以在不同视角展示,可以展示更丰富的高度信息,例如可以拔高建筑物。 1,瓦片数据格式设计原则 瓦片数据在地图渲染的流程中包含:下载,解析,生成渲染Mesh数据,在所有,一般对瓦片数据格式的要求是,体积小,解析快,可以配合不同的样式生成不同的效果。 2,瓦片中的Feature 2.1 Feature Feature是几何图形数据和属性的合集。例如点Feature 包含 x ,y 坐标,和name等属性。下面是Feature类型对应描述的地图元素。 Feature 常见地图元素 点 POI 线 路网,边界,水系骨架 面 区域,海洋,绿地,建筑物 多点 点云,热力图 多线 多线相同属性的线 多面 多个相同属性的面 3D模型 地图上的3D元素,例如建筑物模型 2.2 数据模型 图形数据和特性的属性构成了数据模型,例如建筑物的数据模型包含一个多边形代表俯视轮廓,属性中包含名称,高度,类型(商业还是住宅等)。不同地图使用的数据模型不同,包含的信息丰富程度也不相同,但是基本的信息都很雷同,下面是常见的一些数据模型: 地图元素 模型信息 POI 点数据,文本,重要度(用于POI碰撞),商标,类型 公路 线数据,名称,道路等级,方向性,类型 铁路 线数据,名称,类型 水面 名称 绿地 名称 建筑物 名称,高度 边界线 类型 2.3 数据与样式 在渲染实现中,通常是先不区分实际地图元素,而是实现对每种类型Feature的渲染,然后通过不同的配置实现不同的现实效果。例如,公路,铁路和边界线都是线元素,只要实现线的渲染,在线的渲染实现中,线的颜色,宽度,实虚线都可以配置,这样我们通过不同的配置就可以实现各种公路,铁路,和边界线的渲染。这些配置就是样式。数据模型中属性需要能关联的一个特性的样式,这样我们就能通过一组样式配置来配置整个地图了。不同的样式组合就渲染出不同的地图风格,例如百度地图中的普通地图和旅游地图。 详细细节请阅读: https://www.cnblogs.com/hsljyyy/p/8496267.html 四、 瓦片时空数据库——切片 数据读取一(ArcGIS) 在栅格切片方面,目前主要的还是GeoServer和ArcGIS两大阵营。本小节主要讲基于ArcGIS的切片数据格式。 1 概述  目前ArcGIS的切片格式目前主要可以分为三种形式,松散型切片格式,紧凑型切片格式和紧凑型2.0数据格式。 2 松散型切片格式  第一个比例尺的文件夹名为L00,第二个比例尺的为L01,如此类推。比例尺文件夹(以下统称L文件夹)目录下还会有R开头的文件夹,R表示的ROW,当前比例尺的瓦片每一行对应一个文件夹。R文件夹的命名方式是瓦片的行序列(用rIndex表示),把rIndex转为8位16进制,不足的在左边补0,用代码公式表示FolderName = “R”+rIndex.ToString(“x”).PadLeft(8, ‘0’) 。R文件夹里面保存的就是瓦片,瓦片的命名方式跟R文件夹的命名方式相似,以字母C开头,后面是瓦片在该行的列序号(用cIndex)表示,后面依然是一个8位16进制FileName = “C”+rIndex.ToString(“x”).PadLeft(8, ‘0’)+ “.”+format.ToString()。 3 紧凑型切片格式  紧凑型切片格式(暂且把它叫做1.0格式),在切片方案文件conf.xml中,对应节点标识如下: CacheStorageInfo xsi:type=typens:CacheStorageInfo StorageFormatesriMapCacheStorageModeCompact/StorageFormat PacketSize128/PacketSize /CacheStorageInfo 包含了两类文件,bundle和bundlex,其中bundle文件中存储的是图片文件,bundlx文件中则存储了各个图片文件在bundle文件中的偏移量。 4 紧凑型切片2.0格式  紧凑型切片2.0格式,在切片方案文件conf.xml中,对应节点标识如下: CacheStorageInfo xsi:type=typens:CacheStorageInfo StorageFormatesriMapCacheStorageModeCompactV2/StorageFormat PacketSize128/PacketSize /CacheStorageInfo 相比较与1.0的格式,缓存文件夹下仅包含了bundle文件。 以下代码为读取松散型数据格式和紧凑型1.0数据格式的,2.0格式的读取方式后面更新。 class GetTileBytesHandle { /// summary /// 从本地切片文件读取相应的层行列对应的切片 /// /summary /// param name=level/param /// param name=row/param /// param name=column/param /// returns/returns public byte GetTileBytesDot3(int mLevel, int mRow, int mColumn) { int size = 128; //byte tileBytes = null; FileStream isBundle = null; string bundlesDir = input_path + \\\\_alllayers; try { string level = mLevel.ToString(); int levelLength = level.Length; if (levelLength == 1) { level = 0 + level; } level = L + level; int rowGroup = 128 * (mRow / 128); string row = rowGroup.ToString(X); int rowLength = row.Length; if (rowLength 4) { for (int i = 0; i 4 - rowLength; i++) { row = 0 + row; } } row = R + row; int columnGroup = 128 * (mColumn / 128); string column = columnGroup.ToString(X); int columnLength = column.Length; if (columnLength 4) { for (int i = 0; i 4 - columnLength; i++) { column = 0 + column; } } column = C + column; //string bundleName = string.Format(%S/%S/%S%S, bundlesDir, level, row, column) + .bundle; string bundleName = bundlesDir + \\\\ + level + \\\\ + row + column + .bundle; int index = 128 * (mRow - rowGroup) + (mColumn - columnGroup); //isBundle = new RandomAccessFile(bundleName, r); //isBundle.skipBytes(64 + 8*index); if (!File.Exists(bundleName) ) return null; isBundle = new FileStream(bundleName, FileMode.Open, FileAccess.Read); isBundle.Seek(64 + 8 * index, SeekOrigin.Begin); //获取位置索引并计算切片位置偏移量 byte ; isBundle.Read(indexBytes, 0, 4); long offset = (long)(indexBytes 0xff) + (long)(indexBytes 0xff) * 256 + (long)(indexBytes 0xff) * 65536 + (long)(indexBytes 0xff) * 16777216; //获取切片长度索引并计算切片长度 long startOffset = offset - 4; isBundle.Seek(startOffset, SeekOrigin.Begin); byte ; isBundle.Read(lengthBytes, 0, 4); int length = (int)(lengthBytes 0xff) + (int)(lengthBytes 0xff) * 256 + (int)(lengthBytes 0xff) * 65536 + (int)(lengthBytes 0xff) * 16777216; //根据切片位置和切片长度获取切片 // ByteArrayOutputStream bos = new ByteArrayOutputStream(); tileBytes = new byte ; int bytesRead = 0; if (length 4) { bytesRead = isBundle.Read(tileBytes, 0, tileBytes.Length); } else { tileBytes = null; } //tile = bos.toByteArray(); } catch (Exception ex) { return null; } finally { if (isBundle != null) { isBundle.Close(); } } return tileBytes; } /// summary /// 从本地切片文件读取相应的层行列对应的切片 /// /summary /// param name=level/param /// param name=row/param /// param name=column/param /// returns/returns public byte result = null; FileStream isBundle = null; FileStream isBundlx = null; try { string bundlesDir = input_path + \\\\_alllayers; string l = 0 + level; int lLength = l.Length; if (lLength 2) { l = l.Substring(lLength - 2); } l = L + l; int rGroup = size * (row / size); string rGroupString = rGroup.ToString(X); string r; if (rGroupString.Length = 4) { r = 000 + rGroup.ToString(X); int rLength = r.Length; if (rLength 4) { r = r.Substring(rLength - 4); } } else { r = rGroupString; } r = R + r; int cGroup = size * (column / size); string cGroupString = cGroup.ToString(X); string c; if (cGroupString.Length = 4) { c = 000 + cGroup.ToString(X); int rLength = c.Length; if (rLength 4) { c = c.Substring(rLength - 4); } } else { c = cGroupString; } c = C + c; string bundleBase = bundlesDir + \\\\ + l + \\\\ + r + c; string bundlxFileName = bundleBase + .bundlx; string bundleFileName = bundleBase + .bundle; if (!File.Exists(bundlxFileName) || !File.Exists(bundleFileName)) return null; int index = size * (column - cGroup) + (row - rGroup); //行列号是整个范围内的,在某个文件中需要先减去前面文件所占有的行列号(都是128的整数)这样就得到在文件中的真是行列号 isBundlx = new FileStream(bundlxFileName, FileMode.Open, FileAccess.Read); isBundlx.Seek(16 + 5 * index, SeekOrigin.Begin); byte ; isBundlx.Read(buffer, 0, 5); long offset = (long)(buffer 0xff) + (long)(buffer 0xff) * 256 + (long)(buffer 0xff) * 65536 + (long)(buffer 0xff) * 16777216 + (long)(buffer 0xff) * 4294967296L; isBundle = new FileStream(bundleFileName, FileMode.Open, FileAccess.Read); isBundle.Seek(offset, SeekOrigin.Begin); byte ; isBundle.Read(lengthBytes, 0, 4); int length = (int)(lengthBytes 0xff) + (int)(lengthBytes 0xff) * 256 + (int)(lengthBytes 0xff) * 65536 + (int)(lengthBytes 0xff) * 16777216; result = new byte ; isBundle.Read(result, 0, length); } catch (Exception ex) { return null; } finally { if (isBundle != null) { isBundle.Close(); isBundlx.Close(); } } return result; } } 五、 瓦片时空数据库——切片 数据读取一(GeoWebCache) 1 概述 在GeoServer阵营中,可以选择UDig和QGIS进行数据的符号化。并将符号化后的sld符号文件导入到GeoServer中,进行数据发布。切片默认路径在“GeoServer版本号\\data_dir\\gwc\\”文件夹中。可以在“GeoServer 版本号\\webapps\\geoserver\\WEB-INF\\web.xml”文件中,重新配置缓存地址路径。例如: context-param param-nameGEOWEBCACHE_CACHE_DIR/param-name param-valueC:\\temp/param-value /context-param 其中,GeoWebCache分别在data_dir / gwc-layers /目录中存储了每个GeoServer切片图层的配置。每个切片层都有一个XML文件。这些文件包含与独立版本中的语法不同的语法。可以在“Tile Layers”页面或通过GeoWebCache REST API配置切片图层。 数据发布完成后,点击首页“Tile Layers”,点击切图的图层组后面“Seed/Truncate”,点击“submit”即可开始切图,点击“Refresh list”可刷新查看切片状态。 数据将存放在配置的切片路径下。 2 数据存储格式 历史上,GeoWebCache有三种存储方式,负责tile和tile元数据处理:blob存储,Metastore和磁盘配额子系统。 1) blobstore是tile的存储机制,其默认实现基于文件系统。 2) Metastore是一个可选的基于H2的存储机制,用于关于切片的元信息,例如切片创建时间,大小和请求参数的使用。 3) 磁盘配额机制使用nosql嵌入式数据库来跟踪切片磁盘的使用情况,并根据用户设置的策略使切片到期。 从GeoWebCache 1.4.0开始,Metastore被基于完整文件系统的解决方案所取代,使得blobstore负责先前由Metastore跟踪的信息。默认情况下,这两个存储的存储位置是servlet容器指定的临时存储目录(将在那里创建名为geowebcache的目录)。如果此目录不可用,GeoWebCache将尝试在TEMP环境变量指定的位置创建新目录。内部将有一个磁盘配额目录(默认情况下称为diskquota_page_store),以及以每个缓存层命名的blobstore目录(例如topp_states用于图层topp:states)。 2.1 松散型切片数据格式 在GeoServer中,使用GeoWebCache默认生成的数据格式为松散型切片文件 2.2 文件Blob(persistent storage mechanisms)存储方式 除了松散型切片数据格式以外,GeoWebCache还提供了一种永久性的blob存储机制,即“blobstore”。“blobstore”是一种软件组件,它提供了在给定存储机制中存储和检索切片的操作。 从版本1.8.0开始,tile有两种类型的BlobStore存储机制: 1)文件blob存储:将tile存储在目录结构中,该目录结构由按层和缩放级别组织的各种图像文件组成。 2)S3 blob store:将磁贴存储在Amazon Simple Storage Service存储桶中,作为遵循类似TMS的密钥结构的单个“对象”。 可以在配置文件中配置零个或多个blobstore,以在不同位置和不同存储后端存储切片。 其中一个已配置的blobstores将是默认值。 这意味着它将用于存储其配置未明确指示应使用哪个blobstore的每个层的切片。 2.3 MBTiles Blob存储方式 这个blob存储允许我们使用MBTiles规范(版本 1.1)存储切片,该规范定义了一个用于在SQLite数据库中存储切片的模式,其中包含有关切片格式和投影的一些限制。MBTiles规范仅支持JPEG和PNG格式,并且假设EPSG:3857。实现的blob存储将读取和写入符合规范的MBTiles文件,但也能够写入和读取使用其他格式和投影的MBTiles文件。使用MBTiles blob存储将带来一些好处,但代价是性能损失。 MBTiles存储使用的文件数量明显减少,从而可以更轻松地处理数据(例如,备份,在环境之间移动切片)。在某些情况下,存储的数据将更紧凑,减少了磁盘上数据的大小。与文件blob存储区相比,此存储有两个限制: 1) 此存储未与磁盘配额集成,这是使用数据库文件的结果。 2) 无法在多个GeoWebCache实例之间共享此存储。 MBTiles文件对应于SQLite数据库文件。 为了限制每个单个数据库文件的争用量,系统允许用户决定数据库文件的粒度。 当GeoWebCache需要将切片映射到数据库文件时,它只会检索数据库文件路径,而不会考虑MBTiles元数据(这就是为什么这个存储能够处理其他格式和投影)。 基于默认的文件模板将属于某个图层的所有图块存储在单个文件夹中,该文件夹将包含每个给定格式,投影和参数集的子文件夹,并将在SQLite中对具有相同缩放级别,列范围和行范围的图块进行分组。 列和行范围值通过配置传递,默认情况下为250。提供的文件路径模板将始终被视为相对于作为配置选项提供的根目录。 下面是使用默认路径模板时blob存储根目录结构的示例: . |-- nurc_Pk50095 | `-- EPSG_4326image_pngnull | |-- 11_2000_1500.sqlite | `-- 12_4250_3000.sqlite `-- topp_states |-- EPSG_900913image_jpeg7510004a12f49fdd49a2ba366e9c4594be7e4358 | |-- 6_250_500.sqlite | `-- 7_0_0.sqlite `-- EPSG_900913image_jpegnull |-- 3_500_0.sqlite |-- 4_0_250.sqlite `-- 8_750_500.sqlite 如果没有提供参数,将使用空字符串。 最好定义避免冲突的文件路径模板。可以在文件路径模板中使用的变量名称包括: grid:网格集id layer:图层的名称 format:图块的图像格式 params:参数唯一哈希值 x:列范围,基于列范围计数配置属性计算 y:行范围,基于行范围计数配置属性计算 z:缩放级别 有效的MBTiles文件同时也需要元数据信息,在创建MBTiles文件时将,系统会自动添加图像格式和图层名称。 元数据模板如下: layerName.metadata
个人分类: 科研笔记|13209 次阅读|0 个评论
Cotton High Speed Phenotyping专题征稿-J of Cotton Research
crilqy 2018-12-21 15:23
Jounal of Cotton Research Cotton High Speed Phenotyping Thematic Series Call For Paper Coordinator: Professor Eric F. Hequet, Texas Tech University, USA; Dr. Glen Ritchie, Texas Tech University, USA High speed phenotyping is critical to improve cotton research and production. It can be applied to large scale commercial fields, research fields, breeding lines, and even at the individual plant level. The main goals are to improve yield, fiber quality, stress and disease resistance, etc. Recently, advances in high speed phenotyping in cotton have been achieved. The Journal of Cotton Research is hosting a thematic series on this topic. The research community is encouraged to share original findings, methodology, results, databases, and/or software and opinions. Scopes that may be covered in the submissions may include, but are not limited to the following: 1. Platform design: air-based and/or land-based; 2. Data capture and processing: sensors (RGB, IR, multispectral, sonic, etc.), integration of multiple sensors, information processing technologies; 3. Data analysis and Metadata: analysis of very large data sets, validation with ground truth, practical application examples (breeding programs, site specific irrigation scheduling, etc.). Submission Deadline: April 30, 2019 期刊简介、APC及稿酬等
1933 次阅读|0 个评论
爱犯错的智能体 --- 语言篇:可塑与多义
热度 2 heruspex 2018-11-7 07:46
人之初,性本善;性相近,习相远。苟不教,性乃迁;教之道,贵以专。昔孟母,择邻处;子不学,断机杼。窦燕山,有义方;教五子,名俱扬。养不教,父之过;教不严,师之惰。 子不学,非所宜;幼不学,老何为? 玉不琢,不成器;人不学,不知义。为人子,方少时;亲师友,习礼仪。 --- 《三字经》 作为国学启蒙书籍之一,《三字经》在知识的简洁表达上做到了极致。聊聊数笔,人的性格养成、子女教育、礼义廉耻就言简意赅的表达了。在让人知道学区房重要性的同时,也反映了另一层事实,后天的学习可以帮助近乎“白纸”、最初相近的人类形成了多样性的“远”。 从人工智能的角度来看,这种表述方式很符合 1978 年 Jorma Rissanen 提出的最小描述长度原则 (Minimum Description Length ,常简称为 MDL) 。直观来说,就是在给定表达集合的前提下,产生最大压缩效果而又不丢失信息或知识的表达是最好的。虽然背后的原因可能是毛笔字太难写,能少写就尽量少写。反观现在流行的说唱,似乎可以称为最少时间描述,因为需要在最少的时间完成最大的信息量传递。 虽然《三字经》强调学习的重要性,但关于语言是如何习得的,却没有涉及。 一、语言学习的次序与可塑性 对于新儿生来说,获得语言能力的时间比获得视听觉能力的时间要晚不少。在最初的 2-3 个月期间,新生儿最多会说些简单的象声词,会哭会笑。到七坐八爬的时间段,开始能理解大人的简单对话,尤其是当内容与新生儿可以接触到的物体相关时。但要学会说话,还得耐心地等到 1 岁半左右。 2 岁以后,才能发音或清晰或含糊的跟成人交流了。 由此可见,在人类的智能发育中,尽管从出生开始就沉浸在相对单纯的语言环境中,儿童的语言习得却具有很明显的滞后性。这种滞后性一方面与声带练习需要时间有关,而 这种练习可能是为了配合人类由粗到细学习模式、演化的结果;另一方面也可能与人脑在建构具体到抽象概念的认知结构的次序有关,即更抽象的语言学习需要建立在,能通过感官感觉到的概念的基础之上,如通过视觉、听觉、触觉获得的概念。 在交流变为通畅后,儿童的语言学习就开始快步前进了,最后会进入稳定期,一如成人一样。不过并非年龄越大,学习语言的能力就越强。比如,在外语学习方面,有一个比较有趣的拐点错觉,即 12 岁以前学习外语往往被认为是黄金时期。夸张地讲,儿童在全英文环境下获得的英文提升能力的效率,大概是成年人在相同环境下的六倍左右。 这似乎与直觉有些相悖,因为成人的学习能力、学习方法、注意力都能做得更有效。但是,儿童学习外语的优势恰恰又在于这个弱势,即他仍处在一个没有完全把母语的语言结构固化的阶段。由于没有固化,就不容易受到母语的影响,就有可能形成两个相对更独立的语言认知模型。反观成年人的外语学习,多数人在阅读英文文献时,可能都会下意识地先在大脑里翻译成中文再去找对应的英文意思。结果,成年人要完全脱离母语去思考英文就需要更长的调整时间。这说明成年人的多语言结构中母语具有更强的优先级,且对新语言的学习会形成明显的干扰。而儿童的母语结构的优先级则不明显,因而在语言学习时有更强的可塑性。很有意思的一点是,这种可塑性是在构造由粗到细的学习模式的中段而非终段发生的。 如果比较下当今人工智能对新模式的学习策略,就能发现,多数是在模拟终段的学习。不管是零样本学习 (zero-shot) 、少量样本学习 (few-shot) 、迁移学习 (transfer learning) 还是领域自适应 (domain adaptation) ,它们都假定了有某一已知的、(接近)固化的结构在其中,或是分布、或是几何结构、或是其它某种假设。如果能研究下人类智能中段的学习模式,说不定能让目前极容易固化的机器智能得到更强的可塑性。 二、语言学习中的整体与局部认知 语言学习有其基本的规律,首先要学会的是识字。儿童识字的过程是从看图说话开始的,读书是从图画书逐渐过渡到少图甚至无图的书籍。这说明了具体与抽象的匹配在人的前期认知建构非常重要。那人在识字时是如何记忆每个字符的呢? 一种可能是基于由粗到细、由整体到局部的记忆模式,因为这与人的视觉发育机理吻合。可以用来佐证整体记忆的例子是如下的乱码阅读: The nghit bferoe lsat,jsut berofe dnienr, wihle my ftaehr was lkooing trhugoh the envenig pepar,he sdduelny let out a cry of srpusrie. Letar he epxinaeld: 'I had tohhugt taht he had deid at laset tewtny yares ago. But can you bleeive taht my fisrt tcheear, Mr. Crossett, is sitll liivng? ' 这段文字选自曾经的某中学英语高中第二册第一课。打乱字母次序后,看上去很混乱,但稍微懂点英文的,应该能不太费力的将每个拼错的单词自动纠正,并把全文正确读出来。它表明人在记忆英文单词或句子时,会优先进行整体认知。只要单词中的第一和最后一个字母次序保持不变,人就可以准确识别。整体认知的情况在汉语中同样存在。不妨阅读下面这个句子: 研表究明,汉字的序顺并不定一能影阅响读,比如当你完看这句话后,还没发这现里的字全是乱的。 显然,只要没改变每个短句的第一和最后一个汉字,相邻字的次序交换也不会影响阅读和对句子意思的理解。整体认知也能解释惯用简体字的国人为什么能比较轻松地识别多数繁体字。因为多数情况下,繁体字与简体字的字型是相近的。甚至当汉字产生字体变化时,如楷体、宋体、行书,基本也不影响人对汉字的理解。当然,“医生体 ”除外。 另外,整体认知也方便人识别和记忆未知的汉字。当识别结构相似、发音也相同的汉字时, 如“喽”和“楼” ,“景”和“憬”,“援”和“媛”时,就能够快速地获得正确的发音。如果观察 儿童早期的文字识别,可以发现,当他们遇到不认识的字时,会在大脑中寻找相似字型的字来匹配,并推测未知字的发音。但当遇到 结构相似、发音不同的汉字时,如“锦”和“绵”、“流”和“毓”、“途”和“徐”,则可能形成错误推广。这些错误和正确的推测,表明 儿童在建构语言记忆模型时,可能会将字型结构类似的字放在相近的记忆模型中,以提高学习的效率。 三、语言 断句和释义 的歧义性 认知心理学的分支之一、格式塔心理学强调了整体认知的重要性。然而,这一理论目前还没有形成太好的量化机制或程序化方法来,它使得机器对需要整体认知的问题还一筹莫展。除此以外,语言的歧义性也使得人类在语言理解上,较机器更灵活和智能,甚至多了些茶余饭后的文字游戏。如以下示例: 1 、自然语言处理领域常用来示例的歧义句: 南京市长江大桥 是 ” 南京市 / 长江大桥 ” 还是 “ 南京市长 / 江大桥 ” ? 2 、最近网络中流传的两个段子: 1) 改编自金庸的《神雕侠侣》: 来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过过儿过过的生活。” 2) “行”字 句: 人要是行,干一行行一行,一行行行行行; 要是不行,干一行不行一行, 一行不行行行不行 3 、古诗新解:唐代诗人杜牧的千古名作之一、七绝诗《清明》: 清明时节雨纷纷,路上行人欲断魂; 借问酒家何处有,牧童遥指杏花村。 如果不按古诗的格式、而是按散词的形式来断句,就会多一层俏皮的感觉: 清明时节雨,纷纷路上行人,欲断魂。 借问酒家何处?有牧童,遥指杏花村。 不仅如此,我们还可以将此诗改写成微型独幕剧: 时间:清明时节 天气:雨纷纷 主要人物:路上行人 精神状态:欲断魂 台词:借问酒家何处有 ? 另一主要人物:牧童 动作:遥指 台词:杏花村 可见汉语在语意表达上是相当丰富的。汉语的多义性让这类例子已不胜枚举,再看两例同义 / 反义和多义的例子: 1 、同义 / 反义: 当中国女排获得世锦赛冠军时,媒体既有“中国女排大胜美国女排”,也有“中国女排大败美国女排” 报道,那到底是大胜还是大败呢? 2 、多义性: 上司:“你这是什么意思?”小明:“没什么意思。意思意思。”上司:“你这就不够意思了。”小明:“小意思,小意思。”上司:“你这人真有意思。”小明:“其实也没有别的意思。”上司:“那我就不好意思了。”小明:“是我不好意思。” 请问以上“意思”分别是什么意思? 这些都是机器理解中文自然语言的难点,而国人因为有背景知识的支持,理解起来就相对容易些。 除了语言自身的特点,视听觉系统也会对语言的理解有着重要的作用。 四、视听觉对语言的影响 俗话说“千言不如一画”,对于视觉优先的人类而言,图画能提供更丰富和具体的信息。可是,如果语言搭上图画的包装,将字面的意思用图画的形式表述出来,那即使是人,也得思考半天才能理解语言的意思。比如根据苏轼的一首诗《晚眺》来书写的图 1 。原文是: 长亭短景无人画,老大横拖瘦竹筇 回首断云斜日暮,曲江倒蘸侧山峰 图 1 则将诗中的形容词“长、短、大、横、瘦、断、斜、曲、倒、侧”等通过视觉的方式融入到诗里的名词中,让原本已经很美的诗更加添了一丝画面感。 图 1 : 苏轼的《晚眺》 要让机器来理解这种有画面感的诗,需要分析字体的大小关系、方向性、断字情况、反向书写、局部字体变化与诗词的关系。这些无形中加大了机器处理语言的难度,更不用说理解字画的意境了。 不仅视觉能影响人对语言的理解,听觉也能影响。同样的语句,重音不同,想强调了的内容就差不少 。比如: 明天别忘了带笔记本电脑去单位! 如果重音在“明天”,则是强调时间;如果在“别忘了”,则是强调记性;如果在“笔记本电脑”,则是强调带的物品,如果在“单位”,则是强调要去的场所。 可见视听觉的融入会不同程度地影响对语言的理解,导致机器分析的难度上升。 五、语言与音乐的循环游戏 除此以外,对语言的巧妙设计还能衍生出不少有趣的结构,如回文诗。汉语回文诗有很多形式,如从诗的末尾一字读至开头一字可成新诗的通体回文、下一句为上一句回读的双句回文、每句前关句与后半句互为回文的就句回文、诗的后半篇为前半篇回复的本篇回文、先连续至尾再从尾连续至开头的环复回文等等。 虽然什么时候开始有已无从考究,但从古诗词中可以找到不少回文诗。举例来说,传说北宋时期,苏小妹与长兄苏东坡六月荡舟西湖时,收到她丈夫秦小游捎来的、如图 2 的叠字回文诗书信,“静思伊久阻归期忆别离时闻漏转静思伊”。 图 2 秦少游的连环诗《相思》 苏小妹冰雪聪明,很快便悟出其中奥妙,将诗解读出来: 静思伊久阻归期,久阻归期忆别离。 忆别离时闻漏转,时闻漏转静思伊。 并回诗一首“采莲人在绿杨津一阕新歌声濑玉采莲人”。苏东坡见状,不甘寂寞,也即兴提笔赋诗一首“赏花归去马如飞酒力微醒时已暮赏花归”。 比较类似的回文诗是明末浙江才女吴绛雪写的四首《四时山水诗》,均是由十字组成的辘轳回文诗。其中,春景诗由“莺啼岸柳弄春晴夜月明”解读为: 春景诗: 莺啼岸柳弄春晴, 柳弄春晴夜月明。 明月夜晴春弄柳, 晴春弄柳岸啼莺 而夏景诗“香莲碧水动风凉夏日长”、秋景诗“秋江楚雁宿沙洲浅水流”、冬景诗“红炉透炭炙寒风御隆冬”均可通过上述方式解读成诗。 宋代李禺写的夫妻互忆回文诗《两相思》也很有意思,正着读是《思妻诗 》 : 枯眼望遥山隔水,往来曾见几心知? 壶空怕酌一杯酒,笔下难成和韵诗。 途路阻人离别久,讯音无雁寄回迟。 孤灯夜守长寥寂,夫忆妻兮父忆儿。 倒过来读就变成《思夫诗 》了: 儿忆父兮妻忆夫,寂寥长守夜灯孤。 迟回寄雁无音讯,久别离人阻路途。 诗韵和成难下笔,酒杯一酌怕空壶。 知心几见曾往来,水 隔山 遥望眼枯。 清代诗人李旸写的诗《春闺》则是一首通体回文诗: 垂帘画阁画帘垂, 谁系怀思怀系谁? 影弄花枝花弄影, 丝牵柳线柳牵丝。 脸波横泪横波脸, 眉黛浓愁浓黛眉。 在英文中,也有很多回文,称为 Palindrome 。如用来纪念美国前总统西奥多 . 罗斯福在任内取得巴拿马运河开凿权的句子 ”A man, a plan, a canal-Panama!” 就是典型的回文,正反都是一个意思。 我们甚至在音乐作品中,也能见到回文的影子。如巴洛克时期著名的德国作曲家、管风琴演奏家巴赫( Johann Sebastian Bach , 1685 年 3 月 21 日- 1750 年 7 月 28 日)的作品《音乐的奉献》 ( 英语: The Musical Offering; 德语: Musikalisches Opfer, BWV 1079) 中的 “Thema Regium”(“ 国王的主题 ”) 。 这 首曲子源自于 巴赫与腓特烈二世在 1747 年 5 月 7 日波茨坦国王住处的一次会面。因为巴赫的作曲很有名,国王席间便为巴赫提供了一段长而复杂的音乐主题,命他作首三声部赋格。完成后,国王又让其作首六声部的。巴赫回家两个月后,便完成了国王的任务,称为《音乐的奉献》组曲。其中“国王的主题”很特别, 它的旋律即可以正着演奏,也可以逆着演奏,且可以将正的和逆的作成两个声部同 时 演奏,因而叫“ 镜 像卡 农 ”。因 为这样 的旋律走向很像螃蟹走路,也 将其称为螃蟹卡农, 而非回文的命名。还有人把这种旋律看成是一种莫比乌斯带上的循环。据说巴赫业余时间喜欢读他同时期的、但已声名大震的数学家莱布尼兹的著作,说不定他这种数学味很浓的组曲的灵感来自于莱布尼兹,因为后者曾说过“音乐是数学在灵魂中无意识的运算”。 图 3 : 《国王的奉献》 乐曲片断和二声部乐曲 螃蟹卡农链接: https://v.qq.com/x/page/l0616bmt8hk.html 所以,研究语言在儿童期的学习过程以及与视觉、听觉相关目标的学习次序,可能对于我们构建真正的智能体是有启示性作用的。我们是否应该一开始就从高层语义的语言着手来设计智能体,还是应该按金字塔式的结构,对视听觉及其他感官系统的构建给予更高的优先级呢?而能否将文字游戏中隐藏的各种奥妙解开,也许是真正理解语言的途径之一。 如果不看、不听、不摸、不说,智能体还能学习吗?请听下回! 参考文献: 侯世达著,郭维德等译 . 哥德尔、艾舍尔、巴赫:集异壁之大成 . 商务出版社, 1996. 张军平 2018 年 11 月 6 日 延伸阅读: 17. 爱犯错的智能体 – 体感篇:我思故我在? 16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27.
11408 次阅读|4 个评论
爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑
热度 1 heruspex 2018-10-26 09:15
小朋友小时候,我们请了一位家里外婆辈份的亲戚帮忙来照顾。虽然长我一辈,年龄却比我小。不过还好,亲戚家在湖南省的华容县,那边的人管这个辈份的都称为“家 (Ga) 家 (Ga) ”,所以,叫起来也不会太尴尬和别扭,反正外人听不懂。小朋友学语言很快,一切都很正常。可是 GaGa 老是叫不好,总发成 DaDa 。她自己也没觉得有什么不对,我们纠了几次,没什么效果,只好听之任之了。还好,随着小朋友一天天的长大,终于有一天她自己纠正过来了。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 上一篇说过,人在辨声方面有“鸡尾酒会效应”的能力。一个人不需要借助视觉的帮助就可以在酒会中选择性地聆听需要听的声音,而把其他声音弱化甚至屏蔽掉。谷歌则尝试结合视频与语音来提高人声分离的性能。那么,视觉与听觉之间会不会相互影响呢? 一、视听错觉 第一个证实有相互影响的实验来源于一次意外。早在 20 世纪 70 年代中期,英国 Surrey 大学的心理学家 Harry McGurk 和他的助手 John MacDonald 做了个实验。他们用不同的口语因素给视频配音,想研究不同时期儿童对语言的理解程度。在配音的时候,一个本应发“ ga ”的音节错配成了“ ba ”的音,测试者听完后坚持认为听到的音节是第三节音素“ da ”而不是视频中说出来的原音节。对于这个意外,他们分析后认为,在听觉系统和视觉系统收集的信息存在相互矛盾时,人类会优先相信视觉通道传输进来的信息。因为与视觉系统相比,听觉系统获得的信息没有那么强的确定性。他们将这一现象称“麦格克效应” (McGurk effect) 。该成果发表在 1976 年的《自然》杂志上 。 麦格克效应: https://v.qq.com/x/page/i0624sd97n4.html 随着研究的深入,科学家们发现这种视听觉相互影响的“麦格克效应”在很多方面都有体现。如儿童早期发音的学习上。如果视觉和听觉没有得到好的整合,儿童就容易产生错误的发音。另外,视力不好的人,如果摘下眼镜,也很可能出现“麦格克效应”,会感觉自己的听力也同时下降了。 2007 年, Körding 等进一步研究了视听觉相互影响的情况。他们在 5 个平行的位置上均放置了发声和闪光设备,然后在不同或相同的位置同时给出声音和闪光,让 19 位测试者判断发声的位置和闪光的位置。实验设置和结果如图 1 所示 。 从图上可以看出,当光和声音分别处理、没有相互干扰时, 19 个测试者的反应是稳定且合乎正确分布的。而当灯光和声音同时出现后,能看出 1 )闪光位置的判断几乎不受影响,和没有声音的时候分布一致; 2 )声音的位置影响明显。尤其最后一列,其声音似乎容易被光线影响,而形成轻微向左的误判。这表明声音的不确定更多一些,更容易被闪光影响。所以,这两个实验都证明了,视觉确实会影响听觉的认知。 � � 图 1 :视听觉线索的组合 。 (a): 实验架构。每个测试,一个视觉和一个听觉刺激同时被给出,测试者通过按按钮来报告感知的视觉刺激和听觉刺激位置。 (b): 视觉对在中间位置发出的听觉刺激的感知位置影响被显示。不同颜色对应在不同位置的视觉刺激 ( 从左到底,颜色从暖色调转为冷色调 ) 。只有声音的模型以灰色表示。 C) 对于 35 种刺激条件,测试者 ( 实线 ) 以及理想观测者的预测 ( 破折线 ) 的平均响应。左边第一列虚线为五个闪光位置;第二列为无音频的响应,从左至右的折线表示响应位置。在无音频时响应很精确。 上方第一行指五个声音位置;第二列为无视频响应,从左到右的折线表示响应情况。 二、无限音阶的拓扑 听觉反过来会促进视觉上的感知。我们在观赏影视作品时经常能感受到。比如在家看恐怖电影时,一到令人发悚的情节, 胆小点的就会情不自禁把音量关小或干脆把耳机拿下来,说明视听觉的双重作用确实增强了影片的恐怖程度。 另外,在音乐中,还有个奇怪的旋律。他通过两个或多个声部的交替,能产生无穷递进的感觉,让人误以为声音一直在往高处走。这就是谢帕得音阶 ( Shepard tone) ,也称为无限音阶。 相比音乐的历史,这种音阶出现的时间并不早。它是美国斯坦福大学的心理学家谢帕德在 1971 年的心理学实验中发明的,所以称为谢帕得音阶。它由不重合的多个八度音组合在一起,形成多个声部。 2017 年克里斯托弗 • 诺兰执导关于 1940 年二战历史事件“敦刻尔克大撤退”的电影《敦刻尔克》时,为了能为海边撤退的场景来营造一种无始无终的紧张感,便送给作曲家汉斯 • 季默一个手表连续敲击的录音。季默受此启发,便以与之类似的谢帕德音阶为基础,创作了电影的背景乐。事实证明,这段配乐非常完美地加强了撤退时的紧张感,让观众有了身临其境、坐立不安的感觉。 谢帕德音阶 : https://v.qq.com/x/page/g05479i6hs5.html 为了帮助理解,我写了个类似的两声部例子来解释谢帕德音阶的构成,如图 2 所示。其中,第一列的低音部是慢慢渐强,而第二列的高音部分则慢慢减弱,到最弱音时,再同时增加一个相同音量但低八度的音进来。按此规律,两列的旋律一直循环播放。结果,在第一列的低音到最强处,刚好能接上第二列高音的最弱音。于是两个声部就实现了自然的过渡,低声部的过渡到高声部,高声部也过渡到低声部。结果,如果按此规律增加更多的声部进来,那么,旋律中总可以一直听到至少两种声调在同时升高。而大脑会形成听觉错觉,认为这些音调一直在往上走。 图 2 两声部的无限循 环,左列为低音的渐强,右列为高音的渐弱;左列到B4时,刚好能接上右列的C5;同理,右列弱至B5时,会再增加一个同样小声的B3音进来,从而可以自然过渡到左列的C4上。 有趣的是,这种循环,我们不仅能在音乐中看到,还能在很多方面见到类似的。比如艺术作品中,前面提到过的荷兰著名画家艾舍尔就画过一系列无限循环的作品。如图 3 所示的水的循环流动、楼梯的“循环”、还有画里画外的蜥蜴。这些都是现实世界不可能实现的无限循环。 图 3 艾舍尔的各种循环画: 无尽的水流;无尽的楼梯;画里画外的蜥蜴 而在日常生活中,理发店的旋转灯筒也有着无限循环的影子,如图 4 所示。这种灯筒何时出现的无从考证,说法很多,有说是世界大战时期,有的是大革命时期。 一种说法是为了纪念一位为国家 ( 法国 ) 做出贡献的理发师,旋转灯筒的红白蓝三色其实是法国的国旗。 图 4 : 理发灯箱与针式打印机色带 另一种说法是:据说在中世纪,因为对人体的认识不足,人们认为生病是体内元素不平衡造成的。只有释放出多余的元素,才能恢复健康。血液显然是最容易放出的一种元素。不过很多医师觉得这个工作比较低贱,不愿意动手放血,就委托理发师代办。所以,理发师就选三色柱作为他们行医和理发的标志。其中,三色柱中的红色代表动脉,蓝色代表静脉,白色代表纱布。他们甚至还发明了专门用于切割血管的刀片,叫“柳叶刀” (Lancet) 。这也是现在一本顶级医学期刊的名字。放血疗法也一度成为非常流行的治疗方法,就连美国总统华盛顿也是因感冒想用此法治疗,结果于 1799 年死于失血性休克。 不管来自何种典故,灯箱的旋转,会让人产生循环往复、一直向上的错觉。这是在理发店的无限循环。 事实上,这种循环性,我们在上世纪曾广泛使用、现在主要用于打印各种增值税发票的针式打印机上也能见到。大家可以拆开色带看看,就会发现色带两面都是一直在交替着打印的,如图 4 ,因为这样可以提高色带的利用率。这是打印机里的无限循环。 这种循环的几何结构有个数学味更浓的名字,叫莫比乌斯带 (Mobius Band) ,它可以将纸按图 5(a) 所示方法折成。类似地,普林斯顿大学教授、作曲家和音乐理论专家 Dimitri Tymoczko 在假定十二音律是一个圆形循环的基础上,认为 两音符组成的音程关系可以表示成如图 5(b) 的莫比乌斯带而非甜甜圈的几何结构 。 \0 \0 图 5 : (a): 莫比乌斯带折法:将纸按箭头方法对折后再粘在一起,便可以获得 (c) 的结构; (b) 两音符音程关系可以视为莫比乌斯带 (c) 莫比乌斯带上的蚂蚁 ( 艾舍尔 ) 图 5(c) 中,艾舍尔画的蚂蚁图也是莫比乌斯带。它有个很意思的特点,如果让一只不会飞、只能生活在二维空间的蚂蚁沿着莫比乌斯带爬行。假如这个带子足够宽,蚂蚁只能向前爬,那么它可以一直向前爬下去,却不能发现这个带子是否有正有反。用更严谨的话来表达,假定你在一个点上竖一根垂直的杆子,或者称为曲面上该点的法向量,然后将杆子保持与纸面的垂直一直向前挪动,结果你会发现当杆子运动到背面该点位置时,这根垂直杆子的方向与最初正面的方向刚好是相反的。一个点上出现了两个相反的垂直杆子,这种矛盾的情况导致莫比乌斯带面上的点都没有确定的方向,称为无定向的曲面。 三维空间上,这种二维曲面还可以构造的,但是否存在一个三维无定向的结构呢?理论上是有的,即 Klein 瓶 ( 克莱因瓶 ) ,如图 6 所示。这个瓶子有个神奇的特点。如果有药片放在瓶子里的话,不用开瓶盖就拿把药片拿出来了。这对于拧不开瓶盖需要找男同胞帮忙的女性朋友们绝对是个福音。因为在三维空间中,能打不开瓶盖就拿出瓶内药片的,似乎只有“气功大师”或“魔术师”可以做到。不过很遗憾,在三维空间中无法构造出真正的克莱因瓶实体,需要更高维度的空间。 除了莫比乌斯带和克莱因瓶这两个稍显古怪的几何结构外,日常生活中,我们还能见到大量的几何结构,如甜甜圈、杯子、花瓶等。如何确定它们的几何结构呢?这些结构能否用于人工智能呢? 图 6 : (a): 克莱因瓶; (b) 图像边缘构成的克莱因瓶,不同颜色表示不同的折叠方向; (c) 玻璃的“克莱因瓶” 三、持续同调 研究几何结构的理论,有初等几何、高等几何、射影几何这些常见的,也有数学再深一点可以研究曲面不变性如高斯第一性、高斯第二性的微分几何,再复杂些就是代数几何 (Algebra Geometry) 和代数拓扑 (Algebra Topology) 。这两个数学分支中复杂和抽象的理论这里不谈。着重介绍下拓扑,它是分析几何图形或空间在连续改变形状后仍能保持不变性的理论,俗称橡皮几何学理论。比如一个杯子,如果给它加个把手,它的拓扑结构就变了。因为多了一个洞,它也就没办法在不改结构的情况下变成原来的杯子了。在拓扑学发展历史中,著名的哥尼斯堡七桥问题、多面体欧拉定理、四色问题等都是其中的重要问题。而如果想直观感受下拓扑的魅力,不妨买个中国的传统民俗玩具智环类的如九连环来玩玩,它和拓扑密切相关。 那么如何从拓扑角度判断两个形变的结构具有相同拓扑性质呢?拓扑学家们定义了一些直观的参数。最简单的参数如凸多面体上的顶点数 (Vertex) 、棱数 (Edge) 和面数 (Face) 。利用这三个参数的交错和可以确定多面体的一个不变量,叫欧拉示性数 (Euler Characteristic) 。比如三角形,它的顶点为 3 ,棱数为 3 ,面数为 2( 把外部数在内 ) ,那么它的欧拉示性数就等于 V-E+F=2 。这里我们把顶点视为 0 维空间,边或棱看成是 1 维空间,平面看成是 2 维空间。如果希望向高维空间推广,我们可以继续用这样的交错和来估计高维拓扑结构的不变量。不过得换个稍个稍微专业点的名字,叫 Betti 数 (Betti number) 。如第 0 维的 Betti 数 b0 表示连通分量 (Connected components) 的数量,第 1 维 b1 表示有圆形洞 (Circular) 的数量,第 2 维 b2 表示有二维球形洞 (Void 或 Cavities) 的数量。以图 7 所示甜甜圈为例,它只有一个连通分量, b0=1 ;但有二个圆形洞,所以 b1=2 ;有一个二维结构构成的空洞 (Void) 。那么,它的欧拉示性数则是这些按维数获得的 Betti 数分量的交错和,即 b0-b1+b2=0 。 图 7 : n 维空间的甜甜圈 拓扑学的研究在计算机图形学方面有着异常重要的地位,因为图形学里涉及的结构变形、几何结构分析上都离不开它。但是在人工智能里怎么使用拓扑呢? 与图形学不同,人工智能中有的主要是数据。每个数据点都是离散的、有噪的。如果直接利用拓扑学的概念,并不好处理,因为 Betti 数的估计需要连续的结构。不过幸运地是,数学家们发明了一套新的办法来研究数据中的拓扑,叫持续同调 (Persistent Homology) 。名字很学术,理论也相对复杂。所以,我在这里用一个不太精确但可以直观理解的方式来解释。 如果用五线谱来比拟,一个音是一个结构。但人唱这个音的时候会有细微的抖动,通常几个赫兹到几十个赫兹。如果在这个差异范围内变化,他人听不出来,那么我们仍然可以认为这些音是同一个调的。那么,这个从最小变化到最大不可区分音调的变化区间就是这个音所具有的生命力,称为持续性。另外,如果这个音出现时间非常短,那它就不会被认为是稳定的,可能只是跑调或破音了。要找主旋律,这些生命力短的音可以忽略不计。保留下来的就是那些稳定或有较长生命力的同调的音了。 与音调不同的是,数据中的持续同调是希望找到一些在一定范围内稳定不变的几何结构。那如何去寻找范围呢?科学家们想到了可以用一组能连通的三角形或学术上要求更严谨的名字“单纯复形” (Simplicial Complex) ,或半径可变的圆来实现。 如图 8 所示,左图中有七个数据点,如果给一组比较小的三角形或半径小的圆,则这些圆在连通意义下不能覆盖全部数据。因此,可以在保证连通性的情况下,将所有数据点通过若干相互连通的圆来覆盖。因为这些圆的大小限制,中间的空洞不会被填充。所以,最终连通成的圆形集合会保留原来的几何结构。我们能根据这个圆形集合形成的结构来估计它在不同维度上的 Betti 数是多少。这些 Betti 数可以做为数据分析的一组特征,也可以用来估计欧拉示性数。因为数据是离散的,如果要找一个稳定的几何结构,那么可通过增加圆的半径来完成对数据集合的多次覆盖,直到数据集合中的被连通的圆的集合完全填充。最终,原来能看到的拓扑结构如空洞就会终止,而对应的 Betti 数的持续性或生命力也会消逝,并出现新的拓扑结构。 图 8 左:从数据点中用圆形覆盖来提取拓扑结构;右:有噪的双圆形数据集 我们将稳定的拓扑结构提取出来,与已知目标的拓扑结构进行匹配,这样就能知道数据集合与哪种形式的结构最相似。 另外,直接在数据上做推测也不是完全合理的。因为数据是有噪声的,而数据量过大的时候,噪声的波动会破坏原来的几何结构,比如形成短路边,如图 8 右图。所以,我们还得用些采样技术来适当地稀疏化数据。 这样做能否发现一些有意思的现象呢?斯坦福大学的 Gunnar Carlsson 教授等人 曾经对自然图像做过实验 。他们将图像切成若干小块,每块上只有朝向不同的边缘,他们对这些边缘图像块进行采样,然后再利用不断变大的三角形来连通和勾画图像块集合的拓扑结构。结果他们发现自然图像的边缘图像块集合构成的结构和 Klein 瓶很相似,如图 6(b) 。这是第一个与拓扑相关、比较有意思的发现。 在实际应用中,还是能看到一些它的应用。比如手语识别上,因为手语的结构具有一定的拓扑性质。我们也曾将其用于图像的目标识别 。 需要提醒的是,仅用拓扑结构来构造目标识别系统是有风险的。比如带把手的咖啡杯和实心甜甜圈这种人一眼就能区分的目标,从拓扑学家的角度来看却是分不清的。 图 9 :咖啡杯和甜甜圈 更重要的是,将这类方法用于高维数据分析还存在一个问题:这些基元指标如 Betti 数是基于人对三维空间的直觉来获得的;至于高维空间是否还存在一些特别的基元,人类还无法感知。也许存在更复杂的高维基元,只是无法感知和想象而已。要解开这个难题,或许和解开彭罗斯超弦理论中隐藏的高维结构一样的困难。 所以,单纯依赖拓扑结构来完成人工智能中常常面临的预测任务,现阶段很有可能会陷入与“量子计算用于人工智能”一样、看上去很美的尴尬境界,因为“ 不是不好,时辰未到”。 不过,理解音乐、艺术、数据中的几何或拓扑结构,对于改善对智能体发育和犯错机制的了解,必将大有裨益。 参考文献: 1. H. McGurk, J. MacDonald. Hearing lips and seeing voices.Nature.264(5588): 746–748. doi : 10.1038/264746a0 . PMID 1012311 , 1976 2. K. P. Körding, U. Beierholm, W. J. Ma, S. Quartz, J. B. Tenenbaum, L. Shams. Causal Inference in Multisensory Percepti on. PLOS, ONE 2(9): e943, 2007 3. D. Tymoczko. The Geometry of Musical Chords. Science 07, 313(5783), pp. 72-74. DOI: 10.1126/science.1126287, Jul 2006 4. D. Tymoczko. A Geometry of Music: Harmony and Counterpoint in the Extended Common Practice. Oxford University Press, 2011 5. H. Edelsbrunner, J. Harer. Persistent Homology—a Survey. Surveys on Discrete and Computational Geometry: Twenty Years Later: AMS-IMS-SIAM Joint Summer Research Conference, Jul 18-22, 2006, Snowbird, Utah. American Mathematical Society, pp. 257-283 6. G. Carlsson, T. Ishkhanov, V. de Silva, A. Zomorodian. On the Local Behavior of Spaces of Natural Images, International Journal of Computer Vision, vol. 76, no. 1, pp. 1-12, 2008 7. J. Zhang, Z. Xie and S. Z. Li. Prime Discriminant Simplicial Complex . IEEE Transactions on Neural Networksand Learning Systems, vol. 24, no.1, pp. 133-144, 2013 � 张军平 2018 年 10 月 26 日 延伸阅读: 15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析 14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
15677 次阅读|2 个评论
爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉
热度 4 heruspex 2018-10-18 08:30
混沌初开,乾坤始奠。气之轻清上浮者为天,气之重浊下凝者为地。 这是明末的启蒙书《幼学琼林》中的开篇,它揣测了空间和时间的开始状态。其中乾坤意指天地和阴阳,而阴阳的解读是时间。所谓“天干,犹木之干,强而为阳;地支,犹木之枝,弱而为阴”,(十)天干(十二)地支是古代纪年历法的组成,在殷墟的甲骨文就有记载。 我们现在常说的宇宙,和乾坤是同义的。宇指上下四方,是空间。宙指古往今来,是时间,联起来就是空时。不过这么说比较拗口,所以人们一般认为宇宙字面上是对应时空。 空间是客观存在的,人的视觉却是主观的,所以人的能动性在增强对空间感知能力的同时,会产生错觉。时间也是客观存在的,且是单向的,目前一直在向前。不过在爱因斯坦的狭义相对论里,时间并非是完全孤立的变量。按其公式推算,当飞船以近光速的速度进行星际旅行时,飞船上的时间会变慢。所以,才会有 双生子佯谬 ,因为时间并非绝对的,它受运动速度的影响。不仅如此,人也会对时间产生主观的感受。成语中有“度日如年”的描述,这在课堂上听不懂老师讲课内容时尤为常见,我在中学时代对此感受颇深。 图 1 双生子佯谬 时间的主观感受不仅会让时间变“慢”,也可能会产生“逆向”的时间错觉。因为运动与时间的变化相关,时间感受的主观性又直接影响了对运动的感受 , 形成了运动错觉,它直接影响了智能体对世界的某些感知。 一、运动错觉 运动错觉常指“在一定条件下将客观静止的物体看成运动的错觉”,但更广义来看,它包含了时间主观感觉引发的错觉。因此,这类错觉既有源自静止目标的,也有源自运动目标的运动错觉。从文献来看,前者又可细分为四种错觉:动景运动 、自主运动、诱导运动和运动后效 。 动景运动 与人的视觉暂留现象 (Persistence of vision)有关,也称为“余晖效应”,是1824年由英国伦敦大学教授皮特 • 马克 • 罗葛特在《移动物体的视觉暂留现象》中最早提出的。如其它错觉一样,“视觉暂留”的内在机理,是以大脑为中心还是以眼睛为中心产生的,并没有得到统一的结论。但其现象大致可以描述成,人眼在观察物体时,光信号在传入大脑视觉中枢时,需要经过一个短暂的时间。而在光信号结束后,由于视神经的反应速度和惰性,视觉形象并不会马上消失,而是会继续在时间轴上延长存储一段时间。这种残留的视觉称为“后像”,而这个现象则称为“视觉暂留”。 图 2: 走马灯图例(网图) 它在很多场合都有着有意思或重要的应用。最早有记载的是宋代的走马灯。据说当年王安石在科场上对主考官出的联“飞虎旗,旗飞虎,旗卷虎藏身”,便是以其在马员外门口看到的联“走马灯,灯走马,灯熄马停步”来应对的,最终还因此取了马员外的女儿,情场考场双得意。如今我们看的电影和动画,都与视觉暂留现象有关。虽然每张胶片的内容都是固定不变的,但人在观察画或物体后,在 0.1-0.4秒内不会消失。于是通过三十帧每秒的连续播放,视觉暂留现象会让人对电影的内容产生了 动景运动 的错觉,形成连续性变化的感知。 据说,人在谋杀后,眼睛瞳孔会留下凶手的影子。去年日本某公司还基于这一假设对监控录像中的人眼瞳孔图像进行放大、锐化处理,以提取受害人或路人看到的画面,并从中提取犯罪嫌疑人的形象,或车牌号码等信息。 除了动景运动的错觉,人在注视目标过久时,会因为机体无法长期保持同一姿态而产生不由自主的运动,尤其是眼球的细微运动。而这种运动会被反映到视网膜上,让视觉中枢错以为是目标在运动,称为 自主运动 。比如在黑暗的密室玩恐怖解谜游戏的时候,长时间盯着某个带亮光的物体时如蜡烛的烛光,有可能就会产生物体在移动的错觉。因而,无形中增加了游戏的恐惧感。当然,要解决这一恐惧的关键也很简单,换下关注的目标,或增加参照物即可。 既然生活在物理世界,人的视觉也会受运动的相对性影响,而形成 诱导运动 。比如停在车站的两辆高铁。人坐在其中一辆里,明明自己的车开了,却会以为是另一辆仍停着的车开动了。这种相对性是受周边环境的运动诱导而形成的。如果焦点随运动的物体同步变化,另一个静止的就会被误以为在运动。中国古代的禅宗六祖慧能的故事中,更是把对这一现象的理解做了升华: 一天, 风扬起寺庙的旗幡,两个和尚在争论到底是“风动”还是“幡动”?慧能说:“既非风动,亦非幡动,仁者心动耳。” 图 3 风动还是幡动?(网图) 另外,当目标进行高速运动时,人的视觉会对运动的状态产生错误判断,即形成运动停滞甚至反转的 运动后效 错觉。如观察飞行中直升飞机的旋翼,会感觉每片叶子都能看清楚,且在慢慢地反向转动。 现在有些做机器制图的机器臂,高速状态也能达到类似的效果。 不仅会出现运动后效,人的视觉或感知系统有时候还能主导运动的方向。最近网上流行的一个旋转舞者的雕像动图就是这样的例子,如图 4。稍做学习,你就能做到任意控制其旋转的方向。这种 循环错觉 应该是来源于选择关注点前后次序的策略(窍门:盯不同脚会产生不同的旋转方向),也可以理解成主观时间先后顺序选择的结果。 图 4 旋转的跳舞舞者 除了这些错误外,当对具有特殊结构的运动目标进行遮挡时,会形成 遮挡错觉, 导致对运动目标的整体结构或方向产生错误判断。值得指出的是,这种一叶障目的错觉不止是视觉上会出现,在人工智能的很多应用中都可能碰到。比如现在流行的智能城市的交通控制,如果只对一个路口进行交通流量优化,很有可能当前路口的通畅会导致更大范围的拥堵。 还有一个比较有意思的错觉,是关注点集中时产生的 光流错觉 。飞行员在驾驶飞机降落时,需要寻找着陆跑道。当其以着陆点为焦点来调整飞机航向时,着陆点会静止不动,而周围环境则会产生长度不一但有规律的光影。就像拍运动照片时,镜头跟随跑步中的运动员同步拍摄时,运动员会保持清晰成像,而周围影像产生同方向的光影一样。这种光流错觉可以帮助飞行员准确的确定飞机的着陆位置。 当然,可列举的运动错觉还有很多,如图 5中目标边缘形成的边缘运动错觉、据说能测试人的精神状态的“旋转”的圆盘、扭曲的圆点阵列等等,就不一一枚举了。但不管是哪种,错觉都与人视觉中枢理解的“时间和空间”与客观的“时间和空间”存在错位有密切关系,也与每个人先前习得的经验有关。在多数情况,大脑对信息的加工处理都是合理、有效的,但在输入信息出现特殊结构,则可能出现反常感知或被误导,形成运动错觉。 图 5 其他错觉图( www.psychspace.com ) 那么,这些错觉有没有可能让机器学习或进行有效分类了?如果能做到,也许对人工智能和机器视觉模仿和理解人的视觉处理能力上会有巨大的帮助。 2018年10月,位于美国肯塔基的Louisville大学的Robert Williams和Roman Yampolskiy报告了他们的尝试结果 。他们构造了一个超过6000张光学错觉图像的数据集,期望通过深度网络来实现有效分类和生成一些有意思的视觉错觉图。不过很遗憾,在显卡Nvidia Tesla K80训练了7小时的实验并没有带来任何有价值的信息。尽管深度学习要求的硬件算力已经没有问题了,但对这个任务的学习性能远不如现在的上千万级数据规模的人脸识别和图像检索理想。他们推测,一个可能的原因是能找到的光学幻觉/错觉照片少,如果再细分类别就更少了,在小样本意义下的深度学习可能不是太有效。另一个可能的原因是现有的机器还不能完全理解为什么会有这些错觉,因此要通过如生成对抗网生成新的光学幻觉/错觉也很难。这也许是机器视觉还不能征服的人类视觉的堡垒之一 。 二、时空/时频不确定性 时空的主观感受可以引起各种感知上的错觉。事实上,不论是客观还是主观,时空之间都存在某种关联,而对这一关联性的极致解释是海森堡于 1927年提出的不确定性原理(Uncertainty principle)或“测不准原理”。粗略来讲,即粒子的位置与动量不可同时被确定。前者与空间有关,后者与时间有关。在这两个不同域里,一个域的参数越确定,另一个域的参数不确定的程度就越大。 巧合的是,在人工智能领域,有三个重要的理论也能看到这种不确定性的影子。 最早思考这种关联 性的是远在 1807年的数学家傅里 叶。他提出了一个当时匪夷所思的概念,即 任何连续周期信号可以由一组适当的正弦(即三角函数)曲线组合而成, 称为傅里叶变换。这个时频变换的理论,对当时数学界的震憾一点也不亚于对欧几里得第五公设的推翻。不过,后来逐渐揭示的事实让大家都明白了,这种加权组合的傅里叶变换是合理的。该论文经过不少波折,最终收录在 1822年发表的《热的解析理论》中。在傅里叶变换中,不同周期的三角函数可以视为在频率意义的基函数,就象三维空间中的长、宽、高一样。通过傅里叶变换后,样本在时间中的描述就转变成频率空间不同频率分量的幅度大小。 图 6 傅里叶变换: 任何连续周期信号 (如最下方的曲线)可以由一组适当的正弦(即三角函数)曲线(上方的四条曲线)组合而成 尽管在二百年前已被提出,但真正用于人工智能相关领域还是在数字语音、数字图像出现以后。科学家们发现了很多在原来的时间 /空间域下不能很好解决的问题,比如周期噪声的去噪、图像/视频压缩等, 通过傅里叶变换转到空间后,在频率意义下却能轻松处理和实现性能的有效提升。 后来,科学家们又发现只将空间或时间域信号转换至频率空间,而不去深究频率的高度和宽度似乎有些粗糙,于是又对频率域引入了多尺度的变化,便有了小波变换这一理论体系。直观来说,小波变换在频率的取值上,就像音乐中的五线谱,有些频率可以取二分音符,有些能取四分,有些能取十六分音符,如此这般,而傅里叶变换只是简单的给定了音调,但却把所有音调的长度都设为固定不变。小波变换这种多尺度的技术用于刻画自然图像或其他数据时,较傅里叶变换有了更精细的频率表达,这一技术也被用于构成了 JPEG2000的图像压缩标准。 在傅里叶变换和小波变换的发展中,科学家们也发现了一个现象,原时间 /空间域的信号间隔越宽时,对应的频率域信号间隔会越稠密,反之亦然。两者呈现类似于海森堡不确定性原理的对立。 图 7 海森堡不确定原理在傅里叶、小波中的体现 :左:图像的时频特性;中:傅里叶变换的时频特性;右:小波的时频特性。从图中可以看出时间和频率之间的平衡。图像上的每个像素点在吸收全部频率在给定时间上获得的值;傅里叶变换是在给定频率,将全部时间的值累积的结果;而小波则反应了两者的折衷,时间窗口宽,则频率窄,反之亦然。 基于这个观察,科学家们推测如果要提高人工智域很关心的可解释性,最直观的策略是将原空间的数据变换至一个能让特征数量变得极其稀疏的空间。但天下没有免费的午餐,有稀疏必然意味着在某个地方付出稠密的代价。这就是在 2000年左右提出的压缩传感(Compressive Sensing)或稀疏学习理论的主要思想。值得一提的是,完善压缩传感理论的贡献人之一是据说智商高达160、拿过菲尔兹奖的华裔数学家陶哲轩。该理论最有意思的一点就是把基函数变成了一个如高斯分布形成的随机噪声矩阵,在这个矩阵里,每个点的分布是随机、无规律的,因而可以视为稠密的。通过这样的处理,一大批压缩传感或稀疏学习方法被提出,并获得了不错的稀疏解。 不管采用哪种方法,傅里叶、小波还是稀疏学习,都能看出类似于时间换空间、两者不可能同时完美的影子。这种情况可以视为人工智能领域在时空 /时频意义下的“海森堡(Heisenberg)不确定原理”。 最近十年的人工智能研究非常关心预测性能的提升,但也希望能获得好的可解释性,如通过深度网络获得相应任务的学习表示 (Learning Representation)。这也是近几年出现的深度网络主流会议,把会议名字约定为国际学习表示会议ICLR(International Conference on Learning Representation)而非深度学习会议的初衷之一。 但是否能学到有效的学习表示,能否从运动错觉中找到可能的线索或答案,能否在类似于海森堡不确定原理的框架下发展新的理论算法、发现智能体的秘密,是值得思考的。 参考文献: 1、 张天蓉 .读懂相对论,著名的双生子佯谬到底有几个意思. http://chuansong.me/n/1603989 2、 黄希庭.心理学导论.北京:人民教育出版社, 2007:255-259 3、 Robert Max Williams,Roman V.Yampolskiy.Optical Illusions Images Dataset.axiv: 1810.00415,Oct, 2018 4、 Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 电子工业出版社 张军平 2018年10月18日 延伸阅读: 13. 爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10295 次阅读|8 个评论
爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智
热度 1 heruspex 2018-10-12 09:14
一个鼻子又高又长的小个子干瘦老头,倚着一块石头坐着。他眼睛看着欢腾跳动的火舌,讲起了人们从来没有听到过的奇妙故事。听他讲故事的人,不时笑得前仰后合。   “敏豪生,可真行啊,奇事都让你遇上了!” 但是敏豪生不在乎大家信不信他讲的,等笑声一停,他又接着讲下去。。。 图 1 敏豪生抓着自己的头发把马和自己从泥沼里拔出来 抓着自己的头发从泥沼里拔出来   一次,我们受到凶猛追击。我决定骑马穿过沼泽地。然而,我的马匹跑得太累了,本来可以跳过沼泽泥淖的,这会儿却没能跳过去,噗的一声落入泥淖中,陷在里头,动弹不得了。   身下的马带着我往下沉。我那匹马的肚皮已经陷在污泥里了。不能指望谁来拉我们出去。泥淖把我们越来越深地往下吸、往下拉。危险极了,可怕极了。眼看马整个儿陷进了险恶的泥淖,很快,我的头也开始埋进沼泽的污泥之中。只有我的这顶军官帽还露在泥淖上面。   看来我们是没救了,我们必死无疑。还好,我急中生智,一下想起我的双手有惊人的力量。我一把抓起我自己的头发,用尽全身的力气把自己往上拽。我毫不费力地把自己从泥淖中拔了出来,而且顺带还把我的马也往上拽。我的双腿铁钩一般的强有力,把马肚拨了出来。 这可不是如你们所想象的那样,是一件轻而易举的事哟!要不信,你们倒是自个儿试试,看能不能抓住自己的头发一下就把自己提向空中。 ----摘自《敏豪生奇遇记》 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 《敏豪生奇游记》原为德国民间故事,又名《吹牛大王历险记》,后由德国埃•拉斯伯和戈•毕尔格两位作家再创作而成。这则故事传递了一个概念,叫“自举”,能找到的对应英文名是“ Bootstrap”,意思是 “to pull oneself up by one’s bootstrap”, 白话就是“拨鞋法”。在这个故事里,敏豪通过“自举”逃出了沼泽,安全地进入了下一个吹牛环节。看似挺荒谬的情节,那在智能体和人工智能领域有没有类似的存在呢? 一、自举的视觉 要用到自举,无非是自身的能力受限,才得想办法扩展。人的视觉就是如此,在很多方面不是那么尽如人意的。它不如鹰的眼睛那么敏锐、能在运动状态下从 10公里的高空及时发现草丛里的猎物,也不如蜜蜂能区分紫外线波段白色花的差异,也不能像响尾蛇一样感受红外端的热能。 不过人也有一些奇特的感知能力,比如传说中的“第三只眼”、“背后的眼睛”,有科学家将其称为盲视,即身体上的其它感观系统感受到了周边潜在的变化,却没有经过视皮层的脑区进行加工产生的下意识反应,但人会“以为”自己看到了。尤其是女性,可能冷不盯会觉得背后有人在看她,而且经常发现感觉是对的,这说不定就与“盲视”有关。世界著名的漫画书《丁丁历险记》之《蓝莲花》也描绘过这种“盲视”的情形,见图 1。当然,这些“盲视”的情况也可能是心理作用引起的,目前并无定论。 图 2 杜邦、杜帮和丁丁在1937年左右的上海街头(取自《丁丁历险记》之《蓝莲花》) 不管是否有神奇能力,人的视觉有很多不足。在光的强度上只能感受 10的2次方的变化,而自然界的光强是从10的负4次方到10的6次方,近10的10次方量级的变化。于是,人的视觉多了个“亮度自适应”的自举功能。这是人最常用的能力。比如走进电影院时,开始一片漆黑,过了一段时间,人的眼睛逐渐适应了,便能看清楚周边的环境了。更严格地话,这一能力可用图3来说明。 图 3 亮度自适应:白昼视觉与夜视觉 。横坐标:光强的对数;纵坐标:主观亮度 图中横坐标是光强的对数,即 10个数量级;纵坐标反应了人眼的适应能力以及主观感受的亮度变化。白昼视觉(Photopic)的感光范围从10的负2次方到10的4次方,夜昼视觉从10的负6次方到10的0次方。人的视觉可在给定Ba的强度值时,在Bb的正负区间内形成感光,但可以根据Ba的变化来进行自适应。一旦到了夜视觉(Scotopic)区间时,视力会按夜视觉的曲线来感知环境。 人类亮度自适应的机理是什么呢?它和猫通过自动调节瞳孔的大小来适应不同的光照变化的机理不同,是通过后端的视神经元的分工协作来实现的。白昼视觉主要由光线落在视网膜焦点、即中央凹处的视锥细胞完成,夜视觉则由主要分布在中央凹以外的视杆细胞来实现。 别小看这点自适应,现在的图像处理在处理光强差异大的场景时仍然是一筹莫展。比如白天,各位不妨拿手机从室内拍下室外的场景,看看是否能保证室内室外都能成像清晰,明暗分明?再比如,在地下停车场的外面,摄像头是否能把停车场里外都同时监测? 当然,这种自适应有时候也会带来风险。比如在晚上开车,突然对面过了一辆开着远光灯的车,那么驾驶员在视觉上会直接被误导到白昼视觉,而无法看清黑暗环境里的人或其他目标。这种“瞬间致盲”极易导致交通意外的发生。 除此以外,人的视觉对边缘的反应也有自举的表现。图 4左图是一组光的强度按宽度逐渐变化构成的。将其强度的柱状图画出来,就象一组台阶。然而,有实验表明,人在感知时,会在两个相邻的强度级的连接处产生“感受到”的向上和向下的强度变化,称之为“马赫效应”,可以称其为伪边缘。这种伪边缘的出现,可拉开相邻目标或前景、背景之间的差异,使轮廓会变得更清晰,继而能帮助人类更好地区分目标和背景或其他目标。 图 4 左图:马赫效应 ;右图:牙齿X光片(网图) 然而,马赫效应形成的伪边缘有时候也能产生错觉。比如这张戴着牙套的牙齿 X光片,如果不熟悉牙齿的基本构造,一个刚上岗的X片读片员很容易以为这些牙齿都出现了断裂,因为每颗牙齿上都有两种不同的灰度。而这种断裂就是马赫效应形成的错觉。其真正的原因是牙齿包含牙釉质和牙本质,两者的密度不同,因而X光通过后,会在感光片上形成不同的光强值,相邻、有差异的光强值会诱导出伪边缘现象,导致经验不足的医生产生误判。 不仅相邻黑、白、灰度的差异会形成边缘错觉,相邻亮度、颜色的对比还会形成对亮度和色彩的判断错觉,如图 5所示。图像处理领域将其称为“同时对比”现象,也有些领域将其称为“色彩错觉”。其原因在于人的视觉系统易受周围环境色彩的影响,在色彩对比因素存在的前提下,对关注的色彩或灰度产生深浅不一的错觉。从某种意义来讲,这种错觉可能为了提升人对所关注目标的显著程度而形成的。不过,负面效果就是不容易形成统一的色视觉判定结论,因为人的色彩视觉是主观而非客观的,比如图6中的衣服颜色就曾经引起过很多人的讨论。 图 5 同时对比现象:左:灰度图的同时对比;右:彩色图的同时对比 图 6 衣服是什么条纹的?黑蓝、黄白还是其他? 二、自举的人工智能方法 人类的视觉系统能通过自举来提高感知外部世界的能力,那么人工智能中有没有类似的机制呢? 从现有的理论体系来看,在数据的分布存在自举式模拟,分布加权以及数据不足时也存在自举的办法,但这些都与视觉中的自举大相径庭。具体如下: 1、 数据分布的自举 实现人工智能的一个必要步骤是学习,从数据中学习。但数据的分布是什么样的?并非一开始就明了。所以,一般会假设数据服从某个分布。比如像许愿池中扔的硬币一样,如图7,中间密周边逐渐稀少,这就是传说中的、人工智能领域最常用的高斯分布,因为他能极大方便后面的各种处理。 可是分布是多种多样的,也并非所有情况下,分布都能精确且事先知道。但做数据分析或设计人工智能算法时又需要有分布的形式,于是科学家们就设计了一种自举的技术去逼近真实的分布。粗略来说,就像玩扑克牌一样,每次抽玩牌再放回去。在给定了牌 /数据的前提下,通过对牌/数据进行反复的抽样,每次都有放回的抽一组和原始牌/数据数量相同的数据,获得的数据集称为自举或再抽样样本集。 重复这一自举方式,通过分析其稳定性,就能比较好地逼近数据的真实分布。这是数据分布的自举 ,称为Bootstrap方法,最初由美国斯坦福大学统计学教授Efron在1977年提出,为小样本或小数据量来增广样本提供了好的办法。在此基础上,后来发展了大量的改进型“自举”方法,都是期望能更好地从局部推测总体的分布。 图 7 左:掷硬币掷出的高斯分布;右:《赌侠》剧照 2、基于数据分布加权的自举 另一个自举是针对分类任务的,比如识别张三和李四的人脸图像。传统的方法往往假定每张图像或数据在分布中是等权重的。这种假设的不足在于,不容易区分容易分错的数据。于是1995年Yoav Freund就提出了Boosting算法, 通过同时组合多个较弱分类能力的分类器来改进分类性能 。1996年在此基础上Freund和Schapire提出了当年红遍机器学习及相关领域的Adaboost算法 。基于多个弱分类器的集成,该算法实现了优异的预测性能。在此背后,一个最重要的原因就是他会根据每个弱分类器的预测情况, 对容易分错的样本给予更高的权重,从而确保其在下一轮采样时更容易出现或被采集到 ,直到获得精确的预测结果。这个针对数据错分的自举,最终成为了机器学习最成功且实用的经典算法之一。至于其在分类能力上成功的机理,尽管机器学习的著名期刊JMLR(Journal of Machine Learning Research)曾有一批学者来进行多角度的分析,真实和公认的原因仍未知。但其受到了自举的启发是毋庸置疑的。 3、数据不足的对抗自举 近年来,为了能进一步提高深度网络的性能,Ian Goodfellow2014年提出了生成式对抗网络 。一经提出,很快就成为人工智能领域研究者的主要研发工具之一。如果仔细审视,可以发现,其通过网络内部对抗器和判别器的反复博弈生成大量“虚拟样本”的思路,也能视为是一种自举。 比较好玩的是,在取得异常好的性能的同时,这种自举式的网络和其他深度网络似乎都比较容易被攻击。据报道,对于图像识别任务,一两个像素的改变或引入随机噪声所构成的对抗样本就能导致网络产生错误识别,如图 8。这多少有点像自举的视觉,会存在“同时对比”这种容易误导视觉判断的现象。毕竟没有什么系统可能是十全十美的,总会有例外。只是我们还不太清楚,这是否仅是稀少的例外,还是会变“黑天鹅”的意外。 图 8 易受攻击的深度网络:熊猫上叠加随机噪声,尽管视觉上仍能察觉是熊猫的图像,但深度网络却会高置信度地将其识别为长臂猿 。 三、自举的心智 人工智能的终极目标是期望能模拟人类的智能,所以,自举的心智也是值得研究的,因为它意味着人能在受限的条件下极大地提高自身的能力。这有点像俗话所说的“走出自己的舒适圈”,也像 90年代曾风靡内地的某培训学校的口号“挑战极限”。 关于这一点, 20世纪初期 哲学家怀海德曾在其 1929 年出版的、形而上学或“过程哲学”经典书籍《 Process and Reality 》(过程与实在)中指出, 人的认知、社会的认知最终可以上升到一种自我成长、自我成熟的阶段,正如宇宙和自然的演化,这可以视为更广义的自举。 而经济学家默顿 · 米勒提出的默顿定律 (Merton Laws) 认为,人最理想的状态是自我预言,自我实习。举个不恰当的例子,据说杨振宁约 12 岁时,就看爱物理书。有次他从艾迪顿的《神秘的宇宙》里读到了一些新的物理学现象与理论,便表现了极大的兴趣。回家后就跟父母开玩笑说,将来要拿诺贝尔奖。结果梦想真的实现了。这就是默顿定律的体现,是一种自我预言、自我激励、自我实现, 也是一种自举的表现。 如果把自举的机制理解清楚了,尤其是视觉和心智方面的,也许我们就能找到构造自我发育、自我强化的人工智能体的办法了。 参考文献: 1. Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 电 子工 业 出版社 2. Freund, Y. (1995). Boosting a weak learning algorithm by majority. Inform. and Comput. 121 256–285. 3. Freund, Y. and Schapire, R. (1996a). Game theory, on-line prediction and boosting. In Proceedings of the Ninth Annual Conference on Computational Learning Theory 325–332. 4. Freund, Y. and Schapire, R. E. (1996b). Experiments with a new boosting algorithm. In Machine Learning: Proceedings of the Thirteenth International Conference 148–156. Morgan Kaufman, San Francisco. 5. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets. In NIPS 2014. 6. Goodfellow I., Shlens J. Szegedy C. Explaining and Harnessing Adversarial Examples. ArXiv: 1412.6572. 2015. 7. Whitehead, A.N. Process and Reality. An Essay in Cosmology. Gifford Lectures Delivered in the University of Edinburgh During the Session 1927–1928, Macmillan, New York, Cambridge University Press, Cambridge UK,1929. 张军 平 2018 年 10 月 12 日 延伸阅读: 12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10178 次阅读|2 个评论
爱犯错的智能体 -- 视觉篇(九): 抽象的颜色
热度 5 heruspex 2018-10-7 08:21
这双鞋有色差,左边的比右边深一点,你难道没发现吗?我仔细看了半天,愣是没看出差别!不过,我还是陪着她就鞋子的色差一起去店老板那理论了一番,虽然心里有点虚。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 颜色感知是视觉的基本功能之一,也是智能的基本元素之一。可是,颜色从何而来呢?为什么会有这些功能呢?它又是如何被认知的呢? 一、颜色的来源 众所周知,自然界中充斥着电磁波。按波长由短到长来划分,电磁波包括了伽马射线、 X 射线、紫外线、可见光、红外线、无线电波等。与整个电磁波谱近 10 的 16 次方级差的波长范围相比,可见光只分布在 380nm( 纳米 ) 到 760nm 之间,简直是太宅了 ( 窄 ) 。而偏偏是这段窄得不能再窄的波谱,对人类的生存和智能发展却起了重要作用。为什么人类没有选择其它更宽的波谱来形成颜色视觉呢? � � 图 1 左:电磁波谱与可见光; 右:电磁波在进入地球大气后的分布 一种可能的解释是,虽然自然界的电磁波分布广泛,但由于大气的保护作用,如臭氧层吸收掉了大量对大多数生物有害的紫外线、大气中的二氧化碳吸收掉了大量的远红外线、水蒸气吸收了近红外和微波,最终能进入地球大气层并到达地面的太阳辐射便以可见光谱范围为主,如图 1 右所示。而人类在演化中就选择了能量最强的这段光谱来感知世界,所谓之人择原理。然而,同样是电磁波,只是波长频率上的不同,为什么只有可见光能呈现颜色呢? 事实上这样说也不是完全精准, 因为不同物种感知电磁波的能力是不同的,感受的颜色也有细微差异。比如蜜蜂。据说由于复眼的原因,蜜蜂能感受更短波长即紫外线段 的差异。结果,在蜜蜂的眼里,白色的花可能会有不同的颜色。这方便了蜜蜂识别不同类型的白花,如图 2 所示。而众说周知的响尾蛇则能通过位于眼睛和鼻孔之间的 “热眼”感应到更长波段的红外线的强度变化,以此来区分活体与非活体。 � � � �图 2 人与蜜蜂视觉的差异 ; 下图:人眼中的白花 ( 左 ) 与蜜蜂眼中的白花 ( 右 ) 不同于这两种动物,人类的颜色视觉感知范围都在 380nm 到 760nm 之间。按波长长短,粗分成了如彩虹的“红橙黄绿蓝靛紫”的颜色变化。国际照明协会也给出了无法通过其他颜色混合而成的相加三基色,即红、绿、蓝的波长定义,尽管每个基色实际都有一定的变化范围。考虑到打印、油画的颜色是通过反射获得的,它还给出了相减三基色,即青色、品红、黄色的定义。 � � 图 3 相加三基色与相减三基色 不管如何定义,人类对颜色的感知方式基本是一致的。目前公认的是杨一赫姆霍兹 (Young-Helmholtz) 三原色学说,即认为视觉系统中存在对红、绿、蓝三基色光线特别敏感的 3 种视锥细胞、或相应的 3 种感光色素。其它颜色的光线则作用于这三种视锥细胞并进行混色,并形成相应颜色的感觉。该学说解释了混色现象的原因,但还不能满意的说明色盲、补色现象、负后像等现象。类似的学说还有,也无法形成圆满解答。另外,视觉神经元对三基色的感知的敏感差异也基本相同。如主要负责蓝色感知的视蓝素,虽然总量少,但却最为敏感。因为存在这些一致性, 颜色感知才能有利于人类形成对世界大抵相同的观点、对物体的共同印象和概念、对情绪和心理的共同感受。 二、颜色的功能和错觉 如果人类只能感受光线的强弱,而无法感知颜色,那必然会少了不少能力和乐趣 。因为有了颜色的感知,于是在智能发展上便有了很大的提升。 第一个重要的提升是对目标识别能力的改善。随手拍张照片,如果换成黑白色,就会丢失不少结构信息,甚至彩色图像可能反映出来的深度信息也会损失不少。这是光强与颜色差异的区别。不仅如此,从视神经元的感受能力也能发现巨大的差异。人对光强度的分辨能力一般在 20 个灰度级左右,但对颜色的分辨却能上好几次数量级。这无形中拉大的目标或物体之间的区分度,为人类提高和加速识别目标提供了有利条件。 人类也把这一技术挪到计算机上用于其他任务的识别。如 AlphaGo 直接把围棋的棋盘视为颜色在棋盘上的分布,并根据分布来判断每一个棋局的输赢。人类还把这一技术用到原本不可见的光谱上,如机场的 X 光机,帮助更有效地分辨危险物品。甚至将用于声波反射构成的医疗图像,如给 B 超图像着色,以提高医疗诊断的有效性。 值得指出的是,颜色分辨能力在男女之间有着明显的差别。男性对颜色的敏感程度,从平均意义来讲,要远低于女性。打个不恰当、夸张的比方,男性能认全彩虹里的“红橙黄绿蓝靛紫”就不错了,女性却可能认识上千种颜色。不信的话,女性同胞们可以把图 4 中不同种类的口红颜色让男性朋友辨别下。 � � 图 4 不同种类的口红 不过颜色认得少也不见得全是坏事,比如怕“鬼”的多是女性,有可能就跟颜色看得太多、容易产生的联想更丰富有关。为什么要在智能体上形成性别差异如此明显的颜色感知呢?难道是有助于提升智能体的情感交互? 有一点可以肯定的是,颜色确实会影响人类情感的表达。不然,买那么多种口红就没意义了。颜色有的时候还可以帮助掩饰真实情感,如用艳丽的口红来掩饰不愉快的心情。不同的色彩也能影响人对观察到的事件的判断,甚至给出截然相反的结论,如图 5 的着色。 � 图 5 颜色错觉: 救人还是? 图 6 颜色影响图像的格调 ( 注:来自影像视觉杂志 ) 除此以外,颜色对于图像高层语义的表达也很重要。在摄影作品中,有时为了追求特殊的美感,会有意将照片的颜色退去,以形成所谓的高调、低调的黑白照片。但在多数情况下,彩色照片仍然占主导地位。在彩色图像上同一场景颜色明暗的变化会导致不同的感受,如图 6 。该图只是在颜色的明暗上做了些微变化,就影响了对图像中人物心情是忧郁还是略显阳光的判断。 另外,现有的与人工智能相关的诸多应用,都会或多或少考虑对颜色的处理。如图像修复 (Image Inpainting) 中,需要考虑缺失部分与未缺失图像之间的颜色一致性;图像标注 (Image Captioning) 任务需要考虑颜色带来的意境。 值得指出的是,古往今来的文人墨客从不吝啬用笔墨来描绘五彩斑斓的颜色。举例来说,鲁迅在《野草》中就有一句对寒冬时节花草颜色的描述: 雪野中有血红的宝珠山茶,白中隐青的单瓣梅花,深黄的磬口的蜡梅花;雪下面还有冷绿的杂草 。 聊聊数笔,一幅有颜色的画面便跃然纸上。试想,如果没有颜色的细分,只有光的强度变化,由智能体、人类撰写的文学作品肯定会逊色不少 。 三、抽象颜色的认知 既然颜色在智能体中起了如此广泛、重要的作用,颜色的辨识又是在何时被固化到人的视觉中枢呢? 要回答这一问题,还可以先问另一个问题。有多少人去观察过儿童的发育,观察过儿童在不同年龄阶段对物体、概念的学习能力呢? 本人曾对某儿童的成长进行过长时间的观察。从我个人的经验来看,颜色是儿童在 1 岁以后才能学会和理解的。有别于有形物体的学习,颜色在早期发育中是比较难以学好的概念,因为它是触不到,摸不到的。 在儿童最初的物体学习阶段,触摸很重要。因为即使是同样的物体,如果不去触摸,人也会因因观察角度、透视角的不同,对物体产生不同的视觉感知。通过触摸,可以消歧,得到对物体更全面的了解和形成唯一的概念标签。 然而,颜色却是无法触摸的。在父母通过听觉系统向小孩传授这一概念的时候,儿童只能依赖视觉获取的信息来推测。但听觉信息传授的概念具有很强的多义性,比如说一堵墙是红色的。小朋友在无法触摸颜色时,即使父母通过手势来辅助传授,他 / 她也并不会清楚红色是特指什么,尤其在他 / 她习惯了通过触摸来帮助学习物体的时候。 通过观察颜色的传授过程,我发现:与有形物体相比,颜色尽管能够看到,要给其贴上的标签如红色、绿色等却是相对抽象的、略为高级的语义概念。结果,这个抽象的颜色,儿童需要花比学习有形物体更长的时间来理解,才能形成准确的抽象概念表征。同时,抽象的概念也使得颜色的认知往往会滞后于实体目标的学习。 � � 图 7 不同色盲的颜色感知 所以,颜色虽然是与生俱来的,但最终还要通过传授完成标定,并形成认知上的统一。然而,值得注意的是,这种认知上的统一,并不能解决因为基因或其他原因引起的色盲,甚至可能导致危险。比如我们常见的红色 / 绿色色盲患者,其在颜色的感知上对红色与绿色是没有区分的,如图 7 所示。但是,这并不意味着他 / 她在熟悉的场所会因为区分不了这两种颜色而出问题。因为,在儿童期的颜色学习时,父母会通过听觉和手势来帮助区分颜色会处的位置。比如红绿灯。尽管颜色感知相似,但在交通灯的位置往往是不同且相对固定的。所以,在熟悉地段,红 / 绿色盲患者是能正常生活的。但危险来自于,去陌生地方的时候。如果红绿灯位置产生变化,那红 / 绿色盲患者就会有潜在的危险。除此以外,这类患者在理解艺术作品中的情绪、美感上也可能会产生严重的偏差。当然,如近视眼创造的印象派一样,也不排除色盲患者会画出不同于常人、别具一格的杰作。 从颜色的传授还能看到,人对颜色甚至知识的学习似乎是从具体到抽象逐渐过渡的,而不会一开始就接触非常抽象的概念。如果想建构一个拟人的智能体,是否也应该遵循这一规范呢?是否不应该从相对于视觉更为抽象的自然语言处理开始着手呢? 而作为人工智能的研究者和爱好者,不妨也尝试观察下,自己的小孩什么时候能学会判断颜色和其他抽象概念。是否比学习实体的概念更困难? 观察新生儿的发育过程,尤其是 0-3 岁时期的,应该能对人的智能发育形成更直接、一手的了解。如果多些人去尝试,也许能得到很多统计意义上的、关于智能的新发现。 参考文献: 1. Sharla Riddle. How Bees See and Why It Matters. May 20, 2016. https://www.beeculture.com/bees-see-matters/ 2. Michael Hanlon. A Bees-eye View: How Insects See Flowers Very Differently To Us. August 8, 2007. https://www.dailymail.co.uk/sciencetech/article-473897/A-bees-eye-view-How-insects-flowers-differently-us.html 平猫 2018 年 10 月 7 日 � 延伸阅读: 11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉 10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形 9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆? 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 2、 童话(同化)世界的人工智能 1、 深度学习,你就是那位116岁的长寿老奶奶! 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
10218 次阅读|10 个评论
爱犯错的智能体(六):外国的月亮比较圆?
热度 8 heruspex 2018-9-20 08:13
还有几天就是中秋佳节了,和家人一起一边赏月,一边吃着五仁月饼 ,真是其乐融融。赏月的时候,有时会禁不住想起这句“外国的月亮比较圆”,然后会引申出各种崇洋媚外的批判感悟。 到底有没有比较圆呢? 2015年9月28日中秋节,广东天文学会就指出,当年那天的中秋月会与超级月亮和月全食相连,会出现平均九年一次的最大最圆的中秋月。不过遗憾的是,只有南美洲、北美洲东部和非洲西部能看到月全食和欣赏到最大红月亮,而中国则无法看到。那一天,外国的月亮又圆又大。 但在多数情况下,月亮到地球的距离从不同地点来看差异不大,不管是用经纬仪还是拍照后测量,月亮的大小除了轻微的物理变化外,相差无几。视觉上产生这种感觉只是心理作崇而已。 虽然“外国的月亮比较圆”并不成立,但在月升月落之间,人对月亮大小的心理感知确实存在差异。最明显的例子是,月亮在地平线上的大小会比在天上看上去会更大一些,俗称“月亮错觉”(Moon Illusion)。 虽然这并非真正的月亮大小问题,但这种心理感受的大小差异却仍是一个未解之谜。 追踪下文献不难发现,感受过、研究过“月球错觉”的人还真不少。对国人来说,曾记录过这一感受的首推哲学家王阳明。他在1484年12岁的时候写过一首很有名的小诗, 《蔽月山房》。这首诗就记录了他对月亮错觉的感受。 山近月远觉月小, 便道此山大于月。 若有人眼大如天, 当见山高月更阔 而国外则对这一现象有着非常长期的分析和思考。最早可以追溯到古代的公元前4世纪。希腊著名哲学家亚里斯多德就记录过,他认为“月亮在地平线比天上大”的原因是因为地球的大气起到了放大的作用,导致了人眼产生了感知错觉。 最早基于距离理论的解释是Cleomedes在大约公元200年时提出的。他认为地平线上的月亮大是因为其看上去显得更远。原因在于在地平线的角度上,人会参照其它物体的大小来感受月亮的大小。而在天顶时,没有其它参照物可以借用,于是感觉上就会觉得天上的月亮离地球要近一些,因而会觉得比地平线的月亮更小。 1813年,Schopenhauer认为这种错觉是大脑的行为而非光学原因。他认为大脑对于水平角度的目标判定,直觉的感受理解就比垂直方向的显得更遥远,因而看起来更大。 1962年两位科学家Kaufman和Rock进行了一个关键的实验,验证了月亮错觉模式与距离之间的关系,称为“庞邹错觉”(Ponzo illusion),如图1所示。从图上可以看出,当目标具有相同大小,但放在更远处时,随着视角的变窄或靠近消逝点,远处的目标会显得更大。举例来说,如果将两个相同大小的苹果分别放置在5米和10米的位置,后者的视角将比前者小一倍,但感觉上不会觉得后者的尺寸小一倍,而会是相同大小。相反,如果更远的目标与近的目标具有相同的视角,则视觉上会感觉有两倍的大小。 另一种解释是相对尺寸假设,如图1所示。月亮在地平线时,其邻近的目标往往能展示更精致的细节,使得月亮看上去显得更大。反而,天顶的会大范围空的空间包围着,因为显得更小。这个效果又被称为艾宾浩斯错觉(Ebbinghaus illusion)。 基于这样的感觉,有些科学家认为“地平线上的月亮看上去大是因为其感受的视角尺寸或物理尺寸更大,或两者均有”。 然而,基于距离理论的不足在于,尽管大多数人会认为地平线上的月亮既大又比天顶的月亮近,大约还有5%的人会觉得地平线上的月亮既大又远,还有一些人认为距离相同但地平线上的更大,还有一些人完全没有月亮错觉。 图1 左:月亮错觉; 右:艾宾浩斯错觉 为了探寻真谛,Hershenson在1989年主编了一本书,《月球错觉的神秘》。该书竟然用24章288页,详细介绍了不同错觉研究者从不同角度给出的解释。然并卵,没有达成一致结论,也没有终结对月亮视觉大小差异的疑问。 2、人工智能中的透视问题 如果把月亮大小的感觉看成是与心理因素相关的透视问题,那么需要说明的是,这种心理原因导致的透视错觉目前还没有什么好的理论和算法去量化成计算机程序并实现。但在客观存在的透视问题上,研究就多多了,因为客观的透视在很多计算机视觉、图像处理领域的实际应用中都有着重要的作用,而这些应用又直接影响了人工智能的相关研究。 比如人群计数研究。人群数量否准确预测,对于安防、旅游景点和地铁应急疏散、商场商品的位置摆放等都有着关键的作用。但要想有效估计人群数量,又并非容易的事情。用手机来监控的话,GPS定位信息的漂移现象往往会显著影响计数性能。尤其在开放环境下如外滩的人群计数,周边办公大楼的信号都可能不期而至导致误估。而场馆内则会出现GPS信号丢失的问题。有人也尝试过用无线路由器的信号来监控馆内人群,但精度上无法保证。更合理的方式是通过摄像机来获取图像,并对图像或视频中的人群进行计数。不过,摄像头的角度设置是有讲究的。垂直角度如无人机,可避免人与人的遮挡,但电池的待机时间存在问题,而烧燃油的又不是一般部门能玩的且噪声巨大;近景的如安装在公交车站上车处的,则会因为前面的人在视频中占的比例太大,导致视频范围内可以计数的人变得很少,实用价值降低。中等角度如安置在楼宇屋顶的,可观察的角度相对来说更好些, 适合于较稠密的人群计数。但由于摄像机的角度问题,远近人群在图像中的比例会因透视而发生改变,如果不进行透视角纠正,则可能会影响随后的计数性能。这是客观透视的一个应用。 图2 人群计数中的透视问题 另外,在交通领域,大货车的侧方盲区和尾部一直是马路致死率很高的问题。为减少它的影响,一些国家要求强制在两侧安装有广角镜,比较先进点的还能把盲区的视频信息返送到驾驶室内。但由于广角镜透视变形的原因,驾驶员容易对行人和非机动车驾驶员离车辆的远近、运动速度产生误判。此时,就需要有相应的算法来帮助还原真实的距离和运动速度了,以减少不必要的风险。 除此以外,在计算机视觉领域还有人研究基于图像的测距问题。这一问题在智能手机流行后似乎研究意义更大了。科学家们希望能对给定的图像或视频,不依赖于真实的测量仪如米尺,就能直接测量出图中的目标尺寸和目标间的相互距离。这一研究,显然也涉及到透视关系以及透视意义下的比例问题求解。 图3 基于图像的测距研究示例 3、透视角度对心境的影响: 情绪、情感对人工智能的研究至关重要,因为它关系到是否能真正通过计算机模拟出一个真正像人的机器,而非看上去像。那么,如何形成、在哪里能形成这种情绪、情感就需要仔细思考了。 透视角度的选择对心境就能表现出很复杂的影响,尤其在高层语义上。所以,画家对于透视角度的选择看得很重,因为它影响了人们评判绘画的美感。 要让人工智能像人类一样能创作,攻破艺术这个关口,可能也得好好研究下透视对心境的影响。 我们不妨回顾下人工智能科普奇书《集异壁之大成》中提到的一位荷兰画家莫里茨·科内利斯·艾舍尔的创作经历,以及他对透视的运用。 学画都是从临摹开始的。后来,艾舍尔为了能让自己的绘画有与众不同的感受,他对透视角有过非常深的思考。这能从他不同时期的绘画作品中窥其堂奥。 最初,他喜欢去山顶绘画,希望得到俯瞰视角下的景色描绘;后来,他改成了从窗户往外看,窗内窗外的透视又形成了一组奇特视角的画。再后来,他干脆手上拿个水晶球,画了观察自己的自画像。有了自画像后,他似乎找到了循环,便有了许多自指的杰作。对透视角的不断深思,最终让他成为了以“不可能图形”而闻名的一代名画家。 图4 左:窗内视角的《静物和街景》;右:艾舍尔的《手与反射球体》 透视角不仅能影响审美,产生奇妙的美感,它也能制造恐惧。在今年最新上映的韩国恐怖片《昆池岩》,导演别出心裁的采用了“第一”视角的方式拍摄。电影中,六名演员均在胸前安装了两个运动相机,一个对着自己脸部,一个对着自己观测的环境。由于镜头与人脸的距离非常近,对着自己脸部的相机让演员的脸产生了明显的拉伸变形。因为变形后的脸与正常脸有明显的差异,无形中将人的表情尤其是惊悚的表情放大了,使得电影的恐怖感一下就上来了好几个级别。这是透视角度对人内在情绪的影响。因为有点恐怖,图我就换张大概有点这个意思的给大家感受下好了。 图5 网红柴犬玛鲁近景照 所以,透视对人在心理、距离、情绪等方面都有着重要的功能,也有着与人工智能相关的许多实际应用。可是,要解开透视中的谜团,尤其是主观透视现象,让其体现到人工智能的算法中,还是路漫漫其修远兮。 张军平 2018年9月20日 参考文献: 1. 维基百科: https://en.wikipedia.org/wiki/Moon_illusion 2. A.B.Chan, Z.J.Liang, N.Vasconcelos. Privacy preserving crowd monitoring: counting people without people models or tracking. in:IEEE Conference on Computer Vision and Pattern Recognition,Anchorage, Alaska, USA, 2008. 3. Ben Tan, Junping Zhang, Liang Wang. Semi-Supervised Elastic Net for Pedestrian Counting . Pattern Recognition , vol. 44, issues 10-11, pp. 2297-2304, 2011 4. Ferdinand van der Heijden. Image Based Measurement Systems: Object Recognition and Parameter Estimation. Wiley; 1995. 5. Adrian Roserbrock , Measuring size of objects in an image with OpenCV, Mar 28, 2016 in Image Processing, Tutorials. 6. 侯世达. 哥德尔、艾舍尔、巴赫:集异壁之大成. 商务出版社,1997. 延伸阅读: 1、 深度学习,你就是那位116岁的长寿老奶奶! 2、 童话(同化)世界的人工智能 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 4、 爱犯错的智能体 - 视觉篇(一): 视觉倒像 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 6、 爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶 7、 爱犯错的智能体 - 视觉篇(四):看得见的斑点狗 8、 爱犯错的智能体 - 视觉篇(五):火星人脸的阴影 张军平 ,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2700余次,ESI高被引一篇,H指数27.
12424 次阅读|25 个评论
爱犯错的智能体 – 视觉篇(三):看不见的萨摩耶
heruspex 2018-7-18 07:49
家附近曾经有只白色的萨摩耶,大约十二岁,挺安静温顺的,基本不怎么吠叫。听说主人身体不好,有人瘫痪在家,于是就放任其在外乱逛。他虽然个头不小,马路什么都过的好好的。可今年某天他过人行横道的时候,一辆左转的车辆速度和它过马路的速度一致,导致它进入了驾驶员的A柱盲区。等萨摩耶反应过来时,车已经对着它冲了过来,左前轮压了一次,左后轮又压了一次。。。它躺在车后,无助地颤抖着、哀嚎着。两旁的行人呆呆地看着,我也是。。车主坐在车里,没开窗没下车,不知道是何反应。过了一会,狗用力翻身站了起来,摇摇晃晃走起来了,准备回家。大家松了一口气,有人笑着说狗没事了。车主也顺便一溜烟开车跑了。可是,狗没走到200米,便慢了下来,实在是走不动了。它的左眼珠早已被汽车压得爆了出来,满嘴的鲜血。。。于是,它便安静地躺在人行道上,还像平日逛街一样,一声不吭。。。。希望它下辈子,不要走得这么悲惨。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 作为智能体,人的视觉和现在的机器视觉是有区别的。其中一个非常特别的区别是,人会根据情况或上下文有意无意地忽略眼中看到的目标。 � � 1999年两位权威心理学专家克里斯托弗·查布里斯(Christopher F.Chabris)和丹尼尔·西蒙斯(Daniel J.Simons)曾做过一次“ 看不见的大猩猩 ”的实验 。因为这个传说中心理学史上最强大的“大猩猩实验”,两人因此荣获了2004年的“搞笑诺贝尔奖”。播放的视频中,几个人一起打篮球,要求测试者统计投进篮框的球的数量。当视频播放完,要测试者报告进球数,基本都答对了。但问他们有没有注意到视频中有只人扮的大猩猩从视频中走过,却有不少人没能回想起来。 � � 类似的实验,英国赫特神德大学的心理学怪才、理查德·怀德曼教授 (Richard Wiseman)也做过,叫 变色纸牌游戏 (The colour changing card trick ) 。两个人在摄像机前表演玩牌的魔术。表演的过程中,身上的衣服、背景、桌布都被换掉了。但由于摄像机关注焦点的变化,观测者只注意了两位“魔术师”手中扑克牌的变化,而视频中已经换掉的材料却压根就没发现。 如果让计算机或利用人工智能算法来跟踪并区分变化内容,会很快发现其中的区别。因为计算机在检测目标时,会考虑像素位置上的强度变化。所以,当视频中出现大猩猩,或者变换桌布、背景、衣服时,都意味着视频帧与帧之间出现了大面积的像素变化。这种变化,很容易超过图像变化程度的阈值, 导致被检测和发现。值得指出的是,检测这类变化也是现在做视频摘要、视频关键内容提取的基本手段之一。 反观人类,人却容易出现忽略目标的情况。其原因在于,当人关注某个目标时,目标将成像于视网膜的焦点即中央凹区域,而目标周围的内容则分布在中央凹的周边,由视杆细胞来负责感知。而视杆细胞主要负责运动,对具体细节不敏感,所以,大猩猩在这一前提下就被大脑视觉中枢视为没有多大意义的像素点运动,甚至被篮球的运动所掩盖。换衣服、桌布等也是类似的原因。 除此以外,也许是因为人类其实是一种能偷懒就会偷懒的智能体。如果能够在不经过缜密思维就能保证大部分判断成功的话,人类会倾向于优先采用更简易的判断,而不是进行过多的细致分析。就像平时走路一样,我们也没有像机器人一样去区分路面的高低差异、纹理差异、光强差异,但却能非常有效和快速的形成决策。即使存在例外,那也是极个别的情况。 这种现象,在日常生活中,是比较危险的。比如交通中,在一个平时很少有人经过的十字路口,驾驶员的关注焦点将是行驶的汽车,其关注点以避让汽车为主。在成年人经常走过的人行横道附近,则驾驶员的关注视角会以成人为主。前者的情况会导致,某天突然出现非机动车或行人时,司机会注意不到,不容易形成应急反应;后者则可能会忽略对矮小目标的关注。 能避免吗?有心理学家指出,如果关注的焦点不变,这种定式思维会一直存在,且很难避免。结果,当驾驶员发现危险来临时,已经缺乏足够的反应时间,极易形成交通事故 。 那如何解决呢?最简单的办法就是不要在经常经过的这些路口形成定式思维。但凡碰到这类路线时,不妨想想,这里可能有条看不见的萨摩耶。不妨多变化下关注的视野,如转下头、变换下关注的视野,最大程度地避免这类事故的发生。 二、看不见的盲点 人的视觉不仅有视而不见的特点,也有弥补先天不足的能力。我们的视神经感受周围环境后,还需要将信号送到大脑。送的方式挺聪明,大脑将输送信号的神经元像头发一样扎成一股,左边一股,右边一股,在每个眼球视网膜中央凹偏外约20度处集中起来,向大脑输送信号。于是,这个位置就没有感光细胞,形成了生理性盲点,如图1所示。 图1:人眼构造,视神经传输位置没有感光细胞 图 2: 生理性盲点测试图 要检测盲点的具体位置,不妨试试图2这个经典的盲点测试图。首先,捂住左眼,用右眼盯着图上的圆点,将手机逐渐拉远或拉近,会发现在某个位置时十字会消失。这个位置,对应于你的右眼盲点。类似的,捂住右眼,用左眼盯着右边的十字形,移动手机远近,会发现圆点在某个位置消失了。它对应于左眼的盲点位置。 虽然有盲点,所幸人是双目视觉,所以两只眼睛的盲区会通过双目视觉来相互弥补。结果,日常生活中,人是感觉不到盲点的存在。不过,如果单眼存在眼疾,如患上白内障,那盲点的影响就比较大了,毕竟有个位置的信息是缺失的,这就需要通过多调整视角来消解这个困扰。 三、看不见的笔 -- 单眼与复眼 除了盲点外,还有种情况,人也会对目标视而不见。各位不妨试着拿起一支笔,竖直放在左眼前面。 一开始,你会感受到笔对视野造成的遮挡。再将眼睛盯着远处某目标,将笔缓慢远离眼睛,你将会发现这只笔并没有对你看远处的景像形成任何障碍,笔似乎凭空消失了。显然,这并非是生理性盲点造成的。它和人的视网膜结构有关。换句话说,它可以从单眼与复眼的关系来解释。 众所周知,人有两只眼睛,而昆虫则是由非常多的小眼睛组成的,俗称复眼,如蜻蜓、苍蝇都有复眼。如果是昆虫的复眼,那么笔是不会对想观测的目标形成遮挡的。因为昆虫的整体视觉是可以通过小眼睛的视角拼接而成,少数几只眼睛的被遮挡不影响全局。可是人是双目视觉,为什么也会有类似的情况呢?实际上,人的视网膜上的感光细胞数量众多,每个细胞都分担了一部分的视觉检测。在处理笔遮挡的任务时,也会通过感光细胞间的相互填充,实现类似复眼的功能。 但要注意的是,人是不可能像昆虫那样演化出复眼的。因为复眼上的每只眼睛,管的视角和频率都很窄。如果要在人的头部形成如同昆虫一样具有全角度检测能力的复眼,著名物理学家费恩曼曾经做过初略的计算,他的结论是复眼的大小可能会超过现在人类头部的尺寸,结果头很可能承受不了眼睛的重量 。 当然,除了这些情况看不见外,人过于关注某些人或事情时会对周围情形视而不见, 人不关注某些人或事情时也会视而不见,或熟视无睹。这些依赖于情感和心灵的视而不见和熟视无睹,比起单从视觉上发生的,就要复杂多了,也是人工智能目前还完全找不到北的问题之一。 张军平 2018年7月17日 参考文献: 1、 克里斯托弗 · 查布利斯 /丹尼尔 · 西蒙斯 ,段然 . 看不见的大猩猩. 北京大学出版社,2011年 2、 费恩曼 , 莱顿, 桑兹著. 郑永令, 华宏鸣, 吴子仪等译. 费恩曼物理学讲义(第1卷). 上海科学技术出版社, 2013年 延伸阅读: 1、 深度学习,你就是那位116岁的长寿老奶奶! 2、 童话(同化)世界的人工智能 3、 AI版“双手互搏”有多牛? 浅谈对抗性神经网络 4、 爱犯错的智能体 – 视觉篇(一): 视觉倒像 5、 爱犯错的智能体 - 视觉篇 (二):颠倒的视界 � � 张军平 ,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2600余次,ESI高被引一篇,H指数27。
5691 次阅读|0 个评论
北京大学分子影像与微创治疗实验室招聘博士后(年薪30-50万元)
chenmin168cool 2017-8-1 11:49
北京大学分子影像与微创治疗实验室( http://mimit-pku.org )招聘博士后研究员1-2名,从事超声和光学诊疗一体化系统的研制。 一、 岗位要求: 1. 获得超声、光学、电子、信息、自动控制或生物医学工程,以及其它仪器相关专业博士学位。拥有光学成像、超高速超声成像、超声热应变成像、多模态影像融合、聚焦超声治疗相关研究背景者优先。 2. 熟悉MATLAB、LabVIEW、C或C++等软件开发环境及编程语言; 3. 身体健康,工作认真,诚实守信,吃苦耐劳,具有良好的学术道德和团队合作精神。 二、工资待遇: 1、年薪30-50万元人民币,具体可面议,视个人能力和经验而定; 2、户口、配偶随迁、子女上学等事宜按照国家有关规定办理。 三、 联系方式: 1.应聘者请将本人简历(包括个人基本情况、教育和工作经历、科研工作概述、论文发表情况或其他成果)、两名教授的推荐信及联系方式发送至邮箱: mimit2017@163.com ,应聘材料将予以保密。 2.经过初筛后通知面试,经面试双方达成应聘一致意见后,提交北京大学博士后进站申请材料。 四、申请流程: 具体流程请查看《北京大学博士后进站申请程序》。 http://postdocs.pku.edu.cn/bshyw/jzsq/16218.htm
个人分类: 招聘|3754 次阅读|0 个评论
[转载]彻底理解数字图像处理中的卷积-以Sobel算子为例
wlp8631 2017-6-6 15:52
作者:FreeBlues 修订记录 2016.08.04 初稿完成 学习目标:线性滤波和卷积核翻转 概述 卷积在信号处理领域有极其广泛的应用, 也有严格的物理和数学定义. 本文只讨论卷积在数字图像处理中的应用. 在数字图像处理中, 有一种基本的处理方法:线性滤波. 待处理的平面数字图像可被看做一个大矩阵, 图像的每个像素对应着矩阵的每个元素, 假设我们平面的分辨率是 1024*768, 那么对应的大矩阵的行数= 1024, 列数=768. 用于滤波的是一个滤波器小矩阵(也叫卷积核), 滤波器小矩阵一般是个方阵, 也就是 行数 和 列数 相同, 比如常见的用于边缘检测的 Sobel 算子 就是两个 3*3 的小矩阵. 进行滤波就是对于大矩阵中的每个像素, 计算它周围像素和滤波器矩阵对应位置元素的乘积, 然后把结果相加到一起, 最终得到的值就作为该像素的新值, 这样就完成了一次滤波. 上面的处理过程可以参考这个示意图: 图像卷积计算示意图: 对图像大矩阵和滤波小矩阵对应位置元素相乘再求和的操作就叫卷积(Convolution)或协相关(Correlation). 协相关(Correlation)和卷积(Convolution)很类似, 两者唯一的差别就是卷积在计算前需要翻转卷积核, 而协相关则不需要翻转. 以 Sobel 算子为例 Sobel 算子 也叫 Sobel 滤波, 是两个 3*3 的矩阵, 主要用来计算图像中某一点在横向/纵向上的梯度, 看了不少网络上讲解 Sobel 算子 的文章, 发现人们常常把它的横向梯度矩阵和纵向梯度矩阵混淆. 这可能与 Sobel 算子 在它的两个主要应用场景中的不同用法有关. Sobel 算子的两个梯度矩阵: Gx 和 Gy 这里以 Wiki 资料为准, Sobel 算子 有两个滤波矩阵: Gx 和 Gy, Gx 用来计算横向的梯度, Gy 用来计算纵向的梯度, 下图就是具体的滤波器: 注意:这里列出的这两个梯度矩阵对应于横向从左到右, 纵向从上到下的坐标轴, 也就是这种: 原点O ------- x轴 |||V y轴Sobel 算子的用途 它可以用来对图像进行边缘检测, 或者用来计算某个像素点的法线向量. 这里需要注意的是: 边缘检测时: Gx 用于检测纵向边缘, Gy 用于检测横向边缘. 计算法线时: Gx 用于计算法线的横向偏移, Gy 用于计算法线的纵向偏移. 计算展开 假设待处理图像的某个像素点周围的像素如下: 左上 上 右上 左 中心像素 右 左下 下 右下 那么用 Gx 计算展开为: 横向新值 = ( -1 )* + ( -2 )* + ( -1 )* + 1 * + 2 * + 1 * 用 Gy 计算展开为: 纵向新值 = ( -1 )* + ( -2 )* + ( -1 )* + 1 * + 2 * + 1 * 前面说过, 做图像卷积时需要翻转卷积核, 但是我们上面的计算过程没有显式翻转, 这是因为 Sobel 算子 绕中心元素旋转 180 度后跟原来一样. 不过有些 卷积核 翻转后就变了, 下面我们详细说明如何翻转卷积核. 卷积核翻转 前面说过, 图像卷积计算, 需要先翻转卷积核, 也就是绕卷积核中心旋转 180度, 也可以分别沿两条对角线翻转两次, 还可以同时翻转行和列, 这3种处理都可以得到同样的结果. 对于第一种卷积核翻转方法, 一个简单的演示方法是把卷积核写在一张纸上, 用笔尖固定住中心元素, 旋转 180 度, 就看到翻转后的卷积核了. 下面演示后两种翻转方法, 示例如下: 假设原始卷积核为: a b c d e f g h i 方法2:沿两条对角线分别翻转两次 先沿左下角到右上角的对角线翻转, 也就是 a和i, b和f, d和h交换位置, 结果为: i f c h e b g d a 再沿左上角到右下角的对角线翻转, 最终用于计算的卷积核为: i h g f e d c b a 方法3:同时翻转行和列 在 Wiki 中对这种翻转的描述: convolution is the process of flipping both the rows and columns of the kernel and then multiplying locationally similar entries and summing. 也是把卷积核的行列同时翻转, 我们可以先翻转行, 把 a b c跟 g h i 互换位置, 结果为: g h i d e f a b c 再翻转列, 把 g d a 和 i f c 互换位置, 结果为: i h g f e d c b a 在 Wiki 中有一个计算展开式, 也说明了这种翻转: 注意:这里要跟矩阵乘法区分开, 这里只是借用了矩阵符号, 实际做的是对应项相乘, 再求和. 图像边缘像素的处理 以上都默认待处理的像素点周围都有像素, 但是实际上图像边缘的像素点周围的像素就不完整, 比如顶部的像素在它上方就没有像素点了, 而图像的四个角的像素点的相邻像素更少, 我们以一个图像矩阵为例: 左上角 ... ... 右上角 ... ... ... ... ... 左侧 ... ... ... 右侧 ... ... ... ... ... 左下角 ... ... 右下角 位于左上角的像素点的周围就只有右侧和下方有相邻像素, 遇到这种情况, 就需要补全它所缺少的相邻像素, 具体补全方法请参考下一节的代码. 用GPU进行图像卷积 如果在 CPU 上实现图像卷积算法需要进行4重循环, 效率比较差, 所以我们试着把这些卷积计算放到 GPU 上, 用 shader 实现, 结果发现性能相当好, 而且因为顶点着色器和片段着色器 本质就是一个循环结构, 我们甚至不需要显式的循环, 代码也清晰了很多. 图像卷积在代码中的实际应用, 下面是一个 GLSL 形式的着色器, 它可以根据纹理贴图生成对应的法线图: -- 用 sobel 算子生成法线图 generate normal map with sobel operator genNormal1 = {vertexShader = ],fragmentShader = ; vec2 p = vTexCoord; lowp vec4 col = texture2D( texture, p ); // sobel operator // position. Gx. Gy // 1 2 3 |-1. 0. 1.| |-1. -2. -1.| // 4 5 6 |-2. 0. 2.| | 0. 0. 0.| // 7 8 9 |-1. 0. 1.| | 1. 2. 1.| // 右上角,右,右下角 c = intensity(texture2D( texture, vec2(clamp(p.x+ws, 0. ,w), clamp(p.y+hs, 0. ,h) )));c = intensity(texture2D( texture, vec2(clamp1(p.x+ws,w), clamp1(p.y,h))));c = intensity(texture2D( texture, vec2(clamp1(p.x+ws,w), clamp1(p.y-hs,h)))); // 上, 下 c = intensity(texture2D( texture, vec2(clamp1(p.x,w), clamp1(p.y+hs,h))));c = intensity(texture2D( texture, vec2(clamp1(p.x,w), clamp1(p.y-hs,h)))); // 左上角, 左, 左下角 c = intensity(texture2D( texture, vec2(clamp1(p.x-ws,w), clamp1(p.y+hs,h))));c = intensity(texture2D( texture, vec2(clamp1(p.x-ws,w), clamp1(p.y,h)))); c = intensity(texture2D( texture, vec2(clamp1(p.x-ws,w), clamp1(p.y-hs,h)))); // 先进行 sobel 滤波, 再把范围从 调整到 // 注意: 比较方向要跟坐标轴方向一致, 横向从左到右, 纵向从下到上 float dx = (c + 2. *c +c -(c + 2. *c +c ) + 1.0 ) / 2.0 ; float dy = (c + 2. *c +c -(c + 2. *c +c ) + 1.0 ) / 2.0 ; float dz = ( 1.0 + 1.0 ) / 2.0 ; gl_FragColor = vec4(vec3(dx,dy,dz), col.a);}]]} 后续有时间的话考虑写一个 APP 来用动画过程模拟图像卷积的计算过程. 参考 图像卷积与滤波的一些知识点 Sobel Derivatives Wiki:Kernel (image processing)
个人分类: 图像处理|2648 次阅读|0 个评论
图像的同态滤波原理及实现
热度 3 zmpenguestc 2017-4-30 13:09
同 态滤波( Homomorphic filter )是信号与图像处理中的一种常用技术,它采用了一种线性滤波在不同域中的非线性映射。这一技术是上世纪 60 年代由麻省理工学院( MIT) 的 Thomas Stockham , Alan V. Oppenheim 和 Ronald W. Schafer 等几位学者提出。 如果您对原理部分不感兴趣,可直接跳至双虚线以下的关键代码实现部分 。 首先,介绍两个概念。 同态系统: 是将非线性问题,转化为线性问题处理。即对非线性(乘性)混杂信号,通过某种数学运算(如对数变换),变成加性模型,而后采用线性滤波方法进行处理。 同态滤波: 是把频率滤波和空域灰度变换结合起来的一种图像处理方法,它根据图像的照度 / 反射率模型作为频域处理的基础,利用压缩亮度范围和增强对比度来改善图像的质量。 下面介绍关于同态滤波的基本原理。 一幅图像可看成由两部分组成,即 其中, f i 代表随空间位置不同的光强( Illumination )分量,其特点是缓慢变化,集中在图像的低频部分。 f r 代表景物反射到人眼的反射( Reflectance )分量。其特点包含了景物各种信息,高频成分丰富。 同态滤波过程,分为以下 5 个基本步骤: ① 原图做对数变换,得到如下两个加性分量,即 ② 对数图像做傅里叶变换,得到其对应的频域表示为: ③ 设计一个频域滤波器 H ( u , v ) ,进行对数图像的频域滤波。 ④ 傅里叶反变换,返回空域对数图像。 ⑤ 取指数,得空域滤波结果。 综上,同态滤波的基本步骤如图1所示。 图1 同态滤波的基本步骤 可以看出,同态滤波的关键在于滤波器 H 的设计。对于一幅光照不均匀的图像,同态滤波可同时实现亮度调整和对比度提升,从而 改善图像质量 。为了压制低频的亮度分量,增强高频的反射分量,滤波器 H 应是一个高通滤波器,但又不能完全 cut off 低频分量,仅作适当压制。 因此,同态滤波器一般采用如下形式,即 其中, g L 1, g H 1 ,控制滤波器幅度的范围。 H hp 通 常为高通滤波器,如高斯( Gaussian )高通滤波器、巴特沃 兹( Butterworth )高通滤波器、 Laplacian滤波器等。 如果 H hp 采用 Gaussian 高通滤波器,则有: 其中, c 为一个常数,控制滤波器的形态,即从低频到高频过渡段的陡度(斜率), 其值 越大,斜坡带越陡峭,见图2。 图2 同态滤波器幅频曲线 ================================================================================ 同态滤波的原理就这么简单,不过写代码实现起来,具体问题就来了。你不妨百度一下, 网上 一些论坛里,贴有大量可参考的代码,让您看了像雾像雨又像云,很可能会误导你 。那么,只有吃透了原理,或 自己 动手测试一下,方能做出正确判断。 实现对一幅输入图像同态滤波的关键(MATLAB)代码如下: ① 输入图像取对数,一般取自然对数,即 f = log(1+I); % log transformation 这里图像 I做对数变换前, 需要转化为double型。针对灰度范围 的图像数据, log ( I+1)是 为了满足真数大于 0,以防计算无意义 。特别提醒, 如果是归一化图像数据,则建议 log(I+0.01) 。 ② 对 f 做 FFT ,此步涉及后续的频域滤波。因此, FFT 前数据 f一般需 零填充至本身的 2 倍尺寸。 Fp = fft2(f,P,Q); % FFT with zeros padding 这里, P = 2 M , Q = 2 N , M , N 为数据f的阵列大小。 ③ 滤波器 H 设计,滤波器尺寸同样应为 P 、 Q 。 = meshgrid(1:Q, 1:P); % = size(I),y为行数,x为列数。与习惯顺序 有点反,易混淆! u = u - floor(P/2); % u方向 centralization v = v - floor(Q/2); % v方向 centralization D = u.^2 + v.^2; % compute the distances H = 1-exp(-c*(D./D0^2)); % gaussian high-pass filter H = (rH - rL)*H + rL; % h omomorphic filter 这里, D0 为 gaussian 滤波器的截止频域。因产生的为中心化 滤波器 ,下一步滤波 f 的傅里叶变换也需要中心化处理;否则, H 反中心化。 ④ 频域滤波。 H = ifftshift(H); % H 反中心化,因Fp未中心化! Gp = Fp.*H; % filtering in frequency domain ⑤ 傅里叶反变换,返回空域的对数图像。 gp = real(ifft2(Gp)); % IFFT取实部。网上有些代码直接取abs,计算误差会引起虚部不为零。No! g = gp(1:M,1:N); % 截取有效数据 ⑥ 取指数,得空域滤波结果。 g = exp(g)-1; % 先前取对数时,为 log(1+I)。 有代码先在频域做exp(Gp),再反变换。No! ⑦ 显示 g 时,适当做数据的映射处理,以适合人眼观察。 以下为利用以上原理和关键代码实现的两个场景下的同态滤波实验。 H 参数的设置为: D 0=80, rL =0.25, rH =2.2, c =2.0 。其幅频曲线如图 3 所示。 图3 设置参数下的同态滤波器幅频图 图4 同态滤波结果,PET扫描图(上),隧洞口场景(下) 注:以上代码实现中,未考虑边界问题。关于边界 处理 问题,请参考前述博文: 如何保持空域与频域滤波结果的一致性(续) 。 读者如需完整代码,可直接联系本人。 推荐参考: https://en.wikipedia.org/wiki/Homomorphic_filtering http://blogs.mathworks.com/steve/2013/06/25/homomorphic-filtering-part-1/ http://blogs.mathworks.com/steve/2013/07/10/homomorphic-filtering-part-2/ http://bbs.sjtu.edu.cn/bbstcon?board=DSPreid=1316225259 扫一扫,可关注“老马迷图”微信公众号! 《教学后记》序列博文: 频域 Laplacian 图像锐化原理与实现 如何保持空域与频域滤波结果的一致性(续) 傅里叶变换的波形分辨率与频率分辨率 如何保持空域与频域滤波结果的一致性
个人分类: 闻图思学|38230 次阅读|6 个评论
MATLAB函数说明
EdwardMa12593 2016-12-16 19:24
rescale Change scaling of fi object (改变固定对象的尺度) 以一张图为例,600*600,double 貌似用来改变对象尺度
个人分类: MATLAB函数|3324 次阅读|0 个评论
高考状元一人获两次CVPR最佳论文,用行动打破高分低能论
热度 9 beckzl 2016-10-11 22:00
高考 向来只是表演前的一次彩排 …    状元,从来都是放榜后人们茶余饭后的谈资    年复一年,从科举到高考,亘古未变    十年寒窗苦读无人问,一举成名天下知    这也的确是如今高考制度下的真实写照 高考状元被记者围堵    然而对于广大平庸的学生而言,状元也许是远处的酸葡萄    不论何时总有人会从不同的角度抨击高考状元    而高考状元毕业后的工作生活则是重灾区 知名游戏主播 女流 是2006年内蒙理科状元 石悦    2011年,中央教科院做过一个关于高考状元的调查    其结果发表在《上海教育》杂志上,其称    “我们调查了恢复高考以来的3300名高考状元,没有一位成为行业领袖”    这份调查报告的可信度有多高我们并不知道    但2000年以后至少有一位高考状元成为了业界翘楚    他是何恺明,也是2003年广东省理科高考状元 何恺明    2009年,在IEEE举办的国际计算机视觉与模式识别会议上    何恺明以一篇图片暗通道先验去雾算法论文技惊四座    当年会议投稿的论文多达1450篇,只有393篇被收录    而何恺明的论文是当年唯一的最佳论文    第一次完全由中国人组成的团队获得此项奖项! 何恺明(右)    难以置信的是,这是何恺明的第一篇论文    成文时,他还只是微软亚洲研究院的一名实习生 …    何恺明在广州长大,家住在历史悠久的荔湾区    他的父母都在一家企业里从事管理工作    作为独生子,何恺明在父母的精心呵护下长大 荔湾区古韵犹存的荔枝湾    也许是受到家族多名从事教育的亲戚影响    年幼的小何在其父老何的鼓励下,早早就进入了少年宫学习    在少年宫,何恺明学习的是绘画,他也的确非常享受于此    经常一个下午甚至大半天都花费在写生台前 荔湾区少年宫    何恺明向来沉稳耐心的性格也许是成就他的一个重要因素    据他的班主任说,何恺明的成绩非常稳定基础十分扎实    在执信中学就读时期也获得过全国物理竞赛和省化学竞赛的一等奖    因此他在高考前的5月份就已经被保送清华大学    可他仍旧参加了高考,也许正是因为已经被保送清华    高考时心态放松毫无负担,发挥出了极佳的水平    一举斩获广东省理科状元,那年的日历上印着2003 与何恺明同年的状元还有 豌豆荚CEO王俊煜    以状元的身份进入清华大学    何恺明放弃了原本保送的机械工程及其自动化专业    选择了更有挑战性的 基础科学班    基础科学班是清华大学于1998年开始设立的为培养数学、物理等基础科学培养人才的尖子班,课程压力大,同时要学习数学系、物理系的大部分基础课程。    何恺明在清华大学的学习依旧是稳健而刻苦的    他在03至05年期间,连续三年都获得了奖学金    而更辉煌的未来即将到来 清华大学    在2007年,还没有毕业的何恺明作为实习生加入了 微软亚洲研究院(MSRA) 微软在亚洲设立的大型基础研究机构,由90%的中国人组成    出于兴趣,大学曾选修计算机图形图像的相关课程    入职后,他也选择了加入视觉计算组 微软亚洲研究院    可是由于之前主修的都是物理数学基础科学    那些知识根本不足以应对在MSRA的研究工作    在阅读文章的时候,我常常都不知道哪些是大家都在用的方法,哪些才是作者的贡献。对我来说,我看见的每一样东西都是新的。    在实习的头一年里,何恺明在 导师孙剑 的指导下    做过些许不同的课题,但是无一例外都没有成功 曾为MSRA首席研究员的孙剑,现已高价跳槽至Face++    虽然事实是令人沮丧的,但 何恺明却坦言学习到了很多    这些失败的课题让他尝试了很多不同的方向    这也是导师孙剑一直鼓励实习生去做的    正是这种轻松自由的研究氛围,为他日后的研究打下了坚实的基础 何恺明    虽为普世认为的“天才”,但恺明从不是那种只会读书的书呆子    很难相信何恺明对最早对去雾的研究源于电脑游戏    当然也许和他在北京上学脱不开干系 游戏《静寂岭》中的迷雾    一次, 他在打游戏的时候观察到, 游戏中不乏雾气弥漫的场景    这些场景 显然是虚构的不存在的 ,但是也能 实现逼真的雾气效果    进一步分析证实了这些生成的图像与自然照片有着迥异的统计规律    因此他坚信, 人的视觉一定有一种有效的机制用于感知雾气的存在    而这种机制可以用作去除图像的雾气,定会优于现存的方法 北京的雾霾    于是他便开始研究图像中关于雾的方程    渐渐地他发现雾的方程似曾相识,仿佛在哪里见过    原来其与自己早前研究的matting方程非常相似    这给去雾算法的研究带来了很大的便利    这样一来,他只需要估算图像局部的雾浓度就可以了 带雾照片以及其暗通道    此前,最有效的去雾方法是通过 检测全图最暗的对象    并以此估算雾的浓度,从而去除全局分布均匀的雾气    但实际上很多情况下,图像中的 雾气并不是均匀的    这也是图像去雾的难点所在,但是何恺明想要挑战    由于雾气的不均匀性,恺明自然就会想利用 局部暗对象检测的方法处理    让人吃惊的是,大量的实验证明这个简单想法是成功的    这算是让何恺明撞对了方法,可是困难才刚刚开始    虽然得出了简单高效的方法,实验结果也非常漂亮    但导师孙剑却并没有急于让恺明将方法写成文章发表    而是 反复地追问方法成功背后的本质原因 无雾图像的暗通道    于是何恺明又带着问题重新开始研究    既然局部暗对象检测去雾是成功的    那么就说明去雾后图像的每个局部确实有暗对象存在    这也就意味着在没有雾的图像中有相应的统计规律    无雾图像的暗通道强度统计规律    为此, 何恺明统计了超过5000幅图像,验证了猜想的规律    从先知道 怎么办 再理解 为什么 ,何恺明总算是完成了完整的研究    提出了 Dark Channel Prior 的高效的去雾算法理论 根据何恺明算法处理的图像,上为原图下为处理后    但在论文写作的过程中,何恺明却经常和自己吵架    反复质问自己的观点是否正确,是否合理    好不容易说服了自己,还会遭到孙剑的再度质疑    就在这样挣扎着的循环中,这篇优秀的论文总算是成文了 何恺明的论文    正是这样苛刻的要求,才会有令人骄傲的成果    何恺明这篇论文得到了三个审稿人 最高的评分    同时恺明在迈阿密的演讲被观众认为是那届CVPR上最有趣的演讲    这份 Best Paper Award 的奖项来得当之无愧    也是中国人首次在CVPR获此殊荣,实为华人的骄傲 恺明的成果被广泛认可    鉴于何恺明一向稳定的作风, 这次最佳论文奖绝不是偶然    本科毕业后何恺明进入 香港中文大学 攻读研究生    期间继续在微软亚洲研究院参与相关的研究 何恺明获微软亚洲研究院奖学金    近几年,何恺明在微软亚洲研究院参与计算机视觉识别的研究    其团队在2015年末举办的ImageNet图像识别大赛中    以 “图像识别深度差残学习” 系统傲立群雄    一举击败谷歌、英特尔、高通,荣获第一名    再一次,全部由中国人组成的团队站在了世界巅峰 曾经风靡过的年龄检测就有其团队的贡献    次年,团队的论文在2016年的CVPR会议上获得最佳论文奖    而文章的第一作者依旧是我们的高考状元何恺明    他也以第一作者的身份两次获得CVPR最佳论文奖!    今年八月,何恺明离开了自己的福地微软亚洲研究院    加入了Facebook旗下的AI研究团队(FAIR)    有理由相信他的才能绝不会是“伤仲永”般的昙花一现    高考,从来都只是一场演习    获得优秀的成绩就骄傲得沾沾自喜    巴不得将自己所有的怪癖通告媒体    将高考带入一种求神拜佛的玄学气氛    这很难让人相信他们能成就一番事业 为高考求神拜佛 不知道啊,很多人都问过这个问题,但我一直都不太清楚,可能是悟性好吧    这是何恺明成为高考状元回答记者关于学习秘诀时的回答    他在微软亚洲研究院的光景,一直是抱着学习的心态    细读大量论文,不断提高英语水平,反复推敲自己的成果    正是这种谦逊的秉性造就了他如今的成绩 牛!    实战,从来不以分数论英雄    高考状元,应该 高 分 低 姿态 _____________ 我们同样热爱科技 对科技未知充满孩子般的好奇 为科技给生活带来的一切改变感到热血沸腾 我们将科技的感性给大家
28642 次阅读|13 个评论
图像处理方法原理介绍
YF2015 2016-1-15 22:35
(1)KL变换 KL变换是遥感图像增强和信息提取中用得最多的线性变换,是对原波段图像进行波谱信息的线性投影变换,在尽可能不减少信息量的前提下,将原图像的高维多光谱空间的像元亮度值投影到新的低维空间,减少特征空间维数,达到数据压缩、提高信噪比、提取相关信息、降维处理和提取原图像特征信息的目的,并能有效地提取影像信息。它可使原来多波段图像经变换后提供出一组不相关的图像变量,最前面的主分量具有较大的方差,包含了原始影像的主要信息,所以要集中表达信息,突出图像的某些细部特征,可采用主分量变换来完成。 (2)去相关拉伸变换 通过去相关拉伸变换把相关性很高的波段进行去相关拉伸处理,减弱它们之间的相关性,然后进行拉伸,从而使深色区域的地物差异界线反映得更加清楚。 (3)纹理特征提取变换 纹理特征的提取方法比较简单,它是用一个活动的窗口在图像上连续滑动,分别计算出窗口中的方差、均值、最大值、最小值及二者之差和信息熵等,形成相应的纹理图像,当目标的光谱特性比较接近时,纹理特征对于区分目标可以起到积极的作用。选取适当的数据动态变化范围,进行纹理特征提取后,使影像的纹理特征得到突出,有利于提取构造信息。 (4)锐化增强 调整图像的锐化程度使地物在图像上的差别便于人眼识别,可达到信息增强的目的。对图像进行锐化增强实际上是利用变换函数把原图像进行灰度级转换,增大相邻像元的灰度值之差,从而达到突出图像细节的目的。 (5)定向滤波 利用定向滤波对TM图像频率特征进行筛选,将图像中的线与边缘特征信息增强,突出给定方向的线性影像信息,抑制其他方向的无用信息。采用45°方向滤波,滤波背景值用100%,滤波核设为3。滤波后突出了断裂的线性影像,断裂两侧的色调影像花纹明显不同,断裂造成的山脊错断等特征在影像上非常明显。 (6)缨帽变换 采用缨帽变换可以将TM图像除热红外波段的6个波段压缩成3个分量,其中的土壤亮度指数分量是6个波段的加权和,反映了总体的反射值;绿色植被指数分量反映了绿色生物量的特征;土壤特征分量反映了可见光和近红外与较长的红外的差值,它对土壤湿度和植物湿度最为敏感。这样的三个分量就是TM数据进行缨帽变换后的新空间,它可以对植被、土壤等地面景物作更为细致、准确的分析,应用这种处理方法可增强影像上深色区域的信息。 (7)芒塞尔彩色空间变换 在计算机内定量处理色彩时通常采用RGB(Red、Green、Blue)表色系统,但在视觉上定性的描述色彩时,采用HSV显色系统更直观些。Munsell HSV变换就是对标准处理彩色合成图像在红(R)、绿(G)、蓝(B)编码赋色方面的一种彩色图像增强方法,它是借助改变彩色合成过程中的光学参数的变化来扩展图像色调差异,将图像彩色坐标系中红、绿、蓝三原色组成的彩色空间(RGB)变换为由Hue(色度),Saturation (饱和度),value(纯度)三个变量构成的HSV色彩模型。其目的是为了更有效地抑制地形效应和增强岩石单元的波段差异,并通过彩色编码增强处理达到最佳的图像显示效果。HSV色彩模型能够准确、定量地描述颜色特征。 (8)非监督分类 遥感图像分类是将图像的所有像元按其性质分为若干个类别的技术过程,多光谱遥感图像分类是以每个像元的多光谱矢量数据为基础进行的,分类算法的核心是确定判别函数和相应的判别准则,如果我们事先没有类别的先验知识,在这种情况下对未知类别的样本进行分类的方法称之为非监督分类(Unsupervised Classification),非监督分类只能把样本区分为若干类别,而不能给出样本的描述。本次对中甸幅的小中甸盆地子区应用非监督分类中的K-均值算法,其基本思想是通过迭代,逐次移动各类的中心,直至得到最好的聚类结果为止,这种算法是一个迭代算法,迭代过程中类别中心按最小二程误差的原则进行移动,因此类别中心的移动是合理的。其缺点是要事先已知类别数,在实际中类别数通常根据实验的方法来确定。 (9)波段彩色合成 对两个波段的图像进行比值运算,可减弱背景而突出类别或目标信息,消除山影、云影等的影响,区分易混淆的地物。 (10)对数变换 对数变换的主要功能是压缩图像亮区的灰阶值,拉伸暗区的灰阶值,从而突出暗区的构造形迹。子区的色彩更加丰富,影纹更加清晰,有利于岩性的识别。 (11)比值处理 比值处理采用高质量比值功能,使比值图像得到拉伸,有效地消除了地形影响,使阴影区的结构得到显示。处理出来的图像色彩丰富,既保留了原有地貌特征,又突出了线环构造,为盆地的研究提供了更为直观可靠的资料,立体感得到增强,阴影区结构清楚。
个人分类: 遥感|3936 次阅读|0 个评论
[随记][算法]进行三维图像处理的入门算法
nwang1986 2016-1-15 17:12
平时做实验后得到的数据用matlab的surf(x,y,z,s)+hold on画二维叠加成三维的图,结果层与层之间有缝隙。开源的ImageJ也可以处理,但算法不了解。 今天偶然发现这个获取边界的算法,比较易懂。估计是图像处理中最基础的算法,找时间再详细看。 https://en.wikipedia.org/wiki/Marching_squares https://en.wikipedia.org/wiki/Marching_cubes https://en.wikipedia.org/wiki/Volume_rendering
个人分类: 随记|3151 次阅读|0 个评论
初入江湖【实验室小白奋斗记(1)】
热度 2 YueJiang 2015-5-29 09:48
上周五正式进了实验室,特别大的一个实验室,上下两层,不过好像楼下比较小,借给另外一个计算机分支用了,一个花了六百万加币(加币那时候跟美元差不多)建设的实验室,看起来还是很赞的。 没想到年初(我的上一篇日志)写下的愿望真的实现了,稍稍激动一下!任重而道远! 初来乍到的,我又不怎么会编程,压力山大,教授让我装一个软件我都装了四天才装好,水平渣到一定境界了。老板跟我说要做什么什么什么,我基本没听懂关键词,小郁闷。后来给我发了一堆研究生课的课件,说是周四前看完,崩溃中。说实话,我到现在才看了一点点。一会儿继续看。 暑假还要上两门课,上学期退掉的编程必修课要补起来,另外选了一门传说中的近世代数。都挺难办的感觉。现在是白天上班晚上上课的节奏。 今天一天是“职场小白入职大会”,计算机科学各个分支加起来四五十个人,去早了一点,到那边的时候只有一个男生,在清华读的本科。结果没料到等大家来的差不多了以后就再也没法跟清华这人聊了,他被人群围了一圈又一圈的,旁边一童鞋说这人就是咱学校计算机视觉和机器学习方向最厉害的研究生了。我实在是没有眼力见儿,之前聊的时候没发现,清华真是给北美输送了大量的人才。后来听到有人问他研究生毕业以后去哪读博,答曰准备先找工作供老婆在美国读书(美国读研基本是要付学费的,多大读研都是给全奖的,包括学费和生活费),全场一片哗然:“这么厉害居然不继续读博!”,“以后还是会回来读博的。” 下午参观了学校各个计算机科学的实验室,分别在三栋楼里面。人工智能分支包了一栋老楼里的一层楼,非常性别歧视的没有女洗手间。由于人工智能分支太多,什么生物信息学,计算机语言学,人工智能视觉方向,人工智能算法方向,还有大牛专业机器学习方向,之类之类的,所以每个方向能分到一个小房间几张桌子就不错了,有一些分支只有三四张桌子。除了算法方向在一个房间里稍微大一点点大概有10张桌子的样子,有两扇窗户,其他方向的没有窗户是对着外面的。后来去了数据库,操作系统,软件工程,这些分支,基本上就是咱们高中教室的1.5倍的大小。还挺喜欢算法分支的实验室的,人非常少,但地方不算小,相比于其他分支在大厅办公,算法实验室里都是小间的办公室,大厅是两张大桌子供休息讨论,一个会议室,一个书房,外加一间厨房,看起来还挺不错。我们这个实验室设备比较多,比别的实验室多的是仓库,大量设备仪器和调试场地。今天去其他实验室看过以后才发现这个实验室窗户挺多,起码每个办公室有一扇窗户吧。欢迎对计算机视觉(低端方向)或者人机交互感兴趣的国内小伙伴们报考这个学校的这个实验室,对计算机视觉(高端方向)和机器学习感兴趣的小伙伴们也欢迎报考这个据说在北美排第一的分支,理论分支也很赞,实验室很赞,教授也很赞,其他方向的的就别考虑了。(哈哈!插播广告了) 今天“职场小白入职大会”的贴纸,我把它贴我办公桌上了: 我现在办公桌上的样子: 非常高端大气上档次的照相机: 2015.05.13
个人分类: dgp实验室|4490 次阅读|8 个评论
[转载]图像处理与计算机视觉:基础,经典以及最近发展
hardman 2015-5-20 16:39
图像处理与计算机视觉:基础,经典以及最近发展(1 )序 1. 为什么要写这篇文章 从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,共享给大家呢。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得及其拙劣,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个文章给完善,力求做到尽量全面。 本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的Introduction和Related work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在文献的汪洋大海里。 2. 图像处理和计算机视觉的分类 按照当前流行的分类方法,可以分为以下三部分: 图像处理: 对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。 图像分析: 对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。 计算机视觉: 对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。 关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理-低层视觉(low level vision),图像分析-中间层视觉(middle level vision),计算机视觉-高层视觉(high level vision)。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。 3. 图像处理和计算机视觉开源库以及编程语言选择 目前在图像处理中有两种最重要的语言:c/c++和matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++和matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。 至于开源库,个人非常推荐OpenCV,主要有以下原因: (1)简单易入手。opencv进入opencv2.x的时代后,使用起来越来越简单,接口越来越傻瓜化,越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开始入手了。 (2)Opencv有一堆图像处理和计算机视觉的大牛在维护,bug在逐步减少,每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不同的平台,并提供了对Python的很好的支持。 (3)在Opencv上可以尝试各种最新以及成熟的技术,而不需要自己从头去写,比如人脸检测(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征检测,聚类,hough变换等等。而且它还支持各种机器学习方法(SVM,NN,KNN,决策树,Boosting等),使用起来很简单。 (4)文档内容丰富,并且给出了很多示例程序。当然也有一些地方文档描述不清楚,不过看看代码就很清楚了。 (5)完全开源。可以从中间抠出任何需要的算法。 (6)从学校出来后,除极少数会继续在学术圈里,大部分还是要进入工业界。现在在工业界,c/c++仍是主流,很多公司都会优先考虑熟悉或者精通opencv的。事实上,在学术界,现在opencv也大有取代matlab之势。以前的demo或者sourcecode,很多作者都愿意给出matlab版本的,然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本,或者自己集成到opencv中去,这样能快速提升自己的影响力。 如果想在图像处理和计算机视觉界有比较深入的研究,并且以后打算进入这个领域工作的话,建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话,肯定可以找到一份满意的工作。 4. 本文的特点和结构,以及适合的对象 本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。 由于个人精力和视野的关系,有一些我未涉足过的领域不敢斗胆推荐,只是列出了一些引用率比较高的文章,比如摄像机标定和立体视觉。不过将来,由于工作或者其他原因,这些领域也会接触到,我会逐步增减这些领域的文章。同时文章的挑选也夹带了一些个人的喜好,比如我个人比较喜欢low level方向的,尤其是IJCV和PAMI上面的文章,因此这方面也稍微多点,希望不要引起您的反感。如果有什么意见或者建议,欢迎mail我。文章和资源我都会在我的csdn blog和sina ishare同步更新。在此申明:这些论文的版权归作者及其出版社所有,请勿用于商业目的。 个人blog: http://blog.csdn.net/dcraw 新浪iask地址: http://iask.sina.com.cn/u/2252291285/ish?folderid=868438 本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。 图像处理与计算机视觉:基础,经典以及最近发展( 2 ) 图像处理与计算机视觉相关的书籍 1. 数学 我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研的三门课,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学数目了。 2. 信号处理 图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。 2.1 经典信号处理 信号与系统 ( 第2版) Alan V.Oppenheim等著 刘树棠译 离散时间信号处理 ( 第2版) A.V.奥本海姆等著刘树棠译 数字信号处理:理论算法与实现 胡广书 (编者) 2.2 随机信号处理 现代信号处理 张贤达著 统计信号处理基础 : 估计与检测理论 Steven M.Kay 等著 罗鹏飞等译 自适应滤波器原理 ( 第4版) Simon Haykin著郑宝玉等译 2.3 小波变换 信号处理的小波导引 : 稀疏方法 ( 原书第3版) tephaneMalla著, 戴道清等译 2.4 信息论 信息论基础 ( 原书第2版) Thomas M.Cover等著 阮吉寿等译 3. 模式识别 Pattern Recognition and MachineLearning Bishop , Christopher M. Springer 模式识别 ( 英文版) (第4版) 西奥多里德斯著 Pattern Classification (2ndEdition) Richard O. Duda 等著 Statistical Pattern Recognition , 3rd Edition Andrew R. Webb 等著 模式识别 ( 第3版) 张学工著 4. 图像处理与计算机视觉的书籍推荐 图像处理,分析与机器视觉 第三版Sonka等著 艾海舟等译 ※ Image Processing, Analysis and MachineVision 这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。 数字图像处理 第三版 冈萨雷斯等著 ※ Digital Image Processing 数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。 计算机视觉:理论与算法 RichardSzeliski 著 Computer Vision: Theory andAlgorithm 微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。 Multiple View Geometry in Computer Vision 第二版Harley等著 ※ 引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到电子版。 计算机视觉:一种现代方法 DAForsyth 等著 Computer Vision: A ModernApproach MIT 的经典教材。虽然已经过去十年了,还是值得一读。 第二版已经在今年(2012年)出来了,在iask上可以找到非常清晰的版本,将近800页,补充了很多内容。期待影印版。 Machine vision: theory,algorithms, practicalities 第三版 Davies著 为数不多的英国人写的书,偏向于工业。 Computer Vision:Algorithmsand Applications Richard Szeliszi 著 ※ 数字图像处理 第四版 Pratt著 Digital Image Processing 写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。 5 小结 罗嗦了这么多,实际上就是几个建议: (1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。 (2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。 (3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。 图像处理与计算机视觉:基础,经典以及最近发展( 3 ) 计算机视觉中的信号处理与模式识别 从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法,按照字母顺序排的序。 本章的下载地址在: http://iask.sina.com.cn/u/2252291285/ish?folderid=868770 1. Boosting Boosting 是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。 Rainer Lienhart 在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。 A Decision-Theoretic Generalization of on-Line Learning and an Application toBoosting Boosting the margin A new explanation for the effectiveness of voting methods Empirical Analysis of Detection Cascades of Boosted Classifiers forRapid ObjectDetection The Boosting Approach to Machine Learning An Overview Robust Real-time Face Detection 2. Clustering 聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。 Unsupervised Optimal Fuzzy Clustering A validity measure for fuzzy clustering On cluster validity for the fuzzy c-means model Some New Indexes of Cluster Validity Data Clustering A Review On Clustering Validation Techniques Estimating the number of clusters in a dataset via the Gap statistic On Spectral Clustering A stability based method for discovering structure in clustered data A tutorial on spectral clustering 3. Compressive Sensing 最近大红大紫的压缩感知理论。 Compressed Sensing An Introduction to Compressive Sampling Structured Compressed Sensing From Theory to Applications 4. Decision Trees 对决策树感兴趣的同学这篇文章是非看不可的了。 Introduction to Decision Trees 5. Dynamical Programming 动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter using dynamic programming for solving variational problems in vision Dynamic Programming 6. Expectation Maximization EM 是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如 高斯混合模型 。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。 Maximum likelihood from incomplete data via the EM algorithm The Expectation-Maximzation Algorithm 7. Graphical Models 伯克利的乔丹大仙的Graphical Model,可以配合这Bishop的PRML一起看。 An Introduction to Variational Methods for Graphical Models 8. Hidden Markov Model HMM 在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。 A tutorial on hidden markov models and selected applications in speechrecognition Wavelet-based statistical signal processing using hidden Markov models Multiscale image segmentation using wavelet-domain hidden Markov models Rotation invariant texture characterization and retrieval using steerablewavelet-domain hiddenMarkov models Wavelet-based texture analysis and synthesis using hidden Markov models HmmChinese book.pdf 9. Independent Component Analysis 同PCA一样, 独立成分分析 在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。 Independent Component Analysis A Tutorial Independent component analysis algorithms and applications Independent Component Analysis Algorithms and Applications 10. Information Theory 计算机视觉中的信息论。这方面有一本很不错的书Information Theoryin Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。 An Information-Maximization Approach to Blind Separation and BlindDeconvolution An information theory perspective on computational vision 11. Kalman Filter 这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。 A New Approach to Linear Filtering and Prediction Problems Kalman Least-squares estimation_from Gauss to Kalman A New Extension of the Kalman Filter to Nonlinear System The Unscented Kalman Filter for Nonlinear Estimation An Introduction to the Kalman Filter_full A Study of the Kalman Filter applied to Visual Tracking 12. Pattern Recognition and MachineLearning 模式识别名气比较大的几篇综述 Statistical pattern recognition a review An Introduction to Biometric Recognition Machine Learning in Medical Imaging 13. Principal Component Analysis 著名的PCA,在特征的表示和特征降维上非常有用。 PCA versus LDA Nonlinear component analysisas a kernel eigenvalue problem A Tutorial on Principal Component Analysis Two-dimensional PCA a new approach to appearance-based facerepresentation and recognition A Tutorial on Principal Component Analysis Robust Principal Component Analysis Singular Value Decomposition and Principal Component Analysis 14. Random Forest 随机森林 Random Forests 15. RANSAC 随机抽样一致性方法,与传统的最小 均方误差 等完全是两个路子。在Sonka的书里面也有提到。 Performance Evaluation of RANSAC Family 16. Singular Value Decomposition 对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter K-SVD An Algorithm for Designing Overcomplete Dictionaries for SparseRepresentation Singular Value Decomposition and Principal Component Analysis 17. Sparse Representation 这里主要是Proceeding of IEEE上的几篇文章 Robust Face Recognition via Sparse Representation Image Decomposition and Separation Using Sparse Representations AnOverview Dictionaries for Sparse Representation Modeling It's All About the Data Matrix Completion With Noise On the Role of Sparse and Redundant Representations in Image Processing Sparse Representation for Computer Vision and Pattern Recognition Directionary Learning 18. Support Vector Machines A Tutorial on Support Vector Machines for Pattern Recognition LIBSVM A Library for Support Vector Machines 19. Wavelet 在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet,Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。 说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。 A theory for multiresolution signal decomposition__the waveletrepresentation Image Representation using 2D Gabor Wavelet FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS The Lifting Scheme_ A Construction Of Second Generation Wavelets The JPEG2000 still image coding system_ an overview The curvelet transform for image denoising Gray and color imagecontrast enhancement by the curvelet transform Mathematical Properties of the jpeg2000 wavelet filters The finite ridgelet transform for image representation Sparse Geometric Image Representations With Bandelets The Contourlet Transform_ An Efficient Directional Multiresolution ImageRepresentation The Curvelet Transform 图像处理与计算机视觉:基础,经典以及最近发展( 4 ) 图像处理与分析 本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。 本章的下载地址在: http://iask.sina.com.cn/u/2252291285/ish?folderid=868771 1.Bilateral Filter Bilateral Filter 俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。 BilateralFiltering for Gray and Color Images AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal 2.Color 如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。 ColorIndexing TheEarthMover's Distance as a Metric for Image Retrieval Colorinvariance StatisticalColor Models with Application to Skin Detection A review ofRGBcolor spaces A surveyofskin-color modeling and detection methods Gamma.pdf GammaFAQ.pdf 3.Compressionand Encoding 个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章 Trendsandperspectives in image and video coding 4.ContrastEnhancement 对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如 直方图均衡化 。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。 Vision andtheAtmosphere Gray andcolorimage contrast enhancement by the curvelet transform Gray-levelgrouping (GLG) an automatic method for optimized imagecontrastenhancement-part II Gray-levelgrouping (GLG) an automatic method for optimized imagecontrastEnhancement-part I TransformCoefficient Histogram-Based Image Enhancement Algorithms UsingContrast Entropy AHistogramModification Framework and Its Application for Image ContrastEnhancement 5.Deblur (Restoration) 图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。 Bayesian-BasedIterative Method of Image Restoration an iterativetechniquefor the rectification of observed distributions Iterativemethods for image deblurring BlindImageDeconvolution Digitalimagerestoration DigitalImageReconstruction - Deblurring and Denoising RemovingCamera Shake from a Single Photograph High-quality Motion Deblurring from a Single Image Richardson-Lucy Deblurring for Scenes under a Projective Motion Path 6.Dehazing and Defog 严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的 CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。 SingleImage Dehazing SingleImageHaze Removal Using Dark Channel Prior SingleImageHaze Removal Using Dark Channel Prior 7.Denoising 图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。 Imageselective smoothing and edge detection by nonlinear diffusion. II Imageselective smoothing and edge detection by nonlinear diffusion Nonlineartotalvariation based noise removal algorithms Signalandimage restoration using shock filters and anisotropic diffusion De-noisingbysoft-thresholding Orientationdiffusions Adaptivewaveletthresholding for image denoising and compression Fourth-orderpartial differential equations for noise removal Denoising throughwavelet shrinkage TheCurveletTransform for Image Denoising Noise removalusingfourth-order partial differential equation with applications to medicalmagneticresonance images in space and time AutomaticEstimation and Removal of Noise from a Single Image IsDenoisingDead 8.Edge Detection 边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于 梯度算子 ,尤其是 Sobel 算子 ,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。 theory ofedgedetection findedge AComputational Approach to Edge Detection Scale-spaceand edge detection using anisotropic diffusion The designanduse of steerable filters Multiresolutionedge detection techniques Optimaledgedetection in two-dimensional images LocalScaleControl for Edge Detection and Blur Estimation Statisticaledge detection_ learning and evaluating edge cues EdgeDetectionRevisited Designofsteerable filters for feature detection using canny-like criteria LearningtoDetect Natural Image Boundaries Using Local Brightness, Color, and TextureCues Edge andlineoriented contour detection State of the art 9.Graph Cut 基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注 Do not flyChina Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。 Normalizedcuts and image segmentation Fastapproximate energy minimization via graph cuts Whatenergyfunctions can be minimized via graph cuts 10.HoughTransform 虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。 A Surveyofthe Hough Transform A Comparativestudyof Hough transform methods for circle finding Shapesrecognition using the straight line Hough transform_ theory andgeneralization Extractionofline features in a noisy image RobustDetection of Lines Using the Progressive Probabilistic Hough Transform 11.Image Interpolation 图像插值,偶尔也用得上。一般来说,双三次也就够了 Interpolationrevisited 12.Image Matting 也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及 Richard Szeliski 的相关章节。以色列美女Levin在这方面有两篇PAMI。 Image andVideoMatting A Survey AClosed-FormSolution to Natural Image Matting SpectralMatting 13.Image Modeling 图像的统计模型。这方面有一本专门的著作Natural Image Statistics The statisticsofnatural images On AdvancesinStatistical Modeling of Natural Images FieldsofExperts Modelingmultiscale subbands of photographic images with fields of Gaussianscalemixtures 14.Image Quality Assessment 在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow Imagequalityassessment from error visibility to structural similarity blindimagequality assessment From Natural Scene Statistics to Perceptual Quality 15.Image Registration 图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。 Image matchingasa diffusion process A MethodforRegistration of 3-D shapes a survey ofimageregistration techniques A surveyofmedical image registration Imageregistration methods a survey Mutual-Information-BasedRegistration of Medical Survey Hairisregistration 16.Image Retrieval 图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。 Content-basedimage retrieval at the end of the early years PicToSeekCombining Color and Shape Invariant Features for Image Retrieval Content-BasedImageRetrieval Systems A Survey Content-Based ImageRetrieval-LiteratureSurvey PlantImageRetrieval Using Color,Shape and Texture Features AMultimediaRetrieval Framework Based on Semi-Supervised Ranking and RelevanceFeedback CBIR Chinese fundament of cbir 17.Image Segmentation 图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。 EfficientGraph-Based Image Segmentation Imagesegmentation evaluation A survey of unsupervised methods ContourDetection and Hierarchical Image Segmentation 18.Level Set 大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案 Shapemodelingwith front propagation_ a level set approach LevelSetMethods_ An Overview and Some Recent Results Geodesicactive regions and level set methods for motion estimation and tracking A ReviewofStatistical Approaches to Level Set Segmentation RobustReal-TimeVisual Tracking using Pixel-Wise Posteriors DistanceRegularized Level Set Evolution and its Application to ImageSegmentation 19.Pyramid 其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。 TheLaplacianPyramid as a Compact Image Code 20. Radon Transform Radon 变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。 Imagerepresentation via a finite Radon transform Thefastdiscrete radon transform I theory Generalisedfinite radon transform for N ×N images 21.Scale Space 尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。 Scale-spacefiltering Scale-Spacefor Discrete Signals Scale-spacetheoryA basic tool for analysing structures at different scales EdgeDetectionand Ridge Detection with Automatic Scale Selection FeatureDetection with Automatic Scale Selection 22. Snake 活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。 SnakesActiveContour Models deformablemodelin medical image A Survey geodesicactive contour Snakes,shapes,and gradient vector flow Geodesicactivecontours and level sets for the detection and tracking of moving objects Activecontourswithout edges 23. Super Resolution 超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。 Example-BasedSuper-Resolution Super-Resolution Image Reconstruction A Technical Overview Super-Resolutionfrom a Single Image ImageSuper-Resolution Via Sparse Representation 24. Thresholding 阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。 OTSUAthreshold selection method from gray-level histograms A FastAlgorithmfor Multilevel Thresholding Surveyoverimage thresholding techniques and quantitative performance evaluation 25. Watershed 分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。 Watershedsindigital spaces an efficient algorithm based on immersion simulations TheWatershedTransform Definitions, Algorithms and Parallelizat on Strategies 图像处理与计算机视觉:基础,经典以及最近发展( 5 ) 计算机视觉 这一章是计算机视觉部分,主要侧重在底层特征提取, 视频分析 ,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人 非常喜欢 ,也列出来了。 本章的下载地址: http://iask.sina.com.cn/u/2252291285/ish?folderid=868772 1. Active Appearance Models 活动表观模型和活动轮廓模型基本思想来源Snake,现在在人脸三维建模方面得到了很成功的应用,这里列出了三篇最初最经典的文章。对这个领域有兴趣的可以从这 三篇文章 开始入手。 ActiveAppearance Models ActiveAppearance Models 2. Active Shape Models Active ShapeModels-Their Training and Application 3. Background modeling andsubtraction 背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生,demo效果也很好,比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法,他们最大的贡献在于不用EM去做高斯拟合,而是采用了一种迭代的算法,这样就不需要保存很多帧的数据,节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法,把混合 高斯模型 做到了极致。这种方法效果也很好,而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里,无参数方法(2000 ECCV)和Vibe方法也值得关注。 PfinderReal-Time Tracking of the Human Body Adaptivebackground mixture models for real-time tracking WallflowerPrinciples and Practice of Background Maintenance Non-parametricModel for Background Subtraction LearningPatterns of Activity Using Real-Time Tracking Backgroundand foreground modeling using nonparametric kernel density estimationforvisual surveillance Improvedadaptive Gaussian mixture model for background subtraction Recursiveunsupervised learning of finite mixture models Efficientadaptive density estimation per image pixel for the task ofbackgroundsubtraction ViBeAUniversal Background Subtraction Algorithm for Video Sequences 4. Bag of Words 词袋,在这方面暂时没有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。 Video Google AText Retrieval Approach to Object Matching in Videos VisualCategorization with Bags of Keypoints Beyond bags offeatures Spatial pyramid matching for recognizing natural scenecategories 5. BRIEF BRIEF 是BinaryRobust Independent ElementaryFeatures的简称,是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。 BRIEF BinaryRobust Independent Elementary Features ORBanefficient alternative to SIFT or SURF BRIEFComputing a Local Binary Descriptor Very Fast 6. Camera Calibration andStereoVision 非常不熟悉的领域。仅仅列出了十来篇重要的文献,供以后学习。 AComputational Theory of Human Stereo Vision Computationalvision and regularization theory Aversatilecamera calibration technique for high-accuracy 3D machine visionmetrologyusing off-the-shelf TV cameras and lenses ProbabilisticSolution of Ill-Posed Problems in Computational Vision Ill-PosedProblems in Early Vision KalmanFilter-based Algorithms for Estimating Depth from Image Sequences RelativeOrientation Usingvanishing points for camera calibration Cameraself-calibration Theory and experiments Atheory ofself-calibration of a moving camera Cameracalibration with distortion models and accuracy evaluation TheFundamental Matrix Theory, Algorithms, and Stability Analysis astereomatching algorithm with an adaptive window theory and experiment Flexiblecamera calibration by viewing a plane from unknown orientations Markertracking and hmd calibration for a video-based augmented realityconferencingsystem Aflexible newtechnique for camera calibration 7. Color and Histogram Feature 这里面主要来源于图像检索,早期的图像检测基本基于全局的特征,其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。 Similarity ofcolor images IMAGERETRIEVALUSING COLOR AND SHAPE comparingimagesusing color coherence vectors ImageIndexingUsing Color Correlograms AnEfficientColor Representation for Image Retrieval Performanceevaluation of local colour invariants 8. Deformable Part Model 大红大热的DPM,在OpenCV中有一个专门的topic讲DPM和latent svm ADiscriminatively Trained, Multiscale, Deformable Part Model Cascade ObjectDetection with Deformable Part Models ObjectDetection with Discriminatively Trained Part-Based Models 9. Distance Transformations 距离变换,在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。 DistanceTransformations in Digital Images 2DEuclideanDistance Transform Algorithms A Comparative Survey 10. Face Detection 最成熟最有名的当属Haar+Adaboost NeuralNetwork-Based Face Detection Detectingfaces in images a survey FaceDetectionin Color Images RobustReal-Time Face Detection 11. Face Recognition 不熟悉,简单罗列之。 FaceRecognitionUsing Eigenfaces AutomaticAnalysis of Facial Expressions The State of the Art FaceRecognition ALiterature Survey Facerecognitionfrom a single image per person A survey Robust FaceRecognition via Sparse Representation 12. FAST 用机器学习的方法来提取角点,号称很快很好。 Machinelearning for high-speed corner detection Faster andBetter A Machine Learning Approach to Corner Detection 13. Feature Extraction 这里的特征主要都是各种不变性特征,SIFT,Harris,MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征,王永明与王贵锦合著的《 图像局部不变性特征与描述 》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。 Onthedetection of dominant points on digital curves SUSAN —A NewApproach to Low Level Image Processing MatchingWidely Separated Views Based on Affine Invariant Regions Scale Affine Invariant Interest Point Detectors Aperformanceevaluation of local descriptors AComparisonof Affine Region Detectors LocalInvariantFeature Detectors - A Survey Evaluation ofInterest Point Detectors and Feature Descriptors 14. Feature Matching LDAHashImproved Matching with Smaller Descriptors 15. Harris 虽然过去了很多年,Harris角点检测仍然广泛使用,而且基于它有很多变形。如果仔细看了这种方法,从直观也可以感觉到这是一种很稳健的方法。 Acombinedcorner and edge detector 16. Histograms of OrientedGradients HoG 方法也在OpenCV中实现了:HOGDescriptor。 Histograms ofOriented Gradients for Human Detection NavneetDalalThesis.pdf 17. Image Distance ComparingImages Using the Hausdorff Distance 18. Image Stitching 图像拼接,另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中,有专门一章是讨论这个问题。这里的两面文章一篇是综述,一篇是这方面很经典的文章。 ImageAlignmentand Stitching A Tutorial AutomaticPanoramic Image Stitching using Invariant Features 19. KLT KLT 跟踪算法,基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章,最后一篇给出了OpenCV实现KLT的细节。 AnIterative ImageRegistration Technique with an Application to Stereo Vision fullversion GoodFeaturesto Track Lucas-Kanade 20 Years On A Unifying Framework PyramidalImplementationof the Lucas Kanade Feature Tracker OpenCV 20. Local Binary Pattern LBP 。OpenCV的Cascade分类器也支持LBP,用来取代Haar特征。 Multiresolution gray-scale and rotation Invariant Texture ClassificationwithLocal Binary Patterns FaceRecognition with Local Binary Patterns FaceDescription with Local Binary Patterns Rotation-InvariantImage and Video Description With Local Binary PatternFeatures 21. Low-Level Vision 关于Low level vision的两篇很不错的文章 Ageneralframework for low level vision LearningLow-Level Vision 22. Mean Shift 均值漂移算法,在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上关于Mean Shift的文章,一篇是OpenCV实现的文章。 Meanshift,mode seeking, and clustering Meanshift arobust approach toward feature space analysis Mean-shiftblob tracking through scale space Objecttracking using SIFT features and mean shift MeanShiftTrackers with Cross-Bin Metrics OpenCV ComputerVisionFace Tracking For Use in a Perceptual User Interface 23. MSER 这篇文章发表在2002年的BMVC上,后来直接录用到2004年的IVC上,内容差不多。MSER在Sonka的书里面也有提到。 Robust WideBaseline Stereo from Maximally Stable Extremal Regions MSERAuthorPresentation Robustwide-baseline stereo from maximally stable extremal regions AreMSERFeatures Really Interesting 24. Object Detection 首先要说的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,后来到新加坡国立任教,极具潜力的一个老师。不幸的是,他和他的妻子都在2000年的新加坡空难中遇难,让人唏嘘不已。 http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006 最后一篇文章也是Fua课题组的,作者给出的demo效果相当好。 Example-basedlearning for view-based human face detection AStatistical Method for 3D Object Detection Applied to Faces and Cars Learning theStatistics of People in Images and Video Learning toDetect a Salient Object AReal-TimeDeformable Detector 25. Object Tracking 跟踪也是计算机视觉中的经典问题。粒子滤波,卡尔曼滤波,KLT,mean shift,光流都跟它有关系。这里列出的是传统意义上的跟踪,尤其值得一看的是2008的Survey和2003年的Kernelbased tracking。 Kernel-basedobject tracking TrackingPeople by Learning Their Appearance Object TrackingA Survey Segmentationand Tracking of Multiple Humans in Crowded Environments Hough Forestsfor Object Detection, Tracking, and Action Recognition Robust ObjectTracking with Online Multiple Instance Learning PWP3DReal-Time Segmentation and Tracking of 3D Objects 26. OCR 一个非常成熟的领域,已经很好的商业化了。 Historical reviewof OCR research and development Video OCR ASurvey andPractitioner's Guide 27. Optical Flow 光流法,视频分析所必需掌握的一种算法。 DetermineOptical Flow Performance ofoptical flow techniques TheComputationof Optical Flow TutorialComputing 2D and 3D Optical Flow Optical FlowEstimation LearningOptical Flow ADatabase andEvaluation Methodology for Optical Flow 28. Particle Filter 粒子滤波,主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。 CONDENSATION —ConditionalDensity Propagation for Visual Tracking Atutorial onparticle filters for online nonlinear non-Gaussian Bayesian tracking Particlefilters for positioning, navigation, and tracking particle filter 29. Pedestrian and Human detection 仍然是综述类,关于行人和人体的运动检测和动作识别。 Visualanalysis of human movement_ A survey ASurvey ofComputer Vision-Based Human Motion Capture Imagechangedetection algorithms a systematic survey asurvey ofavdances in vision based human motion capture Vision-basedhuman motion analysis An overview PedestrianDetection via Periodic Motion Analysis Asurvey ofskin-color modeling and detection methods Asurvey onvision-based human action recognition PedestrianDetection An Evaluation of the State of the Art 30. Scene Classification 当相机越来越傻瓜化的时候,自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。 Modeling theShape of the Scene A Holistic Representation of the SpatialEnvelope Visual WordAmbiguity AThousandWords in a Scene EvaluatingColor Descriptors for Object and Scene Recognition CENTRIST AVisual Descriptor for Scene Categorization 31. Shadow Detection Detectingmoving shadows-- algorithms and evaluation 32. Shape 关于形状,主要是两个方面:形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征,用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别,最牛的当属J Malik等提出的Shape Context。 IMPROVED MOMENTINVARIANTS FOR SHAPE DISCRIMINATION PatternRecognition by Affine Moment Invariants IMAGERETRIEVALUSING COLOR AND SHAPE Shapematchingsimilarity measures and algorithms Shape matchingand object recognition using shape contexts Reviewof shaperepresentation and description techniques IntegralInvariants for Shape Matching A Surveyof ShapeFeature Extraction Techniques 33. SIFT 关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。 Objectrecognition from local scale-invariant features Evaluation ofInterest Point Detectors Speeded-UpRobust Features (SURF) PCA-SIFT AMore Distinctive Representation for Local Image Descriptors DistinctiveImage Features from Scale-Invariant Keypoints ImprovingBag-of-Features for Large Scale Image Search SIFTflow DenseCorrespondence across Scenes and its Applications 34. SLAM SimultaneousLocalization and Mapping, 同步定位与建图。 SLAM 问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。 SimultaneousLocalization and Map-Building Using Active Vision MonoSLAMReal-TimeSingle Camera SLAM 35. Texture Feature 纹理特征也是物体识别和检索的一个重要特征集。 Texturalfeaturesfor image classification Statistical andstructural approaches to texture Texturefeatures for browsing and retrieval of image data Briefreview ofinvariant texture analysis methods ColorLocalTexture Features for Color Face Recognition 36. TLD Kadal 创立了TLD,跟踪学习检测同步进行,达到稳健跟踪的目的。他的两个导师也是大名鼎鼎,一个是发明MSER的Matas,一个是Mikolajczyk。他还创立了一个公司 TLDVisions.r.o . 这里给出了他的系列文章,最后一篇是刚出来的PAMI。 Onlinelearning ofrobust object detectors during unstable tracking P-NLearningBootstrapping Binary Classifiers by Structural Constraints FACE-TLDTRACKING-LEARNING-DETECTION APPLIED TO FACES Tracking-Learning-Detection 37. Video Surveillance 前面两个是两个很有名的视频监控系统,里面包含了很丰富的信息量,比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。 ASystem forVideo Surveillance and Monitoring W4--real-timesurveillance of people and their activitie Theevolutionof video surveillance an overview 38. Viola-Jones Haar+Adaboost 的弱弱联手,组成了最强大的利器。在OpenCV里面有它的实现,也可以选择用LBP来代替Haar特征。 Rapid objectdetection using a boosted cascade of simple features RobustReal-timeFace Detection
个人分类: 图像处理与机器视觉|2683 次阅读|0 个评论
图像处理与机器视觉相关资源
hardman 2015-5-5 01:14
一、图像处理相关资源 (一)图像分割 1、普通图像分割 2、医学图像分割 (二) 机器视觉
个人分类: 图像处理与机器视觉|2778 次阅读|0 个评论
学习ImageJ-自由的图像处理工具<三>
热度 1 zhenyisong 2014-12-4 14:10
如果看到这篇博文《 图像处理与计算机视觉:基础,经典以及最近发展 》,你会感到图像处理也是学无止境的。我也仅仅是很肤浅地触及这个领域。《 outliers 》曾经说过,没有 10 , 000 小时的学习投入,很难走到行业的巅峰。如果对于开创性的交叉学科,似乎只能是边学边用,学以致用。同时需要对某种方向有直觉性的感悟。我知道有人既是生物系的教授(湿实验)也是计算机系的教授,这可能是美国研究实力的显示。不知道有没有人先从事生物基础研究,在 development 类似的杂志发表文章后,逆袭数学研究,在 American mathematicalmonthly 发表文章。科学网上 韦鹍 博主从事生物进化,后来从事数学本科的教学工作。这一点上,我感觉,实际上是有智力挑战的。另一方面,张益唐博士曾说过,随着知识量的突飞猛进,科研人员要解决某些重大问题,必须要有一定的积累,有些问题可能还需要长时间的知识积累,所以他认为科研能力与年龄的关系并不大。这一点,与我目前对生物(或生命 / 医学领域)的认识也一致。 图像处理的一个基础学科就是线性代数, MIT 的 Strong 教授有视频和课本。 ImageJ 中也有滤波的概念( Filter )。我自己的理解是,它也是广义上的点操作。又如 Sobel 算子,其思想实质是函数一阶求导的矩阵实现(二阶导的实现是 Laplace 算子)。 Sobel 算子的历史渊源 科学网的博主 曾介绍过。滤波分为线性滤波和非线性滤波(如 Median filter )。空间滤波和频率滤波,后者涉及到傅里叶变换( The Fourier Transform )。当然,通过卷积( convolution )的操作可以实现滤波的功能。 出于对形态发育的好奇,我看到了 Janelia 农庄 Keller 博士 的综述,描绘了活体光学成像技术对于发育生物学的推动。当然,技术的革新总是推动传统生物学家提出更深入的问题。未来不远的挑战是对观测现象的定量化描述和抽象的总结,也许,生物学会慢慢走向类似化学以及物理学的发展轨迹。目前,仅仅是相当于门捷列夫发现元素周期表之前的黑暗摸索之中。 在心脏发育领域,我未能看到这方面的领导者。相反,例如,心脏领域的领导者 Olson EN 并未未利用成像方面的技术做出挑战性的工作。这也许跟研究者偏爱的生物问题和模式动物的选择有关。我所见到的欧洲荷兰心脏研究所的 Jan Ruijter 研究组( Antoon Moorman 退休后在这个课题组),试图利用成像技术研究心脏的形态发育,采用连续切片技术进行体外 3D- 重建。有些爱好者,如野心勃勃的物理学博士 Jan Huisken 利用斑马鱼,研究发育时期的心脏活体成像。 在医学领域,心脏影像学领域,正电子发射计算机断层成像( PET ),单光子发射计算机断层成像( SPECT )荧光分子断层成像、核磁共振成像( MRI )、 X- 射线计算机断层成像、超声、光学成像提供了不同模态的体内信息。例如麻省总院的放射科医生 Nahrendorf 利用影像学技术建立进行系统生物学的研究平台。当然, ImageJ 是可以处理医学图像的, Bourne , Roger 的著作《 Fundamentals of digitalimaging in medicine 》即利用 ImageJ 平台。
4655 次阅读|1 个评论
科普:图像处理是做什么的?
热度 6 zmpenguestc 2014-8-31 22:50
曾经不少人问我,图像处理是做什么的?是不是利用Photoshop 软件对风景照做一些美化、渲染之类的事情,也就是日常流行的 PS 一下照片,使照片变得适合人眼观察(好看)或具有某种艺术效果呢。答案显然是:NO。 图1 各种特效及合成图像 百度百科:图像处理(Image processing),是用计算机对图像进行分析,以达到所需结果的技术,又称影像处理。图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组(矩阵),该数组(矩阵)的元素称为像素,其值为一整数,称为灰度值。图像处理技术的主要内容包括图像压缩,增强和复原,匹配、描述和识别3个部分。常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。 ( http://baike.baidu.com/view/14662.htm )。 我自己长期上了一门课,叫做“光电图像处理”,这跟一般的图像处理又是什么样的一种关系呢。 狭义的图像处理 , 实际是指针对可见光(自然图像)的数字图像处理,也就是在已经获取了图像,并经过数字化和采样后的二维数字(信号)图像的前提下,对其进行数字滤波(去噪声、清晰化、增加对比度)、图像编码与压缩(图像传输、通信)、图像分析与解释(分割、识别等)。 广义的图像处理 ,应涉及更广泛的内容,包括图像采集(光学系统、材料器件、工艺及传感器阵列等)、传输(编码、通信)、处理(清晰度、对比度等后续成像质量改善)、分析与识别(分割、特征提取、描述、分类识别等)以及各种场合的技术应用等。 “ 光电图像处理” 又是什么呢?不同传感器、不同观测系统下可见、不可见电磁波源探测到的信息经过转换后以视觉可见的形式成像的景象,并对其进行处理,均可称为光电图像处理。严格来说,包括了医学影像( r,X 射线、 MRI 等)、微波 / 毫米波 / 太赫兹成像、紫外、红外、可见光等整个电磁波谱上的所有频段。有时候,人们不自觉的给电子学与光电子学划分一个界限。习惯上,光电图像处理,主要是涉及光电传感器采集到并经处理得到的数字(信号)图像,其应用重点放在光电探测(检测)、测量及相关应用系统领域。 图2 电磁波谱图 因此,人们习惯把“光电图像处理”的范畴定位为:紫外、可见光及不同波段的红外成像得到的图像。 有的摄影爱好者或影楼工作者,利用影像处理软件,做一些图片处理工作,也可以称为是图像处理工作者。还有一些人,利用 MATLAB 软件做一些去模糊、消噪声、清晰化、彩色变换等图像增强工作,也是属于图像处理的范畴。 一句话,图像处理很直观,也很有趣,且门槛低,只要懂得会使用计算机的人,都可以做一些与图像处理有关的工作。只要是人眼视觉正常的人,就可以正常感知自然界图像。因为,图像是人们感知自然界的主要信息来源。呵呵,图像处理其实是一万金油,洒哪里,哪里有用。图像处理不仅仅属于计算机、电子信息和自动化领域范畴。因为,任何人、任何行业和领域都离不开图像处理和利用图像感知世界。 图像处理到底属于哪个学科,没法定论。计算机、通信、电子、自动化、航空航天、工业控制、生物医学(医学影像)等。另外,农学、林学、纺织业、考古学、地质学,甚至文学、语言学、教育学、心理学、法学、艺体等人文社科领域,都离不开图像处理技术。 其实, 图像处理就是一门通用技术。因此,搞图像处理一定是要结合具体应用的。不然,也就像“信号与信息处理”学科一样,就成了“上不着天,下不接地”的东东。 图像处理由于涉及成像(材料、工艺、器件、光学系统)、显示(材料、工艺、器件、电路)、传输(通信、网路、计算机等)、存储(材料、物理电子)、特征识别及应用(计算机、数学、信号处理、模式识别)等。因此,也是一个多学科交叉的技术应用领域。 目前,多维成像 / 测量、高速传输处理、复杂场景智能识别以及视频内容 (动态图像) 的智能分析与解译技术,为图像处理技术及系统应用提供了更为广阔的发展领域和空间。 图像处理直观、好玩,但要玩出高水平,却不是一件容易的事情。任何一个做图像处理的人都不可能做到全能,都是集中在某个小的应用领域做一些技术应用层面的设计及开发工作。
个人分类: 闻图思学|40802 次阅读|9 个评论
图像处理相关个人主页、研究组及公开数据集网址(整理中……)
huoleigang 2014-1-16 20:42
个人主页 Alessandro Foi Andrea L. Bertozzi Antoni Buades Antonin Chambolle Jean-Luc Starck Jean-Michel Morel Yi Ma Stanley Osher Thomas Pock 公开数据集 The USC-SIPI Image Database 公开代码 Total Variation Denoising
个人分类: 网络资源|5106 次阅读|0 个评论
[转载]MATLAB实现批量处理图像图片的两种方法
hestendelin 2013-9-23 08:25
基本上有两个方法: 方法一 : 将图像统一进行一次重命名如:1.jpg,2.jpg等,然后利用for循环依次进行处理即可,如下面的语句:假设图像共有20副: str='D:\做差\好的图像\'; %我的图像放在D盘,做差文件夹下,好的图像文件夹下 for i=1:20 I=imread( ); %依次读取每一幅图像 %在此处进行你的图像处理即可 end 方法二 : 将图像统一方法一个文件夹下,不需要统一进行重命名了,利用uigetdir函数得到你所处理图像的路径, 然后对此路径下的所有图像进行处理,举例如下:我只处理bmp文件 srcDir=uigetdir('Choose source directory.'); %获得选择的文件夹 cd(srcDir); allnames=struct2cell(dir('*.bmp')); %只处理8位的bmp文件 =size(allnames); %获得bmp文件的个数 for ii=1:len %逐次取出文件 name=allnames{1,ii}; I=imread(name); %读取文件 %然后在此处添加你的图像处理程序即可 end 原文地址: http://blog.sina.com.cn/s/blog_4d633dc70100pr61.html
个人分类: 转载|6305 次阅读|0 个评论
《基于机器视觉的卷烟接装纸测量系统的设计》我的期刊论文
sume 2013-8-11 15:29
发表于《自动化与仪表》2011年第4期。 下载地址: http://ishare.iask.sina.com.cn/f/37266568.html http://wenku.baidu.com/view/f6343314f18583d04964590c.html
1874 次阅读|0 个评论
图像处理的方向
ChinaAbel 2013-7-4 15:17
首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(一维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。 下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。 搜索方向 基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、google、yahoo和百度,个个鼎鼎大名。 医学图像方向 目前在医疗器械方向主要是几个大企业在竞争,来头都不小,其中包括Simens、GE、飞利浦和柯达,主要生产CT和MRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞 计算机视觉和模式识别方向 我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。 上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。 视频方向 一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEG、H.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个bbs或者各种招聘网站经常看到。 我所知道的两个公司:诺基亚和pixelworks 其他 其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司: 上海豪威集成电路有限公司( www.ovt.com.cn ) 中芯微 摩托罗拉上海研究院 威盛(VIA) 松下 索尼 清华同方 三星 所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。 要求: 1、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。 2、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。 3、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。 4、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。 图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。 我说点不好的 呵呵 版主的说法我同意都是正面的 反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的 多数做图象的是用MATLAB,用别人的代码(如小波)。在研究生三年学好C++毕业的有多少?在公司C++是重要的。 图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。 外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。 说这些不是波冷水,希望大家了解清楚。 Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore. The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills... It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing 我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像. 其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性. 顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司. 楼主是好人 不过此文更多是安慰 新手不可太当真 衡量专业好坏的标准有两个:应用前景和技术门槛 个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少 总的来说图像方向就业一般,在it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见) 1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。 2)说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。 3)再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。 4)说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽(一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的),研究点做深入,注重实现能力、创新能力和学习能力,通过论文。多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。 5)当然,最后,找工的时候,包装是一种技巧,整合是一种需要。 我觉得做图像处理还是很有前途的。 有做图像三维重建的来找我,我们公司做医疗影像的。 可以跟我Email联系: yalee@sina.com 作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前 沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就 是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的 出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个 实际应用的项目,边做边写文章。 做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用。(这里我要感谢SMTH AI版的alamarik和Graphics版的faintt) 导航栏: 研究群体 大拿主页 前沿期刊 GPL软件资源 搜索引擎 一、研究群体 http://www-2.cs.cmu.edu/~cil/vision.html 这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。 http://www.cmis.csiro.au/IAP/zimage.htm 这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。 http://www.via.cornell.edu/ 康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。 http://www2.parc.com/istl/groups/did/didoverview.shtml 有一个很有意思的项目:DID(文档图像解码)。 http://www-cs-students.stanford.edu/ 斯坦福大学计算机系主页,自己找吧:( http://www.fmrib.ox.ac.uk/analysis/ 主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration, Automated Segmentation,Structural brain change analysis,motion correction,etc. http://www.cse.msu.edu/prip/ 这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。 http://pandora.inf.uni-jena.de/p/e/index.html 德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。 http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture. http://cfia.gmu.edu/ The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems. http://peipa.essex.ac.uk/info/groups.html 可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。 二、图像处理GPL库 http://www.ph.tn.tudelft.nl/~klamer/cppima.html Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。 http://iraf.noao.edu/ Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data. http://entropy.brni-jhu.org/tnimage.html 一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。 http://sourceforge.net/projects/ 这是GPL软件集散地,到这里找你想要得到的IP库吧。 三、搜索资源 当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间: http://sal.kachinatech.com/ http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml 四、大拿网页 http://www.ai.mit.edu/people/wtf/ 这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。 http://www.merl.com/people/brand/ MERL(Mitsubishi Electric Research Laboratory)中的擅长“Style Machine”高手。 http://research.microsoft.com/~ablake/ CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html 这位牛人好像正在学习汉语,并且搜集了诸如“两只老虎(Two Tigers)”的歌曲,嘿嘿:) 他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。 http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html 这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。 -------------------------------------------------------------------------------- 下面这些是我搜集的牛群(大部分是如日中天的Ph.D们),可以学习的是他们的Study Ways! Finn Lindgren(Sweden):Statistical image analysis http://www.maths.lth.se/matstat/staff/finn/ Pavel Paclik(Prague):statistical pattern recognition http://www.ph.tn.tudelft.nl/~pavel/ Dr. Mark Burge:machine learning and graph theory http://cs.armstrong.edu/burge/ yalin Wang:Document Image Analysis http://students.washington.edu/~ylwang/ Geir Storvik: Image analysis http://www.math.uio.no/~geirs/ Heidorn http://alexia.lis.uiuc.edu/~heidorn/ Joakim Lindblad:Digital Image Cytometry http://www.cb.uu.se/~joakim/index_eng.html S.Lavirotte: http://www-sop.inria.fr/cafe/Stephane.Lavirotte/ Sporring: scale-space techniques http://www.lab3d.odont.ku.dk/~sporring/ Mark Jenkinson:Reduction of MR Artefacts http://www.fmrib.ox.ac.uk/~mark/ Justin K. Romberg:digital signal processing http://www-dsp.rice.edu/~jrom/ Fauqueur:Image retrieval by regions of interest http://www-rocq.inria.fr/~fauqueur/ James J. Nolan:Computer Vision http://cs.gmu.edu/~jnolan/ Daniel X. Pape:Information http://www.bucho.org/~dpape/ Drew Pilant:remote sensing technology http://www.geo.mtu.edu/~anpilant/index.html 五、前沿期刊(TOP10) 这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:) IEEE Trans. On PAMI http://www.computer.org/tpami/index.htm IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm Pattern Recognition http://www.elsevier.com/locate/issn/00313203 Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655 神经网络 Neural Networks Tutorial Review http://hem.hj.se/~de96klda/NeuralNetworks.htm ftp://ftp.sas.com/pub/neural/FAQ.html Image Compression with Neural Networks http://www.comp.glam.ac.uk/digimaging/neural.htm Backpropagator's Review http://www.dontveter.com/bpr/bpr.html Bibliographies on Neural Networks http://liinwww.ira.uka.de/bibliography/Neural/ Intelligent Motion Control with an Artificial Cerebellum http://www.q12.org/phd.html Kernel Machines http://www.kernel-machines.org/ Some Neural Networks Research Organizations http://www.ieee.org/nnc/ http://www.inns.org/ Neural Network Modeling in Vision Research http://www.rybak-et-al.net/nisms.html Neural Networks and Machine Learning http://learning.cs.toronto.edu/ Neural Application Software http://attrasoft.com Neural Network Toolbox for MATLAB http://www.mathworks.com/products/neuralnet/ Netlab Software http://www.ncrg.aston.ac.uk/netlab/ Kunama Systems Limited http://www.kunama.co.uk/ Computer Vision Computer Vision Homepage, Carnegie Mellon University www.cs.cmu.edu/~cil/vision.html Annotated Computer Vision Bibliography http://iris.usc.edu/Vision-Notes/bibliography/contents.html http://iris.usc.edu/Vision-Notes/rosenfeld/contents.html Lawrence Berkeley National Lab Computer Vision and Robotics Applications http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html CVonline by University of Edinburgh The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision, www.dai.ed.ac.uk/CVonline Computer Vision Handbook, www.cs.hmc.edu/~fleck/computer-vision-handbook Vision Systems Courseware www.cs.cf.ac.uk/Dave/Vision_lecture/Vision_lecture_caller.html Research Activities in Computer Vision http://www-syntim.inria.fr/syntim/analyse/index-eng.html Vision Systems Acronyms www.vision-systems-design.com/vsd/archive/acronyms.html Dictionary of Terms in Human and Animal Vision http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html Metrology based on Computer Vision www.cranfield.ac.uk/sme/amac/research/metrology/metrology.html Digital Photography Digital Photography, Scanning, and Image Processing www.dbusch.com/scanners/scanners.html Educational Resources, Universities Center for Image Processing in Education www.cipe.com Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology http://wally2.rit.edu/pubs/guides/imagingcall.html Mathematical Experiences through Image Processing, University of Washington www.cs.washington.edu/research/metip/metip.html Vismod Tech Reports and Publications, MIT http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker Vision Lab PhD dissertation list, University of Antwerp http://wcc.ruca.ua.ac.be/~visielab/theses.html INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems www.inria.fr/Themes/Theme3-eng.html Image Processing Resources http://eleceng.ukc.ac.uk/~rls3/Contents.htm Publications of Carsten Steger http://www9.informatik.tu-muenchen.de/people/steger/publications.html FAQs comp.dsp FAQ www.bdti.com/faq/dsp_faq.htm Robotics FAQ www.frc.ri.cmu.edu/robotics-faq Where's the sci.image.processing FAQ? www.cc.iastate.edu/olc_answers/packages/graphics/sci.image.processing.faq.html comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations www.exaflop.org/docs/cgafaq Astronomical Image Processing System FAQ www.cv.nrao.edu/aips/aips_faq. html 更多见 http://blog.sina.com.cn/charming0577
个人分类: 图像处理|15664 次阅读|0 个评论
[转载]转载:Matlab图像高斯平滑滤波处理(代码)
billfoxben 2013-5-22 22:37
% 图像高斯平滑滤波处理 img=imread('1.jpg'); f=rgb2gray(img); subplot(1,2,1); imshow(f); f=double(f); f=fft2(f); f=fftshift(f); =size(f); % d0=80; m1=fix(m/2); n1=fix(n/2); for i=1:m for j=1:n d=sqrt((i-m1)^2+(j-n1)^2); h(i,j)=exp(-d^2/2/d0^2); end end g=f.*h; g=ifftshift(g); g=ifft2(g); g=mat2gray(real(g)); subplot(1,2,2); imshow(g); imwrite(img,'2.jpg'); 处理前后比照:
个人分类: Matlab图像处理|4696 次阅读|0 个评论
[转载]IDL内建程序库程序功能列表:(六)图像处理
deliangwang 2013-4-25 10:07
Image Processing Contrast Enhancement and Filtering ADAPT_HIST_EQUAL- Performs adaptive histogram equalization BUTTERWORTH- Returns the absolute value of the low-pass Butterworth kernel. BYTSCL- Scales all values of an array into range of bytes. CANNY- Implements the Canny edge-detection algorithm. CONVOL- Convolves two vectors or arrays. DIGITAL_FILTER- Calculates coefficients of a non-recursive, digital filter. FFT- Returns the Fast Fourier Transform of an array. HILBERT- Constructs a Hilbert transform. HIST_EQUAL- Histogram-equalizes an image. IR_FILTER - Performs the infinite or finite impulse response filter on data. LEEFILT- Performs the Lee filter algorithm on an image array. MEDIAN- Returns the median value of Array or applies a median filter. ROBERTS- Returns an approximation of Roberts edge enhancement. SMOOTH- Smooths with a boxcar average. SOBEL- Returns an approximation of Sobel edge enhancement. UNSHARP_MASK - Performs an unsharp-mask sharpening filter on a two-dimensional array or a truecolor image. See Also- Wavelet Toolkit Feature Extraction/Image Segmentation CONTOUR- Draws a contour plot. DEFROI- Defines an irregular region of interest of an image. HISTOGRAM- Computes the density function of an array. HOUGH- Returns the Hough transform of a two-dimensional image. IMAGE_STATISTICS- Computes sample statistics for a given array of values. ISOCONTOUR- Interprets the contouring algorithm found in the IDLgrContour object. ISOSURFACE- Returns topologically consistent triangles by using oriented tetrahedral decomposition. LABEL_REGION- Labels regions (blobs) of a bi-level image. MAX- Returns the value of the largest element of Array. MEDIAN- Returns the median value of Array or applies a median filter. MIN- Returns the value of the smallest element of an array. PROFILES- Interactively examines image profiles. RADON- Returns the Radon transform of a two-dimensional image. REGION_GROW- Perform region growing. SEARCH2D- Finds objects or regions of similar data within a 2D array. THIN- Returns the skeleton of a bi-level image. UNIQ- Returns subscripts of the unique elements in an array. WATERSHED- Applies the morphological watershed operator to a grayscale image. WHERE- Returns subscripts of nonzero array elements. Image Display DISSOLVE- Provides a digital dissolve effect for images. IDLgrImage- Creates an image object that represents a mapping from a 2D array of data values to a 2D array of pixel colors. IDLgrPalette- Represents a color lookup table that maps indices to red, green, and blue values. IIMAGE- Creates an iTool and associated user interface (UI) configured to display and manipulate image data. RDPIX- Interactively displays image pixel values. SLIDE_IMAGE- Creates a scrolling graphics window for examining large images. TV- Displays an image. To scale and display the image, use TVSCL. TVCRS- Manipulates the image display cursor. TVLCT- Loads display color tables. TVSCL- Scales and displays an image. XOBJVIEW- Displays object viewer widget. XOBJVIEW_ROTATE- Programmatically rotate the object currently displayed in XOBJVIEW. XOBJVIEW_WRITE_IMAGE- Write the object currently displayed in XOBJVIEW to an image file. ZOOM- Zooms portions of the display. ZOOM_24- Zooms portions of true-color (24-bit) display. Image Geometry Transformations CONGRID- Resamples an image to any dimensions. EXPAND- Shrinks/expands image using bilinear interpolation. EXTRAC- Returns sub-matrix of input array. Array operators (e.g., * and :) should usually be used instead. INTERPOLATE- Returns an array of interpolates. INVERT- Computes the inverse of a square array. POLY_2D- Performs polynomial warping of images. POLYWARP- Performs polynomial spatial warping. REBIN- Resizes a vector or array by integer multiples. REFORM- Changes array dimensions without changing the total number of elements. REVERSE- Reverses the order of one dimension of an array. ROT- Rotates an image by any amount. ROTATE- Rotates/transposes an array in multiples of 90 degrees. SHIFT- Shifts elements of vectors or arrays by a specified number of elements. TRANSPOSE- Transposes an array. WARP_TRI- Warps an image using control points. Morphological Image Operators DILATE- Implements morphologic dilation operator on binary and grayscale images. ERODE- Implements the erosion operator on binary and grayscale images and vectors. LABEL_REGION- Labels regions (blobs) of a bi-level image. MORPH_CLOSE- Applies closing operator to binary or grayscale image. MORPH_DISTANCE- Estimates N-dimensional distance maps, which contain for each foreground pixel the distance to the nearest background pixel, using a given norm. MORPH_GRADIENT- Applies the morphological gradient operator to a grayscale image. MORPH_HITORMISS- Applies the hit-or-miss operator to a binary image. MORPH_OPEN- Applies the opening operator to a binary or grayscale image. MORPH_THIN- Performs a thinning operation on binary images. MORPH_TOPHAT- Applies top-hat operator to a grayscale image. WATERSHED- Applies the morphological watershed operator to a grayscale image. Regions of Interest CW_DEFROI- Creates compound widget used to define region of interest. DEFROI- Defines an irregular region of interest of an image. DRAW_ROI- Draws region or group of regions to current Direct Graphics device. IDLanROI- Represents a region of interest used for analysis. IDLanROIGroup- Analytical representation of a group of regions of interest. IDLgrROI- Object graphics representation of a region of interest. IDLgrROIGroup- Object Graphics representation of a group of regions of interest. LABEL_REGION- Labels regions (blobs) of a bi-level image. REGION_GROW- Grows an initial region to include all areas that match specified constraints. XROI- Utility for defining regions of interest, and obtaining geometry and statistical data about these ROIs.
个人分类: 编程笔记|2213 次阅读|0 个评论
[资源]计算机视觉-模式识别-图像处理(课题)
wangdongice 2013-2-7 09:46
** Course: -- Andrew NG-Machine Learning: 1. http://cs229.stanford.edu/ 2. http://v.163.com/special/opencourse/machinelearning.html -- USTC Summer School 2012-Advances in Computer Graphics: http://staff.ustc.edu.cn/~lgliu/Courses/SummerSchool_2012/download.htm -- ICCV09 Tutorial-Boosting and Random Forest for Visual Recognition: http://www.iis.ee.ic.ac.uk/icvl/iccv09_tutorial.html -- Visual Recognition and Machine Learning Summer School, Grenoble, 2012: https://www.rocq.inria.fr/cluster-willow/laptev/teaching/cvml2012/materials/index.html -- Dragonstar 2012-Machine Learning: 1. http://bigeye.au.tsinghua.edu.cn/DragonStar2012/index.html 2. http://www.cnblogs.com/tornadomeet/archive/2012/11/12/2766458.html -- Dragonstar 2010-Machine Learning: http://bcmi.sjtu.edu.cn/ds/ -- Max Welling's Classnotes in Machine Learning http://www.ics.uci.edu/~welling/classnotes/classnotes.html -- COMP 776: Computer Vision http://www.cs.illinois.edu/~slazebni/spring11/ -- CS543/ECE549: Computer Vision 1. http://www.cs.illinois.edu/~slazebni/spring13/ 2. https://wiki.engr.illinois.edu/display/ENGRonline/CS543 ** Group: -- 电子科技大学-模式识别与机器智能实验室: http://www.uestcrobot.net/ -- ** Face Detection and Recogition: 1. Face Detection: http://www.facedetection.com/ 2. Face Recogition: http://www.face-rec.org/ ** Background Modeling: 1. http://www.changedetection.net/ ** Texture Segmentation: 1. http://mosaic.utia.cas.cz/
个人分类: 学习资源|4871 次阅读|0 个评论
[转载]图像处理与计算机视觉中的经典论文
lanbing510 2012-12-28 23:23
感谢水木上同领域的同学分享,有了他的整理,让我很方便的获得了CV方面相关的经典论文,我也顺便整理一下,把pdf中的文字贴到网页上,方便其它人更直观的获取所要内容~~~ 资料的下载链接为: http://iask.sina.com.cn/u/2252291285/ish?folderid=775855 以下为该同学的整理的综述: “ 前言:最近由于工作的关系,接触到了很多篇以前都没有听说过的经典文章,在感叹这些文章伟大的同时,也顿感自己视野的狭小。 想在网上找找计算机视觉界的经典文章汇总,一直没有找到。失望之余,我决定自己总结一篇,希望对 CV 领域的童鞋们有所帮助。由于自己的视野比较狭窄,肯定也有很多疏漏,权当抛砖引玉了,如果你觉得哪篇文章是非常经典的,也可以把相关信息连带你的昵称发给我,我好补上。我的信箱 xdyang.ustc@gmail.com 文章主要来源:PAMI, IJCV, TIP, CVIU, PR, IVC, CVGIU, CVPR, ICCV, ECCV, NIPS, SIGGRAPH, BMVC等 主要参考网站: Google scholar, citeseer, cvpapers, opencv 中英文官方网站 主要参考书籍: 数字图像处理 第三版 冈萨雷斯等 图像处理,分析和机器视觉 第三版 Sonka等(非常非常好的一本书) 学习OpenCV 计算机视觉:算法与应用 文章按时间排序,排名不分先后,^_^。每一行最后一栏是我自己加的注释,如果不喜欢可以无视之,如果有不对的地方还请告诉我,免得继续出丑。 给出的文章有些是从google scholar或者citeseer上拷贝下来的,所以有链接。所有的文章在网上都很容易找到。有空的时候我会把它们全部整理出来,逐步上传到ishare.iask.sina.com 由于整理的很仓促,时间也很短,还有很多不完善的地方。我会不断改进,并不时上传新版本。 上传地址为 http://iask.sina.com.cn/u/2252291285/ish?folderid=775855 最后更新:2012/3/14 1990 年之前 Peter Burt,EdwardAdelson The Laplacian Pyramid as A Compact Image Code 虽说这个Laplacian Pyramid是有冗 余的,但使用起来非常简单方便, 对理解小波变换也非常有帮助。这 位Adelson是W.T.Freeman的老板, 都是大牛. J Canny A Computational Approach to Edge Detection 经典不需要解释。在 Sonka的书里 面对这个算法也有比较详细的描 述。 S Mallat. A theory for multiresolution signal decomposition: The wavelet representation Mallat的代表作 M Kass, AWitkin, D Terzopoulos. Snakes: active contour models Deformable model的开山鼻祖。 RMHARALICK Textural Features for ImageClassification 这三篇都是关于纹理特征的,虽然过去这么多年了,现在在检索和识别中依然很有用。 RMHARALICK Statistical and structural approaches Tamura等 Texture features corresponding tovisual perception A PDempster, NM Laird, D BRubin. 1977 Maximum likelihood from incompletedata via the EM algorithm EM 算法在计算机视觉中有着非常重要的作用 L Rabiner.1989 A Tutorial on Hidden Markov Modelsand Selected Applications in SpeechRecognition HMM 同样是计算机视觉必须掌握的一项工具 B D Lucas, TKanade An iterative image registrationtechnique with an application to stereo- vision Lucas 光流法 J R Quinlan Induction of decision trees 偏模式识别和机器学习一点 1990 年 P Perona, JMalik.PAMI Scale-space and edge detectionusing anisotropic diffusion 关于 scale space 最早的一篇论文之一,引用率很高 T Lindeberg Scale-space for discrete signals. Lindeberg 关于 scale space 比较早的一篇,后续还有好几篇 anzad, A.;Hong, Y.H. Invariant image recognition byZernike moments Zernike moment,做过模式识别或者检索的应该都知道这个东东 1991 年 W Freeman, EAdelson. The design and use of steerablefilters Freeman最早的一篇力作,也是我读的第一篇学术论文。现在Freeman在 MIT 风生水起,早已是IEEE Fellow了 Michael J.Swain , DanaH. Ballard Color Indexing. google scholar 上引用将近五千次 MA TurkCVPR Face recognition using eigenfaces 1992 年 L G Brown. A survey of image registrationtechniques. 比较早的一篇关于配准的综述了 1993 年 S G Mallat, ZZhang. Matching pursuits withtime-frequency dictionaries Mallat另一篇关于小波的文章,不研究小波的可以无视之 L Vincent. Morphological grayscalereconstruction in image analysis:Applications and efficient algorithms DPHuttenlocher Comparing images using theHausdorff distance Google scolar 上引用2200多次 1994 年 J Shi, C Tomasi. Good feature to track. Tomasi这个名字还会出现好几次,真的很牛 Linderberg Scale-space theory in computervision J L Barron, DJ Fleet, S S Beauchemin. Performance of optical flowtechniques. 1995 年 R Malladi, JSethian, BVemuri. Shape Modeling with FrontPropagation: A Level Set Approach Level set的经典文章 TF COOTES Active Shape Models-Their Trainingand Application ASM MA Stricker Similarity of color images 颜色检索相关 C Cortes, VVapnik. Support-vector networks. SVM 在计算机视觉中也有着非常重要的地位 1996 年 T MCINERNEY. Deformable models in medicalimage analysis: A survey 活动模型的一篇较早的综述 Tai Sing Lee Image Representation Using 2DGabor Wavelets Google引用也有近千次 Amir Said, A.Pearlman A New, Fast, and Efficient ImageCodec Based on Set Partitioning inHierarchical Tree SPIHT。图像压缩领域与 EBCOT齐名的经典算法。 L P Kaelbling, ML Littman, A WMoore. Reinforcement learning: A survey 机器学习里面的一篇综述,引用率比较高,就列在这了。 B. S.Manjunath and W.Y. Ma Texture features for browsing andretrieval of image data 检索的文章比较多,其实它们的应用不仅仅是检索。只要是需要提取特征的地方,检索里面的方法都可以用到 comparing images using colorcoherence vectors 检索中的CCV方法 Image retrieval using color andshape 关于形状特征后面有一篇综述 1997 年 V Caselles, RKimmel, GSapiro. Geodesic active contours 活动轮廓模型的一个小分支 R E Schapire, YFreund, PBartlett, W SLee. Boosting the Margin: A NewExplanation for the Effectiveness ofVoting Methods. Schapire 和 Freund 发 明 了Adaboost,给计算机视觉带来了不少经典算法 F Maes, DVandermeulen,G Marchal, PSuetens. Multimodality image registration bymaximization of mutual information 互信息量配准 E Osuna, RFreund, FGirosi. Training support vector machines: Anapplication to face detection. SVM在人脸检测中的应用。不过人脸检测最经典的方法应 该是Viola-Jones J Huang, SKumar, MMitra, W-J Zhu,R Zabih. Image indexing using colorcorrelogram Color correlogram,检索中的又一个颜色特征。和前面的 CCV 以及颜色矩特征基本上覆盖了所有的颜色特征。 Y Freund, RSchapire. A decisiontheoretic generalization ofon-line learning and an application toboosting. Adaboost的经典文章 1998 年 1998 年是图像处理和计算机视觉经典文章井喷的一年。大概从这一年开始,开始有了新的趋势。由于竞争的加剧,一些好的算法都先发在会议上了,先占个坑,等过一两年之后再扩展到会议上。 T Lindeberg Feature detection with automaticscale selection Linderberg的 scale space到此为止基本结束了。在一些边缘提取,道路或者血管检测中,scale space 确实是一种很不错的工具 C J C Burges. A tutorial on support vector machinesfor pattern recognition. 使用 svm的话,这篇文章应该是必读的了。比 95 年那篇原始文章引用率还高 M Isard, ABlake. CONDENSATION – Conditional TrackingDensity Propagation for Visual Tracking中的经典文章了 L Page, S Brin,R Motwani, T Winograd The PageRank citation ranking:bringing order to the web 这篇文章应该不属于 CV 的范畴,鉴于作者的大名鼎鼎,暂且列在这 C Tomasi, RManduchi. Bilateral filtering for gray and colorimages. 做过图像滤波平滑去噪或者 HDR的应该都知道Bilateral filter。原理非常非常简单,简单到一个公式就可以概括这篇文章,简单到实在无法扩充到期刊。这也是 Tomasi 第二次出现了。一直很纳闷,这个很直观的思想在这之前怎么就从来没人提呢。 C Xu, J LPrince. Snakes, shapes and gradient vectorflow. 终于碰到中国人写的文章了,很荣幸还是校友。GVF是 snake和levelset领域的重要分支和方法 Wim Sweldens. The lifting scheme: A construction ofsecond generation wavelets. 第二代小波。真正让小波有了实用价值,在 JPEG2000 中就采用的提升小波。个人更喜欢的是下一篇,简单易懂,字体也大 DaubechiesWim Sweldens Factoring wavelet transforms intolifting steps 另一位作者也很牛,小波十讲的作者 H A Rowley, SBaluja, TKanade. Neural Network-based FaceDetection. 做人脸的应该是必看的了。不做人脸的话应该可以不用看吧 J B A Maintz,M A Viergever. A survey of medical imageregistration. 关于图像配准的另一篇综述 T F Cootes, GJ Edwards, CJ Taylor. Active Appearance Models AAM 1999 年 D Lowe. Object Recognition from LocalScale-invariant Features 大名鼎鼎的SIFT,后面有一篇IJCV上的 Journal版本,更全面一点。 R E Schapire. A brief Introduction to Boosting 还是 boosting D M Gavrila. The visual analysis of humanmovements: a survey 综述文章的引用一般都比较高 Y Rui, T SHuang, S FChange. Image retrieval: current techniques,promising directions, and openissues TSHuang小组对检索的一个总结 J K Aggarwal, QCai. Human motion analysis: a review 人体运动分析的一个综述 2000 年 世纪之交,各种综述都出来了 J Shi, J Malik. Normalized Cuts and ImageSegmentation NCuts的引用率相当高,Jianbo Shi也因为这篇文章成为计算机视觉界引用率最高的作者之一 Z Zhang. A Flexible New Technique forCamera Calibration 张正友的关于摄像机标定的经典短文 A K Jain, R P WDuin, J C Mao. Statistical pattern recognition: areview. 统计模式识别综述,这一年 pami上两篇很有名的综述之一。 在这里推荐 Web 写的 Statistical PatternRecognition第三版,相当不错,网上有电子版。 C Stauffe Learning Patterns of Activity UsingReal-Time Tracking 搜 TLD 的时候发现这篇文章引用率也很高,两千多次。还没来得及读。 D Taubman. High performance Scalable ImageCompression With EBCOT EBCOT,JPEG2000 中的算法 A W MSmeulders, MWorring, SSantini, AGupta, R Jain. Content-based image retrieval at theend of the early years 在世纪之交对图像检索的一篇很权威的综述。感觉在这之后检索的研究也没那么热了。不过在工业界热度依旧,各大网上购物平台,比如淘宝, 亚马逊,京东等都在做这方面的研发,衣服检索是一个很不错的应用点。 M Pantic, L J MRothkrantz. Automatic analysis of facialexpressions: the state of the art. N Paragios, RDeriche. Geodesic active contours and levelsets for the detection and tracking ofmoving objects 使用 level set做跟踪 Y Rubner, CTomasi, LGuibas. TThe earth mover’s distance as ametric for image retrieval. EMD算法。Tomasi再次出现 PicToSeek Combining Color andShape Invariant Features for ImageRetrieval 依然是检索特征 2001 年 Paul Viola,Michael JJones. Robust real-time object detection 这是一篇很牛的文章,在人脸检测上几乎成了标准。比较坑爹的是,号称发在IJCV2001 上,但怎么找也找不到。应该是 IJCV2004年的那篇“Robust real-time face detection”吧。他们在这一年另一篇比较出名的文章是在CVPR上的“Rapid ObjectDetection using a Boosted Cascadeof Simple Features”这篇才是04年那篇著名文章的会议版。 Y Boykov,Kolmogorov. An experimental comparison ofmin-cut/max-flow algorithms forenergy minimization in vision. 俄罗斯人在 graph cut 领域开始发力了 T Moeslund, EGranum. A Survey of Computer Vision BasedHuman Motion Capture 人体运动综述 T F Chan, LVese. Active contours without edges. Snake 和 level set领域的经典文章 A M Martinez,A C Kak. PCA versus LDA PCA 也是计算机视觉中非掌握不可的工具。LDA在模式识别中有很重要的地位 BS Manjunath Color and texture descriptors 颜色和纹理的描述子,在识别中很有用 2002 年 D Comaniciu, PMeer. Mean shift: A robust approachtoward feature space analysis. Mean shift的经典文章。前两天发现 Comaniciu 已经是 IEEE Fellow了 Ming-HusanYang, David JKriegman,NarendraAhuja. Detecting Faces in Images: ASurvey. 人脸检测综述,引用率想不高都难 R Hsu, MAbdel-Mottaleb. Face Detection in Color Images. 依然是人脸检测,名字都起得这么霸气 J-L Starck, E JCandès, D LDonoho. The curvelet transform for imagedenoising. Geometrical wavelet 中的一篇代表 作 。 其 他 的 如 ridgelet,contourlet, bandelet 等在这里就不赘述了。研究这方面的很容易找到这方面的经典文献。个人以为不研究这方面的看了后对自己的研究也不会有多大启发。曾经以为这个方向会很火,到最后还是没火起来。 我觉得原因可能是现在存储和传输能力的大大提高,使得对压缩的需求没有那么大了,这方面的研究自然就停滞了,就如同JPEG2000没有成气候 Shape matching and objectrecognition using shape contexts Shape context。用形状匹配达到目标识别目的。这方面最经典的文章了。随后后续也有一些这方面的文章,但基本都是很小的改进或者应用。作者提供了原码,可以在 matlab上运行看看效果。 N Paragios, RDeriche. Geodesic active regions and levelset methods for supervised texturesegmentation Statistical Color Models withApplication to Skin Detection A tutorial on particle filters for onlinenonlinear non-Gaussian Bayesiantracking particle filter 的一个综述 2003 年 W Zhao, RChellappa, PJ Phillips, ARosenfeld. Face recognition: A literature survey. 人脸检测的综述 J Sivic, AZisserman. Video Google: A text retrievalapproach to object matching invideos. 好像是Visual words的起源文章。引用率很高,先列出来再看。 D Comaniciu,V Ramesch,P Meer. Kernel-Based Object Tracking. 基于核的跟踪。 B Zitová, JFlusser. Image registration methods: Asurvey. 又一篇图像配准的综述。做图像配准的比较有福气,综述很多 KMikolajczyk,C Schmid. A performance evaluation of localdescriptors. 比较各种描述子的,包括SIFT M JWainwright,M I Jordan. Graphical models, exponentialfamilies, and variational inference. 乔丹的名气太大,不露露脸说不过去 J Portilla, VStrela, MWainwright, ESimoncelli. Image denoising using scalemixtures of gaussians in the waveletdomain. 图像去噪,小波变换,混合高斯 Robert E.Schapire The Boosting Approach to MachineLearning An Overview boosting作者自己写的综述,自然值得一看。 2004 年 Lucas-Kanade 20 Years On AUnifying Framework 引用文章摘要的第一句话Since the Lucas-Kanade algorithmwas proposed in 1981 imagealignment has become one of themostwidely used techniques in computervision. Applications range fromoptical flow and tracking to layeredmotion, mosaic construction, andface coding. D G Lowe. Distinctive image features fromscale-invariant keypoints. SIFT,不解释 Chih-ChungChang,Chih-Jen Lin. LIBSVM: A library for support vectormachines 我实在怀疑引用这篇文章的人是否都看过这篇文章。貌似不看这篇文章也可以使用 LIBSVM Z Wang, A CBovik, H RSheikh, E PSimoncelli. Image quality assessment: Fromerror visibility to structural similarity 图像质量评价,最近 Bovik 还有一篇类似的文章也刊登在 TIP上 Y Ke, RSukthankar. Pca-sift: a more distinctiverepresentation for local imagedescriptors SIFT 的变形 Review of shape representation anddescription techniques Efficient Graph-Based ImageSegmentation 2005 年 N Dalal, BTriggs. Histograms of oriented gradients forhuman detection. HOG 虽然很新,但很经典 A C Berg, T LBerg, J Malik. Shape matching and objectrecognition using low distortioncorrespondences. 还是 shape matching S Roth, MBlack. Fields of experts: A framework forlearning image priors. 这篇应该要归结到图像统计特性的范畴吧 Z Tu, X Chen,A L Yuille, S CZhu. Image parsing: Unifyingsegmentation, detection, andrecognition. Geodesic active regions and level setmethods for motion estimation andtracking Chunming Li,ChenyangXu,ChangfengGui, and Martin D. Fox Level Set Evolution WithoutRe-initialization: A New VariationalFormulation 这篇文章解决了level set中需要不停的重初始化的问题。在 2010 年的 TIP上有一篇 Journal版本Distance Regularized Level SetEvolution and its Application toImage Segmentation A Performance Evaluation of LocalDescriptors 前面那篇是会议的,这篇是 PAMI上的。比较各种描述子的,包括SIFT 2006 年 D Donoho. Compressed sensing. CS 压缩感知 最近很火的一个名词 Greg Welch,Gary Bishop. An introduction to the Kalman Filter. kalman滤波 S Lazebnik, CSchmid, JPonce. Beyond bags of features: spatialpyramid matching for recognizingnatural scene categories. Visual words Xiaojin Zhu. Semi-supervised learning literaturesurvey. A Yilmaz, OJaved, MShah. Object Tracking: A survey. tracking的一篇综述 Image Alignment and Stitching: ATutorial 2007 年 A Review of Statistical Approaches toLevel Set Segmentation: IntegratingColor, Texture, Motion and Shape The Appearance of Human Skin:A Survey Local Invariant Feature Detectors: ASurvey 2008 年 H Bay, A Ess,T Tuytelaars,L V Gool. SURF: Speeded Up Robust Features. K E A van deSande, TGevers, C GM Snoek. Evaluation of Color Descriptors forObject and Scene Recognition M Yang A Survey of Shape FeatureExtraction Techniques 虽然这篇文章的引用率目前来看并不高,但个人认为这是一篇在shape feature方面很不错的文章 P.Felzenszwalb,D. McAllester,D. Ramanan A Discriminatively Trained,Multiscale, Deformable Part Model 2008 年的 CVPR,到现在引用已有四百多次,潜力巨大。rosepink提供 2009 年 J Wright, A YYang, AGanesh, S SSastry, Ma. Robust Face Recognition via SparseRepresentation. B Settles. Active learning literature survey 2010 年 2011 年 Hough Forests for Object Detection,Tracking, and Action Recognition Robust Principal ComponentAnalysis? Candes 和 UIUC 的Ma Yi等人 2012 年 Zdenek Kalal,KrystianMikolajczyk,and Jiri Matas, Tracking-Learning-Detection PAMI上的,虽然还没有正式发表,但肯定会火。在作者的主页上有几篇相关的会议文章, demo和code。用到了 Lucas-Kanade方法 (完)“
个人分类: CV|2604 次阅读|0 个评论
[NSFC快讯]信息部图像处理类2012年NSFC资助项目
热度 1 zmpenguestc 2012-8-26 21:10
信息部图像处理类2012年NSFC资助项目(53项) 项目批准号 / 申请代码 1 项目名称 项目负责人 依托单位 批准 金额 项目起止年月 61261040/ F010401 面向山区铁路异物侵限监测的压缩感知视频图像处理方法研究 罗晖 华东交通大学 43 2013-01 至 2016-12 61271452/ F010401 非凸稀疏先验图像恢复建模理论和算法 卢成武 重庆文理学院 60 2013-01 至 2016-12 61201347/ F010401 可编辑三维电视中多视点视图合成理论与方法 刘然 重庆大学 23 2013-01 至 2015-12 61201395/ F010401 伪球滤波及其在图像特征检测中的应用研究 刘红敏 河南理工大学 27 2013-01 至 2015-12 61271382/ F010401 恶性肿瘤生物适形调强放疗 PET/CT/MRI 靶区智能勾画 刘国才 湖南大学 80 2013-01 至 2016-12 61271393/ F010401 基于多曲面拟合和单帧学习信息的图像超分辨率方法 廖庆敏 清华大学 88 2013-01 至 2016-12 61201434/ F010401 无人机航空侦察图像镶嵌与目标定位关键技术研究 李良福 陕西师范大学 22 2013-01 至 2015-12 61271374/ F010401 面向时间不耐受患者的脑 MRI 图像超分辨率算法研究 李建武 北京理工大学 75 2013-01 至 2016-12 61271289/ F010401 复杂场景视觉注意对象分割方法研究 李宏亮 电子科技大学 70 2013-01 至 2016-12 61201441/ F010401 多尺度分析技术在图像引导肿瘤精确放疗中的研究及临床应用 李登旺 山东师范大学 25 2013-01 至 2015-12 61201431/ F010401 图像恢复的非局部稀疏建模理论及算法研究 姜东焕 山东科技大学 24 2013-01 至 2015-12 61271392/ F010401 流媒体信息隐藏的时空概念模型及其应用方法的研究 黄永峰 清华大学 70 2013-01 至 2016-12 61261043/ F010401 基于多尺度变换的图像去噪算法研究及其在贺兰山岩画中的应用 黄永东 北方民族大学 40 2013-01 至 2016-12 61201438/ F010401 分数阶偏微分方程在图像去噪中的应用研究 黄果 乐山师范学院 24 2013-01 至 2015-12 61228103/ F010401 大规模医学图像数据集的数字几何处理及关联性可视化 华璟 中国科学院自动化研究所 20 2013-01 至 2014-12 61271326/ F010401 图像破损结构的三维重建理论研究 何凯 天津大学 70 2013-01 至 2016-12 61201423/ F010401 量子衍生超声医学图像去斑方法研究 付晓薇 武汉科技大学 24 2013-01 至 2015-12 61271350/ F010401 基于混沌的高安全性实时数字图像加密技术研究 付冲 东北大学 70 2013-01 至 2016-12 61271294/ F010401 空间约束下多字典学习的形态学成分分析 冯象初 西安电子科技大学 65 2013-01 至 2016-12 61211130126/ F010401 用于地震灾害破坏评估的极化 SAR 图像处理新方法研究 杜培军 南京大学 6 2012-04 至 2014-03 61201448/ F010401 基于稀疏分解和非局部平均的乘性噪声图像滤波 陈少波 中南民族大学 24 2013-01 至 2015-12 61271305/ F010401 基于乳腺 X 线图像处理的乳腺癌检测方法研究 陈后金 北京交通大学 80 2013-01 至 2016-12 61201378/ F010401 基于分数阶变分光流模型的左心室运动分析方法研究 陈大力 东北大学 25 2013-01 至 2015-12 61271023/ F010401 形态学对比度算子簇理论完善及其图像分析方法研究 白相志 北京航空航天大学 80 2013-01 至 2016-12 61271439/ F010401 图像统计特性的随机场建模与应用 钟平 中国人民解放军国防科学技术大学 70 2013-01 至 2016-12 61211130123/ F010401 不规则标注学习及其在医学图像上的应用 郑伟诗 中山大学 8 2012-04 至 2014-03 61201309/ F010401 球形视觉模型及全动态场景目标跟踪方法研究 赵巍 哈尔滨工业大学 24 2013-01 至 2015-12 61201394/ F010401 基于视觉显著性和稀疏表示的图像质量评价 张林 同济大学 24 2013-01 至 2015-12 61271420/ F010401 基于非抽样形态小波与视觉显著计算的图像融合的研究 张基宏 深圳信息职业技术学院 76 2013-01 至 2016-12 61271015/ F010401 多物理场图像处理与应用 岳军 青岛理工大学 82 2013-01 至 2016-12 61271369/ F010401 基于超图形 XGML 的图像半结构化研究 袁家政 北京联合大学 82 2013-01 至 2016-12 61201455/ F010401 图像恢复中的非凸非光滑变分模型及其数值算法研究 殷海青 中国石油大学(华东) 27 2013-01 至 2015-12 61201363/ F010401 面向图像分割的自适应脉冲耦合神经网络理论及应用研究 姚畅 北京交通大学 24 2013-01 至 2015-12 61201297/ F010401 基于核方法的非局部图像处理 杨雨茜 西安电子科技大学 23 2013-01 至 2015-12 61271010/ F010401 对偶框架各向异性提升变换理论与应用研究 杨小远 北京航空航天大学 60 2013-01 至 2016-12 61271330/ F010401 联合基于学习的超分辨率技术和多传感器超分辨率技术在红外图像复原中的研究 吴炜 四川大学 76 2013-01 至 2016-12 61201435/ F010401 基于成像畸变模型的鱼眼图像直接处理算法研究 吴健辉 湖南理工学院 24 2013-01 至 2015-12 61261038/ F010401 基于新疆民族服饰基元的数据库研究 乌云 新疆师范大学 45 2013-01 至 2016-12 61201393/ F010401 医学图像的高容量及鲁棒可逆水印的研究 翁韶伟 广东工业大学 24 2013-01 至 2015-12 61201385/ F010401 可认证及可修复式秘密图像共享技术研究 王智慧 大连理工大学 24 2013-01 至 2015-12 61271427/ F010401 光学直接解调成像的噪声特性及其处理方法的研究 王治强 中国科学院光电研究院 80 2013-01 至 2016-12 61261029/ F010401 参数化的粘性形态学分水岭理论方法及其在医学肿瘤分割中的应用研究 王小鹏 兰州交通大学 40 2013-01 至 2016-12 61261042/ F010401 基于语义的敦煌壁画的模拟与渲染 王书文 西北民族大学 40 2013-01 至 2016-12 61271398/ F010401 单光子发射断层成像图像重建的定量优化分析研究 王金平 宁波大学 80 2013-01 至 2016-12 61201371/ F010401 全相位双正交变换及其在图像处理中的应用研究 王成优 山东大学 26 2013-01 至 2015-12 61201293/ F010401 基于视觉感知和形状语义的快速水平集图像分割方法研究 王斌 西安电子科技大学 25 2013-01 至 2015-12 61211130122/ F010401 机器人辅助腹腔镜外科病灶定位与手术导航的研究 宋成利 上海理工大学 12 2012-04 至 2014-03 61271295/ F010401 基于多尺度各向异性方向导数核的图象角点检测和分类理论与方法 水鹏朗 西安电子科技大学 78 2013-01 至 2016-12 61271312/ F010401 高强度聚焦超声治疗中的医学图像处理若干关键问题研究 舒华忠 东南大学 76 2013-01 至 2016-12 61271021/ F010401 结合视觉质量及视觉舒适度的三维视频质量评价方法研究 邵枫 宁波大学 80 2013-01 至 2016-12 61201388/ F010401 面向 WMSN 的分布式多视点视频编码及鲁棒传输关键技术研究 卿粼波 四川大学 25 2013-01 至 2015-12 61271320/ F010401 基于联合显著图和局部自适应核回归的非刚性医学图像配准及临床应用研究 秦斌杰 上海交通大学 76 2013-01 至 2016-12 61201315/ F010401 多分辨多光谱遥感图像融合机制与定量评估研究 罗晓燕 北京航空航天大学 23 2013-01 至 2015-12 注:数据来源于NSFC ISIS系统网站
个人分类: 基金小议|30133 次阅读|2 个评论
组合创新(2):换头像
xuyingxiao 2012-7-4 11:55
俺评论狐仙的博文,狐仙却回复建议俺换头像,以免新娘变徐娘。 俺说俺行不改名,坐不改姓。 后来一想,其实只要发挥创新思维,是可以两者兼顾的。 创新1: 把头像处理一下,加上倒影。既兼顾了我对原来头像的恋旧,又增加了变化,解决审美疲劳的问题。 创新2: 把满足不同需求的多个头像组合在一起动态显示,进一步兼顾了我对原来头像的恋旧,又增加了变化,解决审美疲劳的问题。 关键技术问题:需要图像处理软件,但我的电脑已经不堪重负,不敢再安装更多的软件了。 解决方案:使用在线图像处理,不用安装软件,直接浏览器访问即可。 图片镜像生成器: http://app.baidu.com/widget?appid=130343 GIF动画在线制作工具 http://app.baidu.com/app/enter?appid=118542 GIF图片修改制作 http://app.baidu.com/widget?appid=120980 其实,还有个重量级的类似PhotoShop的在线工具,只是用在换头像上就杀鸡用牛刀了,这一次没用,以后有机会用它处理一下图片。 http://pixlr.com/editor/
个人分类: 生活|2872 次阅读|0 个评论
《小波变换与图像处理》倪林
ustcpress 2012-4-13 10:34
《小波变换与图像处理》倪林
出版日期:2010年6月 出版社:中国科学技术大学出版社 书号(ISBN):978-7-312-02733-8 正文页码:205页(16开) 字数:400千 编辑邮箱: edit@ustc.edu.cn (欢迎来索要目录、样章的PDF) 当当网购书链接: http://product.dangdang.com/product.aspx?product_id=20936929 【 内容简介 】 本书的内容分为基础理论、演进发展和典型应用三个部分。其中在基础理论部分,通过分析 F0urier 变换和 Gabor 变换的特点,说明小波变换的起源和发展,给出连续和离散小波变换的定义,介绍多分辨率分析的概念以及小波变换的快速算法;给出正交小波基、紧支集正交小波基和双正交小波基的构造方法。在演进发展部分,分别介绍小波包、第二代小波变换、多小波变换、球面小波和多尺度 几何 分析等理论和方法。在典型应用部分,给出基于小波变换的图像压缩方法,包括高效的小波图像 压缩 算法,另外,介绍基于小波变换的 数字水印 、 指纹 处理识别等典型应用。 【 作者简介 】 倪林, 1967 年出生于安徽省舒城县, 1997 年获得清华大学模式识别与智能控制专业博士学位, 2002 年赴日本东京大学作短期访问,现为中国科技大学电子工程与信息科学系副教授。曾主讲“ 数据库技术 ”、“ 数据结构 ”和“ 并行图像处理技术 ”、“ 小波变换与图像处理 ”等本科生和研究生课程。主持中科大校青年基金、安徽省自然科学基金,参加国家自然科学基金等多个国家部委基金项目。在核心期刊以第一作者发表论文 40 余篇。目前研究方向为生物特征识别、视觉信息处理等。
个人分类: 工程图书|6661 次阅读|0 个评论
J2ME图像处理基础编程
mafei863 2012-3-19 10:11
J2ME图像处理基础编程汇编如下,以便后续查找方便。大部分均来自网络启发思路,不敢独藏,拿来分享。 思路:程序将硬盘上的图像源文件读取到内存指定的区域中才能处理,对各像素点处理的关键是int类型的位移运算,特别是高位的alpha通道,不能破坏原有的值,所以,若要重新构造数据,则需要赋值全为1,即alpha=0xFF。新像素值p=((alpha 24) | (r 16) | (g 8) | b); 很多稍微复杂些的工作,均有其对应的套路,整理如下。 步骤如下: setp 1. 硬盘上的图像源文件读取到内存句柄中 public Image LoadImage(String strImgPath){ try{ img=Image.createImage(strImgPath);//"/test.jpg" }catch(Exception ex){ System.out.print("Error:"+ex.toString()); } return img; } setp 2. 内存句柄散列到指定数组,以便处理方便 public int pixels = new int ; img.getRGB(pixels, 0, w, 0, 0, w, h); return pixels; } step 3.各种具体的图像处理算法实施 public Image imageToGray(Image src) { int srcW = src.getWidth(); int srcH = src.getHeight(); int ; a = ((argb 0xff000000) 24); // alpha channel r = ((argb 0x00ff0000) 16); // red channel g = ((argb 0x0000ff00) 8); // green channel b = (argb 0x000000ff); // blue channel temp = (int)(.299*(double)r+.587*(double)g+.114*(double)b); r = temp; g = temp; b = temp; srcPixels = ((a 24) | (r 16) | (g 8) | b); } } return drawPixels(srcPixels, srcW, srcH); } step 4. 将处理后的数据数组中的像素值,还原为图像像素值RGB格式,以便显示等处理。 public Image drawPixels(int srcPixels = getPixels(src); int ; int r = 0; int g = 0; int b = 0; int a = 0; int argb,p0,p1,p2,p3; int temp=0xFF; for (int i = 0; i srcH-1; i++) { for(int ii=0;iisrcW-1;ii++) { p0 = srcPixels ; a = ((p0 0x00ff0000) 16); p1=srcPixels ; r = ((p1 0x00ff0000) 16); p2 = srcPixels ; g = ((p2 0x00ff0000) 16); p3=srcPixels ; b = ((p3 0x00ff0000) 16); argb=(int)Math.abs(a-b)+(int)Math.abs(r-g);//高位的alpha通道,不能破坏原有的值 srcPixelsTemp = ((temp 24) | (argb 16) | (argb 8) | argb); } } return drawPixels(srcPixelsTemp, srcW, srcH); } 6. 灰度化(所谓的黑白照片样式) public Image imageToGray(Image src) { int srcW = src.getWidth(); int srcH = src.getHeight(); int ; a = ((argb 0xff000000) 24); // alpha channel r = ((argb 0x00ff0000) 16); // red channel g = ((argb 0x0000ff00) 8); // green channel b = (argb 0x000000ff); // blue channel temp = (int)(.299*(double)r+.587*(double)g+.114*(double)b); r = temp; g = temp; b = temp; srcPixels = ((a 24) | (r 16) | (g 8) | b); } } return drawPixels(srcPixels, srcW, srcH); } //////////////////////////////////////////////////////////////////////////////// 7. 边缘分割,可以生成类似于简笔画图的样式,需要先做二值化 public Image edgeDetectBy4Neighborhood(Image src){ int srcW = src.getWidth(); int srcH = src.getHeight(); int srcPixelsTemp = new int ; int b = 0; int c = 0; int d = 0; int e = 0,a=0; int argb,p0,p1,p2,p3,p4; int temp=0xFF; for (int i = 1; i srcH-1; i++) { for(int ii=1;iisrcW-1;ii++) { p0 = srcPixels ; a = ((p0 0x00ff0000) 16); p1=srcPixels ; b = ((p1 0x00ff0000) 16); p2 = srcPixels ; c = ((p2 0x00ff0000) 16); p3=srcPixels ; d = ((p3 0x00ff0000) 16); p4=srcPixels ; e = ((p4 0x00ff0000) 16); //对二值化后的图像进行类似于简笔画的生成 if(a==0(b==255||c==255||d==255||e==255)) argb=0; else argb=255; srcPixelsTemp = ((temp 24) | (argb 16) | (argb 8) | argb); } } return drawPixels(srcPixelsTemp, srcW, srcH); }
个人分类: J2ME|3035 次阅读|0 个评论
[转载]vc颜色转换
majian 2012-2-13 17:47
(一), 将十六进制的颜色值字符串转换成RGB 1、背景 在工作中,我需要将一些关于控件的信息记录在 xml 文件中,这些信息包含控件的位置,大小以及一些颜色信息等,这些颜色属性定义成 color="#ffaabbcc" 的格式,在此主要讨论这个16进制标识的颜色与VC中的 COLORREF 之间的转换。 2、实现思路 考虑到 color 属性的特殊性 —— " # ffaabbcc" , 在此不关心它的前几位,只在意最后六位,两位两位地分别对应颜色值 R , G , B 。从这个 16 进制的颜色表示中要获得 RGB 三个颜色分量的值,可以考虑按位 ,如将 ffaabbcc 0xff0000 ,得到 R 的值; fffaabbcc 0x00ff00 得到 G 的值;同理也可以将 ffaabbcc 0x0000ff 得到 B 的值。在这个过程中,还要 注意移位 的问题,如取得 R 的值时就要 右移 16 位 , G 的值要 右移 8 位 , B 的值不移动 ,这样才能得到正确的 RGB 分量值—— RGB (170,187,204)。 (二), 数字图像处理领域的 二十四 个典型算法及vc实现 来源: http://blog.csdn.net/v_JULY_v/article/details/6210124 图 像处理,是对图像进行分析、加工、和处理,使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。目前大多数的图像是以数字形式存储,因而图像处理很多情况下指数字图像处理。 本文接下来,简单粗略介绍下数字图像处理领域中的24个经典算法,然后全部算法用vc实现。由于篇幅所限,只给出某一算法的主体代码。 ok,请细看。 一、256色转灰度图 算法介绍( 百度百科) : 什么叫灰度图?任何颜色都有红、绿、蓝三原色组成,假如原来某点的颜色为RGB(R,G,B),那么,我们可以通过下面几种方法,将其转换为灰度:    1.浮点算法:Gray=R*0.3+G*0.59+B*0.11    2.整数方法:Gray=(R*30+G*59+B*11)/100    3.移位方法:Gray =(R*28+G*151+B*77)8;    4.平均值法:Gray=(R+G+B)/3;    5.仅取绿色:Gray=G;    通过上述任一种方法求得Gray后,将原来的RGB(R,G,B)中的R,G,B统一用Gray替换,形成新的颜色RGB(Gray,Gray,Gray),用它替换原来的RGB(R,G,B)就是灰度图了。 灰度分为256阶。所以,用灰度表示的图像称作灰度图。 程序实现: ok,知道了什么叫灰度图,下面,咱们就来实现此256色灰度图。 这个Convert256toGray(),即是将256色位图转化为灰度图: void Convert256toGray (HDIB hDIB) { LPSTR lpDIB; // 由DIB句柄得到DIB指针并锁定DIB lpDIB = (LPSTR) ::GlobalLock((HGLOBAL)hDIB); // 指向DIB象素数据区的指针 LPSTR lpDIBBits; // 指向DIB象素的指针 BYTE * lpSrc; // 图像宽度 LONG lWidth; // 图像高度 LONG lHeight; // 图像每行的字节数 LONG lLineBytes; // 指向BITMAPINFO结构的指针(Win3.0) LPBITMAPINFO lpbmi; // 指向BITMAPCOREINFO结构的指针 LPBITMAPCOREINFO lpbmc; // 获取指向BITMAPINFO结构的指针(Win3.0) lpbmi = (LPBITMAPINFO)lpDIB; // 获取指向BITMAPCOREINFO结构的指针 lpbmc = (LPBITMAPCOREINFO)lpDIB; // 灰度映射表 BYTE bMap ; // 计算灰度映射表(保存各个颜色的灰度值),并更新DIB调色板 int i,j; for (i = 0; i 256; i ++) { // 计算该颜色对应的灰度值 bMap = (BYTE)(0.299 * lpbmi-bmiColors .rgbRed + 0.587 * lpbmi-bmiColors .rgbGreen + 0.114 * lpbmi-bmiColors .rgbBlue + 0.5); // 更新DIB调色板红色分量 lpbmi-bmiColors .rgbRed = i; // 更新DIB调色板绿色分量 lpbmi-bmiColors .rgbGreen = i; // 更新DIB调色板蓝色分量 lpbmi-bmiColors .rgbBlue = i; // 更新DIB调色板保留位 lpbmi-bmiColors .rgbReserved = 0; } // 找到DIB图像象素起始位置 lpDIBBits = ::FindDIBBits(lpDIB); // 获取图像宽度 lWidth = ::DIBWidth(lpDIB); // 获取图像高度 lHeight = ::DIBHeight(lpDIB); // 计算图像每行的字节数 lLineBytes = WIDTHBYTES(lWidth * 8); // 更换每个象素的颜色索引(即按照灰度映射表换成灰度值) //逐行扫描 for(i = 0; i lHeight; i++) { //逐列扫描 for(j = 0; j lWidth; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; // 变换 *lpSrc = bMap ; } } //解除锁定 ::GlobalUnlock ((HGLOBAL)hDIB); } 变换效果( 以下若无特别说明,图示的右边部分都是为某一算法变换之后的效果 ): 二、Walsh变换 算法介绍: 有关Walsh变换的深入介绍,请看此论文: http://www.informatics.org.cn/doc/ucit200510/ucit20051005.pdf 程序实现: 函数名称:WALSH() 参数: double * f - 指向时域值的指针 double * F - 指向频域值的指针 r -2的幂数 返回值:无。 说明:该函数用来实现快速沃尔什-哈达玛变换。 VOID WINAPI WALSH (double *f, double *F, int r) { // 沃尔什-哈达玛变换点数 LONG count; // 循环变量 int i,j,k; // 中间变量 int bfsize,p; double *X1,*X2,*X; // 计算快速沃尔什变换点数 count = 1 r; // 分配运算所需的数组 X1 = new double ; X2 = new double ; // 将时域点写入数组X1 memcpy(X1, f, sizeof(double) * count); // 蝶形运算 for(k = 0; k r; k++) { for(j = 0; j 1k; j++) { bfsize = 1 (r-k); for(i = 0; i bfsize / 2; i++) { p = j * bfsize; X2 = X1 + X1 ; X2 = X1 - X1 ; } } // 互换X1和X2 X = X1; X1 = X2; X2 = X; } // 调整系数 for(j = 0; j count; j++) { p = 0; for(i = 0; i r; i++) { if (j (1i)) { p += 1 (r-i-1); } } F = X1 / count; } // 释放内存 delete X1; delete X2; } 函数名称:DIBWalsh1() 参数: LPSTR lpDIBBits - 指向源DIB图像指针 LONG lWidth - 源图像宽度(象素数) LONG lHeight - 源图像高度(象素数) 返回值:BOOL - 成功返回TRUE,否则返回FALSE。 说明:该函数用来对图像进行沃尔什-哈达玛变换。于上面不同的是,此处是将二维 矩阵转换成一个列向量,然后对该列向量进行一次一维沃尔什-哈达玛变换。 BOOL WINAPI DIBWalsh1 (LPSTR lpDIBBits, LONG lWidth, LONG lHeight) { // 指向源图像的指针 unsigned char* lpSrc; // 循环变量 LONG i; LONG j; // 进行付立叶变换的宽度和高度(2的整数次方) LONG w; LONG h; // 中间变量 double dTemp; int wp; int hp; // 图像每行的字节数 LONG lLineBytes; // 计算图像每行的字节数 lLineBytes = WIDTHBYTES(lWidth * 8); // 赋初值 w = 1; h = 1; wp = 0; hp = 0; // 计算进行离散余弦变换的宽度和高度(2的整数次方) while(w * 2 = lWidth) { w *= 2; wp++; } while(h * 2 = lHeight) { h *= 2; hp++; } // 分配内存 double *f = new double ; double *F = new double ; // 列 for(i = 0; i w; i++) { // 行 for(j = 0; j h; j++) { // 指向DIB第j行,第i个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - j) + i; // 给时域赋值 f = *(lpSrc); } } // 调用快速沃尔什-哈达玛变换 WALSH(f, F, wp + hp); // 列 for(i = 0; i w; i++) { // 行 for(j = 0; j h; j++) { // 计算频谱 dTemp = fabs(F * 1000); // 判断是否超过255 if (dTemp 255) { // 对于超过的,直接设置为255 dTemp = 255; } // 指向DIB第j行,第i个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - j) + i; // 更新源图像 * (lpSrc) = (BYTE)(dTemp); } } //释放内存 delete f; delete F; // 返回 return TRUE; } 变换效果: 三、二值化变换 算法描述: 二值化是图像分割的一种方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度極大值,把小于这个值的像素灰度设为灰度極小值,从而实现二值化。 根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值。 比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等。 程序实现: void CMyDIPView:: OnDraw (CDC* pDC) { CMyDIPDoc* pDoc = GetDocument(); ASSERT_VALID(pDoc); if(pDoc-m_hDIB == NULL) return ; // TODO: add draw code for native data here int i,j; unsigned char *lpSrc; LPSTR lpDIB = (LPSTR) ::GlobalLock((HGLOBAL) pDoc-m_hDIB); int cxDIB = (int) ::DIBWidth(lpDIB); // Size of DIB - x int cyDIB = (int) ::DIBHeight(lpDIB); // Size of DIB - y LPSTR lpDIBBits=::FindDIBBits (lpDIB); // 计算图像每行的字节数 long lLineBytes = WIDTHBYTES(cxDIB * 8); // 每行 for(i = 0; i cyDIB; i++) { // 每列 for(j = 0; j cxDIB; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (cyDIB - 1 - i) + j; // 计算新的灰度值 //*(lpSrc) = BYTE(255-*lpSrc); } } ::GlobalUnlock((HGLOBAL) pDoc-m_hDIB); CRect rect(0,0,cxDIB,cyDIB), rcDIB(0,0,cxDIB,cyDIB); ::PaintDIB(pDC-m_hDC, rect, pDoc-m_hDIB, rcDIB, pDoc-m_palDIB); } void CMyDIPView:: OnMenuitem32778 () { // TODO: Add your command handler code here int i,j; unsigned char *lpSrc; CMyDIPDoc* pDoc = GetDocument(); ASSERT_VALID(pDoc); if(pDoc-m_hDIB == NULL) return ; LPSTR lpDIB = (LPSTR) ::GlobalLock((HGLOBAL) pDoc-m_hDIB); LPSTR lpDIBBits=::FindDIBBits (lpDIB); int cxDIB = (int) ::DIBWidth(lpDIB); // Size of DIB - x int cyDIB = (int) ::DIBHeight(lpDIB); // Size of DIB - y long lLineBytes = WIDTHBYTES(cxDIB * 8); // 计算图像每行的字节数 const float c1=150,c2=2.5; // 每行 for(i = 0; i cyDIB; i++) { // 每列 for(j = 0; j cxDIB; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (cyDIB - 1 - i) + j; // 计算新的灰度值 if(*lpSrc122) *lpSrc=BYTE(0); else *lpSrc = BYTE(255); } } ::GlobalUnlock((HGLOBAL) pDoc-m_hDIB); Invalidate(TRUE); } 变换效果: 四、阈值变换 算法描述: 输入图像像元密度值(灰度、亮度值)按对数函数关系变换为输出图像。 程序实现: //参数说明: //LPSTR lpDIBBits:指向源DIB图像指针 //LONG lWidth:源图像宽度(象素数) //LONG lHeight:源图像高度(象素数) //BYTE bThre:阈值 //程序说明: //该函数用来对图像进行阈值变换。对于灰度值小于阈值的象素直接设置 灰度值为0;灰度值大于阈值的象素直接设置为255。 BOOL WINAPI ThresholdTrans (LPSTR lpDIBBits, LONG lWidth, LONG lHeight, BYTE bThre) { // 指向源图像的指针 unsigned char* lpSrc; // 循环变量 LONG i; LONG j; // 图像每行的字节数 LONG lLineBytes; // 计算图像每行的字节数 lLineBytes = WIDTHBYTES(lWidth * 8); // 每行 for(i = 0; i lHeight; i++) { // 每列 for(j = 0; j lWidth; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; // 判断是否小于阈值 if ((*lpSrc) bThre) { // 直接赋值为0 *lpSrc = 0; } else { // 直接赋值为255 *lpSrc = 255; } } } // 返回 return TRUE; } 五、傅立叶变换 算法描述: 关于此傅里叶变换算法的具体介绍,请参考本BLOG文章: 十、从头到尾彻底理解傅里叶变换算法、上 。 程序实现: 函数名称:FFT() 参数: complexdouble * TD - 指向时域数组的指针 complexdouble * FD - 指向频域数组的指针 r -2的幂数,即迭代次数 返回值:无。 说明:该函数用来实现快速付立叶变换。 VOID WINAPI FFT (complexdouble * TD, complexdouble * FD, int r) { // 付立叶变换点数 LONG count; // 循环变量 int i,j,k; // 中间变量 int bfsize,p; // 角度 double angle; complexdouble *W,*X1,*X2,*X; // 计算付立叶变换点数 count = 1 r; // 分配运算所需存储器 W = new complexdouble ; X1 = new complexdouble ; X2 = new complexdouble ; // 计算加权系数 for(i = 0; i count / 2; i++) { angle = -i * PI * 2 / count; W = complexdouble (cos(angle), sin(angle)); } // 将时域点写入X1 memcpy(X1, TD, sizeof(complexdouble) * count); // 采用蝶形算法进行快速付立叶变换 for(k = 0; k r; k++) { for(j = 0; j 1 k; j++) { bfsize = 1 (r-k); for(i = 0; i bfsize / 2; i++) { p = j * bfsize; X2 = X1 + X1 ; X2 = (X1 - X1 ) * W ; } } X = X1; X1 = X2; X2 = X; } // 重新排序 for(j = 0; j count; j++) { p = 0; for(i = 0; i r; i++) { if (j(1i)) { p+=1(r-i-1); } } FD =X1 ; } // 释放内存 delete W; delete X1; delete X2; } 函数名称:Fourier() 参数: LPSTR lpDIBBits - 指向源DIB图像指针 LONG lWidth - 源图像宽度(象素数) LONG lHeight - 源图像高度(象素数) 返回值:BOOL - 成功返回TRUE,否则返回FALSE。 说明:该函数用来对图像进行付立叶变换。 BOOL WINAPI Fourier (LPSTR lpDIBBits, LONG lWidth, LONG lHeight) { // 指向源图像的指针 unsigned char* lpSrc; // 中间变量 double dTemp; // 循环变量 LONG i; LONG j; // 进行付立叶变换的宽度和高度(2的整数次方) LONG w; LONG h; int wp; int hp; // 图像每行的字节数 LONG lLineBytes; // 计算图像每行的字节数 lLineBytes = WIDTHBYTES(lWidth * 8); // 赋初值 w = 1; h = 1; wp = 0; hp = 0; // 计算进行付立叶变换的宽度和高度(2的整数次方) while(w * 2 = lWidth) { w *= 2; wp++; } while(h * 2 = lHeight) { h *= 2; hp++; } // 分配内存 complexdouble *TD = new complexdouble ; complexdouble *FD = new complexdouble ; // 行 for(i = 0; i h; i++) { // 列 for(j = 0; j w; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; // 给时域赋值 TD = complexdouble(*(lpSrc), 0); } } for(i = 0; i h; i++) { // 对y方向进行快速付立叶变换 FFT(TD , FD , wp); } // 保存变换结果 for(i = 0; i h; i++) { for(j = 0; j w; j++) { TD = FD ; } } for(i = 0; i w; i++) { // 对x方向进行快速付立叶变换 FFT(TD , FD , hp); } // 行 for(i = 0; i h; i++) { // 列 for(j = 0; j w; j++) { // 计算频谱 dTemp = sqrt(FD .real() * FD .real() + FD .imag() * FD .imag()) / 100; // 判断是否超过255 if (dTemp 255) { // 对于超过的,直接设置为255 dTemp = 255; } // 指向DIB第(ih/2 ? i+h/2 : i-h/2)行,第(jw/2 ? j+w/2 : j-w/2)个象素的指针 // 此处不直接取i和j,是为了将变换后的原点移到中心 //lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - (ih/2 ? i+h/2 : i-h/2)) + (jw/2 ? j+w/2 : j-w/2); // 更新源图像 * (lpSrc) = (BYTE)(dTemp); } } // 删除临时变量 delete TD; delete FD; // 返回 return TRUE; } 变换效果: July附注:此傅里叶变换算法,在本BLOG内有深入具体的介绍,请参考本BLOG内其它文章。 六、离散余弦变换 算法描述: 离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。 离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型,其中4种是常见的)。 程序实现: 函数名称:FFT() 参数: complexdouble * TD - 指向时域数组的指针 complexdouble * FD - 指向频域数组的指针 r -2的幂数,即迭代次数 返回值:无。 说明:该函数用来实现快速付立叶变换。 VOID WINAPI FFT(complexdouble * TD, complexdouble * FD, int r) { // 付立叶变换点数 LONG count; // 循环变量 int i,j,k; // 中间变量 int bfsize,p; // 角度 double angle; complexdouble *W,*X1,*X2,*X; // 计算付立叶变换点数 count = 1 r; // 分配运算所需存储器 W = new complexdouble ; X1 = new complexdouble ; X2 = new complexdouble ; // 计算加权系数 for(i = 0; i count / 2; i++) { angle = -i * PI * 2 / count; W = complexdouble (cos(angle), sin(angle)); } // 将时域点写入X1 memcpy(X1, TD, sizeof(complexdouble) * count); // 采用蝶形算法进行快速付立叶变换 for(k = 0; k r; k++) { for(j = 0; j 1 k; j++) { bfsize = 1 (r-k); for(i = 0; i bfsize / 2; i++) { p = j * bfsize; X2 = X1 + X1 ; X2 = (X1 - X1 ) * W ; } } X = X1; X1 = X2; X2 = X; } // 重新排序 for(j = 0; j count; j++) { p = 0; for(i = 0; i r; i++) { if (j(1i)) { p+=1(r-i-1); } } FD =X1 ; } // 释放内存 delete W; delete X1; delete X2; } 函数名称:DCT() 参数: double * f - 指向时域值的指针 double * F - 指向频域值的指针 r -2的幂数 返回值:无。 说明:该函数用来实现快速离散余弦变换,利用2N点的快速付立叶变换来实现离散余弦变换。 VOID WINAPI DCT (double *f, double *F, int r) { // 离散余弦变换点数 LONG count; // 循环变量 int i; // 中间变量 double dTemp; complexdouble *X; // 计算离散余弦变换点数 count = 1r; // 分配内存 X = new complexdouble ; // 赋初值为0 memset(X, 0, sizeof(complexdouble) * count * 2); // 将时域点写入数组X for(i=0;icount;i++) { X = complexdouble (f , 0); } // 调用快速付立叶变换 FFT(X,X,r+1); // 调整系数 dTemp = 1/sqrt(count); // 求F F = X .real() * dTemp; dTemp *= sqrt(2); // 求F for(i = 1; i count; i++) { F =(X .real() * cos(i*PI/(count*2)) + X .imag() * sin(i*PI/(count*2))) * dTemp; } // 释放内存 delete X; } 函数名称:DIBDct() 参数: LPSTR lpDIBBits - 指向源DIB图像指针 LONG lWidth - 源图像宽度(象素数) LONG lHeight - 源图像高度(象素数) 返回值:BOOL - 成功返回TRUE,否则返回FALSE。 说明:该函数用来对图像进行离散余弦变换。 BOOL WINAPI DIBDct(LPSTR lpDIBBits, LONG lWidth, LONG lHeight) { // 指向源图像的指针 unsigned char* lpSrc; // 循环变量 LONG i; LONG j; // 进行付立叶变换的宽度和高度(2的整数次方) LONG w; LONG h; // 中间变量 double dTemp; int wp; int hp; // 图像每行的字节数 LONG lLineBytes; // 计算图像每行的字节数 lLineBytes = WIDTHBYTES(lWidth * 8); // 赋初值 w = 1; h = 1; wp = 0; hp = 0; // 计算进行离散余弦变换的宽度和高度(2的整数次方) while(w * 2 = lWidth) { w *= 2; wp++; } while(h * 2 = lHeight) { h *= 2; hp++; } // 分配内存 double *f = new double ; double *F = new double ; // 行 for(i = 0; i h; i++) { // 列 for(j = 0; j w; j++) { // 指向DIB第i行,第j个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; // 给时域赋值 f = *(lpSrc); } } for(i = 0; i h; i++) { // 对y方向进行离散余弦变换 DCT(f , F , wp); } // 保存计算结果 for(i = 0; i h; i++) { for(j = 0; j w; j++) { f = F ; } } for(j = 0; j w; j++) { // 对x方向进行离散余弦变换 DCT(f , F , hp); } // 行 for(i = 0; i h; i++) { // 列 for(j = 0; j w; j++) { // 计算频谱 dTemp = fabs(F ); // 判断是否超过255 if (dTemp 255) { // 对于超过的,直接设置为255 dTemp = 255; } // 指向DIB第y行,第x个象素的指针 lpSrc = (unsigned char*)lpDIBBits + lLineBytes * (lHeight - 1 - i) + j; // 更新源图像 * (lpSrc) = (BYTE)(dTemp); } } // 释放内存 delete f; delete F; // 返回 return TRUE; } 变化效果: 更多见下一章: 数字图像处理领域的二十四个典型算法及vc实现、第二章 。本文完。 版权所有,侵权必究。若需转载,请注明出处。谢谢。
个人分类: 技术|4995 次阅读|0 个评论
【新书快讯】《高分辨率遥感图像分割与信息提取》
sciencepressnj 2011-12-30 18:28
【新书快讯】《高分辨率遥感图像分割与信息提取》
【内容简介】 随着卫星传感器的空间分辨率不断提高,高分辨率遥感图像的处理方法已成为研究的热点,遥感图像的信息提取技术将从基于像元的分类逐步过渡到面向对象的识别与提取,以满足土地利用精细分类、建筑物目标提取等应用的迫切需求。遥感图像分割是面向对象识别的关键,本书基于频谱分析理论与频域滤波方法,对 IKONOS 卫星图像的特征提取与图像分割技术进行了研究,根据振幅和相位信息提取遥感图像的纹理和边缘特征,并提出多频段标记算法实现了结合纹理和边缘特征的图像分割。 【读者对象】 高等院校地理信息系统、摄影测量与遥感等专业研究生和高年级本科生;地理学、计算机科学、测绘科学与技术等领域从事遥感信息处理与分析的研究人员和工程技术人员。 【作者简介】 肖鹏峰,男,博士,副教授,硕士生导师。 1979 年生,湖南宁乡人, 2002 年获湖南师范大学土地资源管理学士学位, 2007 年获南京大学地图学与地理信息系统博士学位,同年留南京大学地理与海洋科学学院地理信息科学系任教,讲授遥感地学分析、遥感数字图像处理等课程, 2008 年入选南京大学青年骨干教师, 2009 年晋升副教授, 2010 年任硕士生导师。 主要研究方向为遥感图像处理、资源环境遥感,近年来承担高分辨率对地观测系统国家科技重大专项项目、全球变化国家重大科学研究计划项目、国家高技术研究发展计划( 863 计划)课题、国家自然科学基金项目、博士点基金新教师课题等科研项目 10 余项,发展了高分辨率遥感图像频域识别与分割算法,在 International Journal of Remote Sensing 、遥感学报、测绘学报等期刊发表论文 30 余篇,参与编著教材 3 部,获得软件著作权 1 项。 2006 年获中国地理学会青年优秀论文奖, 2007 年获海外华人地理信息科学学会( CPGIS )最佳学生论文奖, 2008 年获国际摄影测量与遥感学会( ISPRS )青年优秀论文奖。现为遥感学报、红外与毫米波学报、湖泊科学等期刊的审稿专家。
个人分类: 新书快讯——资源环境类|3210 次阅读|0 个评论
[转载]图像处理的一些资料
xiangfasong 2011-9-23 16:08
作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用. 研究群体 大拿主页 前沿期刊 GPL软件资源 搜索引擎 一、研究群体 http://www-2.cs.cmu.edu/~cil/vision.html 这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。 http://www.cmis.csiro.au/IAP/zimage.htm 这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。 http://www.via.cornell.edu/ 康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。 http://www2.parc.com/istl/groups/did/didoverview.shtml 有一个很有意思的项目:DID(文档图像解码)。 http://www-cs-students.stanford.edu/ 斯坦福大学计算机系主页,自己找吧:( http://www.fmrib.ox.ac.uk/analysis/ 主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration, Automated Segmentation,Structural brain change analysis,motion correction,etc. http://www.cse.msu.edu/prip/ 这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。 http://pandora.inf.uni-jena.de/p/e/index.html 德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。 http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture. http://cfia.gmu.edu/ The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems. http://peipa.essex.ac.uk/info/groups.html 可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。 二、图像处理GPL库 http://www.ph.tn.tudelft.nl/~klamer/cppima.html Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。 http://iraf.noao.edu/ Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data. http://entropy.brni-jhu.org/tnimage.html 一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。 http://sourceforge.net/projects/ 这是GPL软件集散地,到这里找你想要得到的IP库吧。 三、搜索资源 当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间: http://sal.kachinatech.com/ http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml 四、大拿网页 http://www.ai.mit.edu/people/wtf/ 这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。 http://www.merl.com/people/brand/ MERL(Mitsubishi Electric Research Laboratory)中的擅长“Style Machine”高手。 http://research.microsoft.com/~ablake/ CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html 这位牛人好像正在学习汉语,并且搜集了诸如“两只老虎(Two Tigers)”的歌曲,嘿嘿:) 他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。 http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html 这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。 -------------------------------------------------------------------------------- 下面这些是我搜集的牛群(大部分是如日中天的Ph.D们),可以学习的是他们的Study Ways! Finn Lindgren(Sweden):Statistical image analysis http://www.maths.lth.se/matstat/staff/finn/ Pavel Paclik(Prague):statistical pattern recognition http://www.ph.tn.tudelft.nl/~pavel/ Dr. Mark Burge:machine learning and graph theory http://cs.armstrong.edu/burge/ yalin Wang:Document Image Analysis http://students.washington.edu/~ylwang/ Geir Storvik: Image analysis http://www.math.uio.no/~geirs/ Heidorn http://alexia.lis.uiuc.edu/~heidorn/ Joakim Lindblad:Digital Image Cytometry http://www.cb.uu.se/~joakim/index_eng.html S.Lavirotte: http://www-sop.inria.fr/cafe/Stephane.Lavirotte/ Sporring: scale-space techniques http://www.lab3d.odont.ku.dk/~sporring/ Mark Jenkinson:Reduction of MR Artefacts http://www.fmrib.ox.ac.uk/~mark/ Justin K. Romberg:digital signal processing http://www-dsp.rice.edu/~jrom/ Fauqueur:Image retrieval by regions of interest http://www-rocq.inria.fr/~fauqueur/ James J. Nolan:Computer Vision http://cs.gmu.edu/~jnolan/ Daniel X. Pape:Information http://www.bucho.org/~dpape/ Drew Pilant:remote sensing technology http://www.geo.mtu.edu/~anpilant/index.html 五、前沿期刊(TOP10) 这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:) IEEE Trans. On PAMI http://www.computer.org/tpami/index.htm IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm Pattern Recognition http://www.elsevier.com/locate/issn/00313203 Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655 神经网络 Neural Networks Tutorial Review http://hem.hj.se/~de96klda/NeuralNetworks.htm ftp://ftp.sas.com/pub/neural/FAQ.html Image Compression with Neural Networks http://www.comp.glam.ac.uk/digimaging/neural.htm Backpropagator's Review http://www.dontveter.com/bpr/bpr.html Bibliographies on Neural Networks http://liinwww.ira.uka.de/bibliography/Neural/ Intelligent Motion Control with an Artificial Cerebellum http://www.q12.org/phd.html Kernel Machines http://www.kernel-machines.org/ Some Neural Networks Research Organizations http://www.ieee.org/nnc/ http://www.inns.org/ Neural Network Modeling in Vision Research http://www.rybak-et-al.net/nisms.html Neural Networks and Machine Learning http://learning.cs.toronto.edu/ Neural Application Software http://attrasoft.com Neural Network Toolbox for MATLAB http://www.mathworks.com/products/neuralnet/ Netlab Software http://www.ncrg.aston.ac.uk/netlab/ Kunama Systems Limited http://www.kunama.co.uk/ Computer Vision Computer Vision Homepage, Carnegie Mellon University www.cs.cmu.edu/~cil/vision.html Annotated Computer Vision Bibliography http://iris.usc.edu/Vision-Notes/bibliography/contents.html http://iris.usc.edu/Vision-Notes/rosenfeld/contents.html Lawrence Berkeley National Lab Computer Vision and Robotics Applications http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html CVonline by University of Edinburgh The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision, www.dai.ed.ac.uk/CVonline Computer Vision Handbook, www.cs.hmc.edu/~fleck/computer-vision-handbook Vision Systems Courseware www.cs.cf.ac.uk/Dave/Vision_lecture/Vision_lecture_caller.html Research Activities in Computer Vision http://www-syntim.inria.fr/syntim/analyse/index-eng.html Vision Systems Acronyms www.vision-systems-design.com/vsd/archive/acronyms.html Dictionary of Terms in Human and Animal Vision http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html Metrology based on Computer Vision www.cranfield.ac.uk/sme/amac/research/metrology/metrology.html Digital Photography Digital Photography, Scanning, and Image Processing www.dbusch.com/scanners/scanners.html Educational Resources, Universities Center for Image Processing in Education www.cipe.com Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology http://wally2.rit.edu/pubs/guides/imagingcall.html Mathematical Experiences through Image Processing, University of Washington www.cs.washington.edu/research/metip/metip.html Vismod Tech Reports and Publications, MIT http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker Vision Lab PhD dissertation list, University of Antwerp http://wcc.ruca.ua.ac.be/~visielab/theses.html INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems www.inria.fr/Themes/Theme3-eng.html Image Processing Resources http://eleceng.ukc.ac.uk/~rls3/Contents.htm Publications of Carsten Steger http://www9.informatik.tu-muenchen.de/people/steger/publications.html FAQs comp.dsp FAQ www.bdti.com/faq/dsp_faq.htm Robotics FAQ www.frc.ri.cmu.edu/robotics-faq Where's the sci.image.processing FAQ? www.cc.iastate.edu/olc_answers/packages/graphics/sci.image.processing.faq.html comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations www.exaflop.org/docs/cgafaq Astronomical Image Processing System FAQ www.cv.nrao.edu/aips/aips_faq.html
1933 次阅读|0 个评论
[转载]图像处理的一些资料(1)
jiandanjinxin 2011-9-22 14:11
作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用. 研究群体 大拿主页 前沿期刊 GPL软件资源 搜索引擎 一、研究群体 http://www-2.cs.cmu.edu/~cil/vision.html 这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。 http://www.cmis.csiro.au/IAP/zimage.htm 这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。 http://www.via.cornell.edu/ 康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。 http://www2.parc.com/istl/groups/did/didoverview.shtml 有一个很有意思的项目:DID(文档图像解码)。 http://www-cs-students.stanford.edu/ 斯坦福大学计算机系主页,自己找吧:( http://www.fmrib.ox.ac.uk/analysis/ 主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration, Automated Segmentation,Structural brain change analysis,motion correction,etc. http://www.cse.msu.edu/prip/ 这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。 http://pandora.inf.uni-jena.de/p/e/index.html 德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。 http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture. http://cfia.gmu.edu/ The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems. http://peipa.essex.ac.uk/info/groups.html 可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。 二、图像处理GPL库 http://www.ph.tn.tudelft.nl/~klamer/cppima.html Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。 http://iraf.noao.edu/ Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data. http://entropy.brni-jhu.org/tnimage.html 一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。 http://sourceforge.net/projects/ 这是GPL软件集散地,到这里找你想要得到的IP库吧。 三、搜索资源 当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间: http://sal.kachinatech.com/ http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml 四、大拿网页 http://www.ai.mit.edu/people/wtf/ 这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。 http://www.merl.com/people/brand/ MERL(Mitsubishi Electric Research Laboratory)中的擅长“Style Machine”高手。 http://research.microsoft.com/~ablake/ CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html 这位牛人好像正在学习汉语,并且搜集了诸如“两只老虎(Two Tigers)”的歌曲,嘿嘿:) 他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。 http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html 这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。 -------------------------------------------------------------------------------- 下面这些是我搜集的牛群(大部分是如日中天的Ph.D们),可以学习的是他们的Study Ways! Finn Lindgren(Sweden):Statistical image analysis http://www.maths.lth.se/matstat/staff/finn/ Pavel Paclik(Prague):statistical pattern recognition http://www.ph.tn.tudelft.nl/~pavel/ Dr. Mark Burge:machine learning and graph theory http://cs.armstrong.edu/burge/ yalin Wang:Document Image Analysis http://students.washington.edu/~ylwang/ Geir Storvik: Image analysis http://www.math.uio.no/~geirs/ Heidorn http://alexia.lis.uiuc.edu/~heidorn/ Joakim Lindblad:Digital Image Cytometry http://www.cb.uu.se/~joakim/index_eng.html S.Lavirotte: http://www-sop.inria.fr/cafe/Stephane.Lavirotte/ Sporring: scale-space techniques http://www.lab3d.odont.ku.dk/~sporring/ Mark Jenkinson:Reduction of MR Artefacts http://www.fmrib.ox.ac.uk/~mark/ Justin K. Romberg:digital signal processing http://www-dsp.rice.edu/~jrom/ Fauqueur:Image retrieval by regions of interest http://www-rocq.inria.fr/~fauqueur/ James J. Nolan:Computer Vision http://cs.gmu.edu/~jnolan/ Daniel X. Pape:Information http://www.bucho.org/~dpape/ Drew Pilant:remote sensing technology http://www.geo.mtu.edu/~anpilant/index.html 五、前沿期刊(TOP10) 这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:) IEEE Trans. On PAMI http://www.computer.org/tpami/index.htm IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm Pattern Recognition http://www.elsevier.com/locate/issn/00313203 Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655 神经网络 Neural Networks Tutorial Review http://hem.hj.se/~de96klda/NeuralNetworks.htm ftp://ftp.sas.com/pub/neural/FAQ.html Image Compression with Neural Networks http://www.comp.glam.ac.uk/digimaging/neural.htm Backpropagator's Review http://www.dontveter.com/bpr/bpr.html Bibliographies on Neural Networks http://liinwww.ira.uka.de/bibliography/Neural/ Intelligent Motion Control with an Artificial Cerebellum http://www.q12.org/phd.html Kernel Machines http://www.kernel-machines.org/ Some Neural Networks Research Organizations http://www.ieee.org/nnc/ http://www.inns.org/ Neural Network Modeling in Vision Research http://www.rybak-et-al.net/nisms.html Neural Networks and Machine Learning http://learning.cs.toronto.edu/ Neural Application Software http://attrasoft.com Neural Network Toolbox for MATLAB http://www.mathworks.com/products/neuralnet/ Netlab Software http://www.ncrg.aston.ac.uk/netlab/ Kunama Systems Limited http://www.kunama.co.uk/ Computer Vision Computer Vision Homepage, Carnegie Mellon University www.cs.cmu.edu/~cil/vision.html Annotated Computer Vision Bibliography http://iris.usc.edu/Vision-Notes/bibliography/contents.html http://iris.usc.edu/Vision-Notes/rosenfeld/contents.html Lawrence Berkeley National Lab Computer Vision and Robotics Applications http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html CVonline by University of Edinburgh The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision, www.dai.ed.ac.uk/CVonline Computer Vision Handbook, www.cs.hmc.edu/~fleck/computer-vision-handbook Vision Systems Courseware www.cs.cf.ac.uk/Dave/Vision_lecture/Vision_lecture_caller.html Research Activities in Computer Vision http://www-syntim.inria.fr/syntim/analyse/index-eng.html Vision Systems Acronyms www.vision-systems-design.com/vsd/archive/acronyms.html Dictionary of Terms in Human and Animal Vision http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html Metrology based on Computer Vision www.cranfield.ac.uk/sme/amac/research/metrology/metrology.html Digital Photography Digital Photography, Scanning, and Image Processing www.dbusch.com/scanners/scanners.html Educational Resources, Universities Center for Image Processing in Education www.cipe.com Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology http://wally2.rit.edu/pubs/guides/imagingcall.html Mathematical Experiences through Image Processing, University of Washington www.cs.washington.edu/research/metip/metip.html Vismod Tech Reports and Publications, MIT http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker Vision Lab PhD dissertation list, University of Antwerp http://wcc.ruca.ua.ac.be/~visielab/theses.html INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems www.inria.fr/Themes/Theme3-eng.html Image Processing Resources http://eleceng.ukc.ac.uk/~rls3/Contents.htm Publications of Carsten Steger http://www9.informatik.tu-muenchen.de/people/steger/publications.html FAQs comp.dsp FAQ www.bdti.com/faq/dsp_faq.htm Robotics FAQ www.frc.ri.cmu.edu/robotics-faq Where's the sci.image.processing FAQ? www.cc.iastate.edu/olc_answers/packages/graphics/sci.image.processing.faq.html comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations www.exaflop.org/docs/cgafaq Astronomical Image Processing System FAQ www.cv.nrao.edu/aips/aips_faq.html
1173 次阅读|0 个评论
[转载]图像处理中的数学问题(连载1)
jiandanjinxin 2011-9-22 14:08
在图像处理的发展过程中,数学始终起着举足轻重的作用,并渗透在图像处理的所有分支之中。 到上世纪六七十年代为止,以Fourier分析为代表的线性处理方法占据了几乎整个数字图像处理领域。在此期间,借助于随机过程理论,人们建立了图像模型通过概率论以及在此基础上建立的信息论建立了图像编码的框架;线性滤波(维纳滤波、卡尔曼滤波)方法为低层图像处理提供了有力的理论支持;而FFT则被广泛使用在图像处理的几乎所有分支中。这些数学工具极大地促进了图像处理的发展和应用。 自上世纪八十年代开始,非线性科学开始逐渐渗透到图像处理方法之中,许多新颖的数学工具被引入到图像处理领域,使相关的理论变得多元化。尤其以小波和多尺度分析为代表的信息处理方法,继承和发展了Fourier分析,将函数论和逼近论的最新成果应用在工程应用中,建立起了完整的系统框架,在图像编码、图像分割、纹理识别、图像滤波、边缘检测、特征提取和分析等方面的应用中,已经取得了非凡的成果。目前,小波分析方法业已成为信号处理的基础理论之一 同时,其他非线性的数学工具的应用也取得丰硕的成果:如分形在图像编码和纹理识别中的应用,李群在动态图像弹性形变识别中的应用,多尺度分析在图像检索和识别中的应用,非线性规划在矢量量化和图像编码中的应用等等。另外,图像确定性模型(BV 模型)的建立、模糊数学对图像质量的评价体系、Meaningful理论对图像距离的研究是对图像本质的进一步刻划,使计算机可以更贴切地描述人类的视觉系统。 同时,其他非线性的数学工具的应用也取得丰硕的成果:如分形在图像编码和纹理识别中的应用,李群在动态图像弹性形变识别中的应用,多尺度分析在图像检索和识别中的应用,非线性规划在矢量量化和图像编码中的应用等等。另外,图像确定性模型(BV 模型)的建立、模糊数学对图像质量的评价体系、Meaningful理论对图像距离的研究是对图像本质的进一步刻划,使计算机可以更贴切地描述人类的视觉系统。 特别的,基于非线性发展(偏微分)方程的图像处理方法成为近年来图像研究的一个热点。它从分析图像去噪的机理入手,结合数学形态学微分几何、射影几何等数学工具,建立了滤波和偏微分方程相关的公理体系。另外,它在图像重构、图像分割、图像识别、遥感图像处理、图像分析、边缘检测、图像插值、医学图像处理、动态图像修补、立体视觉深度检测、运动分析等方面得到了一定的应用。在研究过程中,人们介绍了一些概念,如active coutour(snake),level set(level line)等,把数学和图像有机地联系起来。 另一方面,图像处理的实际需求和工程背景也刺激了一些数学分支的发展,如小波理论的研究动力来源于信号处理中对于时频局部化分析的需求,而且在理论体系建立起来之前已经有了广泛的应用;偏微分方程的粘性解概念的提出也是因为在图像处理的应用中应用条件不满足各种微分学中的假设;对于投影几何的研究也由于图像Moisaic的需求变得细致。 近年来,我国高校的数学系设置了信息与科学计算专业,甚至如北京大学数学科学院信息科学系。作为一个近年快速发展的新学科,它运用近代数学方法和计算机技术解决信息科学领域中的问题,应用十分广泛。图像处理是其中一个非常重要的方向,许多学校都把图像处理作为一个重点发展方向。但是,目前还存在一些问题:一方面,数学系的研究人员对于图像发展以及背景的了解不够深刻;另一方面,数学系中新建的专业和图像处理领域的交流沟通还不是很通畅,因而对于图像处理领域中的一些热点问题的了解还不够及时和全面。 进入本世纪以后,随着计算机的和Internet网络技术的飞速发展,图像处理的发展也进入了一个新的飞跃阶段。同时,图像处理和计算机视觉的工程应用中还有许多问题尚待解决。为了进一步关注图像处理领域中涉及的数学问题,并使数学研究人员对相关数学问题的工程背景有所了解,1999中国科学院自动化研究所举办了相关的暑期班,2003年西安交通大学理学院举办了图像处理的数学问题研讨班,2004年在浙江大学数学科学研究中心举办“图像处理中的数学问题”讲习班,2004年,河南大学数学院举办了以"数学与图像处理"为主题的国际会议,2007年,偏微分方程在图像处理中的应用国际会议在广东韩山师范学院成功举办.(未完待续
1771 次阅读|0 个评论
时空在大尺度上是光滑的 小尺度是极度疯狂不规则的
wangxiong868 2011-9-13 09:37
图像处理课上看到一组图片有点意思 把8-bit的图片 按照每一个bit单独画出来,那么最后末位bit上的图基本上是随机跳跃的,而首位bit上基本是连续光滑的,轮廓清晰可见 这很像 时空在大尺度上是光滑的 在小尺度是极度疯狂不规则的 呵呵
1451 次阅读|0 个评论
一个好玩的图像处理实验结果
sysuxiexh 2011-8-31 17:59
一个好玩的图像处理实验结果
实验中需要对图像进行三角划分(全自动),结果发现效果图很好玩,特贴出来分享…… 红绳魔鬼、绣花怪针……
个人分类: 科研成果|4643 次阅读|0 个评论
[NSFC快讯]信息部图像处理类2011年NSFC资助项目
热度 4 zmpenguestc 2011-8-26 23:06
信息部图像处理类2011年NSFC资助项目一览表(75项) 项目批准号 / 申请代码 1 项目名称 项目负责人 依托单位 批准 金额 项目起止年月 61101165/ F010401 基于选择性的三维( 3D) 立体视频显著性模型研究 朱亚平 中国传媒大学 25 2012-01 至 2014-12 61101212/ F010401 视觉注意模型在语义视频搜索中的应用 赵志诚 北京邮电大学 25 2012-01 至 2014-12 61102095/ F010401 应用于图像分割的多目标模糊进化聚类算法研究 赵凤 西安邮电学院 25 2012-01 至 2014-12 61172125/ F010401 骨肿瘤手术的医学影像导航系统关键技术研究 张清 北京积水潭医院 65 2012-01 至 2015-12 61101198/ F010401 结构保持图像复原的分数阶正则化理论与算法研究 张军 南京理工大学 25 2012-01 至 2014-12 61102150/ F010401 基于偏微分方程的电子散斑干涉条纹信息提取原理研究 张芳 天津工业大学 24 2012-01 至 2014-12 61101169/ F010401 LCD-FED 双屏结构高动态范围视频显示中的时空连续性研究 姚剑敏 福州大学 19 2012-01 至 2014-12 61101224/ F010401 基于融合、合作与深度层次感知视觉特性的立体图像质量评价理论与方法 杨嘉琛 天津大学 27 2012-01 至 2014-12 61102108/ F010401 压缩传感域图像融合新方法研究 杨斌 南华大学 25 2012-01 至 2014-12 61171146/ F010401 图像处理的各向异性演化格子波尔兹曼模型及快速算法 严壮志 上海大学 60 2012-01 至 2015-12 61171165/ F010401 结合时空统计学习的视频超分辨自适应稀疏正则化理论与算法 肖亮 南京理工大学 60 2012-01 至 2015-12 61172160/ F010401 肺部 CT 图像中三维复杂结构分割及其应用研究 肖昌炎 湖南大学 60 2012-01 至 2015-12 61162016/ F010401 图像引导重离子放疗中靶区的精确定位及剂量校正方法研究 王阳萍 兰州交通大学 50 2012-01 至 2015-12 61172119/ F010401 基于多源点扩散耦合边界的纤维多层显微图像融合 王荣武 东华大学 60 2012-01 至 2015-12 61171177/ F010401 基于工业 CT 固体火箭发动机缺陷定位与分割技术研究 王明泉 中北大学 60 2012-01 至 2015-12 61102116/ F010401 室外静态阴影的物理成像特性分析及去除方法研究 田建东 中国科学院沈阳自动化研究所 28 2012-01 至 2014-12 61172128/ F010401 基于多目视觉的形体语言感知与识别研究 阮秋琦 北京交通大学 60 2012-01 至 2015-12 61101199/ F010401 先验建模与非均匀性校正关系研究 钱惟贤 南京理工大学 30 2012-01 至 2014-12 61172157/ F010401 时空相关的分布式压缩感知模型及其在监控视频不完整目标的重建和识别中的应用 倪林 中国科学技术大学 60 2012-01 至 2015-12 61172163/ F010401 基于字典学习的不完备投影数据 CT 重建方法研究 牟轩沁 西安交通大学 63 2012-01 至 2015-12 61101215/ F010401 单帧非正面人脸图像多角度超分辨率重建关键技术研究 马祥 长安大学 25 2012-01 至 2014-12 61171150/ F010401 压缩域图像大容量无损信息隐藏技术研究 陆哲明 浙江大学 60 2012-01 至 2015-12 61171144/ F010401 基于多尺度分割的视觉显著性模型及其应用研究 刘志 上海大学 60 2012-01 至 2015-12 61172144/ F010401 基于软特征 (EOS-TOS) 分析的目标前趋 (FOT) 预测跟踪技术研究 刘万军 辽宁工程技术大学 56 2012-01 至 2015-12 61179013/ F010401 基于相干散射成像的临床 x 射线源光谱表征及散射光谱映射分析技术的研究 刘太辉 北华大学 60 2012-01 至 2015-12 61171184/ F010401 监控视频中大规模群体系统模型及其演进 - 预报方法研究 刘鹏 哈尔滨工业大学 60 2012-01 至 2015-12 61101246/ F010401 基于 Graph 和 ISA 的红外目标分割与识别方法研究 刘靳 西安电子科技大学 22 2012-01 至 2014-12 61101230/ F010401 图像配准 - 分割技术中的离散空间非线性变形场拓扑控制研究 林相波 大连理工大学 24 2012-01 至 2014-12 61102170/ F010401 基于脉冲耦合神经网络的多源图像融合理论与方法研究 李敏 中国人民解放军第二炮兵工程学院 28 2012-01 至 2014-12 61172109/ F010401 变造文件的数字无损盲取证研究 孔祥维 大连理工大学 60 2012-01 至 2015-12 61162023/ F010401 基于活动区域轮廓模型的脑部磁共振图像脑组织提取研究 江少锋 南昌航空大学 50 2012-01 至 2015-12 61172173/ F010401 面向极低质量监控图像的鲁棒性人脸超分辨率研究 胡瑞敏 武汉大学 65 2012-01 至 2015-12 61102134/ F010401 内嵌立方样条插值的 DCT 编码器最佳量化与非线性增强研究 洪少华 厦门大学 27 2012-01 至 2014-12 61101208/ F010401 图像超分辨重建的稀疏表示建模及算法研究 郝彬彬 中国石油大学(华东) 25 2012-01 至 2014-12 61171158/ F010401 光学多尺度几何分析及其在高分辨率图像压缩中的应用 韩亮 重庆大学 60 2012-01 至 2015-12 61179039/ F010401 变分正则化图像复原模型与算法的研究 樊启斌 武汉大学 48 2012-01 至 2015-12 61172179/ F010401 基于非参数层次贝叶斯模型的自适应字典稀疏表示方法及应用 丁兴号 厦门大学 60 2012-01 至 2015-12 61162022/ F010401 结构化过完备稀疏性约束的超分辨率图像重建研究 邓承志 南昌工程学院 48 2012-01 至 2015-12 61172172/ F010401 纸墨互动模型扩散成像研究 陈添丁 浙江工商大学 60 2012-01 至 2015-12 61102098/ F010401 基于结构信息重构的大尺度缺损图像修补技术研究 陈立 上海交通大学 22 2012-01 至 2014-12 61101152/ F010401 基于多张异源图像的人脸三维重建 陈健生 清华大学 25 2012-01 至 2014-12 61102159/ F010401 基于核最优配置张量渐进分解的高光谱图象压缩方法研究 陈浩 哈尔滨工业大学 24 2012-01 至 2014-12 61150110166/ F010401 Energy efficient video compression based on wavelet filtration and adaptive arithmetic coding Evgeny Belyaev 西安电子科技大学 10 2011-07 至 2011-12 61172129/ F010402 视频广告监播中的跨媒体分析理论与技术研究 朱振峰 北京交通大学 60 2012-01 至 2015-12 61179020/ F010402 基于混合成像的冠心病计算机辅助诊断新方法 周寿军 中国科学院深圳先进技术研究院 60 2012-01 至 2015-12 61172135/ F010402 基于人脸重建的表情不变三维人脸识别研究 周大可 南京航空航天大学 60 2012-01 至 2015-12 61102111/ F010402 多任务降维子空间研究及其在视频监控下目标识别的应用 郑伟诗 中山大学 27 2012-01 至 2014-12 61171156/ F010402 基于视觉感知启发的对象发现技术 赵歆波 西北工业大学 56 2012-01 至 2015-12 61171118/ F010402 非线性模式下的非负矩阵分解研究 章毓晋 清华大学 65 2012-01 至 2015-12 61101185/ F010402 基于相位编组与方向互信息的红外 / 可见光图像配准方法 张志龙 中国人民解放军国防科学技术大学 22 2012-01 至 2014-12 61101197/ F010402 基于多模型嵌入技术的复杂环境感知研究 张浩峰 南京理工大学 25 2012-01 至 2014-12 61101202/ F010402 基于树结构模型的语义图像分割技术研究 俞璐 中国人民解放军理工大学 20 2012-01 至 2014-12 61101191/ F010402 基于概率密度模型的复杂背景下三维目标识别方法 余瑞星 西北工业大学 24 2012-01 至 2014-12 61171193/ F010402 层次化海量图像型垃圾邮件过滤体系中的关键问题研究 严寒冰 国家计算机网络与信息安全管理中心 60 2012-01 至 2015-12 61172142/ F010402 医学图像分割中面向目标的形状统计与边界特征学习 闫平昆 中国科学院西安光学精密机械研究所 53 2012-01 至 2015-12 61171142/ F010402 基于视皮层感知机制的生物启发运动特征层次化模型 徐向民 华南理工大学 60 2012-01 至 2015-12 61162021/ F010402 结合领域知识的唐卡图像修复系统模型及应用研究 王维兰 西北民族大学 50 2012-01 至 2015-12 61172103/ F010402 图像分类方法研究及其在色情监测中的应用 王春恒 中国科学院自动化研究所 62 2012-01 至 2015-12 61172136/ F010402 超低分辨率人脸识别 阮邦志 北京师范大学 - 香港浸会大学联合国际学院 60 2012-01 至 2015-12 61172121/ F010402 基于类别结构信息和结构化学习的维数约简 庞彦伟 天津大学 55 2012-01 至 2015-12 61171113/ F010402 基于图像认知的人的心理特征提取与分析 马惠敏 清华大学 55 2012-01 至 2015-12 61171185/ F010402 面向网络弱标记图像的视觉对象模型在线学习方法 刘扬 哈尔滨工业大学 60 2012-01 至 2015-12 61172167/ F010402 基于级联模糊提取和改进似然相似比的人脸特征加密算法研究 刘侠 哈尔滨理工大学 50 2012-01 至 2015-12 61172127/ F010402 仿射不变性和亮度单调变化不变性的图像特征描述 梁栋 安徽大学 50 2012-01 至 2015-12 61172161/ F010402 面向图像识别的稀疏表示及其应用研究 李树涛 湖南大学 63 2012-01 至 2015-12 61172146/ F010402 基于广义稀疏表示的异质人脸图像变换和质量评价 李洁 西安电子科技大学 60 2012-01 至 2015-12 61101248/ F010402 独立分量分析算法研究及其在 SAR 图像分割中的应用 纪建 西安电子科技大学 23 2012-01 至 2014-12 61101168/ F010402 多流形半监督学习及其在高光谱遥感影像分类中的应用 黄鸿 重庆大学 25 2012-01 至 2014-12 61171169/ F010402 基于三维视频的人脸表情识别研究 胡永利 北京工业大学 60 2012-01 至 2015-12 61101150/ F010402 多光谱掌纹识别的光谱选择 郭振华 清华大学 28 2012-01 至 2014-12 61172170/ F010402 自动颅像重合身份认证关键技术研究 耿国华 西北大学 63 2012-01 至 2015-12 61162024/ F010402 传统栽绒毯图案视觉感知与特征检索应用研究 董馥伊 新疆师范大学 50 2012-01 至 2015-12 61172118/ F010402 基于概率图模型和语义描述的人群行为分析 陈昌红 南京邮电大学 60 2012-01 至 2015-12 61102114/ F010402 非孤立性肺结节 CT 序列图像三维自动分割新方法的研究 曹蕾 南方医科大学 24 2012-01 至 2014-12 61101247/ F010402 基于流形学习的形变指纹和不完整指纹匹配算法研究 曹凯 西安电子科技大学 25 2012-01 至 2014-12 注:数据来源于NSFC ISIS
个人分类: 基金小议|31305 次阅读|4 个评论
[转载]第七届多光谱图像处理和模式识别国际会议将于11月4-6号在桂林召
zchvictory 2011-8-20 08:43
GuiLin|China MIPPR | Nav: Registration | Conference | Travel/General | Accepted/Rejected +Abstracts Submission +Paper Submission +Accepted/Rejected +Conferences +Travel/General +Committees +Investment Cooperation +Contact In 2009,the sixth International Symposium on Multispectral Image Processing and Pattern Recognition was held in Yichang, China.This symposium was a great success. Scientists, engineers, and graduate students from more than 20 countries presented over 280 talks conveying research results in image processing and pattern recognition. 697 papers were selected for publication in SPIE proccedings. After that,the seventh SPIE International Symposium on Multispectral Image Processing and Pattern Recogniton(MIPPR'2011) will be held on November 4,2011 in the historical city of Guilin,China. Guilin is in the north of Guangxi.The population in the city of Guilin is more than six hundred thousand. There are famous and beautiful sceneries in Guilin,such as Li River, Elephant Trunk Hill and so on. The conference will bring together scientists,professoes,engineers and graduate students in this field and provide a forum for presentation,exchange and discussion of recent advances in theory,techniques,algorithms and applications in Multisepctral Image Processing and Pattern Recognition.In order to better inform the participants of the latest developments in the different branches of multispectral image processing and pattern recognition,apart from general papers to be presented at the forthcoming conference,we shall organize several special plenary sections for top quality invited papers. Sponsored by National Key Laboratory of Science and Technology on Multi-spectral Information Processing (China) Huazhong University of Science and Technology (China) SPIE- The international society advancing light-based research (USA) Guilin University of Electronic Technology (China) Symposium Honorary Chair: Bo Zhang, Tsinghua University (China) Symposium Chair: M.V.Srinivasan, University of Queensland (Australia) Deren Li,Wuhan University (China) Porgram Committee Chairs: Bir Bhanu, The University of California at Riverside (USA) Supported by: National Natural Sci. Foundation of China Education Ministry of China Proceedings Publisher: SPIE an international society advancing an interdisciplinary approach to the science and application of light.(USA) Organizing Committee Chair: Jianguo Liu,Huazhong University of Science and Technology (China) Co-Chairs: Jinxue Wang, SPIE (USA) General Secretary: Faxiong Zhang ,Huazhong University of Science and Technology (China) Asociate General Secretary: Wenwen Gu, Huazhong University of Science and Technology (China) what's new? | submit site | search | about us | gbook | Style Like Exp... ImageProcessing Art. IPRAI 2011 All Right Reserved. Designed and Programed by Chengzhao 会议网址: http://iprai.hust.edu.cn/mippr/default.html
个人分类: 新闻信息|2900 次阅读|0 个评论
谁能帮找点图像处理matlab的电子书或者教程?中文的最好。
热度 2 luxurytt 2011-8-11 12:52
谢谢了啊~!! 已经有了tool box 的user guide等材料,但是越多越好吧,再次感谢啊~~
6584 次阅读|5 个评论
[转载]数字图像处理领域可以投稿的期刊(转)
dylan 2011-5-19 08:24
数字图像处理领域可以投稿的期刊 Computer Vision and Image Processing IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) IEEE International Journal of Computer Vision (IJCV) Springer Vision Research Elsevier IEEE Transactions on Image Processing (IEEE-T-IP) IEEE ACM Transactions on Applied Perception ACM Computer Vision and Image Understanding (CVIU) Elsevier Image and Vision Computing Elsevier Journal of Vision JV Journal of Visual Communication and Image Representation (JVCIR) Elsevier Journal of Mathematical Imaging and Vision Springer Journal of Electronic Imaging SPIE ICGST International Journal on Graphics, Vision and Image Processing (GVIP) ICGST MGV: Machine GRAPHICS VISION Institute of Computer Science International Journal of Imaging Systems and Technology Wiley InterScience Electronic Letters on Computer Vision and Image Analysis Elcvia The Visual Computer Springer IET Image Processing IET IET Computer Vision IET International Journal of Image and Graphics (IJIG) World Scientific International Journal of Remote Sensing Taylor Francis SIAM Journal on Imaging Sciences SIAM Signal, Image and Video Processing Springer Pattern Recognition Pattern Recognition Elsevier Pattern Recognition Letters (PRL) Elsevier International Journal of Pattern Recognition and Artificial Intelligence World Scientific Pattern Analysis Applications Springer Journal of Pattern Recognition Research (JPRR) JPRR Signal Processing IEEE Signal Processing Letters IEEE IEEE Signal Processing Magazine IEEE Signal Processing Elsevier EURASIP Journal on Applied Signal Processing EURASIP Signal Processing : Image Communication Elsevier IET Signal Processing IET Neurophysical Journals in Computer Vision Nature Neuroscience. Nature Visual Neuroscience. Cambridge IEEE Transactions on Neural Networks. IEEE Neural Networks Elsevier Perception and Psychophysics. Psychonomic Society Perception. Pion Ltd. Journal of Experimental Psychology: Human Perception and Performance. Elsevier Computer Graphics ACM Transactions on Graphics ACM IEEE Computer Graphics and Applications (CGA) IEEE IEEE Transactions on Visualization and Computer Graphics IEEE ACM SIGGRAPH Computer Graphics ACM Computers and Graphics Science Direct Computer Graphics Forum (including Eurographics) Eurographics Graphics Interface Graphics Interface Journal of Graphics Tools ACM Journal of Visualization and Computer Animation Wiley Symposium on Interactive 3D (I3D) ACM Virtual Reality Virtual Reality Software and Technology (VRST) ACM Machine Vision Applications Machine Vision and Applications Springer Real-Time Imaging Elsevier Vision Interface Vision Interface IEEE Transactions on Geoscience and Remote Sensing IEEE International Journal of Applied Earth Observation and Geoinformation Elsevier Remote Sensing of Environment Elsevier ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING ISPRS Journal of Applied Remote Sensing SPIE Journal of the Indian Society of Remote Sensing Springer Multimedia IEEE Transactions on Circuits and Systems for Video Technology IEEE IEEE Transactions on Multimedia IEEE Optics Journal Optical Society of America OSA Optometry and Vision Science LWW Information Fusion Information Fusion Elsevier Information Processing Letters Elsevier Information Sciences Elsevier Information Sciences - Applications Elsevier Information Systems Elsevier Soft Computing Applied Soft Computing Elsevier Journal of Soft Computing Springer Others Medical Image Analysis Elsevier ACM Transactions on Information Systems ACM Swarm Intelligence Springer IET Information Security IET Numerical Functional Analysis and Optimization Taylor Francis Sadhana - Academy Proceedings in Engineering Sciences Springer International Journal of Wavelets, Multiresolution and Information Processing (IJWMIP) World Scientific IETE Technical Review IETE IETE Journal of Research IETE IEEE Transactions on Information Forensics and Security IEEE
个人分类: 科研资源|9360 次阅读|0 个评论
浅谈数字图像处理技术
ChinaAbel 2011-5-3 14:51
随着工业技术的高速发展,零部件尺寸检测和质量评价已成为工业生产中极为重要的一个环节,而且对尺寸检测技术水平的要求也越来越高。   一、数字图像处理技术研究背景   当前,工业零部件尺寸有多种测量方法,但检测过程中都存在一些问题。工业零部件的加工质量直接影响工业的正常生产,由于尺寸的检测缺陷,会影响生产并产生安全隐患。因此如何采用一种行之有效的尺寸检测方法,是目前急需解决的问题,这不仅要求检测效果好,而且还要求检测速度快。   二、数字图像处理技术概述   数字图像处理的英文名称为“Digital Image Processing”。通常所说的数字图像处理是指用计算机进行的处理,因此也称为计算机图像处理(Computer Image Processing)。数字图像处理就是利用数字计算机或者其他数字硬件,对从图像信息转换而得的电信号进行某些数学运算,以提高图像的使用性。总的来说,数字图像处理包括以下几项内容:   1、点运算   点运算主要是针对图像的像素进行加、减、乘、除等运算。图像的点运算可以有效地改变图像的直方图分布,这对提高图像的分辨率以及图像均衡都是非常有益的。   2、几何处理   几何处理主要包括图像的坐标转换,图像的移动、缩小、放大、旋转,多个图像的配准以及图像扭曲校正等,几何处理是最常见的图像处理手段,几乎任何图像处理软件都提供了最基本的图像缩放功能。图像的扭曲校正功能可以将变形的图像进行几何校正,从而得出准确的图像。   3、图像增强   图像增强的作用主要是突出图像重要的信息,同时减弱或者去除不需要的信息。常用方法有直方图增强和伪色彩增强等。   4、图像复原   图像复原的主要目的是去除干扰和模糊,从而恢复图像的本来面目,例如去噪声复原处理。   5、图像形态学处理   图像形态学是数学形态学的延伸,是一门独立的研究学科,利用图像形态学处理技术,可以实现图像的腐蚀、细化和分割等效果。   6、图像编码   图像编码研究属于信息论中信源编码的范畴,其主要宗旨是利用图像信号的统计特性及人类视觉特性对图像进行高效编码,从而达到压缩图像的目的,图像编码是数字图像处理中一个经典的研究范畴,有60多年研究历史,目前已经制定了多种编码标准。   7、图像重建   图像的重建起源于CT技术的发展,是一门新兴的数字图像处理技术,主要是利用采集的数据来重建出图像,图像重建的主要算法有代数法、迭代法、傅立叶反投影法和使用最广泛的卷积反投影等。   8、模式识别   模式识别也是数字图像处理的一个新兴的研究方向,当今的模式识别方法通常有3种:统计识别法、句法结构模式识别法和模糊识别法,目前应用广泛的文字识别(OCR)技术就是应用模式识别技术开发出来的。   三、数字图像处理的应用   到今天,数字图像处理已经渗透到工业、医疗保健、航空航天、军事等各个领域,在国民经济中发挥越来越大的作用。其中最典型的应用有:   1、遥感技术中应用   遥感图像处理的用处已越来越大,并且其效率和分辨率也越来越高。它被广泛地应用于土地测绘、资源调查、气象检测、环境污染监督、农作物估产和军事侦查等领域。目前遥感技术已经比较成熟,单数还必须解决其数据量庞大、处理速度慢的缺点。   2、医学应用   图像处理在医学上有着广泛的应用,其中最突出的临床应用就是超声、核磁共振和CT等技术。在医学领域利用图像处理技术可以实现对疾病的直观诊断和无痛、安全方便的诊断和治疗。   3、安全领域   利用图像处理的模式识别等技术,可以应用在控制、指纹档案管理等安全领域中。   4、工业生产   产品的无损检测也是图像处理技术的一项广泛的应用。   四、数字图像检测技术   数字图像检测技术就是将数字图像处理技术应用到精密测量领域,它的原理是通过对被测物体图像边缘的处理而获得物体的几何参数。   工业上的检测方法多种多样,从测量方式上分为接触式和非接触式两种。接触式测量大都使用不同类型的探头,通过探头在物体表面滑动感知物体形貌的变化。这类检测系统主要用于精密表面的轮廓检测。而非接触式测量以光测为主,该方法目前都是与图像处理技术相结合,利用光学方法对目标的位置、尺寸、形状、方位和目标间相互关系等进行测定,在工业检测方面具有广泛应用。   五、数字图像检测技术的应用   由于视觉信息独特的空间及结构特性,伴随着近年来计算机技术的飞速发展,数字图像技术在许多领域里发挥作用,如电子工业中印刷电路板、集成电路和光掩膜等的生产工艺流程中,通过对所获得的图像进行处理和识别来判断制作线路的正误,从而来保证产品的生产质量;冶金工业中钢板表面的自动探伤、赤热钢板切割位置定位;农业中农产品的品质检测,如水果、蔬菜、烟叶、谷物等的缺陷、类别及等级检测;林业生产中木材品质的检测,如板材厚度检测、板材表面粗糙度检测、木材材质及微观构造分析、板材表面缺陷检测、树种的识别和苗木参数测量等;玻璃制品行业中的产品检测,如产品外形尺寸检测(高度、直径、不规则程度等)、内部缺陷检测(裂纹、气泡等);公路裂纹检测等;机械零件的自动识别及几何尺寸测量、表面粗糙度和表面缺陷检测等,从而提高了产品的检测精度,同时也提高了生产效率。数字图像检测已经成为计算机图像技术的基本应用领域。国外数字图像检测技术自上世纪八十年代初开始已经得到了广泛的研究。将数字图像检测技术用于工业产品的检测在发达国家已经非常普遍。国内的视觉检测研究从上世纪九十年代才开始得到重视,最近几年有了突飞猛进的发展。 数字图像修复技术综述.pdf   
个人分类: 图像处理|1 次阅读|0 个评论
[转载]Maple图像处理的例子
COMSOLFEM 2011-3-1 17:29
图像处理 来自:www.cybernet.sh.cn 举例说明在 Maple 读取和处理图像文件。 模型和原文献 » 下载 用户资源 中文资料下载 Maple 用户论坛 Maple 应用下载中心 Maple Primes - 在线支持 Maple 和 MapleSim 试用申请 Image Tools This example demonstrates how to efficiently work with images in Maple. Using the embedded GUI components you can read in images, apply manipulations and edge detection to those images.
个人分类: 用户故事|2888 次阅读|0 个评论
[转载]【转】ArcGIS中自定义ENVI/IDL图像处理工具
热度 1 dongyanqing 2011-2-22 23:42
[转载]【转】ArcGIS中自定义ENVI/IDL图像处理工具
ArcGIS 中自定义 ENVI/IDL 图像处理工具 随着空间信息市场的快速发展,遥感数据与 GIS 的结合日益紧密。遥感影像已经是 GIS 的核心组成部分,为 GIS 提供了即时、丰富的数据。导致遥感与 GIS 的一体化集成逐渐成为一种趋势和发展潮流。 ENVI 与 ArcGIS 一体化集成已经从最开始的数据互操作、工作流的无缝连接发展到了第三阶段,即系统无缝融合阶段,全面提升遥感影像价值。进一步提升了空间和影像分析的工作效率,并有效节约系统成本。 目前 ENVI4.8 的部分图像处理功能可以无缝集成在 ArcGIS931 和 10 版本的 ArcToolbox 中,在 ArcGIS 软件中能直接使用 ENVITools ,并且可以用 ModelBuilder 将 ENVI 工具和 ArcToolbox 中的 GIS 工具组合成需要的业务模型和工作流。同时这些模型和工具支持 ArcGISServer 的网络发布。 ENVITools 中现有的工具在 ArcGIS 下使用和建模都非常方便,在此不一一细说。 下面主要介绍如何利用 Python 脚本将 ENVI/IDL 编写的图像处理功能集成到 ArcGIS 中,进行一体化的数据处理和分析。(以及如何利用 ArcGISServer 发布 ENVI 的图像处理功能。) 一、步骤 1 、指定路径和文件夹 指定一个路径创建一个文件夹,用于存放 IDL 文件和 Python 代码文件。 如: C:\MyTool 2 、编写 Python Script Python script 文件是为了从用户交互式界面中获取参数,执行脚本文件时将这些参数传递给图像处理程序( IDL 编写了 .sav 文件)调用图像处理的功能。 利用 Python 来编写脚本调用 ENVI/IDL 工具,包含三个部分: ( 1 ) 导入 envipy 类。 “ envipy ”是 ITT 专门为 ENVI/ArcGIS 一体化开发的一个 python 模块, envipy 与 IDL 代码中调用 ENVI 库函数时的加载的代码 ENVI , /RESTORE_BASE_SAVE_FILES 和 ENVI_BATCH_INIT 的效果是一样的,就是加载 ENVI 的进程。 ( 2 )从GP对象中获取参数。( Get the parameters from the geoprocessor object.) ( 3 ) 调用envipy类中的‘RunTool’方法。(Call the RunTool function in the envipy module.) 以 ArcGIS10 为例( ArcGIS931 可查看 ENVI 的 Help 文档): # 导入模块 import envipy, arcpy # Get input raster inRasterName = arcpy.GetParameterAsText(0) # Get output raster outRasterName = arcpy.GetParameterAsText(1) # Get the Kernel Size kernelSize = arcpy.GetParameterAsText(2) # IDL procedure name in the SAVE file for this tool toolname = 'MyScriptTool' # Execute ENVI custom tool envipy.RunTool(toolname, inRasterName, outRasterName, kernelSize, Library=r'MyScriptTool.sav') 在 Python 的编译环境复制粘贴该代码,保存为 MyScriptTool.py 文件,供后面创建界面时使用。 3 、编写 IDL 程序,并编译成 sav 文件 在 IDL 的利用 IDL 调用 ENVI 的图像处理接口实现某一图像处理功能;再编译成 sav 文件供 Python 脚本中 envipy.RunTool() 调用。 有两种编译方式: 方式 1 :命令行 IDL . full_reset_session IDL . compile myscripttool . pro; 或者点击 IDL开发环境界面上的‘编译’按钮,编辑该程序。 IDL resolve_all ,skip_routines= 'envi' ,/continue_on_error,/quiet IDL save ,/routines,filename= 'C:\MyTool\MyScriptTool1.sav' ;指定保存路径和名字。 方式 2 :按钮操作 构建一个工程,将所有的 pro 和 function 文件加载该工程中,右键该工程文件夹点击“构建工程”(注意工程属性的设置,属性中的 RESOLVE_ALL 选上与不选都可以)。 需要注意的是: ( 1 ) 可以将多个图像处理的工具( pro toolname1, arg0, arg1, arg2 和 pro toolname2, arg0, arg1, arg2 等等,每一个 pro 对应一个图像处理功能)打包成一个 sav 文件,这个 sav 文件在 Python 脚本中被调用。如第 2 节中的例子代码: toolname = 'MyScriptTool' envipy.RunTool( toolname , inRasterName, outRasterName, kernelSize, Library=r' MyScriptTool.sav ') 此代码中的 Library=r' MyScriptTool.sav ' 中 MyScriptTool.sav 文件的文件名可以是任意的 , 如 ha.sav 。但是必须保证该 sav 文件中有程序名与 toolname 对应(此代码中的 toolname 就是为了调用 sav 文件中的同名的程序, toolname 不支持函数 function ,只支持程序 pro )。 将多个图像处理的程序打包成一个 sav 文件,这就保证了多个脚本工具可以对应一个同一个 sav 文件,免得每一个脚本对应的 pro 都要编译成单独的一个 sav 文件。 如:有 5 个图像处理的程序 pro tool1 、 pro tool2 、 pro tool3 、 pro tool4 、 pro tool5 。可以编译成 5 个 sav 文件,分别建立 5 个脚本工具。同样地,可以将这 5 个 pro 编译成 1 个 sav 文件,被 5 个脚本调用,效果是一样的,只是这种方式更方便些。 ( 2 ) 尽量将 sav 文件与 python 脚本文件放在一个文件夹(相同目录)下,方便共享。如果不在一个目录下,在 envipy.RunTool() 中 Library 要指定 sav 文件的完整路径,如 Library = r' c:\savefiles\MyEnviTool.sav ' 。 4 、构建用户使用界面 在C atalog 中构建界面需要三步骤: l 创建文件和工具箱 toolbox ; l 给 toolbox 添加 script ; l 运行该脚本 script 。 操作流程如下: ( 1 )打开 arcgis desktop10 ,打开 catalog ,在 catalog 中指定或者新建一个文件夹并修改相应的名字,右键该文件夹—— NEW —— toolbox (并修改相应的名字 mytool )。 ( 2 )右键该工具箱( mytool )—— Add —— Script 点击下一步 “添加脚本文件”,将事先写好的脚本导入即可。 点击下一步 “为 IDL 或 ENVI 功能程序中的参数进行设置”。 设置完成后,点击‘ finish ’即可。 ( 3 )上述步骤完成后,会在已建好的工具 mytools 下出现 。 双击,即可出现运行界面: 点击 OK 执行脚本工具。 二、共享脚本工具 如果想将制作的脚本工具与别人共享或移植到别的计算机上运行该脚本,必须保证三个文件在一个文件包(文件夹)中。 MyScriptTool.py ——脚本文件(.py)。 MyScriptTool.sav —— IDL 或 ENVI 的功能文件(. sav )。 MyToolbox.tbx ——创建的 toolbox 界面文件(.tbx)。 以上三个文件放在一个文件包中,移动改文件包即可完成共享。 使用时,打开 ArcToolbox ,右键空白处 点击 Add Toolbox ,添加共享文件包 中的 .tbx 文件即 MyToolbox.tbx 。 然后该工具出现在 ArcToolbox 中, 如要下载源码和工具请链接: http://bbs.esrichina-bj.cn/ESRI/viewthread.php?tid=86612extra = 注意:如果没有指定建立 toolbox 的路径,直接在 catalog 中的 arctoolbox 中新建的 toolbox ,该文件的路径如下: · MyToolbox.tbx , located in: For ArcGIS 10: C:\Documents and Settings\ username \Application Data\ESRI\Desktop10.0\ArcToolbox\My Toolboxes\MyToolbox.tbx For ArcGIS 9.3: C:\Documents and Settings\ username \Application Data\ESRI\ArcToolbox\My Toolboxes\MyToolbox.tbx 原帖:http://hi.baidu.com/%C6%D0%CC%E1%C3%F7/blog/item/a70513aec85b53df7cd92ab4.html
个人分类: ENVI|5967 次阅读|2 个评论
GIMP:最好的免费图像处理软件
outcrop 2010-11-14 23:11
GIMP的全名是GNU Image Manipulation Program,是一款开放源代码、跨平台、免费的图像处理软件。号称Linux下的PhotoShop;显然功能不及Photoshop强大,但对于一般非专业用户是足够的,而且二次开放及脚本编程,都很方便。详细资料见: GIMP官方网站 需要提一下的是,GIMP早期版本在中文Windows操作系统下并不稳定,可能是GTK的毛病,新版本据说有改善。Linux下表现相当稳定优秀,我偶尔用的是Ubuntu自带的2.6.8版。
个人分类: 开放源代码工具|5295 次阅读|0 个评论
多传感器图像融合中的若干新概念和关键技术
热度 1 zoumouyan 2010-11-14 00:55
多传感器图像融合中的若干新概念和关键技术 Some New Concepts and Key Techniques in Multi-Sensor Image Fusion 邹谋炎 图像融合技术已经有近四十的历史。人们一直期望它能够在目标辨识、分类和变化检测方面有出色的应用。然而事与愿违。多年来,研究者们习惯于这样的定义:图像融合是使用一定的算法来组合两个或多个图像,以形成一个新图像 。这个定义出自本领域中的知名专家,对年青研究者的思考方式有不小的影响。 我们的研究认为,( 1 )组合多个图像以形成一个新图像不是图像融合的本质;( 2 )任何一个图像应该被理解为视场中目标的某种属性的一个分布( DAO );( 3 )特征级图像融合应该是各个图像中描述同一个目标的不同属性数据的数据关联;( 4 )决策级图像融合应该是依据关联数据,对每个目标产生出一组数值描述,其描述方法决定于辨识、分类、变化检测的不同应用;( 5 )是否形成一个融合图像完全决定于应用。常常,在目标位置上的一个标记,一层或多层伪彩色区域,可以更鲜明和方便地表达融合结果。 根据这些概念,研究者应该更加关注每个图像的物理隐含。据此,需要重新思考多传感器图像融合涉及的各个相关研究问题,如配准、分割、特征抽取。数据关联的自然推理导致关联数据库、数据库协议等概念。如何处理这些问题富有很高的挑战性。为了使图像融合技术的研究朝着应用需求有本质的进步,我们期待能引起更多研究者的研究兴趣。在此,我们提供一篇近期的文稿,供讨论参考。 以下文稿可下载供讨论。若引用,请注明作者和网络出处。 MultiSensor_ZouMouYan_R2a.pdf (2010-11-13)
个人分类: 研学小记|7560 次阅读|3 个评论
图像的现代魔术
热度 1 songshuhui 2010-8-9 21:10
方弦 发表于 2010-08-02 7:30 内容感知填充 现在的摄影爱好者对数码技术总是颇有微词。他们说,CCD记录的数字信号失却了世界各种细腻的美好,数字格式的照片遗失了胶片时代的质感。我不懂摄影,当然也没有资格评论这种感觉,但在另一方面,数码技术带来的便利也是显而易见的。各种在胶片时代几乎是魔术的图像处理效果,在这个数码时代不费吹灰之力。 尽管胶片可以留住瞬间的景象,却也敌不过时光的侵蚀。十几年前的老照片,完好无缺仍然鲜活的就不多见。发黄的照片,扫描到电脑上校准一下色调就行了。但对于那些有折痕甚至缺损的照片,即使瑕疵多么微小,不得不说也是一种遗憾。以往,修复这些瑕疵,只能将其扫描到计算机中,然后用各种图像处理软件进行手工处理。这个过程,如果要得到良好的效果,即使对于专业人士来说,也是极费精力的。但应用一种名为内容感知填充的新技术,计算机可以自动完成这一切,而得到的结果很多时候也相当可取。 除了修复照片的瑕疵外,这项技术的另一个用途就是去除照片中碍眼的东西。试想一下,一张青山绿水的野外照片,草地上却有几个易拉罐,这恐怕有些煞风景。但在计算机上,只需选中这些杂物,轻点鼠标,这些瑕疵就被抹去了,留下的是绿油油的草地。 只需圈出需要修补的瑕疵,向计算机下达命令,数秒后照片就完好如初。粗看这种技术的确近乎魔术,但其实背后的算法很直白,就是拆东墙补西墙。将瑕疵标记之后,计算机就会接过手来,删除这一部分,然后尝试用照片其余部分的图案,一点一点填充图像的缺口。 算法最复杂的地方,就在于如何选取与填充。显然,填充的基本条件就是填充的图案要与缺口附近的图案相近,否则填充成一件百衲衣就得不偿失了。为了选取相近的图案,计算机会在缺口的附近或者纹理相近的地方,提取局部的图案一一比较,再选取最适合的。这一小片图像,在进行适当的处理后,就被填充到缺口中。如此逐步填充,最后完成的图像,虽远非完美,但起码不会有明显的局部拼接的痕迹。 这个技术,说起来虽然很轻松,但在实现上却远非如此。最繁重的工作就是找到匹配的局部图案,这需要对大量的数据组合进行模糊匹配。而填充的具体策略也会影响最后的效果。在很多情况下,结果也还不尽如人意,还需要进一步的修缮。但这项技术毕竟自动化了大部分的工作,降低了人工处理的工作量。 当然,内容感知填充也有它的限制。根据它的原理,我们知道它其实并不能猜测某个物体背后遮盖的到底是什么,它做的不过是拆东墙补西墙。所以,利用这种技术,从性感女星的火辣剧照中去掉衣服的努力是注定要失败的。但对于去除在繁杂背景前凸显的某些物体,比如说沙滩上某位碍眼的救生员的话,内容感知填充会给你带来意外的惊喜。 另一项与内容感知填充相近的技术,名为内容感知缩放,解决的却是另一个问题。当我们调整照片大小和比例时,照片上的物体也会相应地被拉伸或者收缩。林青霞的照片,稍稍拉伸一下,大概就可以冒充沈殿霞了。但我们有时也需要内容相同,尺寸不同的一系列图片,内容感知缩放解决的正是这一问题。在改变图片尺寸时,它可以帮助保持图片中主要内容不变,让女士的身材避免走形。 内容感知缩放 尽管名称相似,这项技术与内容感知填充的原理完全不同。在需要缩放图片时,计算机会利用一种叫动态规划的算法,计算一条由像素组成,贯穿照片相对边沿的最不起眼的路径,然后将它填充或者删去,图片的大小就变化了一点,重复多次就可以得到缩放的效果。而在这里,不起眼的像素路径,就是那些每个像素都与它的邻居相差不远,属于多它一个不多少它一个不少的类型。这就不难理解为什么填充或者删除这样的路径之后,图片的内容保持不变了。 同样,这项技术也不是万能的。如果图片的主要内容与背景相差不远的话,也可能被误伤,导致变形。弥补这个不足的办法相对简单:可以选定要重点保护的部分,这样在探查这些区域的时候,算法不敢越雷池一步,内容也得以在大刀阔斧的填充和删除下保存。 无论是内容感知填充,还是内容感知缩放,这些技术之所以在我们眼中仍有缺陷,是因为它们对于照片的内容,仍然处于感知的层面上,而不能像人那样理解照片的内容。计算机不能理解情人在背后会轻轻挽手,也不能理解易拉罐在草地上的反讽。对计算机而言,一张数码照片的所有意义就是像素构成的数据矩阵。而对于我们,一张照片意味着的,可能是家人的微笑,情人的可爱,或是自然的美好。照片代表的回忆,无论绚烂或平淡,都是计算机所不能理解的。 也只有照片负载的回忆,可以成为好好活过的证据。 【已刊于《艺术世界》七月刊】
个人分类: 计算机科学|1630 次阅读|3 个评论
[转载]推荐:Photoshop科学图像处理:方法、测量与输出
kksonne 2010-6-21 08:08
盛弘强 2010-06-20 推荐理由:本书是科研人员处理图像不可或缺的资源--Eric J .Wexier, Adobe 生物图像咨询组专家 Photoshop科学图像处理:方法、测量与输出 市场价:¥98.00元本店价:¥73.50元 书籍作者:(美国)塞奇威克? 译者:黄晓磊?李化 书籍出版社:清华大学出版社 出版日期:2009年05月 书籍ISBN:9787302198840 书籍页数:278 页 书籍版次:第1版 书籍装帧:平装 书籍开本:16 书籍标识:asinB002C1APKK 书籍名:Photoshop科学图像处理:方法、测量与输出 【作者介绍】 (美国)塞奇威克 译者:黄晓磊 李化 Jerry Sedgewick,资深科研图像处理专家,美国明尼苏达大学生物图像处理实验室主任。Jerry在该实验室执教10多年,积累了大量的实践经验。该实验 室拥有光学显微领域的核心设施,为学校和该地区相关行业的科研和工程人员提供技术支持。Jerry经常撰写一些学术文章,并发表在多种刊物上,其中包括 Science和Circulation等杂志。除本书外,他还是Quick Photoshop for Research:A Guide to Digital Imaging for Photoshop 5x,6x and 7x一书的作者。 【目录】- Photoshop科学图像处理:方法、测量与输出 第I部分学术规范与背景知识 第1章 可视化数据及其学术规范 1.1 可视化数据的精确表示 1.1.1 误表示发生的时机 1.1.2 图像的种类 1.1.3 创作者须知 1.1.4 使用标准与参考值 第2章 图像通用规则 2.1 规则 2.2 图像获取阶段 2.2.1 准备样本 2.2.2 优化成像系统 2.2.3 关闭自动过滤功能 2.2.4 位深度 2.2.5 裁切 2.2.6 明场图像白平衡的颜色 2.2.7 噪声图像与帧平均 2.2.8 存档 2.2.9 操作规程 2.3 后期处理阶段 2.3.1 全局修正及应用 2.3.2 裁切与修齐 2.3.3 颜色模式变换 2.3.4 改变位深度 2.3.5 颜色校正 2.3.6 数码相机中的彩色噪声 2.3.7 合并及图像栈功能 2.3.8 标志.文字.标尺 2.4 适应输出阶段 2.4.1 减少位深度 2.4.2 白色(或黑色)极限 2.4.3 调整图像大小 2.4.4 颜色模式的变换:从RGB到CMYK 2.4.5 文件格式 2.4.6 说明文档 2.5 后期处理中禁止的操作 2.5.1 污点修正 2.5.2 从一幅图像向另一幅图像移取特征 2.5.3 有目的地操作可视化数据 2.5.4 改变图像大小(子采样) 2.5.5 使用亮度/对比度工具 2.5.6 复制/粘贴操作 第3章 特定图像类型的规则 3.1 测量OD/I的图像 3.1.1 平板扫描仪上的电泳样本 3.1.2 图像获取 3.1.3 后期处理 3.1.4 使用照相机/扫描光束系统获取测量OD/I的图像 3.1.5 图像获取 3.1.6 后期处理 3.2 表示性图像 3.2.1 图像获取 3.2.2 后期处理 3.2.3 适应输出 3.3 用于量化和可视化的图像 3.3.1 可视化 3.3.2 图像获取 3.3.3 后期处理 第II部分输入.校正与输出 第4章 获取最佳输入 4.1 用标准(复式)显微镜获取图像 4.1.1 精确表示 4.1.2 均匀照明 4.1.3 减少噪声 4.1.4 显微镜设置 4.1.5 在相机或获取软件中获取图像 4.2 激光共聚焦扫描系统 4.2.1 按照用途分类的共焦成像 4.2.2 共焦系统的成像步骤 4.3 平板扫描仪 4.3.1 平板扫描仪的预扫描设置 4.3.2 通用的扫描过程 4.3.3 关于扫描的几点提示 4.4 立体显微镜成像 4.4.1 控制眩光与照明 4.4.2 关于复杂样本成像的几点提示 4.5 环境成像 4.5.1 曝光时间与光圈 4.5.2 照明 4.5.3 校准相机 4.6 PowerPoint及其他程序中的图像 4.6.1 将复制粘贴作为(低劣的)解决方法 4.6.2 保持分辨率不变的最佳方法 第5章 Photoshop设置与标准过程 5.1 颜色和对比度匹配的方法 5.2 颜色设置 5.2.1 非同步 5.2.2 工作空间 5.2.3 颜色管理方案 5.2.4 转换选项 5.3 标准过程 5.3.1 输出色阶和ColorSampler工具 5.3.2 寻找黑色和白色参考点 5.3.3 设置白色和黑色输出色阶 第6章 打开图像与初始化步骤 6.1 图像校正流程表 6.2 打开图像 6.2.1 Bridge数据库程序(适用于CS2和CS3) 6.2.2 SmartObject或复制图像 6.2.3 打开时存在问题的文件 6.2.4 在AdobeCameraRaw中打开图像 6.2.5 打开多幅图像,合并为一幅图像 6.2.6 用于合成或分层的图像栈 6.2.7 打开多幅图像进行照片合并(照片缝合) 6.3 预校准修正 6.3.1 IndexedColor(转换为RGBColor) 6.3.2 校正不均匀照明 6.3.3 问题图像 6.3.4 减少噪声 第7章 颜色校正与最终步骤 7.1 明场颜色校正与RGB颜色转换为CMYK 7.1.1 精确的颜色校正 7.1.2 参考区域 7.1.3 色调与饱和度 7.1.4 彩色噪声 7.1.5 白色或灰色吸管方法 7.1.6 与参考图像的颜色匹配 7.1.7 其他手动或自动颜色校正方法 7.1.8 降低饱和度.修正色调,使图像符合CMYK标准 7.1.9 彩色边缘现象与彩色噪声的消除 7.2 明场图像彩色模式到灰度模式的变换 7.3 单色暗场图像 7.3.1 设置黑白极限与亮度匹配 7.3.2 单色图像转换为灰度图像 7.3.3 彩色化灰度图像 7.3.4 修正现有的颜色 7.3.5 显示共区域化/共存 7.3.6 使图像符合CMYK标准 7.3.7 彩色化.脱色动作 7.4 利用伪彩色和彩色化将灰度图像转换为彩色图像 7.4.1 根据颜色表伪彩色化图像 7.4.2 色调分离 7.5 灰度图像的调色 7.6 锐化 7.6.1 UnsharpMask锐化方法 7.6.2 HighPass锐化方法 7.7 Gamma 第8章 制作插图/图解与适应输出 8.1 制作插图或图解 8.1.1 自动的保留分辨率法 8.1.2 手动的保留分辨率法 8.1.3 自动的出版分辨率法 8.1.4 手动的出版分辨率法 8.1.5 匹配图像背景 8.1.6 为插图添加文字 8.1.7 对齐文本.编号及符号 8.1.8 将文本和直线图层合并为单个图层 8.1.9 符号.形状及箭头 8.2 编辑图表 8.3 图像中的局部图 8.4 针对输出的重采样(ImageSize) 8.5 锐化.Gamma.CMYKColor及保存插图 8.6 输出 8.6.1 喷墨打印 8.6.2 激光打印 8.6.3 电子文档 第III部分分割与量化 第9章 从背景中提取相关特征 9.1 使用Photoshop还是体视学宋分割图像 9.1.1 体视学 9.1.2 计算机辅助图像测量 9.1.3 混用两种方法 9.1.4 手动测量 9.2 计算机辅助测量中分割图像的过程 9.2.1 针对需要的校正检查图像 9.2.2 特征聚集或求平均特征 9.2.3 彩色图像:寻找对比度最高的灰度通道或者根据颜色选择 9.2.4 识别特征与背景的边界 9.2.5 应用HighPass滤镜 9.2.6 使用Threshold进行二值化 9.2.7 修改二值化的图像 9.2.8 参考区域 9.2.9 使用相关图像测试分割过程 9.2.1 0直方图和线性直方图匹配 9.2.1 1创建动作(或脚本)将所有步骤自动化 9.3 手动分割 9.3.1 使用网格分割图像 9.3.2 创建小的.固定的选区 9.3.3 使用Lasso或MagicWand工具手动选择 第10章 测量图像 10.1 测量所选择的特征 10.2 在旧的Photoshop版本中获取测量值 10.3 在Photoshop中测量共区域化/共存 10.4 使用数据库/电子表格程序来区分特征 参考文献 【内容提要】- Photoshop科学图像处理:方法、测量与输出 Adobe Photoshop是当今科研人员使用的强大工具之一。如果测量时需要准备样本的数字图像,该工具是必不可少的,尤其对于从背景细节中分离出相关特性的情 况更是如此。《Photoshop科学图像处理:方法、测量与输出》使用简单通俗的语言介绍了使用Photoshop进行科学图像处理的全过程,是一本在 科研上操作Photoshop的权威指南。它从道德层面上关注使用图像增强软件从数字图像中提取数据所带来的后果。另外,《Photoshop科学图像处 理:方法、测量与输出》还讲解了获取数字图像的过程以及使用数字和硬拷贝格笺输出处理后图像的操作。初级用户可以通过学习《Photoshop科学图像处 理:方法、测量与输出》掌握基本的图像处理方法,高级用户则可以学习使用Photoshop的自动操作功能。 【介绍/插图】 《Photoshop科学图像处理:方法、测量与输出》特色 ●全面介绍从背景中提取所关心的特性时使用的一些鲜为人知的方法,为后续的量化做准备。 ●讲解如何生成出版时能正确复制的密集色彩和微小的可视化细节。 ●论述适用于所有Photoshop用户的正确操作方法和技巧。 ●详细讨论在Photoshop的早期版本、Photoshop Elements以及Photoshop Extended中可以使用的操作。 插图: 第1部分 学术规范与背景知识 第1章 可视化数据及其学术规范 1.1 可视化数据的精确表示 应该尽最大努力来保证可视化数据的表示效果,使它看起来跟通过眼睛观察到的图像是基本一致的。换句话说,作为论据的图像必须是所看到景象的真实再现。与正 确表示不符的任何偏差都是一种误表示(misrepresentation),而其对应的图像存在某种程度上不精确的数据。 除非对光密度或强度(opticaldensityorintensity,OD/I)进行过测量,精确表示通常需要进行后期处王里(post- processing)。大多数情况下,因为成像设备和有关测量仪器上的限制,基本都要对图像进行后期处理。这些成像设备和仪器的限制主要包括:许多相机 在光检测器上使用了反锯齿功能,导致图像模糊;测量仪器在近距离检测上的限制,导致图像产生噪声;能量来源存在可变性。鉴于上述几个原因,要想为可视化数 据提供很好的表示效果,必须对原图像进行校正。
个人分类: 好书推荐|5529 次阅读|0 个评论
[转载]图像处理入门过程
热度 1 zhang11wu4 2010-5-27 16:44
Low Level -- Middle Level -- High Level 过程:简单的图像处理(线性变换、直方图、边缘提取、平滑去噪、滤波) -- 图像分析和理解(数学形态学、小波、光流、模式分析)(机器人、生物识别等等) 数学基础:线性代数/概率统计 -- 微分方程 -- 拓扑/泛函 入门书:冈萨雷斯的《数字图像处理》,Forsyth的《计算机视觉》,章毓晋的《图像工程》等等 经常关注CMU的RI,MIT的CSAIL,Oxford的VGG,INRIA的Lear,UC Berkeley,Stanford等相关研究机构 经常关注的期刊会议有PAMI、IJCV、IP、PR、CVPR、ICCV、ECCV、ICIP等 需要掌握Matlab、OpenCV等编程语言或工具软件~
个人分类: 未分类|5634 次阅读|1 个评论
[转载]图像处理入门过程
zhang11wu4 2010-5-27 16:44
Low Level -- Middle Level -- High Level 过程:简单的图像处理(线性变换、直方图、边缘提取、平滑去噪、滤波) -- 图像分析和理解(数学形态学、小波、光流、模式分析)(机器人、生物识别等等) 数学基础:线性代数/概率统计 -- 微分方程 -- 拓扑/泛函 入门书:冈萨雷斯的《数字图像处理》,Forsyth的《计算机视觉》,章毓晋的《图像工程》等等 经常关注CMU的RI,MIT的CSAIL,Oxford的VGG,INRIA的Lear,UC Berkeley,Stanford等相关研究机构 经常关注的期刊会议有PAMI、IJCV、IP、PR、CVPR、ICCV、ECCV、ICIP等 需要掌握Matlab、OpenCV等编程语言或工具软件~
个人分类: 未分类|11 次阅读|0 个评论
再测可靠性和图像处理代码
zuoxinian 2010-3-25 07:24
贴一些我公开的代码,包括:可靠性分析用的MATLAB代码,图像处理的MATLAB代码和BASH脚本等。MATLAB的我基本都放在我的 MATLABCentral的FileExchange 了;BASH的在 NITRC 。
个人分类: 个人软件|3986 次阅读|0 个评论
一种雷达辐射源信号分类新方法,数据采集与处理, 2009, 24(4): 487-492.
eaglezxw 2009-12-31 14:39
邹兴文,张葛祥,李明等.一种雷达辐射源信号分类新方法.数据采集与处理,2009,24(4):487-492. 摘要:针对复杂体制雷达辐射源信号分类问题,提出一种基于时频分析、图像处理和支持向量机的辐射源信号分类新方法。该方法将辐射源信号分类问题转换为图像处理及识别问题,先对辐射源信号进行时频分析,获得时频分布图,并将其转化为灰度图像和作归一化处理,再用支持向量机对处理后的图像进行分类。五种典型辐射源信号分类实验表明,该方法在信噪比高于2.5dB时,平均正确分类率达92%以上。本文工作对电子对抗信号处理具有一定的参考价值。 关键字:雷达辐射源信号;自动分类;时频分析;图像处理;支持向量机 一种雷达辐射源信号分类新方法
个人分类: 论文成果|2558 次阅读|1 个评论
图像处理(ICIP 2010)国际会议预报
wanyuehua 2009-10-20 07:00
2010 International Conference on Image Processing (ICIP 2010) 会议网址: http://www.icip2010.org/ 论文提交截止日期:2010年1月25日,录用通知:2010年4月26日 会议地点:中国香港,2010年9月12日2010年9月15日 这是IEEE Signal Processing Society主办的会议,从1994年开始ICIP基本是每年召开一次,ICMA 2010已是17届,每年会议均被EI、ISTP收录,每年的会议论文会选择部分论文到SCI收录期刊发表。 2008年15届ICIP会议被EI收录808篇、其中美国265篇、中国98篇、法国61篇、日本38篇、加拿大37篇、德国34篇、西班牙28篇、韩国26篇等。 中国科学院17篇、清华大学12篇、上海交通大学6篇、北京交通大学5篇、香港中文大学5篇、北京大学5篇、香港理工大学3篇、中山大学3篇、中国科技大学3篇、西安交通大学3篇、西安电子科技大学3篇等著名学校均在15届会议上发表论文。 会议主题: 1. IMAGE/VIDEO CODING AND TRANSMISSION: Still image and video coding, model-based and synthetic-natural hybrid coding, source/channel coding, stereoscopic and 3-D coding, coding standards, image and video over networks, and video streaming. 2. IMAGE/VIDEO PROCESSING AND ANALYSIS: Image filtering and enhancement, restoration, multiframe image restoration, video segmentation and tracking, wavelets and multiresolution processing, morphological processing, color and multispectral processing, stereoscopic and 3-D processing, modeling, analysis, biometrics, interpolation and super-resolution, motion detection and estimation, and computer vision. 3. IMAGE FORMATION: Biomedical imaging, remote sensing imaging, geophysical and seismic imaging, optical imaging, and synthetic-natural hybrid image systems. 4. IMAGE SCANNING, PRINTING, DISPLAY AND COLOR: Scanning and sampling, quantization and halftoning, color reproduction, image representation and rendering, display and printing systems, image quality assessment. 5. IMAGE/VIDEO STORAGE, RETRIEVAL, AND Authentication: Image and video databases, image search and sorting, video indexing and editing, integration of images and video with other media, content-based multimedia, multimedia applications, authentication and watermarking. 6. APPLICATIONS: Application of image processing technology to any field, including biomedical sciences, astronomy, geosciences, environment, humanities, and document processing.
个人分类: 国际会议预报|17976 次阅读|2 个评论
图像处理中的数学问题(连载1)
ChinaAbel 2009-9-3 11:53
在图像处理的发展过程中,数学始终起着举足轻重的作用,并渗透在图像处理的所有分支之中。 到上世纪六七十年代为止,以Fourier分析为代表的线性处理方法占据了几乎整个数字图像处理领域。在此期间,借助于随机过程理论,人们建立了图像模型通过概率论以及在此基础上建立的信息论建立了图像编码的框架;线性滤波(维纳滤波、卡尔曼滤波)方法为低层图像处理提供了有力的理论支持;而FFT则被广泛使用在图像处理的几乎所有分支中。这些数学工具极大地促进了图像处理的发展和应用。 自上世纪八十年代开始,非线性科学开始逐渐渗透到图像处理方法之中,许多新颖的数学工具被引入到图像处理领域,使相关的理论变得多元化。尤其以小波和多尺度分析为代表的信息处理方法,继承和发展了Fourier分析,将函数论和逼近论的最新成果应用在工程应用中,建立起了完整的系统框架,在图像编码、图像分割、纹理识别、图像滤波、边缘检测、特征提取和分析等方面的应用中,已经取得了非凡的成果。目前,小波分析方法业已成为信号处理的基础理论之一 同时,其他非线性的数学工具的应用也取得丰硕的成果:如分形在图像编码和纹理识别中的应用,李群在动态图像弹性形变识别中的应用,多尺度分析在图像检索和识别中的应用,非线性规划在矢量量化和图像编码中的应用等等。另外,图像确定性模型(BV 模型)的建立、模糊数学对图像质量的评价体系、Meaningful理论对图像距离的研究是对图像本质的进一步刻划,使计算机可以更贴切地描述人类的视觉系统。 同时,其他非线性的数学工具的应用也取得丰硕的成果:如分形在图像编码和纹理识别中的应用,李群在动态图像弹性形变识别中的应用,多尺度分析在图像检索和识别中的应用,非线性规划在矢量量化和图像编码中的应用等等。另外,图像确定性模型(BV 模型)的建立、模糊数学对图像质量的评价体系、Meaningful理论对图像距离的研究是对图像本质的进一步刻划,使计算机可以更贴切地描述人类的视觉系统。 特别的,基于非线性发展(偏微分)方程的图像处理方法成为近年来图像研究的一个热点。它从分析图像去噪的机理入手,结合数学形态学微分几何、射影几何等数学工具,建立了滤波和偏微分方程相关的公理体系。另外,它在图像重构、图像分割、图像识别、遥感图像处理、图像分析、边缘检测、图像插值、医学图像处理、动态图像修补、立体视觉深度检测、运动分析等方面得到了一定的应用。在研究过程中,人们介绍了一些概念,如active coutour(snake),level set(level line)等,把数学和图像有机地联系起来。 另一方面,图像处理的实际需求和工程背景也刺激了一些数学分支的发展,如小波理论的研究动力来源于信号处理中对于时频局部化分析的需求,而且在理论体系建立起来之前已经有了广泛的应用;偏微分方程的粘性解概念的提出也是因为在图像处理的应用中应用条件不满足各种微分学中的假设;对于投影几何的研究也由于图像Moisaic的需求变得细致。 近年来,我国高校的数学系设置了信息与科学计算专业,甚至如北京大学数学科学院信息科学系。作为一个近年快速发展的新学科,它运用近代数学方法和计算机技术解决信息科学领域中的问题,应用十分广泛。图像处理是其中一个非常重要的方向,许多学校都把图像处理作为一个重点发展方向。但是,目前还存在一些问题:一方面,数学系的研究人员对于图像发展以及背景的了解不够深刻;另一方面,数学系中新建的专业和图像处理领域的交流沟通还不是很通畅,因而对于图像处理领域中的一些热点问题的了解还不够及时和全面。 进入本世纪以后,随着计算机的和Internet网络技术的飞速发展,图像处理的发展也进入了一个新的飞跃阶段。同时,图像处理和计算机视觉的工程应用中还有许多问题尚待解决。为了进一步关注图像处理领域中涉及的数学问题,并使数学研究人员对相关数学问题的工程背景有所了解,1999中国科学院自动化研究所举办了相关的暑期班,2003年西安交通大学理学院举办了图像处理的数学问题研讨班,2004年在浙江大学数学科学研究中心举办图像处理中的数学问题讲习班,2004年,河南大学数学院举办了以"数学与图像处理"为主题的国际会议,2007年,偏微分方程在图像处理中的应用国际会议在广东韩山师范学院成功举办.(未完待续)
个人分类: 图像处理|13684 次阅读|2 个评论
“玩伴女郎”误入学术圈
eloa 2009-7-27 19:00
Robot 发表于 2009-07-26 20:52 她是让无数专家为之痴迷和痛苦的研究对象,她是充斥着枯燥数学公式的论文中最吸引眼球的光芒,翻开任何一本关于计算机图像处理的教材,你都能看到她动人的微笑。她就是雷娜(Lena),她的照片是图像处理领域使用最为广泛的标准测试图。她是真人吗?她到底从何而来? 1、事件起因 一举成名计算机界知 1973年的夏天,美国南加州大学信号与图像处理研究所里,年轻的助理教授亚历山大(Alexander Sawchuk)和研究员威廉(William Pratt)正为一篇学术论文忙碌,试图从一叠常用的测试图片中找出一张适合测试压缩算法的图片:最好是人脸,表面光滑,内容多层次。不过这些单调陈旧,如同早期电视画面的图片很快就让他们失望了。历史在这里开了个小小的玩笑,正巧有人拿着一本《花花公子》杂志(1972年11月刊)到实验室来串门,当期的玩伴女郎雷娜(Lena Sderberg)立刻吸引了众人的目光。亚历山大发现这张有着光滑面庞和繁杂饰物的图片正好符合要求,于是,他们撕下这张彩图,将上半部扫描成一张512512像素大小的图片,雷娜图就此诞生。 雷娜图(黑白版) 亚历山大并未觉得有任何不妥的地方,他用这张图片测试了自己的压缩算法,满意地完成了论文。而对于这一切,远在芝加哥的雷娜一无所知,在结束自己的模特生涯后,她回到瑞典的故乡,结婚生子,无从知晓自己将成为一个学术圈里的传奇人物。在亚历山大的论文发表后,不断有同行向他索要原始的扫描件,以便能同他们自己的图像压缩算法进行效果比较。久而久之,这张图片成为了图像处理领域的一个标准测试图,只要支付一小笔费用,你就能从南加州大学得到原始的扫描件拷贝,而大多数研究者奋斗的目标只有一个:如何在保证图片质量的同时让它的压缩率高一点,再高一点。 随着这张标准图在学术圈的流行,不少人开始对这位迷人的女郎产生了兴趣。1988年,一家瑞典的电脑出版社联系并采访到了雷娜,这是她十五年来首次得知自己的照片被应用在计算机行业里,兴奋和惊讶之情溢于言表。1997年,在《花花公子》杂志社的帮助下,图像科学和技术会议(IST)的筹办方正式邀请雷娜参加于当年五月份在波士顿召开的五十周年大会。这离当初雷娜图的诞生,已经过去了约四分之一个世纪,当初的年轻教授已成为业内的知名学者,而红颜少女的鬓边终于也见到了白发。他们肯定早已厌烦我了,这么多年都看着同一张照片。雷娜在会议上受到了热情的欢迎,她看到了许多基于雷娜图的研究工作,并忙于在一张又一张自己的照片上签名。 雷娜和邀请她的IST会议主席 雷娜在IST会议上 2、版权之争 盗用带来一纸风行 1991年,学术期刊 《光学工程》 (Optical Engineering)使用雷娜图作为其7月刊的封面。至此,《花花公子》才得知这张图片已然在学术界被盗用了18年之久(由此我们亦可得知学术界和娱乐界是多么的不通往来)。当初的无心之举使得照片的版权问题终于浮出水面。《花花公子》正式致函《光学工程》的出版者国际光学工程学会( SPIE ),要求在其之后出版物中任何使用雷娜图的地方都要事先得到授权。作为业内最流行的标准测试图,完全依循此要求无疑将会给遍布全球的研究者们带来极大的不便。不得已,SPIE在回复中解释了雷娜图在学术界的使用现状,并且指出自己是一个非盈利科学协会,出版物只供教育和研究使用。面对既成事实,《花花公子》亦乐得慷慨,表示不会追究雷娜图在学术领域造成的侵权问题。 在这起小小的纠纷之后,学术界对于论文图片的版权问题更加注意。(值得一提的是,雷娜图并不是首次用于图像处理领域的《花花公子》图片,早在1961年,麻省理工大学的一位学生就在自己的硕士论文中使用了一张事先得到授权的《花花公子》图片。)而对于广大使用雷娜图的研究者来说,他们从此可以免费从南加州的大学得到雷娜图了。大度的杂志社也没有吃亏,刊有雷娜的那一期《花花公子》,是它历史上卖的最好的一期,总共售出了超过700万份(Geek们的购买力是很惊人的!)。 版权的风波已经过去,但关于雷娜图的争议还在继续。 3、技术之争 雷娜图并非完美无缺 雷娜图(轮廓版) 雷娜图为何如此受欢迎?《IEEE图像处理期刊》的主编大卫(David Munson)认为有 两个原因 :首先,这张图片含有细节部分、平坦区域、阴影和纹理,有利于测试各种不同的图像处理算法。其次,这是一个非常迷人的女性照片,图像处理领域(多数人为男性)愿意使用一张他们认为很有吸引力的图片也并不令人惊奇。 这张图片含有丰富的频段,包括处于低频的光滑皮肤和处于高频的羽毛,很适合做为测试图片。而人眼对于人脸的细节差别感受也远比一般的景物更为明显。不过,这也并不意味着雷娜图是完美无缺的。 当年扫描雷娜图使用的是如今看来很落后的扫描仪和计算机。由于软件错误,亚历山大只得到了511行(预计是512行)数据,图片最上面一行的数据是复制而来的,这造成了边缘的些微瑕疵。由于扫描仪上数模转换器的计时器问题,扫描件相比原件有略微的拉长变形亚历山大如果知道这会是一张标准图,一定会更小心些的。最重要的是,作为一张标准图,雷娜图缺少了很多关键信息,例如所用胶片、光线环境、印刷环境、扫描仪型号等等。上世纪70年代以来,图像技术已经有了很大的改进,完全能够制作出一幅比雷娜图更标准的标准图来。不过,雷娜图的粉丝们理直气壮:研究者们对雷娜图非常熟悉,能够轻易地判断出压缩算法的好坏。也有不少人赞成用今天的技术重新扫描原始图片,得到新的标准雷娜图。 4、性别之争 此图涉嫌性别歧视? 雷娜图(变形版) 扫描雷娜图时所用的扫描仪在每英寸长度上可以产生100条扫描线,所以共512行的雷娜图只显示原图上方5.12英寸的范围,正好展示出雷娜漂亮的肩部。这掩盖不了一个事实:原图是一张裸照。正所谓成也萧何,败也萧何,随着越来越多的女性研究者进入图像处理领域,性别歧视无疑是雷娜图面临的最大问题。 1997年,《电子工程专辑》(Electronic Engineering Times)的编辑桑尼(Sunny Bains)在同出版社商量之后,决定在自己的工作范围内封杀雷娜图。她解释说:一个女性在一个由男性主导的领域里工作是很容易感到被孤立的,在学术杂志上看到这种有争议的图片将会加重这种不被接受的感觉。据说,她收到了不少来自女性的感谢信,也没人抱怨这影响了工作。无独有偶,纽约州立大学石溪分校的教授特奥(Theo Pavlidis)在编写计算机图形学教材时,也因为编辑的坚持,将雷娜图换成了其他图片。 作为引用雷娜图最多的期刊编辑,大卫也接到了不少的投诉:很多人希望我封杀雷娜图,人们并不是反对图片本身,而是认为它来源于一本利用女性的杂志。他提供的办法则更为折中:不用封杀雷娜图,而是鼓励作者多用其他的图片。 时至今日,雷娜图仍是图像处理领域最受欢迎的测试图。不过近年来,其压倒性的优势已经有所松动。关于版权、技术和歧视的多重争议让雷娜图不堪重负,不断涌现的新测试图也为研究者们提供了更多的选择。然而无论如何,雷娜这个不经意间闯入学术圈的玩伴女郎,以及她所见证的几十年来图像压缩技术的发展,将会永远留在我们的记忆里。 另外一些废话: 作为一个女性,常常有人问我在男性主导的领域中工作是否有不满或特别困难的时候,我个人并没有遇到值得抱怨的地方。不过,积极吸引和鼓励更多的女性进入这个行业无疑比强烈反对一张有潜在歧视意味的图片来的更有意义。在这一点上,国外有很多经验值得我们借鉴,美国很多学校和机构都有特别为女性进入应用科学和工程学领域而设置的奖学金和研究经费。我博士期间的导师是一位非常出色的女性,她多次在暑假期间指导由各种机构赞助的本科女生来我们实验室进行短期(二个月左右)的研究工作。我毕业找工作时也常常能在各大学或研究所的招聘广告上发现这样的声明:我们特别鼓励符合条件的女性来申请这个职位(qualified female candidates are strongly encouraged to apply for this position.)。我目前工作的学校在吸引女生就读工程学专业也不遗余力,每年专门有一天是Introduce a Girl to Engineering Day,组织高中女生前来参观各个工程院系的实验室。他山之石,可以攻玉,希望中国所谓的和尚班和招聘会上只招男性的告示牌能够越来越少。 附诗一首《致雷娜》 这是一首不知名作者给雷娜的献诗,在圈中流传甚广。 原作 用英文写成,使用了大量的图像处理术语,表达了图像处理工作者对这位神奇的玩伴女郎的热爱。 哦,亲爱的雷娜,你的美丽是如此浩瀚而难以快速描绘 如果我能压缩你的影像,我想我能震动整个世界 唉,当我第一次使用矢量量化,我发现你的面庞只属于你自己 你那千缕丝般的长发,怎能用离散余弦变换来匹配 而你那性感的双唇,即使耗尽十三部超级计算机也找不到合适的分形碎片来形容 虽然这些挫折如此巨大,我也许还能将它们一一克服 但当滤波器夺走了你眼中的光彩,我只能说:算了,数字化就好。 本文已发表于本期的《新京报新知周刊》
个人分类: 其他|4142 次阅读|2 个评论
安防应用中图像处理难点分析及处理器选择
leanee 2009-6-5 08:41
引言 随着人们对生活质量要求的提高和全球反恐的大势所需,以及数字化技术本身的不断进步,依托指纹识别、虹膜识别、人脸识别等技术的生物识别方案和视频监控方案等正逐步成为提高个人、家庭、企业和社会安全性的重要手段。生物识别方案主要包括四个步骤:图像采集、图像预处理,特征取样,匹配分析;而视频监控方案则主要包括图像采集、图像预处理、图像处理与传输、图像显示及图像管理等。不难看出,无论是生物识别还是视频监控,图像预处理都是必需的。事实上,图像预处理算法的灵活度、复杂度、对图像处理芯片资源的占用度,以及处理时间的长度将直接对整个系统运行产生举足轻重的影响。因此,图像预处理对于整个安防方案来说都是一项艰巨而又关键的任务,直接决定了后续图像处理与分析的准确性和便捷性。 图像预处理分析 根据目的的不同,图像预处理可分为对采集图像进行清晰化处理,对图像进行识别前的预处理,以及对图像进行压缩前的预处理等。其中,对采集图像进行清晰化处理主要包括对CMOS或CCD图像传感器感光单元的不一致进行后续纠正,对实际环境与传感器采集的图像进行差异补偿(如背光),以及对采集到的原始图像进行去噪处理等。虽然这种预处理算法本身的难度不大,但随着实时性需求的普及,尤其是在像素较大时,这种算法还是对DSP的处理能力提出了很高的要求。 而对图像进行识别前的预处理则目的性很强,可能需要破坏原来的像素和分布,以便后续进行特征提取。这种预处理算法的难度视识别场合的不同而不同。要综合后面的识别算法部分,选择适当的DSP。图像压缩前的预处理主要是指将YUV422变为YUV420、将RGB变为YUV等。这类处理往往有实时性要求,如果采用软件实现,会对处理性能有较高的要求;如果采用硬件实现,则虽然在处理性能上有保证,但硬件成本会有所上升。 同时,根据应用不同,图像预处理又可分为生物识别应用中的图像预处理和视频监控应用中的图像预处理。对于生物识别应用,以指纹识别为例,其预处理主要包括指纹图像增强、指纹图像二值化、指纹图像细化、指纹图像细化后处理。而视频监控应用中的图像预处理主要是指对图像传感器输出的连续图像进行分析,获取足够的信息,并通过自动白平衡、伽马(Gamma)校正、自动聚焦、自动曝光、背光补偿等来提高图像的实际效果。 图像预处理的挑战 无论是生物识别还是视频监控,其图像预处理正面临以下挑战:其一,用户对图像质量的要求越来越高,图像预处理的算法越来越复杂,从而对图像预处理主芯片处理能力及存储空间提出了更加苛刻的要求;其二,用户对图像的实时性处理和传输要求越来越高,一方面要求图像预处理算法尽量优化、精简,另一方面也对图像预处理主芯片的内核处理能力、内部总线架构、数据传输能力、外围接口,以及硬件整体架构和指令集对预处理算法的支持提出了更高要求;其三,不同于图像和视频编解码算法具有业界统一的算法标准和清晰的演进路线图,图像预处理算法不仅没有统一的标准和清晰的发展方向,甚至在很大程度上,方案提供商正是通过这些秘密的个性化算法来作为市场竞争的法宝。此外,随着应用领域的不同、需求的提高和技术本身的演进,原有算法会不断升级,新的算法会不断涌现,这些都要求图像预处理芯片具有更高的灵活性和适应能力。其四,对于方案提供商来说,不仅其体现竞争力的核心算法需要防止被非法读取或拷贝,而且无论是生物识别还是视频监控,其图像数据往往都会涉及隐私,因此也需要提供可以信任的安全保证。以上两方面,都要求图像处理芯片必须提供一个可靠、完全的处理平台。 基于以上多方面的挑战,在图像预处理主芯片的选择上,以控制能力见长的传统MCU并不适合庞大、复杂的算法处理;ASIC虽然在运算速度和功耗方面具有一定的优势,但其成本高、灵活性差,且不利于升级和修改,因此无法满足预处理算法个性化的灵活性需求;FPGA并行处理的架构虽然具备了强大的数据处理能力,但价格、功耗,以及开发难度方面的缺点使其很难成为图像预处理的主流选择;而DSP则以强大的数据处理能力和软件可编程能力成为图像预处理主芯片的主流选择。 除了以上挑战,从系统设计的角度来讲,还面临以下几方面的需求:其一,虽然图像预处理和图像处理工作巨大,但是工程师并不希望采用多个芯片来处理这件事情。因为信号处理和控制系统分别运行于不同处理器的传统DSP架构已经让工程师非常头疼,如果再把图像预处理和图像处理分开,则更加大了工程师进行系统开发、系统联调、系统维护的难度。因此,对于系统设计中的主芯片DSP来说,还面临集成度的要求有没有可能在单芯片上实现图像预处理、图像处理,甚至包括系统控制等功能。 其二,随着包括预处理在内的整个图像处理算法复杂性的不断增加,作为主处理器的DSP,除了需要提供足够的硬件处理能力之外,还应该在软件上提供针对该处理器专门优化的指令集,从而帮助工程师降低对处理器物理架构的熟悉难度,最大限度的驾驭、发挥处理器的特性,尽快开发出精简、优化的图像处理算法。 其三,除了上面提到的专门优化的指令集以外,面对日益复杂的图像处理和产品上市时间的压力,工程师还期望处理器供应商能够分担一些他们的工作比如,提供专门针对该处理器优化、仅占极少量时钟周期的底层图像处理软件模块,以帮助他们缩短图像处理算法开发流程,并加速软件移植。 另外,功能强大、界面友好、简单易学的开发工具也是系统开发中工程师要求的重点,而且随着系统复杂度和模块复用性需求的增加,对开发工具的兼容性也提出了更高的要求。 理想的DSP处理器 基于以上分析,针对图像处理应用的理想DSP处理器必须具备以下几方面的特点:内核处理能力强;专门针对图像处理的指令集;易于大量数据传输的低功耗硬件架构;高集成度;丰富的软件模块库;功能强大的开发工具。以下是对该类DSP处理器的代表系列Blackfin汇聚处理器架构的具体分析。 硬件特性 Blackfin DSP处理器基于由ADI 和Intel公司联合开发的微信号架构(MSA),通过将传统DSP和微控制器的优点融为一体,兼顾了事件控制以及纯算法运算处理功能。其汇聚的单一内核可提供高达756MHz的处理能力,不仅为处理复杂的预处理算法提供了强大性能保证,而且为整个系统的图像处理和事件控制提供了强有力的硬件支持,从而允许工程师在单芯片上实现图像预处理、图像处理、系统控制,大大提高了系统的集成度。 Blackfin系列处理器的硬件架构专门针对图像处理进行优化,多个DMA通道和可灵活配置的Cache能很好地解决大运算量、高数据吞吐率的图像处理应用要求。在图像处理应用中,虽然对图像数据进行的传输也可由软件实现,但是这样会消耗掉大量的CPU时钟周期,从而使DSP的高速数据处理能力难以发挥。如果由DMA独立负责数据传输,那么在系统内核对DMA进行初始设置并启动后,DMA控制器就可在无需内核参与的情况下直接把图像数据从PPI接口传输至SDRAM存储器进行存储,比如在进行MPEG或JPEG处理的计算密集型算法中,一个灵活的DMA控制器能省去额外的数据通路。此外,通过二维DMA还能简化宏块进出外部存储器的传送,从而允许数据控制成为数据实际传送的一部分,这对色彩空间元素的交叉和解交叉来说非常方便也非常重要。因此,Blackfin处理器的这种特性在有效地解决了大批量图像数据传输这一速度瓶颈的同时,又能让DSP处理器抽出更多的资源从事算法处理工作,大幅提高了系统的处理能力。 而且,针对图像处理应用,Blackfin系列DSP还在不断强化硬件功能模块的支持,比如,ADSP-BF54x系列Blackfin处理器的最新版本中增加了一个用于处理叠加图像(Pixel Compositor)的硬件加速器和一个扩展视频接口(EPPI),它使得色彩空间变换、缩放和图像叠加等任务可以在无需处理器参与计算的情况下完成,从而减轻了内核的处理压力,为进行更高性能、更高速度的图像处理提供了更多空间。 软件特性 在指令集方面,Blackfin系列DSP针对图像处理提供了丰富的向量指令和视频指令。其中向量指令可以实现对16位数的操作(大多指令可以并行完成两个16位数的操作)。由于图像处理运算中大多是针对16位数的操作,因此,通过合理使用这些向量指令来优化图像运算非常重要。不仅Blackfin指令集中的大多数算术指令和移位指令都有对应的向量指令,而且,向量指令中还有根据符号相加、32位数转16位数等特殊指令。在对图像预处理的汇编优化中合理的应用这些向量指令,可以提高算法的并行度,并大大加快运算速度。 视频像素指令主要包括BYTEOP16P (完成两个8位数加法操作)、BYTEOP3P (完成16位和8位数的加法操作)、BYTEOPIP(完成两个8位数求平均操作)、BYTEOPZP(完成四个8位数求平均操作)、BYTEOP16M(完成两个8位数减法操作)、SAA (完成求SAD操作)、BYTEAPCK (完成16位数转8位数操作),以及BYTEUNAPCK(完成8位数转16位数操作)等。一条视频像素操作指令可以在一个周期内完成4对视频数据分量的加、减、加减混合、取平均值,或者相减并求绝对值等11种视频像素运算。由于视频像素值一般都是按照8位存放的,所以使用视频像素指令可以大大提高包括求SAD、像素插值、8位数和16位数直接转换等在内的各种视频图像运算的速度。 安全特性 在安全性方面,ADI公司的Blackfin Lockbox Secure Technology通过提供一次可编程(OTP)存储器与安全处理模式(Blackfin安全模式),将软件与硬件保护相结合,为开发人员提供实现以上安全措施的手段,其中,在OTP存储器的公共、非安全、用户可编程区域开发人员可以用来存储公共密钥,这样可以通过可控制与可配置的方式来鉴别系统。而在OTP存储器的私有、安全、用户可编程区域,开发人员则可以设置私人密钥等私有器件资产(deviceassets),并保持这些器件资产的机密性与完整性。此外,在Blackfin处理器上使用安全模式后,处理器只能在安全处理环境内执行授权的信任编码。包括保护秘密(如原始设备制造商知识产权)、为保护电子商务与社会网络而验证器件和用户身份、以及数字版权(DRM)内容保护。从而为图像预处理方案的各个环节提供了量身定做的安全保护功能。 软件模块库支持 除了以上Blackfin DSP在硬件架构和指令集方面对图像处理的支持外,ADI公司还提供多种针对图像处理的软件模块,包括H.264 Baseline Profile Decoder模块、能够按比例缩放具有不同输入及输出尺寸图像的增强视频后处理(eVPP)模块、JPEG编码器模块MPEG-2 Decoder Simple Main Profile Decoder库、MPEG-4 Simple Profile Advanced Simple Profile Decoder库,以及MPEG-4 Simple Profile Advanced Simple Profile Video Encoder模块等,它们都专门针对Blackfin处理器而优化,并经过业界严格验证。这些软件模块能够大幅降低系统工程师的开发难度,并显著提高系统效率。 此外,ADI公司还专门针对图像处理应用推出了Image Tool Box软件包,该软件包由一系列专用模块组成,并针对图像处理算法的一些常用和基本函数进行了专门优化,可以进行图像变换、图像分析与图像增强、二值图像操作以及形态学处理等图像处理操作。这款软件包有利于降低工程师的开发难度,加速上层算法的实现和优化。 开发环境的支持 用于Blackfin系列DSP处理器开发应用和工程管理的VisualDSP++开发环境主要包括集成了ViusalDSP++内核的集成编译和调试环境(DIDE);带实时运行库的CC/++优化编译器;汇编器和链接器,以及仿真软件和程序例程等。其中,编译器允许程序开发人员用C或C++语言编写信号处理和控制代码,从而方便了系统的开发和维护。图形化的友好用户信息交换界面使工程师能够在窗口中进行工程管理、编辑、编译和调试程序,并在其间快速轻松地切换。此外,VisualDSP++开发工具还与Green Hills软件公司的MULTI环境、NI公司的LabVIEW软件,以及MathWorks公司的MATLAB和Simulink软件相兼容,为系统开发和模块复用提供了一个更加便捷、宽松的环境。 ADI公司技术支持 processor.china@analog.com 欲获更多参考信息 dsp.marketing@analog.com
个人分类: 图像|4279 次阅读|0 个评论
人工智能网站和图像处理网络资源
linpandr 2009-5-10 02:57
人工智能网站和图像处理网络资源 (转载)  来源:互联网   酷勤网 收集 2009-02-21 摘要 酷勤网   图像处理研究工作的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿和最权威的出版物,解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 第一部分:人工智能网站 科大人工智能实验室 网址: http://ailab.ai.ustc.edu.cn/ 图象识别与人工智能研究所 网址: http://iprai.hust.edu.cn/ 人工智能实验室 网址: http://www.aiport.net/ 人工智能历史 网址: http://www.longen.org/A-D/detaila~d/AIHistory.htm 神经网络在线 网址: http://www.2nsoft.com/ 人工神经网络首页 网址: http://www.youngfan.com/ann/index.htm 北邮模式识别与智能系统网站 网址: http://www.pris.edu.cn/ 复杂系统与计算智能实验室 网址: http://202.38.78.168/ 欧洲人工智能联合会ECCAI 说明:European Coordinating Committee for Artificial Intelligence 网址: http://www.eccai.org/ 国际人工智能联合会IJCAI 说明:IJCAI is the International Joint Conference on Artificial Intelligence, the main international gathering of researchers in AI. 网址: http://www.ijcai.org/ 美国人工智能联合会AAAI 说明:American Association for Artificial Intelligence (AAAI) devote to advancing the scientific understanding of the mechanisms underlying thought and intelligent behavior and their embodiment in machines. 网址: http://www.aaai.org/ 第二部分:图像处理网络资源 作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用。(这里我要感谢SMTH AI版的alamarik和Graphics版的faintt) 一、研究群体 cs.cmu.edu 这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。 ZIMAGE 这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。 Conell.edu 康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。 The statistical pattern and image analysis (SPIA) 有一个很有意思的项目:DID(文档图像解码)。 Stanford.edu 斯坦福大学计算机系主页,自己找吧:( Fmrib:Image Analysis Group 主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration,Automated Segmentation,Structural brain change analysis,motion correction,etc. Pattern Recognition and Image Processing Lab 这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。 Pandora:Digital Image Processing Groups 德国的一个数字图像处理研究小组,在其上面能找到一些不错的 链接资源 。 CVCC:computer vision and image processing CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture. CFIA.gmu.edu:Multi-Disciplinary IA Research The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems. PEIPA 可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。 二、图像处理GPL库 CPPima Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的 库函数的文档 ,当然你也可以下载压缩的 GZIP包 ,里面包含TexInfo格式的文档。 IRAF Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data. TNimage 一个非常不错的Unix系统的图像处理工具,看看 它的截图 。你可以在此基础上构建自己的专用图像处理工具包,我已经在计算机上成功安装了,看看 我运行的画面 。 SourceForge 这是GPL软件集散地,到这里找你想要得到的IP库吧。 三、搜索资源   当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到 我常用的链接 看看。下面的链接可能会节省你一些时间: SAL(Scientific Applications on Linux) PKU's SAl Mirror 四、大拿网页 Bill Freeman 这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。 Matthew Brand MERL(Mitsubishi Electric Research Laboratory)中的擅长Style Machine高手。 Andrew Blake CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。 Henry A. Rowley 这位牛人好像正在学习汉语,并且搜集了诸如两只老虎(Two Tigers)的歌曲,嘿嘿:) 他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。 Thomas Huang 这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。 下面这些是我搜集的牛群(大部分是如日中天的Ph.D们),可以学习的是他们的Study Ways! Finn Lindgren(Sweden):Statistical image analysis Pavel Paclik(Prague):statistical pattern recognition Dr. Mark Burge:machine learning and graph theory yalin Wang:Document Image Analysis Geir Storvik: Image analysis Heidorn Joakim Lindblad:Digital Image Cytometry S.Lavirotte: Sporring:scale-space techniques Mark Jenkinson:Reduction of MR Artefacts Justin K. Romberg:digital signal processing Fauqueur:Image retrieval by regions of interest James J. Nolan:Computer Vision Daniel X. Pape:Information Drew Pilant:remote sensing technology 五、前沿期刊(TOP10) 这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:) IEEE Trans. On PAMI IEEE Transactions on Image Processing Pattern Recognition Pattern Recognition Letters
个人分类: 未分类|5811 次阅读|1 个评论
VC图像处理
shushenlw 2009-5-8 11:14
最近在用VC做图像处理,感觉相对来说VC入门还是相对容易的,但是想深入一些比较困难,特别是在添加映射函数的时候,要是自己添加的话就太难了,现在好像进入一个瓶颈期,再该怎么进步呢? 聪明的你,告诉我好么?
个人分类: 未分类|1203 次阅读|0 个评论
图像处理的一些资料(1)
热度 2 ChinaAbel 2009-4-6 13:26
作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用. 研究群体 大拿主页 前沿期刊 GPL软件资源 搜索引擎 一、研究群体 http://www-2.cs.cmu.edu/~cil/vision.html 这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。 http://www.cmis.csiro.au/IAP/zimage.htm 这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。 http://www.via.cornell.edu/ 康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。 http://www2.parc.com/istl/groups/did/didoverview.shtml 有一个很有意思的项目:DID(文档图像解码)。 http://www-cs-students.stanford.edu/ 斯坦福大学计算机系主页,自己找吧:( http://www.fmrib.ox.ac.uk/analysis/ 主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration, Automated Segmentation,Structural brain change analysis,motion correction,etc. http://www.cse.msu.edu/prip/ 这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。 http://pandora.inf.uni-jena.de/p/e/index.html 德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。 http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture. http://cfia.gmu.edu/ The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems. http://peipa.essex.ac.uk/info/groups.html 可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。 二、图像处理GPL库 http://www.ph.tn.tudelft.nl/~klamer/cppima.html Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。 http://iraf.noao.edu/ Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data. http://entropy.brni-jhu.org/tnimage.html 一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。 http://sourceforge.net/projects/ 这是GPL软件集散地,到这里找你想要得到的IP库吧。 三、搜索资源 当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间: http://sal.kachinatech.com/ http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml 四、大拿网页 http://www.ai.mit.edu/people/wtf/ 这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。 http://www.merl.com/people/brand/ MERL(Mitsubishi Electric Research Laboratory)中的擅长Style Machine高手。 http://research.microsoft.com/~ablake/ CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html 这位牛人好像正在学习汉语,并且搜集了诸如两只老虎(Two Tigers)的歌曲,嘿嘿:) 他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。 http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html 这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。 -------------------------------------------------------------------------------- 下面这些是我搜集的牛群(大部分是如日中天的Ph.D们),可以学习的是他们的Study Ways! Finn Lindgren(Sweden):Statistical image analysis http://www.maths.lth.se/matstat/staff/finn/ Pavel Paclik(Prague):statistical pattern recognition http://www.ph.tn.tudelft.nl/~pavel/ Dr. Mark Burge:machine learning and graph theory http://cs.armstrong.edu/burge/ yalin Wang:Document Image Analysis http://students.washington.edu/~ylwang/ Geir Storvik: Image analysis http://www.math.uio.no/~geirs/ Heidorn http://alexia.lis.uiuc.edu/~heidorn/ Joakim Lindblad:Digital Image Cytometry http://www.cb.uu.se/~joakim/index_eng.html S.Lavirotte: http://www-sop.inria.fr/cafe/Stephane.Lavirotte/ Sporring: scale-space techniques http://www.lab3d.odont.ku.dk/~sporring/ Mark Jenkinson:Reduction of MR Artefacts http://www.fmrib.ox.ac.uk/~mark/ Justin K. Romberg:digital signal processing http://www-dsp.rice.edu/~jrom/ Fauqueur:Image retrieval by regions of interest http://www-rocq.inria.fr/~fauqueur/ James J. Nolan:Computer Vision http://cs.gmu.edu/~jnolan/ Daniel X. Pape:Information http://www.bucho.org/~dpape/ Drew Pilant:remote sensing technology http://www.geo.mtu.edu/~anpilant/index.html 五、前沿期刊(TOP10) 这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:) IEEE Trans. On PAMI http://www.computer.org/tpami/index.htm IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm Pattern Recognition http://www.elsevier.com/locate/issn/00313203 Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655 神经网络 Neural Networks Tutorial Review http://hem.hj.se/~de96klda/NeuralNetworks.htm ftp://ftp.sas.com/pub/neural/FAQ.html Image Compression with Neural Networks http://www.comp.glam.ac.uk/digimaging/neural.htm Backpropagator's Review http://www.dontveter.com/bpr/bpr.html Bibliographies on Neural Networks http://liinwww.ira.uka.de/bibliography/Neural/ Intelligent Motion Control with an Artificial Cerebellum http://www.q12.org/phd.html Kernel Machines http://www.kernel-machines.org/ Some Neural Networks Research Organizations http://www.ieee.org/nnc/ http://www.inns.org/ Neural Network Modeling in Vision Research http://www.rybak-et-al.net/nisms.html Neural Networks and Machine Learning http://learning.cs.toronto.edu/ Neural Application Software http://attrasoft.com Neural Network Toolbox for MATLAB http://www.mathworks.com/products/neuralnet/ Netlab Software http://www.ncrg.aston.ac.uk/netlab/ Kunama Systems Limited http://www.kunama.co.uk/ Computer Vision Computer Vision Homepage, Carnegie Mellon University www.cs.cmu.edu/~cil/vision.html Annotated Computer Vision Bibliography http://iris.usc.edu/Vision-Notes/bibliography/contents.html http://iris.usc.edu/Vision-Notes/rosenfeld/contents.html Lawrence Berkeley National Lab Computer Vision and Robotics Applications http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html CVonline by University of Edinburgh The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision, www.dai.ed.ac.uk/CVonline Computer Vision Handbook, www.cs.hmc.edu/~fleck/computer-vision-handbook Vision Systems Courseware www.cs.cf.ac.uk/Dave/Vision_lecture/Vision_lecture_caller.html Research Activities in Computer Vision http://www-syntim.inria.fr/syntim/analyse/index-eng.html Vision Systems Acronyms www.vision-systems-design.com/vsd/archive/acronyms.html Dictionary of Terms in Human and Animal Vision http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html Metrology based on Computer Vision www.cranfield.ac.uk/sme/amac/research/metrology/metrology.html Digital Photography Digital Photography, Scanning, and Image Processing www.dbusch.com/scanners/scanners.html Educational Resources, Universities Center for Image Processing in Education www.cipe.com Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology http://wally2.rit.edu/pubs/guides/imagingcall.html Mathematical Experiences through Image Processing, University of Washington www.cs.washington.edu/research/metip/metip.html Vismod Tech Reports and Publications, MIT http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker Vision Lab PhD dissertation list, University of Antwerp http://wcc.ruca.ua.ac.be/~visielab/theses.html INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems www.inria.fr/Themes/Theme3-eng.html Image Processing Resources http://eleceng.ukc.ac.uk/~rls3/Contents.htm Publications of Carsten Steger http://www9.informatik.tu-muenchen.de/people/steger/publications.html FAQs comp.dsp FAQ www.bdti.com/faq/dsp_faq.htm Robotics FAQ www.frc.ri.cmu.edu/robotics-faq Where's the sci.image.processing FAQ? www.cc.iastate.edu/olc_answers/packages/graphics/sci.image.processing.faq.html comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations www.exaflop.org/docs/cgafaq Astronomical Image Processing System FAQ www.cv.nrao.edu/aips/aips_faq.html
个人分类: 图像处理|14591 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-8 18:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部